Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АрхитектураБиологияГеографияДругоеИностранные языки
ИнформатикаИсторияКультураЛитератураМатематика
МедицинаМеханикаОбразованиеОхрана трудаПедагогика
ПолитикаПравоПрограммированиеПсихологияРелигия
СоциологияСпортСтроительствоФизикаФилософия
ФинансыХимияЭкологияЭкономикаЭлектроника

Предметное индексирование и механизм поиска

Информационные базы данных и электронные библиотеки | Модели организации хранения и поиска документов | Интерфейс системы | ИПС глобальных сетей | Справочно-правовые системы | Обзор рынка СПС в России | Основные свойства информационных банков СПС | Основные возможности программных технологий СПС | Технологии передачи информации | Папки документов и история запросов |


Читайте также:
  1. Алгоритм дихотомического поиска
  2. Алгоритмические задачи поиска в графах: задачи Прима-Краскала, Дейкстры, Форда-Фалкерсона.
  3. АЛГОРИТМЫ ПОИСКА
  4. Анализ разницы в алгоритмах для разных поисковых движков и разных типов поиска
  5. Анализ рычажных механизмов
  6. Анатомо-физиологические механизмы врожденного иммунитета.
  7. Ассоциация как механизм работы сознания. Понятие апперцепции

Когда говорят об информационно-поисковой системе, подразумевают, что она использует предметный указатель. Предметный указатель позволяет отыскивать документы, касающиеся некоего "предмета". Для составления предметного указателя анализируется содержание документа и определяется "предмет" или "предметы", о которых в документе идет речь. Затем названия этих предметов переводятся на информационно-поисковый язык (ИПЯ). Таким образом, мы получаем поисковый образ документа (ПОД). Проиндексировав (создав поисковые образы) все информационные ресурсы, мы получаем то, что принято называть индексом (index database) - основной массив данных ИПС.
Так как процесс поиска заключается в сопоставлении запроса пользователя с имеющимися данными, полученный запрос также должен быть переведен на ИПЯ. После сопоставления переведенного на ИПЯ запроса и поисковых образов документов пользователь получает список ссылок на документы, которые соответствуют, по мнению системы, его запросу.
Типовая схема ИПС, использующей предметное индексирование, представлена на рис. 10.1.
Как видно, поиск происходит не по тексту документов, а по их поисковым образам, составленным на ИПЯ. Поэтому ИПЯ - основная часть информационно-поисковой системы, от которой в первую очередь зависит качество системы. В состав информационно-поискового языка входят:
1. Словарь индексационных терминов - множество терминов индексирования.
2. Кодовый словарь - множество кодовых терминов.
3. Словарь входов - множество входных терминов.
4. Вспомогательные средства языка индексирования - средства, используемые совместно с индексационными терминами для расширения или сужения определенных понятий.
5. Правила использования языка индексирования.
Для повышения эффективности поиска словарь, используемый системой, должен быть контролируемым, то есть он должен быть организован таким образом, чтобы полнота и точность поиска была оптимальной. Очевидно, что организация словаря зависит от многих факторов - предметной области, в которой будет использоваться ИПС, характера интересов пользователей, степени их подготовки и т. д.

Рис. 10.1. Типовая схема ИПС

Для улучшения результатов поиска необходимо определить степень специфичности терминов, используемых при индексации. Принято использовать два принципа - использование наиболее специфического термина, соответствующего объему и содержанию отражаемого понятия, и избыточное индексирование.
Под избыточным индексированием понимается дополнение поискового образа терминами, связанными с основным. При этом могут использоваться термины, связанные как с основным отношением обобщения или спецификации, так и ассоциативной связью. Дополнение поискового образа терминами с ассоциативной связью может увеличить полноту поиска, но неизбежно понижает его точность. Недостатком избыточного индексирования является также увеличение объема поисковых образов. Для решения этой проблемы во многих ИПС используется избыточное индексирование не документов, а запросов.
Использование предметного индексирования не исключает использования при создании поискового образа атрибутов документа. Это могут быть такие атрибуты, как данные об авторе, дата публикации, язык публикации и т. д.


Дата добавления: 2015-07-12; просмотров: 103 | Нарушение авторских прав


<== предыдущая страница | следующая страница ==>
Основные принципы информационного поиска| Стратегии поиска

mybiblioteka.su - 2015-2024 год. (0.007 сек.)