Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АрхитектураБиологияГеографияДругоеИностранные языки
ИнформатикаИсторияКультураЛитератураМатематика
МедицинаМеханикаОбразованиеОхрана трудаПедагогика
ПолитикаПравоПрограммированиеПсихологияРелигия
СоциологияСпортСтроительствоФизикаФилософия
ФинансыХимияЭкологияЭкономикаЭлектроника

Системы персонального информационного поиска (например, в программах, работающих с e-mail)



Читайте также:
  1. Chernyakov@yandex.ru ТЕМА: СОЗДАНИЕ МОБИЛЬНОГО ИНФОРМАЦИОННОГО РЕСУРСА
  2. JOURNAL OF COMPUTER AND SYSTEMS SCIENCES INTERNATIONAL (ИЗВЕСТИЯ РАН. ТЕОРИЯ И СИСТЕМЫ УПРАВЛЕНИЯ)
  3. V. Болезни системы кроветворения
  4. А все просто. Они изобрели прообраз нынешней банковской системы.
  5. АВТОМАТИЗАЦИЯ И информационные системы
  6. Автоматизированные баллистические системы
  7. Автоматизированные габитоскопические системы

Общая схема ИП

Запрос

ПМ

Отклик

Методология поиска

Прямой поиск (подстроки в документе без доп. обработки):

[Зюганов] ® Зюганова, Зюганову, Зюгановым, Зюгановых etc.

Индексирование документов (создание «поискового образа» документа)

Предварительная обработка документа

Извлечение

Определение формата, кодировки и языка

сегментация (выделение слов и предложений) = «токенизация» (проблема многословных токенов и границ предложений)

Удаление стоп-слов

Морфоанализ (при необходимости)

Предварительная обработка запроса

преобразование языковых выражений:

[что такое Х?]=[Х – это…]

[как купить Y?]=[купить Y]=[магазин + Y] и т.д.

Инвертированный файл индекса

в индексе поисковой системы значатся слова коллекции документов, а для каждого слова перечислены все места, в которых оно встретилось:

подберезовик: 1®3®7®10®15

подосиновик: 2®3®51115®23

опенок: 10®15®27114

Вопросы к индексу

Сколько единиц должен содержать индекс?

Какова вероятность отсутствия нужных ссылок в индексе?

Как должен изменяться индекс в соответствии с изменением источников информации?

Пополнение баз ПС

Прямая индексация: разработчик сайта сам посылает информацию в ПС.

Программы-роботы, которые находят ссылки на новые страницы; запускаются разработчиками ПС (основной способ).

Поиск

в «открытом пространстве» Интернета


Дата добавления: 2015-07-11; просмотров: 43 | Нарушение авторских прав






mybiblioteka.su - 2015-2024 год. (0.005 сек.)