Читайте также:
|
|
Общая схема ИП
Запрос
ПМ
Отклик
Методология поиска
Прямой поиск (подстроки в документе без доп. обработки):
[Зюганов] ® Зюганова, Зюганову, Зюгановым, Зюгановых etc.
Индексирование документов (создание «поискового образа» документа)
Предварительная обработка документа
Извлечение
Определение формата, кодировки и языка
сегментация (выделение слов и предложений) = «токенизация» (проблема многословных токенов и границ предложений)
Удаление стоп-слов
Морфоанализ (при необходимости)
Предварительная обработка запроса
преобразование языковых выражений:
[что такое Х?]=[Х – это…]
[как купить Y?]=[купить Y]=[магазин + Y] и т.д.
Инвертированный файл индекса
в индексе поисковой системы значатся слова коллекции документов, а для каждого слова перечислены все места, в которых оно встретилось:
подберезовик: 1®3®7®10®15
подосиновик: 2®3®51115®23
опенок: 10®15®27114
Вопросы к индексу
Сколько единиц должен содержать индекс?
Какова вероятность отсутствия нужных ссылок в индексе?
Как должен изменяться индекс в соответствии с изменением источников информации?
Пополнение баз ПС
Прямая индексация: разработчик сайта сам посылает информацию в ПС.
Программы-роботы, которые находят ссылки на новые страницы; запускаются разработчиками ПС (основной способ).
Поиск
в «открытом пространстве» Интернета
Дата добавления: 2015-07-11; просмотров: 43 | Нарушение авторских прав