Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АрхитектураБиологияГеографияДругоеИностранные языки
ИнформатикаИсторияКультураЛитератураМатематика
МедицинаМеханикаОбразованиеОхрана трудаПедагогика
ПолитикаПравоПрограммированиеПсихологияРелигия
СоциологияСпортСтроительствоФизикаФилософия
ФинансыХимияЭкологияЭкономикаЭлектроника

Документальный информационный поиск в сети Интернет

Модели данных и структура БД | Табличные базы данных | Система управления базами данных ADABAS | Системы программирования dBase, Clipper, FoxBASE, FoxPro | Происхождение документальных АИС | Навигация при ручном поиске документальной информации | Классические схемы функционирования документальных АИПС | Логическая структура документальной БД | Поисковые возможности ДИПС STAIRS | Физическая структура и навигация в документальной БД |


Читайте также:
  1. Fox идет в торговые центры в поисках менее перенасыщенной среды
  2. АБСОЛЮТНЫХ ПОКАЗАТЕЛЕЙ ИМЕННО ДИНАМИКИ НЕТ В ИНТЕРНЕТЕ!
  3. Автор корреспонденции - М.В. Черепанов - член Координа­ционного совета Союза поисковых отрядов России.
  4. АЙКИДО - ПОИСКИ БУДУЩЕГО В ЕГО ПРОШЛОМ
  5. Активная фаза. Поисковый рефлекс
  6. Анализ контента интернет-СМИ
  7. Базы данных, информационно-справочные и поисковые системы

Информационно-поисковые системы Интернет могут быть раз­делены по функционально-структурному принципу на следующие классы (см. [23, 32]):

• полностью распределенные системы, где реализуются принципы распределенных вычислений и хранения данных;

• частично распределенные — распределенные данные и локализованная обработка;

• локальные системы — локализованные данные и их обработки
(см. выше, Weblrbis).

Поисковые задачи в сети Интернет имеют следующие особен­ности [19]:

1. Огромный объем доступной информации. За последние годы
было предпринято множество попыток оценить размер ресурса Ин­тернет, и, хотя оценки не полностью совпадают, все они единоглас­ны в том, что в Интернет содержится более миллиарда страниц и их число увеличивается экспоненциально. Если учесть, что размер среднестатистической страницы составляет 5—10 Кб, объем оцени­вается в десятках терабайт (10 х 240 байт).

2. Высокий процент временной информации. Информация в Интернет очень динамична, информационные ресурсы непрерывно
появляются, пропадают, перемещаются, обновляются. В среднем,
ежемесячно изменяется около 40 % информации, среднее время
жизни половины страниц в Интернет не превышает 10 дней.

3. Неконтролируемое качество информации. Отсутствие редакторского контроля над публикуемой информацией в Интернет обуславливает проблему ее качества — информация может быть некорректной (например, устаревшей), ложной, плохо сформулированной, содержать ошибки (опечатки, грамматические ошибки, ошибки оцифровки и т. п.). Так, по некоторым оценкам, одна опечатка встречается в среднем в каждых двухстах часто употребляемых словах или в трех иностранных фамилиях.

4. Разнородность информации. Кроме различных форматов представления информации, используется также множество различных
языков и алфавитов. Около 30 % информации в Интернет составляют точные или приблизительные копии других документов.

ВИнтернет изменяется понятие типичного пользователя. Имеются следующие различия:

плохо сформулированные запросы. Никто специально не обучает
пользователей АИПС в Интернет формулировать запросы, и,
как следствие, немногие из них используют расширенные возможности поиска, такие, как логические выражения. Более того, типичные запросы очень коротки — более 60 % поисковых запросов в Интернет состоит из 1—2 слов, в то время как в классических АИПС — из 7—9 слов;

разнородный контингент. Разнообразие в знаниях, потребностях и ожиданиях пользователей очень велико. Большинство же работающих с классическими И ПС обычно имеет много общих черт;

поведение пользователей. Обычно они не готовы долго ожидать
результата или даже искать его в предоставленной системой выборке (58 % не идет дальше первого экрана, а 67 % не предпринимает попыток модифицировать свой первоначальный запрос).

Структура процессов в поисковых системах WWW. Ключевым

Ключевым отличием данных систем от классических АИПС является наличие сетевых роботовпрограммных модулей-агентов, занимающихся сбором информации о доступных WWW-pecypcax. Они осуществляют сканирование и, начиная с некоторого множества ссылок (URL) на WWW-страницы, рекурсивно обходят ресурсы Интернет, извлекая ссылки из получаемых документов до тех пор,
пика не будет выполнено некоторое условие остановки.

Собранная информация помещается в хранилище, содержимое которого определяет набор документов, по которым идет поиск.

Как и в классических ИПС, для достижения приемлемой эф­фективности поиск производится не напрямую по документам в хранилилище, а по индексным структурам, за создание которых отвечает модуль индексирования.

Получение и выполнение запросов пользователей — это задача модуля поисковой машины.

При исследовании задачи сканирования возникает ряд вопросов. 1. Выбор WWW-ссылок для индексирования. Обычно робот ru г информацию о существовании множества еще не отсканиро-м1ых ресурсов и может выбирать, какой из них «посетить» следующим. Этот выбор осуществляется согласно используемой роботом стратегии сканирования, которая напрямую определяет множе­ство страниц, которое будет обработано роботом и, как следствие, какие страницы будут известны поисковой системе.

2. Частота обновления индекса. В связи с высокой динамиков
изменений в WWW собранная информация о многих посещенных
страницах довольно быстро перестает отражать их реальное текущее
содержание.

3. Минимизация нагрузки на WWW-серверы. Робот не должен
перегружать сервер своими запросами или сканировать информацию против воли владельца сервера. Для выражения этих условий
может использоваться файл robots.txt, располагающийся в корневом каталоге сервера.

4. Организация параллельного сканирования. Одним из способов повышения производительности является параллельный запуск
нескольких роботов на разных машинах, но при этом необходим хорошо масштабируемый механизм координации их действий (например, чтобы они одновременно не сканировали один и тот же адрес).

Индексы поисковых систем. Важнейшим отличием поисковых систем для поиска в Интернет от классических систем информаци­онного поиска является необходимость обслуживания всех запросов без реального доступа к ресурсам на момент их выполнения, иначе необходимо либо хранить свежую локальную копию всех ресурсов (что слишком накладно), либо посещать их во время выполнения запроса (что слишком медленно).

Поэтому в системах поиска в Интернет все запросы обслужива­ются на основе индекса, содержащего описания известных данной поисковой системе ресурсов.

Хранилище. Хранилище содержит большое количество объектов данных (страниц WWW) и в этом смысле очень похоже на СУБД или файловую систему. Однако многие возможности последних в данном случае не нужны (например, поддержка транзакций или ие­рархия директорий), зато очень важны такие, как масштабируемость и реализация двух режимов доступа:

• произвольного — для того, чтобы быстро найти конкретную
страницу по ее идентификатору (например, для создания копии страницы);

• потокового — для того, чтобы извлечь значительную часть
- всей коллекции (например, для индексирования или анализа).

Кроме того, важными являются эффективная поддержка обнов­лений, сборка «мусора» (устаревших страниц).

Модуль индексирования. Задачей этого модуля является построе­ние необходимых индексов. Кроме текстовых, часто используются индексы, описывающие структуру графа WWW, а также вспомога­тельные индексы (например, индекс для доступа к страницам по их длине или по количеству используемых графических изображений).


Специфика WWW определяет свои особенности построения текстового индекса для ИПС. В дополнение к традиционным це­лям — минимизации времени доступа и размера индекса, также важно минимизировать время его создания и обеспечить возмож­ность эффективного обновления.

Поисковая машина. Расширенные возможности поиска имеют малый спрос у пользователей ИПС для WWW. Как следствие, за ис­ключением предикатов, позволяющих наложить условия на входя­щие/исходящие ссылки, в языках запросов, применяемых в систе­мах в WWW, нет существенных нововведений по сравнению с язы­ками запросов классических ИПС.

Однако простота запросов влечет их низкую селективность, и поэтому очень важной задачей является упорядочивание результа­тов, так чтобы первыми оказались те результаты, которые, вероятнее всего, интересны пользователю. Классические подходы к ранжиро­ванию опираются на меру схожести текстов запроса и документа, но «расплывчатые запросы» пользователей и огромное количество до­кументов значительно понижают эффективность таких подходов в контексте WWW.


Дата добавления: 2015-07-20; просмотров: 90 | Нарушение авторских прав


<== предыдущая страница | следующая страница ==>
ЛИПС локального и удаленного доступа Irbis| Некоторые поисковые возможности и характеристики систем Yandex и Rambler.

mybiblioteka.su - 2015-2024 год. (0.006 сек.)