Читайте также: |
|
Для поиска информации в Интернете используют различные поисковые системы, которые еще называют поисковыми машинами.
Большинство этих программно-аппаратных комплексов осуществляют поиск веб-страниц. Однако существуют поисковики, способные находить файлы на ftp-серверах, товары в интернет-магазинах, информационные новости и многое другое.
,,.
Программную часть поисковой машины, используя аналогию с автомобилем, часть называют поисковым движком.
.
Кроме того, под поисковой машиной часто подразумевают веб-сайт, на котором размещен пользовательский интерфейс поисковика.
.
Веб-поисковики
собирают сведения о размещенных в сети веб-страницах,
сохраняют их в своей базе данных
и выдают эту информацию пользователям при обработке их запросов.
Сбор информации в Интернет осуществляют специальные программы – роботы или сокращенно боты,
, которые в автоматическом режиме, используя интерфейс обычного пользователя,
перебирают веб-страницы сайтов, анализируют их HTML-код
и отправляют собранные сведения в базу данных поисковой системы.
Для минимизации времени поиска собранная ботами информация в базе данных индексируются. При этом индексироваться могут не только слова или отдельные фразы текста, но и другие объекты веб-страниц.
Для повышения качества обслуживания некоторые поисковики обеспечиваюттак называемое кэширование информации, т.е. хранят в своей базе данных целые фрагменты проанализированных веб-страниц.
Для частичного управления процессом индексирования веб-страниц в Интернете на http-серверах размещают файлы robots.txt..
Эти файлы содержат инструкции поисковым роботам, что, по мнению владельцев сайта необходимо индексировать, а что нет.
..
Однако боты могут игнорировать эти инструкции. Поэтому полная защита от индексации содержания сайта обеспечивается другими механизмами, например, установкой паролей на его страницах, либо требованием заполнять регистрационную форму перед тем, как получить доступ к содержимому сайта.
Для противодействия ботам широко применяется КЭПТЧА (от англ. CAPTCHA, Completely Automated Public Turing test to tell Computers and Humans Apart), т.е представление текста особым графическим образом, который легко читается человеком, но не распознается роботом.
.
Результатом поиска является список веб-страниц, соответствующих запросу пользователя.
Как правило, в этом списке присутствуют заголовок документа, его краткое резюме,
а иногда и часть содержания.
При этом порядок следования элементов в списке результатов поиска может определяться как поисковой системой так и пользователем.
Основным критерием качества работы поисковой машины является релевантность поиска, т.е. степень соответствия запроса, найденной по этому запросу информации.
.
Следует иметь в виду, что на оценку полезности поисковой системы помимо алгоритмов ранжирования результатов существенное влияние оказывают:
полнота информационной базы поисковика,
и время его отклика на запросы пользователя,
а также учет в запросах морфологии языка пользователя.
Например, в русском языке слова (с учетом падежей, единственного и множественного чисел и т.д.) могут иметь разные морфологические формы.
Хорошая система должна учитывать эти особенности, т.е. поисковик должен найти веб-страницу со словом, зависимо от того, в какой морфологической форме оно записано в запросе.
,.
Так, если в запросе используется слово “ проходили ”, то поисковик должен найти множество страниц, в том числе и те, в которых присутствует слово “ прошли ”. Причем, учитывая все морфологические формы слов, поисковик должен различать части речи. В частности, существительное и прилагательное не должны рассматриваться как разные морфологические формы одного слова.
В настоящее время несомненным лидером поисковых систем Интернета является поисковик корпорации Google. Отметим, что Google является "всеязычной" системой, т.е. Google собирает, индексирует и ищет веб-страницы практически на всех языках мира.
..
В отличие от Google большинство российских поисковиков, в том числе, самый популярный отечественный поисковик Яндекс, хотя и позволяют работать с многими языками, но в основном специализируется на более глубоком индексировании веб-страниц в доменных зонах с русскоязычными сайтами.
..
Дата добавления: 2015-11-16; просмотров: 60 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Базовая структура унифицированного указателя ресурса | | | Специальные операторы, уточняющие поиск в запросах Google. |