Читайте также: |
|
Вес термина: отношение между частотой в тексте и частотой в коллекции (TF/DF)
насколько часто встречается в документе?
Частота термина (term frequency, TF) – частота употреблений слова в документе.
насколько часто встречается в коллекции?
Частота (слова) в документах (document frequency, DF) – число документов в коллекции, содержащих данное слово.
Чем чаще термин встречается в коллекции, тем он менее интересен!
Сравним термины
Звук
Фонема
В лингвистическом тексте.
Какой более значим для автоматической оценки содержания текста и определения его тематики?
Оценка векторной модели
Оценивается важность термина (есть механизм ранжирования), но…
Модель чувствительна к объему документов и плохо работает при анализе небольших текстов
Рынок ИП в интернете
Google — 70,91 %;
Baidu — 16,51 %;
Yahoo! — 5,95 %;
Bing — 5,48 %;
AOL — 0,27 %.
Ask — 0,23 %;
… …
Русскоязычные ПМ:
Яндекс (61,3 %)
Mail.ru (8,5 %)
Рамблер (1,9 %)
Общая идея страницы ПС
поле для ввода запроса с необязательной кнопкой типа «Найти», «Поиск», «Find», «Search» и т.п.
отклик – вывод контекстов в ответ на запрос + ссылки на первоисточники.
Длительность ожидания зависит от сложности запроса, скорости работы ПС, качества связи. Последнее обычно наиболее актуально.
Дополнительные функции поиска
Возможность указать группу WEB-сайтов (новости, магазины, картинки, блоги и т.п.)
Дата добавления: 2015-07-11; просмотров: 34 | Нарушение авторских прав