Анализ документа и семантическая связность

Читайте также:

При анализе документа поисковый движок ищет поисковые термины в важных областях документа (заголовке страницы, метаданных, тегах заголовков и в теле текста). Он также пытается автоматически измерить качество документа (при помощи анализа документа и множества прочих факторов).

Для сегодняшних поисковых движков одного анализа документа недостаточно, поэтому они также смотрят на семантическую связность.

Семантическая связность – это слова или фразы, которые обычно ассоциируются друг с другом. Поисковые движки активно создают свои собственные словари, которые помогают им определить, как связаны определенные термины или темы. Сканируя свои огромные базы данных контента, они могут применить теорию нечетких множеств и некоторые уравнения (это описано по адресу http://forums.searchenginewatch.com/showthread.php?threadid=48) для связывания терминов и начать понимать web-страницы более похожим на человеческий образом.

Профессиональному специалисту по оптимизации не обязательно применять инструменты измерения семантической связности для оптимизации web-сайтов, но для тех продвинутых специалистов, которые хотят использовать каждую возможность, измерения семантической связности могут помочь в следующих областях:

• измерение целевых ключевых фраз;

• измерение ключевых фраз для включения в страницу по определенной теме;

• измерение связей текста (на других сайтах с высоким рейтингом);

• поиск страниц, которые предоставляют релевантные ссылки по теме.

Несмотря на то, что источник этого материала имеет сугубо технический характер, специалисту по оптимизации нужно знать только принципы, чтобы получить эту ценную информацию. Важно помнить, что несмотря на то, что мир информационного поиска имеет сотни технических и часто трудных для понимания терминов, их можно разделить на группы, которые способен понять даже новичок в области оптимизации.

В табл. 2.1 объясняются некоторые часто встречающиеся типы информационного поиска.

Таблица 2.1. Часто встречающиеся типы поиска

Модели информационного поиска (поисковые движки) используют теорию нечетких множеств (ответвление нечеткой логики, созданной доктором Lotfi Zadeh в 1969 г.) для обнаружения семантической связности между двумя словами. Вместо использования словаря для обоснования связи двух слов, система информационного поиска может применить свои большие базы данных контента для угадывания этой связи.

Несмотря на то, что этот процесс может показаться сложным, основы его просты. Поисковые движки полагаются на машинную логику (правда/ложь, да/нет и т. д.). Машинная логика имеет некоторые преимущества перед человеческой, но она не способна мыслить подобно человеку. И те вещи, которые интуитивно понятны человеку, может быть очень сложно понять компьютеру. Например, апельсины и бананы – это фрукты, но апельсины и бананы не круглые. Для человека это интуитивно понятно.

Чтобы машина поняла эту концепцию и подобные ей, ключом может стать семантическая связность. Огромные знания человечества (содержащиеся в Интернете) могут быть занесены в индекс системы и проанализированы, чтобы искусственным образом создать те связи, которые уже создали люди. Таким образом, машина узнает, что апельсин круглый, а банан – нет (потому что она просканировала тысячи вхождений в свой индекс слов "банан" и "апельсин" и заметила, что "круглый" и "банан" вместе встречаются редко, а "апельсин" и "круглый" вместе встречаются часто).

Именно здесь вступает в игру нечеткая логика и применение теории нечетких множеств помогает компьютеру понять, как термины связаны (путем измерения того, как часто и в каком контексте они используются вместе).

На этом понятии основана родственная концепция латентного семантического анализа (latent semantic analysis, LSA). Его идея состоит в том, что, взяв огромный составной индекс из миллиардов web-страниц, поисковый движок может "выучить", какие слова связаны и какие концепции имеют отношение друг к другу.

Например, используя LSA, поисковый движок поймет, что trips (путешествия) в zoo (зоопарк) часто включают в себя viewing wildlife и animals (наблюдение за дикой природой и животными), причем это может быть частью tour (тура).

Теперь выполним поиск в Google по ~zoo ~trips (тильда – это оператор поиска, подробнее об этом далее в этой же главе). Google выводит "связанные" термины жирным шрифтом и распознает, какие термины часто встречаются совместно (вместе, на одной странице, либо в непосредственной близости) в его индексах.

Некоторые формы LSA имеют слишком высокую вычислительную стоимость. Например, в настоящее время поисковые движки недостаточно "умны" для того, чтобы "обучаться" так же, как это делают некоторые более новые обучающиеся компьютеры в Массачусетском технологическом институте. Например, они не могут узнать из своего индекса, что зебры и тигры – это полосатые животные, хотя они могут обнаружить, что "полосы" и "зебры" более семантически связаны, чем "полосы" и" утки".

Латентное семантическое индексирование (latent semantic indexing, LSI) делает еще один шаг вперед, используя семантический анализ для идентификации связанных web-страниц. Например, поисковый движок может заметить одну страницу (в которой говорится о докторах) и другую (в которой говорится о терапевтах) и на основе других общих слов, имеющихся в этих двух страницах, определить, что между этими страницами есть связь. В результате страница с упоминанием докторов может быть показана по запросу, в котором используется слово терапевт.

В такие технологии в течение многих лет вкладываются деньги. Например, в апреле 2003 г. компания Google приобрела компанию Applied Semantics (http://www.appliedsemantics.com/), которая известна своей технологией семантической обработки текста. Эта технология теперь работает в рекламной программе AdSense компании Google и, скорее всего, применяется также и в основных алгоритмах поиска.

Все это дает нам общее понятие о том, как поисковые движки распознают связи между словами, фразами и идеями в сети Интернет. Поскольку семантическая связность играет все большую роль в алгоритмах поисковых движков, то можно ожидать и большего акцента на теме страниц, сайтов и ссылок. В будущем будет очень важно реализовать способность поисковых движков к пониманию идей и тем, а также к распознаванию контента, ссылок и страниц, которые не очень хорошо соответствуют схеме web-сайта.

Дата добавления: 2015-10-13; просмотров: 118 | Нарушение авторских прав

Читайте в этой же книге: Распределение результатов поиска и трафика | Различные намерения и влияние листинга в платных и естественных результатах | Прочие факторы, которые необходимо учитывать | Как понять компоновку страниц результатов поиска | Как вертикальные результаты встраиваются в SERP | Просмотр и индексирование | Извлечение и рейтинги | Оценка контента на web-странице | Какой контент поисковые движки могут видеть на web-странице | Примечание |

<== предыдущая страница	\|	следующая страница ==>
Чего не могут видеть поисковые движки	\|	Анализ ссылок

mybiblioteka.su - 2015-2024 год. (0.014 сек.)