Рост сложности поиска

Читайте также:

В последнее десятилетие поиск развивался очень быстро. На конференции WSDM (http://www.wsdm2009.org/) в феврале 2009 г. Jeff Dean представил некоторые интересные показатели, которые рассказывают об этой истории:

• объем поиска в Google с 1999 г. вырос в 1 000 раз;

• по сравнению с 1999 г. Google имеет в 1 000 раз больше компьютеров;

• время ожидания сократилось примерно с 1 000 миллисекунд до менее чем 200 миллисекунд;

• время ожидания индексирования улучшилось примерно в 10 000 раз. Если в 1999 г. обновления занимали месяцы, то в 2009 г. Google выявлял и индексировал изменения на web-страницах всего за несколько минут.

Такие изменения в производительности Google потрясают, но это только часть меняющейся поисковой среды. Некоторые из ранних коммерческих поисковых движков (такие, как Web Crawler, InfoSeek и Alta Vista) начали свою работу в середине 90-х годов. В то время алгоритмы релевантности и ранжирования поисковых движков были в значительной степени основаны на анализе ключевых слов. Это была простая модель, которая сначала давала весьма приличные результаты.

Но такая модель не могла устоять в течение длительного времени. Спамеры начали злоупотреблять слабостями алгоритмов на основе ключевых слов, фаршируя свои страницы ключевыми словами, а чтобы не портить впечатление пользователям, они применяли различные тактики, делая эти слова невидимыми. Это привело к тому, что на первых позициях результатов поиска находились не те фирмы, кто этого больше всего заслуживал, а те, кто лучше всех понимал работу поисковых алгоритмов и мог манипулировать ими.

В 1999 г. с появлением компании Google родилось следующее поколение поиска. Google был поисковым движком, который наиболее эффективно реализовал (в качестве части популярного поискового движка) концепцию анализа цитирования (или анализа ссылок). Как мы уже указывали ранее в этой книге, при анализе ссылок подсчитывались ссылки на web-сайт (как голоса за его ценность). Больше голосов – выше ценность, но при этом некоторые голоса оценивались больше других (страницы с большим количеством "сока ссылок" имели больше "сока" для голосования).

Это создало такую ситуацию, которая сначала осложнила работу спамеров, но потом они начали справляться с этой проблемой при помощи покупки ссылок. При наличии миллионов web-сайтов (многие из которых дают небольшой доход или вовсе его не имеют), спамерам было относительно несложно договориваться с сайтами и предлагать им некоторое минимальное количество денег в обмен на ссылку. Кроме того, спамеры могли реализовать роботов, которые стали просматривать Интернет и искать гостевые книги, блоги, форумы, где они оставляли комментарии с обратными ссылками на сайт владельца робота.

Основные поисковые движки отреагировали на этот вызов. Они сделали два главных шага: создали команды, которые начали работать по выявлению спама (чтобы наказывать за него), и реализовали анализ качества ссылок (который уже не ограничивался рейтингом PageRank). Стали учитываться такие факторы, как якорный текст, релевантность, а также доверие. Эти факторы помогли поисковым движкам в их войне против спама.

Усилия по повышению качества поиска и по борьбе со спамерами не прекращались. Ретроспективные характеристики результатов поиска (анализ того, сколько кликов было сделано в данном списке и был ли пользователь удовлетворен кликнутым результатом) проложили себе путь в алгоритмы поиска. В 2008 г. Jan O. Pederson (тогдашний руководитель исследовательских работ компании Yahoo!) написал меморандум (http://www.ils.unc.edu/ISSS/papers/papers/pedersen.pdf\), в котором пропагандировал использование таких данных следующим образом:

"Журналы запросов поисковых движков отражают совсем небольшой фрагмент поведения пользователя – его действия на странице результатов поиска. Для более полной картины необходимо иметь всю последовательность кликов: клики на странице результатов поиска и последующие действия вне сайта.

Такие данные поступают от пользователей панелей инструментов, которые разрешили отслеживать последовательность своих кликов. Компания Yahoo! только начала собирать такие данные, хотя конкурирующие поисковые движки уже собирают их в течение некоторого довольно продолжительного времени.

При помощи изучения действий после кликов мы надеемся получить гораздо более надежные индикаторы удовлетворенности пользователя. Например, если пользователь быстро уходит с той страницы, на которую попал, то можно сделать вывод, что его потребность в информации данной страницей не была удовлетворена".

В мае 2007 г. компания Google запустила Universal Search. Это было началом интеграции всех типов имеющихся в Интернете данных в единый набор результатов поиска, где присутствовали данные из новостей, блогов и поисковых движков магазинов (а также видео и изображения).

Эта инициатива не была направлена против спамеров в той же степени, как некоторые другие изменения, но она стала признанием того факта, что в Интернете сегодня существует гораздо больше данных, чем простой HTML-текст. Проблема индексирования и предоставления этих данных в удобном для использования формате была чрезвычайно важна для поисковых движков. Запуском этого поиска Google начала такую работу. Остальные поисковые движки быстро последовали ее примеру.

Компания Ask также сделала интересный вклад при помощи своей инициативы Ask 3D, которая была запущена в июне 2007 г. Этот подход предоставлял на страницах результатов поиска много разных типов данных, но эти элементы не смешивались с результатами поиска в Интернете, а появлялись на странице результатов либо слева, либо справа. Компании Google, Yahoo! и Bing позаимствовали некоторые идеи из Ask 3D.

Поисковые движки могут использовать и другие источники данных, такие как данные регистраторов, чтобы увидеть, кому принадлежит конкретный web-сайт. Кроме того, у них есть доступ к аналитическим данным, данным из их панелей инструментов, а также к данным из бесплатных точек доступа Wi-Fi и от продавцов доступа в Интернет, с помощью которых они отслеживают реальное использование Интернета на различных web-сайтах. И хотя никто не знает как (и насколько) поисковые движки используют эти данные, но, тем не менее, эти дополнительные источники информации находятся в их распоряжении.

Поисковые движки продолжают искать способы улучшения качества поиска. Компания Google начала работать в направлении персонализации, когда она, анализируя историю поиска пользователя, старается понять, какие результаты наиболее удовлетворят данного конкретного пользователя. В 2008 г. Danny Sullivan подвел итог этой эволюции, выделив в ней четыре фазы (http://searchengineland.com/danny-sullivan-tackles-search-30-and-40-in-smx-west-keynote-13495):

• поиск 1.0: ключевые слова и текст;

• поиск 2.0: анализ ссылок;

• поиск 3.0: интегрирование результатов вертикального поиска;

• поиск 4.0: персонализация.

Итак, каким же будет поиск 5.0? Что будет дальше? Многие считают, что следующей большой волной станет использование данных социальных сетей. "Мудрость толпы" станет важным фактором ранжирования. Mike Grehan говорит об этом в своем докладе "New Signals to Search Engines" (http://www.acronym.com/new-signals-to-search-engines.html). Он резюмирует состояние интернет-поиска следующим образом:

"По существу мы пытаемся затолкать слонов в браузеры, которые их не хотят. Изобретенный сэром Tim Berners Lee браузер (наряду с протоколами HTML и HTTP) был предназначен для отображения текста и графики на странице, доставленной на ваш компьютер при помощи коммутируемого модема, а не для просмотра фильмов (как мы делаем это сегодня). Пауки поисковых движков были разработаны для захвата текста с HTML-страниц и анализа ссылок между страницами, но (при таком большом количестве информации вне просматриваемого пространства) является ли это правильным методом для вечно требовательной аудитории (которая сама производит контент)?"

Поиск Universal Search был шагом, который частично признал эту проблему (сделав доступными через интернет-поиск все типы данных). Но многие из этих типов данных не предоставляют традиционных текстовых сигналов (на которые полагаются поисковые движки). Вот еще один фрагмент из доклада Mike Grehan:

"Конечные пользователи, которые раньше не могли голосовать за контент при помощи ссылок с web-страниц, теперь могут голосовать за него при помощи кликов, закладок, тегов и рейтингов. Это очень сильные сигналы для поисковых движков, и что лучше всего, они не полагаются на элитарный выбор владельца web-сайта (который делает ссылку на другой сайт) или на весьма посредственный просмотр тупого робота. Можно ожидать, что такие типы сигналов станут в ближайшем будущем весьма существенным фактором".

Это дает поисковым движкам информацию по тем типам данных, которые они не могут в данный момент обрабатывать (таким, как изображения и видео), а также дает им в руки еще один инструмент для борьбы со спамом. Данные такого типа уже влияют на рейтинги видеороликов на таких сайтах, как YouTube, который в январе 2009 г. стал вторым по величине поисковым движком в Интернете (согласно данным компаний comScore, Hitwise и Nielsen Online). Возрастание объема поиска на YouTube особенно интересно, поскольку это не обычный поисковый движок общего назначения, а такой, который сфокусирован на конкретном вертикальном поиске (в данном случае на поиске видео). Все это говорит о сдвигах в спросе, которые происходят среди потребителей результатов поиска.

По большому счету, лучшие результаты выдаются лучшими сайтами. Есть и исключения, например, для некоторых поисковых запросов лучшими результатами могут быть "быстрые ответы". Сегодняшняя технология поисковых движков поощряет весьма избранный набор web-свойств, которые успешно ранжируются по двум сигналам: хорошее целевое использование ключевых слов и хорошие ссылки (либо множество ссылок – от средних до мусорных).

Сбор большего количества данных означает большую вероятность победы (даже если ваш сайт небезупречно соответствует этим сигналам) и более высокие шансы попасть в весьма затруднительное положение (если это единственные индикаторы, по которым вы выигрываете). Ключевые слова и ссылки останутся основными факторами ранжирования до 2012 г. или даже дольше, но развитие поисковых движков в направлении использования "мудрости толпы" все время набирает силу.

Что же будет дальше? Ведется работа над искусственным интеллектом и лингвистическими интерфейсами пользователя. Лингвистические интерфейсы – это голосовые интерфейсы, появление которых полностью изменит человекомашинный интерфейс и то, как человек ведет поиск, работает и играет. Будет гораздо проще поговорить с вашим компьютером и сказать ему, что нужно сделать, чем пытаться ввести эти команды с клавиатуры. Согласно статьеhttp://www.accelerationwatch.com/lui.html, вы можете рассчитывать увидеть такие вещи между 2012 и 2019 годами. Вот некоторые выдержки из этой статьи:

"Понятно, что клавиатура – это примитивный интерфейс первого поколения для наших персональных вычислительных машин. Она дает нам информацию, но не дает симбиоза. Люди при обмене информацией пальцами не пользуются. Мы в основном думаем и применяем богатый репертуар эмоциональных и невербальных средств коммуникации при помощи одновременно используемых и не создающих помех каналов".

"Иначе говоря, речь – это высшая, наиболее естественная форма человеческого общения, и скоро наши компьютеры позволят нам взаимодействовать с ними в этой новой вычислительной области".

Когда эти технологии появятся, предсказать с определенностью нельзя. В новейшей истории имеется множество примеров новых технологических достижений, которые должны были вот-вот произойти, но появление которых заняло гораздо больше времени, чем предсказывалось.

Дата добавления: 2015-10-13; просмотров: 112 | Нарушение авторских прав

<== предыдущая страница	\|	следующая страница ==>
Глава 13 Поисковая оптимизация – развивающийся вид искусства	\|	Доминирование компании Google

mybiblioteka.su - 2015-2025 год. (0.008 сек.)