Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Распознавание доменов низкого качества и спамерских сайтов

Читайте также:
  1. II. Качества воздуха.
  2. А.Д. А с какого момента стало падать качество немецких летчиков? Вы пишите, что вы выбили цвет немецких ассов, и стало приходить пополнение, которое такими качества не обладало.
  3. Анализ сайтов и страниц с самым высоким рейтингом
  4. Балльно-рейтинговая система оценки качества освоения учебной дисциплины
  5. БАРИЧЕСКИЕ СИСТЕМЫ НИЗКОГО ДАВЛЕНИЯ
  6. Беседа 16. Распознавание Божественного и демонического
  7. В отношении контроля качества

Выявить сайт низкого качества можно многими способами. Поисковые движки в качестве индикаторов качества применяют широкий диапазон сигналов. Некоторые из самых очевидных сигналов – это владельцы сайтов, которые ведут активный спам поисковых движков (например, обнаружилось, что сайт активно покупает ссылки).

Однако есть и менее очевидные сигналы. Многие такие сигналы сами по себе ничего не означают и приобретают значение только в сочетании с другими сигналами. Когда на одном сайте присутствует целая комбинация таких факторов, то это увеличивает вероятность того, что данный сайт будет рассматриваться как сайт низкого качества или спамерский.

Вот длинный список, состоящий из некоторых таких сигналов.

• Короткий период регистрации (один-два года).

• Высокое процентное отношение количества рекламных блоков к контенту.

• Перенаправления JavaScript с первоначальной целевой страницы.

• Использование часто встречающихся высокоценных спамерских ключевых слов, таких как ипотека, покер, порно и т. д.

• Много ссылок на другие спамерские сайты низкого качества.

• Мало ссылок на надежные сайты высокого качества.

• Высокие частота и плотность ключевых слов.

• Минимальное количество уникального контента.

• Очень маленькое количество прямых посещений.

• Регистрация на таких людей или на такие организации, которые раньше были связаны с ненадежными сайтами.

• Редкая регистрация в таких сервисах, как Yahoo! Site Explorer, Google Webmaster Central или Bing Webmaster Tools.

• Редко имеют короткие и ценные имена доменов.

• Содержат множество нафаршированных ключевыми словами поддоменов.

• Чаще имеют длинные имена доменов.

• Чаще имеют в имени домена несколько дефисов.

• Реже имеют ссылки с надежных источников.

• Реже имеют сертификаты безопасности SSL.

• Реже появляются в таких каталогах, как DMOZ, Yahoo! Librarian’s Internet Index и тому подобных.

• Скорее всего, не имеют значительных количеств операций поиска по бренду.

• Скорее всего, не фигурируют в закладках таких служб, как My Yahoo! Delicious, Faves.com и тому подобных.

• Скорее всего, не присутствуют в таких социальных сетях, как Digg, Reddit, Yahoo! Buzz, StumbleUpon и тому подобных.

• Скорее всего, не имеют каналов на YouTube, сообществ в Facebook и ссылок с Wikipedia.

• Скорее всего, не упоминаются на основных сайтах новостей.

• Скорее всего, не зарегистрированы в Google/Yahoo!/MSN Local Services.

• Скорее всего, не указывают на сайте физического адреса и номера телефона.

• Скорее всего, их домены фигурируют в черных списках адресов электронной почты.

• Содержат большое количество фрагментов дублированного контента.

• Скорее всего, не содержат уникального контента в форматах PDF, PPT, XLS, DOC и т. д.

• Часто присутствует контент коммерческой направленности.

• Находятся на удалении многих уровней ссылок от надежных web-сайтов.

• Редко имеют страницы с политикой конфиденциальности и авторских прав.

• Редко бывают упомянуты в каталоге Better Business Bureau’s Online Directory.

• Редко содержат текстовый контент высокого уровня (который измеряется по таким показателям, как Flesch-Kincaid Reading Level).

• Редко имеют цитирование своих фрагментов текста на других web-сайтах или страницах.

• Часто встречается маскировка по пользовательскому агенту или IP-адресу.

• Редко содержат платное аналитическое программное обеспечение для отслеживания.

• Редко проводят маркетинговые компании.

• Редко имеют указывающие на них партнерские ссылочные программы.

• Реже имеют расширения. com или. org; чаще используют. info, cc, us и прочие дешевые домены верхнего уровня (которые легко получить).

• Почти никогда не имеют расширений. mil, edu или. gov.

• Редко имеют ссылки с доменов с расширениями. edu или. gov.

• Почти никогда не имеют ссылок с доменов с расширениями. mil.

• Вероятно, имеют ссылки на значительную часть тех сайтов и страниц, которые ссылаются на них.

• Совершенно маловероятно, чтобы они упоминались или имели ссылки в научноисследовательских докладах.

• Маловероятно использование дорогих web-технологий (типа Microsoft Server или таких инструментов программирования, за которые надо платить).

• Скорее всего, зарегистрированы в таких организациях, которые владеют очень большим количеством доменов.

• Выше вероятность наличия вредоносного программного обеспечения, вирусов и шпионского программного обеспечения (или автоматизированных закачек).

• Скорее всего, не указывают конфиденциальную информацию на странице Whois по своему домену.

Для некоторых других сигналов потребуется информация из инструментов web-аналитики (которую Google может получить из Google Analytics).

• Редко имеют большое количество посещений за месяц.

• Редко имеют посещения длительностью более 30 секунд.

• Почти не имеют посетителей, которые делают закладку для их домена в своем браузере.

• Маловероятно, что они купят какой-то значительный объем рекламного трафика.

• Редко имеют баннеры о закупке рекламного времени.

• Вряд ли привлекают значительный обратный трафик.

Многие из этих сигналов (вероятно, даже большинство) появляются по вполне законным причинам. Вот лишь несколько примеров.

• Не каждому сайту нужен сертификат SSL.

• Находящийся за пределами Соединенных Штатов бизнес не будет присутствовать в каталоге Better Business Bureau.

• Сайт может не иметь никакого отношения к научно-исследовательским докладам.

• Издатель может не знать об инструментах Google Webmaster Tools и Bing Webmaster Tools.

• Редко кто имеет право на домен верхнего уровня с расширением. edu, gov или. mil.

Это всего лишь несколько примеров, которые иллюстрируют то обстоятельство, что все эти сигналы следует рассматривать в соответствующем контексте. Если сайт занимается электронной коммерцией и не имеет сертификата SSL, то это становится более сильным сигналом. Если сайт утверждает, что это университет, но не имеет расширения домена. edu, то это также становится более сильным сигналом.

Многие законные сайты имеют один или несколько таких сигналов. Например, существует много хороших сайтов с расширением. info. Один, два или три сигнала обычно не становятся проблемой. Однако сайты с 10, 20 и с большим количеством сигналов вполне могут получить проблемы.


Дата добавления: 2015-10-13; просмотров: 109 | Нарушение авторских прав


Читайте в этой же книге: Анализ трафика роботов поисковых движков | Временные измерения увеличения количества ссылок | Количество ключевых слов на страницу | Перенос контента в больших масштабах | Картографирование переноса контента | Поддержка видимости в поисковых движках во время и после изменения дизайна сайта | Подготовка к переносу | Смена сервера | Выявление такого контента, который не виден поисковым движкам | Скрытый контент, который может быть воспринят как спам |
<== предыдущая страница | следующая страница ==>
Фильтрация спама и штрафы| Дублированный контент

mybiblioteka.su - 2015-2024 год. (0.013 сек.)