Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Файл robots.txt

Читайте также:
  1. Синтаксис файла robots.txt

Этот файл находится в корневом уровне вашего домена (например, http://www.yourdomain.com/robots.txt) и является чрезвычайно универсальным инструментом для управления тем, к чему разрешается доступ паукам поисковых движков на вашем сайте. Вы можете использовать файл robots.txt для того, чтобы:

• предотвратить доступ пауков к непубличным разделам вашего сайта;

• заблокировать доступ поисковым движкам к скриптам индексирования, утилитам и прочему коду;

• избежать индексирования дублированного контента web-сайта (такого, как версии для печати HTML-страниц или различные сортировки каталогов товаров);

• автоматически обнаружить XML Sitemap.

Файл robots.txt должен находиться в корневом каталоге, название файла должно быть полностью набрано в нижнем регистре (robots.txt, а не Robots.txt или какой-либо другой вариант с использованием букв верхнего регистра). Любое другое название или местоположение поисковыми движками не признается. Файл должен быть в текстовом формате (а не в формате HTML).

Когда вы говорите роботу поисковых движков, что обращаться к данной странице не нужно, он предотвращает доступ паука к странице. На рис. 6.31 показано, что происходит, когда робот поискового движка видит указание в файле robots.txt не просматривать web-страницу.

Рис. 6.31. Влияние файла robots.txt

По существу страница просматриваться не будет, так что ссылки этой страницы не могут передавать свой "сок" другим страницам (поскольку поисковый движок ссылок не видит). Однако страница может находиться в индексе поискового движка. Такое может произойти, если на данную страницу делают ссылки другие страницы Интернета. Конечно, поисковый движок не получит много информации с такой страницы (поскольку он не может ее прочитать) и будет полагаться в основном на якорный текст и прочие сигналы ссылающихся на нее страниц (чтобы определить, о чем может быть данная страница). В результате соответствующие результаты поиска в Google выглядят очень разреженными (рис. 6.32).

Рис. 6.32. SERP для страниц, которые занесены в файл robots.txt

На рисунке показаны результаты для запроса site: news.yahoo.com/topics/ inurl: page в поисковике Google. Это не обычный запрос, который мог бы ввести пользователь, но вы можете видеть, как выглядят результаты. Выдан только список URL, а описаний нет. Это происходит потому, что паукам не разрешается читать страницу, чтобы получить эти данные. При сегодняшних алгоритмах такие страницы не имеют высокого рейтинга, т. к. их релевантность чрезвычайно низка (для любых нормальных запросов).

Google, Yahoo! Bing, Ask и почти все легальные пауки Интернета выполняют сделанные вами в файле robots.txt указания. Команды файла robots.txt в основном используются для предотвращения доступа пауков к страницам и подкаталогам сайта, хотя у них есть и другие опции. Обратите внимание, что для поддомена требуется свой собственный файл robots.txt (точно так же, как и для файлов, находящихся на сервере https:).


Дата добавления: 2015-10-13; просмотров: 89 | Нарушение авторских прав


Читайте в этой же книге: Текст документа | Избегаем каннибализации ключевых слов | Использование низкочастотных ключевых слов | Структура контента | Предостережение для партнеров | Последствия дублированного контента | Как поисковые движки распознают дублированный контент | Как избежать дублированного контента на вашем сайте | Зачем использовать куки-файлы или идентификаторы сеансов для управления доступом поисковых движков | Клоакинг и сегментирование поставки контента |
<== предыдущая страница | следующая страница ==>
Когда показывать разный контент поисковым движкам и посетителям| Синтаксис файла robots.txt

mybiblioteka.su - 2015-2024 год. (0.008 сек.)