Читайте также: |
|
Далее необходимо произвести выгрузку сайта при помощи программы XENU, которая поможет нам определить битые ссылки сайта, дубли страниц, дубли Title и многое другое. О том, как это сделать я уже писал. В статье про XENU описана методика определения реального числа страниц сайта и сравнение его с числом страниц в индексе ПС. Если в индексе обнаружены дубли страниц — необходимо их от туда убрать. Поиск дублей, на самом деле достаточно долгий и нудный процесс, но он невероятно важен для хорошего ранжирования. Что бы хоть как-то облегчить процесс поиска дублей приведу основные причины их возникновения:
1. копия страницы в RSS
2. копия страницы с хэштегом. Например, комментарии в WordPress с хэштегом #comments
3. дублирование главной страницы близнецами index.php, index.html и т.д.
4. страница печати (особенно актуально для Joomla)
5. сессии часто становятся причинами появления дублей
6. выдача страницы в дополнительном формате, например pdf
7. передача параметров через?. Яркий пример — подключение к сайту реферальной системы, которая для определения того, что пользователь пришел от вас будет добавлять определенные параметры к URL адресам ваших страниц.
8. страницы доступны со слэшем в конце адреса «/» и без
9. не настроена обработка ошибки 404
10. относительная адресация
11. использование редиректа 302
12. сортировка по товарам
13. поиск по сайту
После выявления дублей страниц сайта, необходимо от них избавиться. Для этого существует несколько способов:
1. при помощи служебного файла robots.txt
2. при помощи.htaccess
Настройка Robots.txt
Сдедующим делом необходимо настроить служеиный файл Robots.txt В каждом отдельном случае роботс будет содержать свои директивы, применимые к конкретно взятому сайту, но можно выделить ряд общих рекомендаций, применимых ко всем случаям:
· Все директивы должны быть отдельно продублированы для ПС Яндекс
· Для Яндекса должен быть указан хост - Host: site.ru
· Для каждого User-Agent должен быть указан адрес sitemap
· Все физические служебные папки должны быть закрыты от индексации
· Страницы тегов и категорий должны быть закрыты от индексации
Карта сайта
Карта сайта может быть двух видов:
· sitemap.xml
· обычная картта сайта
В первом случае, создается специальный служебный файл XML фоормата, который используется роботами при индексации сайта. Второй тип — карта сайта, которую может увидеть любой пользователь вашего сайта, как правило ссылка на нее размещается в шапке или в подвале и называется «Карта сайта». Она необходима для правильного распределения веса внутри сайта и иногда может быть полезна пользователям вашего ресурса. Конкретно в данной статье речь пойдет об XML карте сайта.
Наличие карты сайта в формате XML помогает роботам полностью проиндексировать страницы вашего сайта, поэтому данный файл обязательно должен быть и должен содержать ВСЕ страницы сайта. Создать карту сайта можно следующими способвами:
· вручную Аж, прям, как-то смешно становится
· при помощи web-сервисов
· при помощи плагинов для CMS
· при помощи десктопных программ
Вот вам ссылочка в помощь, там практически все возможные методы перечислены —https://code.google.com/p/sitemap-generators/wiki/SitemapGenerators
Дата добавления: 2015-11-04; просмотров: 120 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Склейка зеркал WWW | | | Обработка ошибки 404 |