Главная » Hi-Tech » Проверяем сайт на «вшивость»

Проверяем сайт на «вшивость»

Я попробую дать если не исчерпывающую инструкцию, то хотя бы ряд советов, которые позволят осуществить проверку и при необходимости устранить проблему. Не буду пичкать вас теорией ибо непосредственно ей посвящены тысячи статей, но мало где даются более-менее практические советы. После проведения «санитарных» работ, качество ресурса в «глазах» поисковиков существенно повысится и это скажется на позициях в поиске.

Если Google как-то брезгует мусором, то Яндекс менее привередлив и индексирует очень много некачественных страниц. Проблема, о которой пойдет речь, заключается в наличии некачественных страниц в индексе поисковых систем. Последнее время мне стали чаще попадаться сайты, у которых количество мусорных страниц превышает количество полезных в десятки, в сотни, а то и в тысячи раз. Данной проблемой страдают в особенности старые сайты, работающие на старых CMS. В большинстве случаев эти сайты - интернет-магазины, ибо благодаря фильтрам каталога товаров сайт превращается в генератор дублей и малоинформативных страниц, особенно если владелец или разработчик не удосужились заполнить robots.txt и закрыть от индексации хотя бы очевидные моменты.

Беглый осмотр

Нам необходимо пройти на страницу «Страницы в поиске». Для того, чтобы определить наличие проблемы и её масштаб, нам потребуется заглянуть в Яндекс Вебмастер.

Крутим колесиком и под графиком жмем кнопку «Исключенные страницы». Если вас встретила картина как на изображении выше, то в принципе пока нет причин паниковать.

Как видите некоторые проблемы есть и у меня, вызвано это утратой директивы запрещающей индексацию загруженных файлов.

Полное отсутствие проблем можно констатировать только после глубокого анализа сайта, но это уже есть смысл доверить профессионалам в области SEO. Если в колонке «Статус» фигурируют «Редирект», «Ошибка 404», «Запрешщено тем-то», то можете спать спокойно, у вашего сайта нет серьезных проблем.

Но если же вашему взору открылась подобная картина:

Если вашим сайтом при этом занимается SEOшники, то начинайте прорабатывать планы по отрыванию им рук, которые растут скорее всего из попы. Начинайте кричать «Аааааа!» и в панике бегать по помещению. Лишним доказательством серьезных проблем будет вот такая картина при нажатии кнопки «Исключенные страницы»:

Обратите внимание на значения пагинации внизу страницы, чем больше число страниц, тем серьезнее проблема. Если в поле «Статус» фигурируют слова «Дубль», «Недостаточно качественная», начинайте рвать волосы, если они конечно у вас есть.

Сказать что это серьезная проблема - не сказать ничего. Как видите у моего подопытного (2500х20) свыше 50 000 страниц исключено по разным причинам. Две недели я буду тупо удалять «плохие ссылки» из индекса. Мне, в такой момент, хочется оторвать руки разработчикам этого гавнасайта.

с месяц назад мне предложили заняться сайтом, который продает запчасти для мобильных устройств. Но это не самый страшный случай. При том, что договор оформляется на два месяца и за эти два месяца я должен повысить им продажи. Там, по моим прикидкам, на удаление мусора ушло бы 40-50 дней (по 500 в день). Пожелал ребятам удачи. Если продажи подрастут, то договор продлевается на более выгодных условиях, если же результата особого нет, я возвращаю деньги заплаченные по договору. Ну-ну... К слову сказать над их сайтом много лет трудились крутые, по их мнению, SEOшники.

Первый шаг: определяем характерные особенности «мусорных» ссылок

Если мы говорим о проблеме вызванной фильтрацией, то это как правило набор параметров после знака «?», поскольку именно они делают ссылку «уникальной» при том, что заголовок и содержимое не отличается. Для этого смотрим ссылки из списка исключенных. Если в ссылке из пагинации отсутствуют явные признаки типа ?page=4 или /page/3, например так /blog/3, то в этом случае не обойтись без хирургического вмешательства, директивами в robiots.txt закрыть от индексации будет невозможно. Второй, по популярности, причиной являются страницы пагинации, но избавиться от них иногда сложно из-за некоторых технических особенностей.

Все ссылки с параметрами являются бесполезными и их все смело можно скрыть от индексации. В случае с моим подопытным все довольно просто. Остается только понять их ключевые признаки.

  • /catalog/dveri-iz-massiva?158=***
  • /mezhkomnatnye-dveri?sort=price&162=***
  • /catalog/stalnye-dveri/torex?156=***
  • /catalog/mezhkomnatnye-dveri?162=***&161=***
  • /products?page=23
  • /catalog/mezhkomnatnye-dveri/sibir-profil?162=***&sort=name
  • /catalog/dveri-s-plenkoj-pvh/?162=***

Если бы разработчики этого гамнадвижка были бы сообразительнее, то сделали бы набор параметров массивом:

  • /catalog/mezhkomnatnye-dveri/sibir-profil?filter[162]=***&filter[sort]=name

Или каждый параметр сопроводили бы префиксом:

  • /catalog/mezhkomnatnye-dveri/sibir-profil?filter_162=***&filter_sort=name

Но поскольку криворукие программисты, коих процентов 80 от общего числа, забили в принципе на все, что связано с индексацией и прочими бесполезными вещами, то мне пришлось в robots.txt перечислять все возможные параметры. В обоих случая можно было бы прикрыть все страницы одной директивой «Disalow: *filter*». Конечно я мог залезть в код и внести необходимые коррективы, но любое вмешательство может привести к непредвиденным последствиям. Хорошо, что их в принципе не так много.

В конечном счете получился примерно вот такой список директив:

  • Disallow: *sort=*
  • Disallow: *page=*
  • Disallow: *153=*
  • Disallow: *154=*
  • Disallow: *155=*
  • Disallow: *156=*

Там в самом низу есть поле, копируем туда ссылку и жмем кнопку «Проверить». Проверить правильность работы директив можно проверить на странице «Инструменты -> Анализ robots.txt».

Результат проверки разрешения URL

Если в колонке «Результат» мы видим параметр директивы красного цвета - ссылка запрещена, а если мы видим зеленую галку, то данная ссылка не запрещена файлом robots.txt.

Как-то в попытках убрать «хвосты» после переноса сайта с WIX, я закрыл от индексации весь сайт. Главное тут не натворить делов и не закрыть от индексации важные страницы. Приятным бонусом было то, что «хвосты» таки отвалились.

Второй шаг: удаление «мусора»

Первый вариант может затянуться на месяцы, а то и год-два, если количество ссылок очень большое. Тут у нас два пути, первый - забить на это и ждать пока Яндекс сам повыкидывает все из индекса, второй - ускорить этот процесс и вручную по удалять ссылки. Единственный минус - это ограничение количества удаляемых URL в количестве 500 штук. Второй вариант тоже не самый быстрый, но он быстрее первого.

Дальше нам остается только вырезать из этого файла ссылки и вставлять их в поле для удаления. Поскольку вручную сидеть и копипастить ссылки из раздела «Страницы в поиске» в поле для удаления ссылок то ещё занятие, то для этих целей я запилил простенький скрипт, который выворачивает практически весь индекс из поиска Яндекса и на основе указанных параметров выдергивает нужные нам ссылки и складывает их в файлик.

Только после этого он будет готов к работе. Но и в этом случае есть одно «но», скрипт работает на основе Яндекс XML и перед использованием скрпита необходимо со своего аккаунта в Яндекс настроить этот сервис, получить ключ и вставить его в скрипт. Ключ необходимо скопировать из ссылки, которая указана в верхней части страницы с настройками.

Необходимо убедиться что лимит запросов к сервису достаточно велик. Обратите внимание на лимиты, прежде чем приступать к работе со скриптом. Ни в коем случае не запускайте скрипт на хостинге, ничего хорошего это не даст.

Получив файл со списком ссылок, нам остается только раз в день открывать Яндекс.Вебмастер и Google Console, и в разделах «Удаление URL» копипастить ссылки пачками.

Скрипт тут: https://yadi.sk/d/d3IRM_vv3ZQkww

Если есть вопросы, пишите мне в вк или на мыло.

S. P. Как пример сайт buldoors.ru, из 17к страниц в индексе, мусорных у него всего 60+. Больше всего повезло обладателям сайтов (интернет-магазинам) на Битриксе, поскольку там разработчики отличаются большей сообразительностью и там уже искаропки идет robots.txt заполненный как надо. Казалось бы можно расслабиться, но увы, большое количество страниц говорит явно о каких-то проблемах, выяснение которых требует более глубокого анализа.


Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

В лаборатории впервые вырастили ткани пищевода

Именно поэтому развитие такого направления, как регенеративная медицина, является крайне важным. Несмотря на довольно высокую способность нашего организма к регенерации, с некоторыми повреждениями справиться мы все-таки не в состоянии. И недавно группа американских исследователей из Медицинского центра детской больницы Цинциннати ...

От таблиц и «кислотных» расцветок до адаптивного и плоского дизайна: как изменялся внешний вид интернета

Хронология развития веб-дизайна и браузеров. В закладки Поделиться 1991 год — создание World Wide Web Первый веб-сайт CERN запустился в ноябре 1992 года, он был полностью текстовым, синим цветом выделялись гиперссылки. 6 августа 1991 года в новостной группе Usenet alt.hypertext ...