Главная » Hi-Tech » Проверяем сайт на «вшивость»

Проверяем сайт на «вшивость»

Я попробую дать если не исчерпывающую инструкцию, то хотя бы ряд советов, которые позволят осуществить проверку и при необходимости устранить проблему. Не буду пичкать вас теорией ибо непосредственно ей посвящены тысячи статей, но мало где даются более-менее практические советы. После проведения «санитарных» работ, качество ресурса в «глазах» поисковиков существенно повысится и это скажется на позициях в поиске.

Если Google как-то брезгует мусором, то Яндекс менее привередлив и индексирует очень много некачественных страниц. Проблема, о которой пойдет речь, заключается в наличии некачественных страниц в индексе поисковых систем. Последнее время мне стали чаще попадаться сайты, у которых количество мусорных страниц превышает количество полезных в десятки, в сотни, а то и в тысячи раз. Данной проблемой страдают в особенности старые сайты, работающие на старых CMS. В большинстве случаев эти сайты - интернет-магазины, ибо благодаря фильтрам каталога товаров сайт превращается в генератор дублей и малоинформативных страниц, особенно если владелец или разработчик не удосужились заполнить robots.txt и закрыть от индексации хотя бы очевидные моменты.

Беглый осмотр

Нам необходимо пройти на страницу «Страницы в поиске». Для того, чтобы определить наличие проблемы и её масштаб, нам потребуется заглянуть в Яндекс Вебмастер.

Крутим колесиком и под графиком жмем кнопку «Исключенные страницы». Если вас встретила картина как на изображении выше, то в принципе пока нет причин паниковать.

Как видите некоторые проблемы есть и у меня, вызвано это утратой директивы запрещающей индексацию загруженных файлов.

Полное отсутствие проблем можно констатировать только после глубокого анализа сайта, но это уже есть смысл доверить профессионалам в области SEO. Если в колонке «Статус» фигурируют «Редирект», «Ошибка 404», «Запрешщено тем-то», то можете спать спокойно, у вашего сайта нет серьезных проблем.

Но если же вашему взору открылась подобная картина:

Если вашим сайтом при этом занимается SEOшники, то начинайте прорабатывать планы по отрыванию им рук, которые растут скорее всего из попы. Начинайте кричать «Аааааа!» и в панике бегать по помещению. Лишним доказательством серьезных проблем будет вот такая картина при нажатии кнопки «Исключенные страницы»:

Обратите внимание на значения пагинации внизу страницы, чем больше число страниц, тем серьезнее проблема. Если в поле «Статус» фигурируют слова «Дубль», «Недостаточно качественная», начинайте рвать волосы, если они конечно у вас есть.

Сказать что это серьезная проблема - не сказать ничего. Как видите у моего подопытного (2500х20) свыше 50 000 страниц исключено по разным причинам. Две недели я буду тупо удалять «плохие ссылки» из индекса. Мне, в такой момент, хочется оторвать руки разработчикам этого гавнасайта.

с месяц назад мне предложили заняться сайтом, который продает запчасти для мобильных устройств. Но это не самый страшный случай. При том, что договор оформляется на два месяца и за эти два месяца я должен повысить им продажи. Там, по моим прикидкам, на удаление мусора ушло бы 40-50 дней (по 500 в день). Пожелал ребятам удачи. Если продажи подрастут, то договор продлевается на более выгодных условиях, если же результата особого нет, я возвращаю деньги заплаченные по договору. Ну-ну... К слову сказать над их сайтом много лет трудились крутые, по их мнению, SEOшники.

Первый шаг: определяем характерные особенности «мусорных» ссылок

Если мы говорим о проблеме вызванной фильтрацией, то это как правило набор параметров после знака «?», поскольку именно они делают ссылку «уникальной» при том, что заголовок и содержимое не отличается. Для этого смотрим ссылки из списка исключенных. Если в ссылке из пагинации отсутствуют явные признаки типа ?page=4 или /page/3, например так /blog/3, то в этом случае не обойтись без хирургического вмешательства, директивами в robiots.txt закрыть от индексации будет невозможно. Второй, по популярности, причиной являются страницы пагинации, но избавиться от них иногда сложно из-за некоторых технических особенностей.

Все ссылки с параметрами являются бесполезными и их все смело можно скрыть от индексации. В случае с моим подопытным все довольно просто. Остается только понять их ключевые признаки.

  • /catalog/dveri-iz-massiva?158=***
  • /mezhkomnatnye-dveri?sort=price&162=***
  • /catalog/stalnye-dveri/torex?156=***
  • /catalog/mezhkomnatnye-dveri?162=***&161=***
  • /products?page=23
  • /catalog/mezhkomnatnye-dveri/sibir-profil?162=***&sort=name
  • /catalog/dveri-s-plenkoj-pvh/?162=***

Если бы разработчики этого гамнадвижка были бы сообразительнее, то сделали бы набор параметров массивом:

  • /catalog/mezhkomnatnye-dveri/sibir-profil?filter[162]=***&filter[sort]=name

Или каждый параметр сопроводили бы префиксом:

  • /catalog/mezhkomnatnye-dveri/sibir-profil?filter_162=***&filter_sort=name

Но поскольку криворукие программисты, коих процентов 80 от общего числа, забили в принципе на все, что связано с индексацией и прочими бесполезными вещами, то мне пришлось в robots.txt перечислять все возможные параметры. В обоих случая можно было бы прикрыть все страницы одной директивой «Disalow: *filter*». Конечно я мог залезть в код и внести необходимые коррективы, но любое вмешательство может привести к непредвиденным последствиям. Хорошо, что их в принципе не так много.

В конечном счете получился примерно вот такой список директив:

  • Disallow: *sort=*
  • Disallow: *page=*
  • Disallow: *153=*
  • Disallow: *154=*
  • Disallow: *155=*
  • Disallow: *156=*

Там в самом низу есть поле, копируем туда ссылку и жмем кнопку «Проверить». Проверить правильность работы директив можно проверить на странице «Инструменты -> Анализ robots.txt».

Результат проверки разрешения URL

Если в колонке «Результат» мы видим параметр директивы красного цвета - ссылка запрещена, а если мы видим зеленую галку, то данная ссылка не запрещена файлом robots.txt.

Как-то в попытках убрать «хвосты» после переноса сайта с WIX, я закрыл от индексации весь сайт. Главное тут не натворить делов и не закрыть от индексации важные страницы. Приятным бонусом было то, что «хвосты» таки отвалились.

Второй шаг: удаление «мусора»

Первый вариант может затянуться на месяцы, а то и год-два, если количество ссылок очень большое. Тут у нас два пути, первый - забить на это и ждать пока Яндекс сам повыкидывает все из индекса, второй - ускорить этот процесс и вручную по удалять ссылки. Единственный минус - это ограничение количества удаляемых URL в количестве 500 штук. Второй вариант тоже не самый быстрый, но он быстрее первого.

Дальше нам остается только вырезать из этого файла ссылки и вставлять их в поле для удаления. Поскольку вручную сидеть и копипастить ссылки из раздела «Страницы в поиске» в поле для удаления ссылок то ещё занятие, то для этих целей я запилил простенький скрипт, который выворачивает практически весь индекс из поиска Яндекса и на основе указанных параметров выдергивает нужные нам ссылки и складывает их в файлик.

Только после этого он будет готов к работе. Но и в этом случае есть одно «но», скрипт работает на основе Яндекс XML и перед использованием скрпита необходимо со своего аккаунта в Яндекс настроить этот сервис, получить ключ и вставить его в скрипт. Ключ необходимо скопировать из ссылки, которая указана в верхней части страницы с настройками.

Необходимо убедиться что лимит запросов к сервису достаточно велик. Обратите внимание на лимиты, прежде чем приступать к работе со скриптом. Ни в коем случае не запускайте скрипт на хостинге, ничего хорошего это не даст.

Получив файл со списком ссылок, нам остается только раз в день открывать Яндекс.Вебмастер и Google Console, и в разделах «Удаление URL» копипастить ссылки пачками.

Скрипт тут: https://yadi.sk/d/d3IRM_vv3ZQkww

Если есть вопросы, пишите мне в вк или на мыло.

S. P. Как пример сайт buldoors.ru, из 17к страниц в индексе, мусорных у него всего 60+. Больше всего повезло обладателям сайтов (интернет-магазинам) на Битриксе, поскольку там разработчики отличаются большей сообразительностью и там уже искаропки идет robots.txt заполненный как надо. Казалось бы можно расслабиться, но увы, большое количество страниц говорит явно о каких-то проблемах, выяснение которых требует более глубокого анализа.


Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

SpaceX решила не добавлять возможность повторного использования ко второй ступени ракеты Falcon 9

SpaceX решила не добавлять возможность повторного использования ко второй ступени ракеты Falcon 9 — Транспорт на vc.ru Свежее Вакансии… Написать Уведомлений пока нет Пишите хорошие статьи, комментируйте,и здесь станет не так пусто Войти Вместо этого компания ускорит производство ракеты BFR. ...

«Новички задают похожие вопросы и отвлекают коллег»: стартап формирует базу знаний для ИТ-команд из переписок в Slack

Материал издания об информационных технологиях в Беларуси и в мире dev.by. В закладки При этом он до сих пор каждый день пишет код, потому что ему это нравится. 29-летний разработчик и ИТ-предприниматель Андрей Фан ни дня не трудился по найму: ...