Последнее время Google сходит с ума — несмотря на запрет индексации некоторых страниц в robots.txt — упорно их пытается индексировать. В качестве примера можно показать индексацию rss лент комментариев.

Вот как это выглядит на практике:
индексация статей заблокированных в robots.txt
Если открыть проиндексированные url:
google индексирует несмотря на запрет
При этом в robots.txt есть блокировка индексации фидов:
Disallow: */feed

Чем это плохо?
К сожалению после индексации подобные страницы улетают в «сопли» (так называемый дополнительный индекс).
дополнительный индекс в Гугле
Такие страницы тянут ваш сайт вниз, мешая полноценному ранжированию в Гугле.

Откуда взялась проблема?
Если прочитать инструкцию Google по закрытии от индексации, то он рекомендует использовать код для закрытия индексации:

<meta name="robots" content="noindex, nofollow">
Но для RSS лент это не возможно, это формат xml, не очень корректно туда вставлять такие теги. Причем это не основная лента вида site.com/feed , а ленты rss комментариев, которых у меня на сайте нет.

В принципе решить проблему можно просто отключив в WordPress RSS ленты. Для этого ищем плагины в WordPress по слову «disable RSS«

Для меня это решение не подходит, так как мне нельзя блокировать основную RSS и вспомогательные, так как они используются по назначению, в том числе для агрегации в Яндекс Turbo.

Решение проблемы: WordPress плагин

Для решения проблемы я создал плагин, который блокирует RSS ленты комментариев вида:

site.com/category/post/feed
site.com/post/feed
site.com/author/name/feed

Но оставляет RSS ленты вида:
site.com/feed
site.com/feed/turbo/


Что позволяет использовать Яндекс Турбо или другие RSS на сайте.


Что делает плагин ? Он прописывает 301 редиректы с фидов комментариев на посты. В принципе если вам такой вариант не нравится, можно отдавать 404 ошибку, отредактируйте плагин.

После установки я рекомендую дополнительно отредактировать robots.txt и временно удалить строки вида:

Disallow: */feed
У вас код может отличаться, но главное — это запрет на индексацию ленты. Я понимаю, что звучит странно, но вполне существует ситуация, когда Google робот не захочет заново пробовать переиндексировать закрытые страницы, поэтому это и нужно (понимаю что звучит как маразм, но так это и есть).

После этого ожидаем переиндексации, что может занять до несколько недель. Можно помочь с помощью переиндексации, используя API Google Console.
Только после того как Google переиндексирует страницы можно опять закрыть страницы от индексации. Плагин удалять не стоит.

Автор

Senior seo специалист, с 2007 года занимается продвижением сайтов в игровой, финансовой, travel нишах. Специализируется на EEAT, занимается консультированием и seo аудитами. С 2022 года занимается ИИ, эксперт в GEO и AEO, имеет опыт в работе с NLP, NER, много времени посвятил анализу сливов факторов ранжирования от Яндекса и Google.

4 комментария

  1. Полезный материал! Особенно актуально, как вы объясняете нюансы блокировки RSS‑лент комментариев без отключения основной ленты — важно для тех, кто использует её, скажем, для Яндекс.Турбо. А вы проверяли, не остаются ли скрытые ссылки по типу /feed в , которые можно убрать через remove_action? [Удалена реклама платного плагина, я думаю автор может занести денег если хочет статью или рекламу]

    • Евгений Молдовану Ответить

      Ссылки остаются, но проблемы в этом нет, так как отдается 301 редирект.

  2. А если вместо 301-редиректа использовать отдачу HTTP 404 — не уйдёт ли ценность ссылок в Яндекс.Турбо, или это никак не влияет на агрегаторы? Мне важно сохранить фиды в работе, но при этом избежать просачивания лишних URL в индекс. Но автору спасибо за статью и ответы на мои вопросы!

Написать комментарий

Продолжая использовать этот сайт, вы соглашаетесь с использованием cookie-файлов.
Принять
Отказаться
Политика конфиденциальности