Почему Google индексирует ограниченные веб-страницы
Почему Google индексирует ограниченные веб-страницы
Blog Article
Джон Мюллер из Google объяснил, почему Google индексирует блокированные страницы, и почему отчеты Search Console, связанные с этим, можно безопасно пропускать.
Джон Мюллер из Google ответил на вопрос о том, почему Google индексирует страницы, которые запрещены для выполнения обхода с помощью файла robots.txt, и по какой причине можно пропускать соответствующие отчеты Search Console об этих обходах.
Трафик ботов к URL-адресам с параметрами запроса
Человек, задающий вопрос, подтвердил, что боты создают ссылки на несуществующие URL-адреса с параметрами запросов (?q=xyz) на страницы с мета-тегами noindex, которые также закрыты в robots.txt. Вопрос был вызван тем, что Google проходит эти ссылки на страницы, блокируется в robots.txt (не замечая мета-тег noindex), а затем докладывает об этом в Google Search Console как "Индексируется, хотя заблокировано robots.txt."
Человек поинтересовался следующий вопрос:
"Но вот главный вопрос: почему Google индексирует страницы, когда он не может просмотреть содержимое? В чем тут выгода?"
Джон Мюллер из Google подтвердил, что если они не могут обойти страницу, они не могут увидеть мета-тег noindex. Он также сослался на оператор site:search, посоветовав пропускать результаты, потому что "средние" пользователи не видят их.
Он написал:
"Да, вы правы: если мы не можем проникнуть на страницу, мы не можем наблюдать noindex. Тем не менее, если мы не можем рикжаться страницы, для нас там мало что можно индексировать. Так что, хотя вы можете заметить некоторые из этих страниц с помощью целевого запроса site:, средний пользователь их не наблюдает, поэтому я бы не заморачивался. Noindex также действует (без запрета в robots.txt), это просто означает, что URL-адреса будут просматриваться (и попадут в отчет Search Console как 'обойдены/не индексируются' — ни один из этих статусов не вызывает проблем для остальной части сайта). Важно, чтобы вы не делали их доступными для обхода и индексации."
Связанный: Google советует сайтам использовать файл robots.txt для блокировки URL-адресов действий.
Выводы:
1. Ответ Мюллера подтверждает недостатки использования оператора Site:search для диагностических целей. Одной из причин является то, что он не связан с обычным поисковым индексом, это совсем отдельная вещь.
Джон Мюллер из Google прокомментировал оператор site search в 2021 году:
"Короткий ответ заключается в том, что запрос site: не предназначен для всестороннего охвата, а также для диагностических целей.
Запрос site: — это определенный вид поиска, который ограничивает результаты заданным веб-сайтом. Это, по сути, просто слово "site", двоеточие и затем домен веб-сайта.
Этот запрос уменьшает результаты конкретным веб-сайтом. Он не предназначен для того, чтобы быть исчерпывающей сборником всех страниц этого сайта."
Оператор site не отражает индекс поиска Google, что делает его ненадежным для выяснения того, какие страницы Google уже включил в индекс или нет. Как и другие операторы подробного поиска Google, они ненадежны как инструменты для понимания любых вопросов, связанных с тем, как Google распределяет или индексирует контент.
2. Мета-тег noindex без использования robots.txt подходит для таких ситуаций, когда бот составляет ссылки на виртуальные страницы, которые выявляются Googlebot.
Мета-тег noindex на страницах, которые не закрываются в robots.txt, дает возможность Google обойти страницу и понимать директиву noindex, гарантируя, что страница не отобразится в поисковом индексе, что удобно, если цель состоит в том, чтобы не допустить страницу в поисковый индекс Google.
3. URL-адреса с мета-тегом noindex создадут в Search Console запись "обойдены/не индексируются", что не окажет негативного влияния на остальную часть веб-сайта.
Эти записи в Search Console, в контексте страниц, которые целенаправленно заблокированы, лишь указывают на то, что Google обошел страницу, но не включил в индекс. По сути говоря, что это случилось, а не то, что (в этом специфическом контексте) есть что-то, что нужно скорректировать. Эта запись полезна для предупреждения издателей о страницах, которые случайно заблокированы мета-тегом noindex или по какой-либо другой причине, препятствующей индексации страницы. Тогда это стоит изучить.