Google & robot.txt

I

11

IC_

17 августа 2005, 01:13

902

Привет,

Вас наверно уже дастали спрашивать о робот.тхт, но собственно вопрос не совсем о нем...

Вообщем, в роботе.тхт ясно прописано:

User-agent: *

Disallow: /Folder_name/

Никто кроме Гугла, не проиндексировал то что внутри,

Как Гугл это проиндексировал?

Как выбить это из гугл кеша?

В тех файлах нет никакой информации, просто выполняется код(Интеренет магазин), и происходит переадрисация в нужное место.

Это не дорвей, и никак не вредит пользователям, визуально они там же где и были.

Заранее спасибо.

758

Unlock

17 августа 2005, 05:05

#1

Адрес сайта, сюда или в личку.

Есть желание, - тысяча способов; нет желания, - тысяча поводов! /Петр-I/.

V

43

Vertigo

17 августа 2005, 07:05

#2

Тогда надо завести аккаунт в Google Automatic removal - там указываешь путь к robots.txt, и все запрещенные к индексации файлы будут удалены из поисковой базы; больше они точно не будут проиндексированы. У меня тоже была подобная ситуация.

111

Offshore

17 августа 2005, 11:04

#3

Сам недавно с подобным столкнулся.

Дело в том, что гугл не всегда запрашивает роботс, особенно если приходит по ссылке не на индексную страницу.

Скорее всего он эти страницы внес в индекс, но со временем выбросит.

А вообще лучше запрет дублировать в мета-роботс.

257

AiK

17 августа 2005, 11:09

#4

Как Гугл это проиндексировал?

Есть сильное подозрение, что где-то в robos.txt есть ошибка, которую Гугль не желает игнорировать, зато игнорирует всю запись целиком. Такой ошибкой может быть, к примеру, яндексовская директива Host или яховская директива Crawl-delay в общем разделе, а не персональном для конкретного бота.

Кстати, не могу не заметить факта, что в FAQ у Яхи пример даётся именно для бота Slurp, тогда как у Яндекса стоит *.

Все что нужно знать о DDоS-атаках грамотному менеджеру

Google: E-E-A-T не является фактором ранжирования