Google & robot.txt

I
На сайте с 31.05.2005
Offline
11
IC_
902

Привет,

Вас наверно уже дастали спрашивать о робот.тхт, но собственно вопрос не совсем о нем...

Вообщем, в роботе.тхт ясно прописано:

User-agent: *

Disallow: /Folder_name/

Никто кроме Гугла, не проиндексировал то что внутри,

Как Гугл это проиндексировал?

Как выбить это из гугл кеша?

В тех файлах нет никакой информации, просто выполняется код(Интеренет магазин), и происходит переадрисация в нужное место.

Это не дорвей, и никак не вредит пользователям, визуально они там же где и были.

Заранее спасибо.

Unlock
На сайте с 01.08.2004
Offline
758
#1

Адрес сайта, сюда или в личку.

Есть желание, - тысяча способов; нет желания, - тысяча поводов! /Петр-I/.
V
На сайте с 22.09.2004
Offline
43
#2

Тогда надо завести аккаунт в Google Automatic removal - там указываешь путь к robots.txt, и все запрещенные к индексации файлы будут удалены из поисковой базы; больше они точно не будут проиндексированы. У меня тоже была подобная ситуация.

Offshore
На сайте с 24.09.2003
Offline
111
#3

Сам недавно с подобным столкнулся.

Дело в том, что гугл не всегда запрашивает роботс, особенно если приходит по ссылке не на индексную страницу.

Скорее всего он эти страницы внес в индекс, но со временем выбросит.

А вообще лучше запрет дублировать в мета-роботс.

AiK
На сайте с 27.10.2000
Offline
257
AiK
#4

Как Гугл это проиндексировал?

Есть сильное подозрение, что где-то в robos.txt есть ошибка, которую Гугль не желает игнорировать, зато игнорирует всю запись целиком. Такой ошибкой может быть, к примеру, яндексовская директива Host или яховская директива Crawl-delay в общем разделе, а не персональном для конкретного бота.

Кстати, не могу не заметить факта, что в FAQ у Яхи пример даётся именно для бота Slurp, тогда как у Яндекса стоит *.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий