Главная страница статей --> Хитрости при программировании php, заметки по базам данных

Командный файл поисковиков - Robots.txt

Источник: realcoding.net

В этой краткой статье мы доступно рассматриваем команды robots.txt для поисковых роботов с примерами и советами реализации. Если Вы не знаете, что это такое, но у Вас есть сайт, обязательно прочтите эту статью, возможно, Вы найдете причину того, из-за чего к вам не заходят поисковики или отыщите причину утечки секретной информации

robots.txt - это обычный текстовый файл, наличие которого самым первым проверяют поисковые роботы из-за того, что им, возможно, не придется индексировать этот сайт, а соответственно, его время не будет потеряно зря.

Для этого создадим файл robots.txt и напишем в него:
user-agent: * #Всем поисковым роботам
disallow: / #Запрещено к индексации все (корневая директория)

Но поисковик может обнаружить и другой вариант:
user-agent: * # Всем поисковым роботам
disallow: /temp/ #Запрещена к индексации директория temp
disallow: /virus/ #Запрещена к индексации директория virus

Также поисковой робот может обнаружить и такой вариант:
user-agent: googlebot #Поисковый робот google
disallow: / #Запрещено к индексации все (корневая директория)

И смешанный вариант:
user-agent: googlebot #Поисковый робот google
disallow: / #Запрещено к индексации все (корневая директория)

user-agent: * # Всем поисковым роботам
disallow: /temp/ #Запрещена к индексации директория temp
disallow: /virus/ #Запрещена к индексации директория virus

Теперь давайте рассмотрим первый пример. На мой взгляд, он актуален для тех сайтов, контент которых не должен распространяться с помощью поисковых роботов. Например, закрытый сайт любителей windows 3.11.

В варианте номер 2, как Вы заметили, отключены для индексации две директории, одна с постоянно временной информацией (эдакая свалка) а вторая со злостным вирусом. И первое, и второе не желательно распространять в Интернете, т.к. уже все и так на грани информационного апокалипсиса. Поэтому все, что не для всех, можно отключить. Вторая сторона медали состоит еще и в том, что robots.txt общедоступен и любой может увидеть, что Вы там спрятали (исключили из индексации), какие директории, файлы и загореться желанием заполучить доступ именно к ним. Тем более, если Вы напишите disallow: /virus/1.zip уверен, что найти его после этого не составит труда даже ребенку. А «совсем некоторые» вебмастера упорно продолжают развивать этот медот и вписывать, таким образом, в robots.txt файлы, не подлежащие общественному просмотру.

И в последнем примере мы отключили индексацию для google, а зачем он нам нужен? Может быть, мы любим Рамблер, который по сей день не видит разницы между htm и asp, php и т.д. А google уже обрабатывает команды расширений в robots.txt…

Пример (только для googlebot):
disallow: /temp/*.cgi #Запрещены к индексации все cgi файлы в директории temp
или
disallow: *.cgi #Запрещены к индексации все cgi файлы

Напоследок еще добавлю, что robots.txt нужно размещать в корневой директории (Например: http://www.pcnews.biz/robots.txt), а сайт не имеющий robots.txt возможно будет подвержен не регулярным набегам поисковых ботов.



Похожие статьи:
- Маленькие хитрости JavaScript
- Параметры строки (GET) в Javascript
- Вызываем ветер (скрипты)
- 10 минут для SEO (search engine optimization)
- Защищаем контент сайта
- Генерация Flash на веб-сервере в PHP
- Проверка почтового адреса
- AJA - AJAX без XML
- SSI и общий стиль
- Отправка файлов аттачем
- Как через форму положить файл на сервер
- Поиграем с PHP - "Поле чудес"
- Модульное программирование на PHP или как написать маленький портал


Оглавление | Обсудить на форуме | Главная страница сайта | Карта сайта |

Контакты
Редакция:
[0.001]