Особенности настройки robots.txt
Robots.txt – это файл в текстовом формате, размещённый на сервере, который отвечает за индексацию сайта поисковыми роботами. Основной функцией robots.txt является предоставление или запрет доступа для поисковых систем к файлам или папкам веб-сайта.
Почему важно знать, что такое robots.txt?
- Недостаток знаний о robots.txt и его неправильное использование может негативно повлиять на рейтинг вашего сайта.
- Файл robots.txt контролирует, как поисковые роботы воспринимают ваш сайт.
- Robots.txt указан в нескольких руководствах, предоставленных самим Google.
- Этот файл относится к основными элементами, влияющим на работу всех поисковых систем.
Как проверить, есть ли на сайте файл robots.txt?
Robots.txt можно проверить из любого веб-браузера. Файл должен быть помещён в основную папку каждой веб-страницы, чтобы мы могли определить, есть ли на сайте файл robots.txt или нет. Просто добавьте «robots.txt» в конец вашего доменного имени, как в примере ниже:
www.domen.ru/robots.txt
Если файл существует или является пустым, браузер отобразит его содержимое. Если его не существует, мы получим ошибку 404.
Нужен ли вам файл robots.txt?
Причины, по которым файл robots.txt должен быть на вашем сайте:
- На вашем сайте есть информация, которая не должна индексироваться поисковыми системами.
- Вы используете платные ссылки или объявления, которые требуют специальных инструкций для поисковых роботов.
- Вы пока только создаёте сайт, поэтому вы не хотите, чтобы роботы проиндексировали его неоконченную версию.
- Robots.txt поможет вам следовать рекомендациям, которые публикует Google.
Настройка для WordPress
В этом случае нужно указать, какие директории следует индексировать, а какие нет.
- Значение User-agent: * указывает, что правила действуют для всех поисковых ботов.
- Значение Allow: */uploads разрешает индексирование страниц и файлов в папке uploads.
- Укажите ссылку на карту сайта в формате Sitemap: http://domen.ru/sitemap.xml.
- Значение Host: domen.ru устанавливает главное зеркало сайта.
- Следующие значения закрывают определённые директории:
- Disallow: /cgi-bin – запрет доступа к скриптам;
- Disallow: /feed – запрет доступа к RSS ленте;
- Disallow: /trackback – закрывает доступ к уведомлениям;
- Disallow: ?s= или Disallow: *?s= –ограничивает индексацию страниц поиска;
- Disallow: */page/ – запрет всех видов пагинации.