Мы работаем не только в Моcкве, но и в других городах России:

Продвижение по трафику от 50 копеек за переход. Заказать

Внутренняя оптимизация — robots.txt

Подписаться
Больше интересностей из блога студии SEMANTICA
Получайте эффективные советы по интернет-рекламе и SEO-оптимизации вашего сайта
ВКонтакте:
Facebook:
Twitter:

Для начала хочется ввести в курс и в общих чертах рассказать о понятиях "внутренней оптимизации".

Внутренняя оптимизация- это совокупность действий с целью улучшения индексирования поисковыми системами вашего сайта.

Под действиями для внутренней оптимизации сайта подразумеваются следующие мероприятия, выделим основные:

  • сбор и группировка семантического ядра;
  • работа с мета-тегами;
  • оптимизация контента целевых и нецелевых страниц;
  • формирование файла robots.txt;
  • реализация структурной и анкорной перелинковки.

В нашем блоге вы можете подробнее познакомиться с некоторыми действиями, связанными с внутренней оптимизацией вашего сайта:

В данной статье я хочу рассказать про Robots.txt.

Для разных поисковых систем, роботы, которых изучают интернет-ресурсы (включая ваш сайт), файл robots.txt несет в себе очень существенную информацию. Прежде чем приступить к прохождению по страницам конкретного сайта, любой робот просматривает именно этот файл.

Благодаря существованию файла robots.txt, сканирование сайта проводится более эффективно и качественно. Файл позволяет роботам незамедлительно приступать к конкретной, действительно существенной информации, которая расположена на просторах сайта.

Однако, как и инструкции в текстовом файле robotos.txt, так же и конкретные инструкции noindex в метатеге robots представляют собой только рекомендацию для роботов. Это означает, что они не могут предоставить полную гарантию того, что закрытые странички не будут индексироваться, а также добавляться в индекс.

Рассмотрим ключевые синтаксические единицы на следующем примере:

User-agent: *
Disallow: /wp-admin/
Host: semantica.in
  • User-Agent: это робот по отношению к которому будут использованы конкретные правила (к примеру, Yandex). Зная значения User-Agent, можно наложить запрет, либо дать доступ одному из существующих роботов.
  • Disallow: так будут помечены страницы, к которым будет закрыт доступ. Если таких страниц много, можно указать длинный список директив, но каждый начинать с новой строчки.
  • Хэш: символ, который изображается (#) нужен для добавления заметок в файл robots.txt. Любые отметки, указанные после хэша, будут полностью игнорироваться. Любые комментарии могут быть введены как для целой строчки, так и для строчки после всех директив.
  • Host: необходим для помощи определения Яндексом зеркала сайта. Если владелец 2 сайтов хочет их склеить и выполнить постраничный 301 редирект, для robot txt не нужно делать редирект дублирующего сайта. Это необходимо для того, чтобы поисковик Яндекса смог увидеть конкретную директиву непосредственно на сайте, который следует склеивать.

Все группы User-Agent / Disallow следует поделить пустыми строчками. Важно, чтобы пустые строчки не находились в пределах группы (между User-Agent и завершающей директивой Disallow).

По стандарту robots.txt и нечувствителен к регистру, но имена файлов и директорий реагируют на регистр.

Crawl-delay позволяет ограничивать скорости обходов сайтов. Это существенно важно в тех случаях, если на ресурсе очень высокая посещаемость, оказываемая нагрузка на сервер состороны всевозможных поисковых роботов может стать веской причиной появления существенных проблем.

Для осуществления гибких настроек директив могут также быть использованы следующие символы:
* (звездочка) — представлено любое последовательное использование символов
$ (значок доллара) — используется для отметки конца строки.

Применения файла robots.txt

Данная инструкция в robots.txt позволяет закрыть индексацию вашего ресурса:

User-agent: *
Disallow: /

Многие разработчики забывают закрывать сайт от индексации, и в итоге получается полная проиндексированная копия сайта в поисковиках. Если такая ситуация случилась с вашим сайтом, сделайте 301 постраничный редирект на основной домен сайта.
Конструкция, представленная ниже, позволяет индексировать сайт полностью:

User-agent: *
Disallow:

Запрет будет введен на индексацию конкретной папки или группы папок.

User-agent: *
Disallow: /category/

Запрет будет действовать для посещения страниц.

User-agent: *
Disallow: /category/private.html

Запрет будет введен на индексацию файлов конкретного типа.

User-agent: *
Disallow: /*.gif$

Указание Sitemap

User-agent: *
Disallow:
Sitemap: //semantica.in/sitemap.xml

Robots.txt VS noindex?

Если цель ваша в том, чтобы выбранная страничка не попадала в индекс, то выбрать следует noindex в метатеге robots. Для того, чтобы выполнить данный выбор, на страничке в секции следует включить следующий метатег:

<meta name="robots" content="noindex"/>

Проверка работы файла robots.txt

После того как вами был правильно создан файл robots.txt, следует проверить его на отсутствие ошибок. Для осуществления этой задачи необходимо использовать инструменты проверок от поисковиков: Google Вебмастерс. Войдите в свой аккаунт, предварительно подтвердив на нем текущий сайт,  перейдите на сканирование, а далее в Инструмент, проверяющий файл robots.txt.

google-check-robots

Для использования Яндекс Вебмастера нужно пройти по ссылке: http://webmaster.yandex.ru/robots.xml.

yandex-check-robots

Здесь не обязательно авторизовываться, а также подтверждать свои персональные права на обладание сайтом. Можно сразу перейти к процессу проверок файла robots.txt.

Правильное содержание файла robots.txt - это один из главных пунктов в вопросах внутренней оптимизации вашего сайта, а также при старте поисковых продвижений.

Может пригодиться: продвижение сайта банка - лучшие предложения
Задать вопрос по статье
Подпишись на нашу группу в VK и получай экспертные статьи прямо в ленту!

Мы работаем не только в Моcкве, но и в других городах России: