Аудит

Настройка robots.txt для HTML-сайтов без CMS

Время чтения - 5 мин
Количество прочтений
600
Дата публикации —
2 сентября 2025
robots.txt – текстовый файл, расположенный в корневой директории сайта, который говорит поисковым системам (далее ПС) о том, какие файлы и папки нельзя сканировать (посещать их). С его помощью можно запретить обход всего сайта, отдельных страниц или файлов.

Главное отличие robots.txt для HTML-сайтов в том, что они часто разворачиваются на чистом хостинге, без CMS, и не имеют стандартных директорий вроде /wp-admin/, /wp-content/ и прочего. Поэтому и логика составления файла здесь иная — упор делается не на системные папки, а на реальные HTML-файлы, которые лежат в корне.

Такой robots.txt отлично подойдет, если вы поднимаете дроп-домен под HTML-структуру — без CMS и без лишних зависимостей. Я нередко настраиваю подобные проекты для ускоренного продвижения сайтов, и всегда держу шаблон под рукой. Если вы разместили дроп-домен на WordPress, то вам будет нужен robots.txt для wordpress, он заточен под особенности CMS и защищает её уязвимые части.

Зачем нужен robots.txt для HTML-сайтов

Многие опытные вебмастера скажут:
"А зачем вообще robots.txt для HTML-сайта? Он же дубли не генерирует."
Скриншот из форума
И действительно HTML-сайт сам по себе не создает дубли — в нем нет шаблонов, динамики, фильтров, как у CMS. Каждая страница — это отдельный .html-файл. Однако есть внешняя генерация дублей через GET-параметры, которую нельзя игнорировать. Когда на сайт начинают вести ссылки с рекламных систем, крауд-площадок или из соцсетей, появляются URL с хвостами вроде:
  • ?utm_source=yandex&utm_medium=cpc
  • ?yclid=123456
  • ?from=partner
В глазах поисковых систем это отдельные страницы, хотя по факту — это один и тот же контент.
SEO-специалист Андрей Павлович
💬 Из практики
Я не раз видел, как из-за попадания таких URL в индекс основная страница теряла позиции — вылетала из ТОП-10. Это критическая ошибка, особенно при продвижении под ВЧ.
Поэтому задача файла robots.txt для HTML-сайта — оставить доступным только нужное и заранее исключить возможные дубли, которые генерируются внешними системами.

Как создать файл robots.txt

1. Создайте обычный текстовый документ (с окончанием .txt);
2. Назовите его "robots" и нажмите Enter (в результате у вас должен получиться файл вида robots.txt);
robots.txt
3. В данный файл скопируйте и вставьте правила, которые прописаны ниже ⏬
4. Загрузите готовый файл в корень сайта.

«Помните, что файл должен называться именно robots.txt, иначе поисковые системы его не распознают и не смогут использовать указанные инструкции»

Подробный файл (отдельные правила для Google и Яндекс)

# podrobnee o fajle mozhno uznat tut - https://seo-personal.ru/blog/robots-txt-dlya-html-sajtov-bez-cms/
User-agent: *                      # Общие правила для всех роботов, кроме тех, которые указаны ниже
Disallow: */feed                   # все фиды (нужны больше для Яндекс)
Disallow: */rss                    # rss фид (нужны больше для Яндекс)
Disallow: *product_view=
Disallow: *yandex-source=
Disallow: *escaped_fragment
Disallow: *debug=
Disallow: *semalt_com
Disallow: *back=
Disallow: *page_id=
Disallow: *type=                   # Страницы с типами статей
Disallow: *unapproved=
Disallow: *customize_changeset*
Disallow: */trackback       	   # трекбеки, уведомления в комментариях о появлении открытой ссылки на статью
Disallow: *v=
Disallow: /*attribute*
Disallow: *openstat=               # Закрывает страницы с метками Openstat
Disallow: *ref=                    # Реферальные ссылки
Disallow: *utm*=                   # Ссылки с utm-метками
Disallow: *etext=                  # Рекламная метка
Disallow: *fbclid=                 # UML-метка (переходы на страницу из Facebook)
Disallow: *source=
Disallow: /*from*
Disallow: /*gclid*                 # Ссылки с метками
Disallow: /*yclid*                 # Ссылки с метками
Disallow: *action=
Disallow: /*do=
Disallow: */amp                    # Закрываем все AMP страницы (нужны только для Google)
Disallow: *amp=                    # Закрытие 2-го варианта реализации AMP страниц

User-agent: GoogleBot              #Правила только для робота Google
Disallow: */feed
Disallow: */rss
Disallow: *product_view=
Disallow: *yandex-source=
Disallow: *escaped_fragment
Disallow: *debug=
Disallow: *semalt_com
Disallow: *back=
Disallow: *page_id=
Disallow: *type=
Disallow: *unapproved=
Disallow: *customize_changeset*
Disallow: */trackback
Disallow: *v=
Disallow: /*attribute*
Disallow: *openstat=
Disallow: *ref=
Disallow: *utm*=
Disallow: *etext=
Disallow: *fbclid=
Disallow: *source=
Disallow: /*from*
Disallow: /*gclid*
Disallow: /*yclid*
Disallow: *action=
Disallow: /*do=
Allow: */amp                       #Разрешаем гуглу сканировать AMP страницы
Allow: *amp=

User-agent: Yandex                  #Правила только для робота Яндекс
Disallow: *product_view=
Disallow: *yandex-source=
Disallow: *escaped_fragment
Disallow: *debug=
Disallow: *semalt_com
Disallow: *back=
Disallow: *page_id=
Disallow: *type=
Disallow: *unapproved=
Disallow: *customize_changeset*
Disallow: */trackback
Disallow: *v=
Disallow: /*attribute*
Disallow: *openstat=
Disallow: *ref=
Disallow: *utm*=
Disallow: *etext=
Disallow: *fbclid=
Disallow: *source=
Disallow: /*from*
Disallow: /*gclid*
Disallow: /*yclid*
Disallow: *action=
Disallow: /*do=
Disallow: */amp
Disallow: *amp=

Sitemap: https://site.com/sitemap.xml       # Укажите ссылку на вашу карту сайта в формате xml
Проблема
Хочу, чтобы SEO приносило заявки, а не пустые отчеты.
Решение
Без стратегии продвижение только забирает деньги и теряет смысл. SEO-консультация поможет навести порядок и сделать сайт источником продаж.
Шаблон — он на то и шаблон, чтобы закрыть самые частые ошибки, которые я регулярно встречаю при SEO-аудитах HTML-сайтов. Это не универсальное решение, а рабочая база, проверенная на десятках проектов. Он помогает избежать дублей от utm-меток, рекламных ссылок, мусорных параметров — всего того, что незаметно "съедает" позиции.

Вы должны понимать, что у каждого сайта свои особенности. У кого-то HTML-страницы лежат в подпапках, кто-то использует редиректы, кто-то вставляет рекламные ссылки напрямую в код. Поэтому, если нужна точная настройка robots.txt под ваш проект, лучше:

  • обратиться за SEO консультацией к специалисту, который учтёт все нюансы и цели продвижения;
  • либо вникнуть в тему глубже, потратить время, разобраться в директивах и логике работы поисковых ботов.

Я просто делюсь тем, что работает у меня, и помогает запускать проекты быстрее, без потери позиций из-за технической чепухи. Но ваша стратегия — это всегда ваш выбор.

Не допускайте эти ошибки!

Встречал роботсы в которых было сразу два User-Agent: *. Ошибка заключается в том, что поисковые роботы не понимают какому правилу следовать и могут и вовсе игнорировать ваш файл. Обычно такая ошибка сразу показывается в Яндекс Вебмастер, поэтому её сложно упустить.

Еще статьи по данной теме:

Made on
Tilda