Screaming Frog не парсит сайт - решаем проблему

Количество прочтений
4112
Дата публикации —
26 февраля 2024

Введение

Если Screaming Frog не начинает парсить сайт и забирает только одну страницу (как правило главную), показывающую код ответа 0, 403, 307 и парсинг останавливается, показывая 100%, то вы столкнулись проблемами, варианты решения которых находятся ниже ⏬

Причина №1 - User-agent Screaming Frog запрещено сканирование

Скриминг фрог подчиняется правилам robots.txt, поэтому если его User-agent заблокирован, то парсинг не начнется. Чтобы обойти данное правило переходим в раздел Configuration → User-Agent
Configuration User-Agent
Напротив пункта Preset User-Agents выберите любого другого поискового робота, который точно не будет заблокирован.
Googlebot desktop
Я обычно выбираю Googlebot Desktop или Smartphone
Нажимаем OK, чтобы настройки применились и запускаем сканирование. Если проблема сохранилась, то переходим к следующему шагу ⏬

Причина №2 - Сайт закрыт от индексации или сканирования

Одна из самых частых проблем сканирования является блокировка сканирования сайта в файле robots.txt или попытка просканировать закрытый от индексации сайт в результате чего вы видите ошибку blocked by robots txt. Ранее я подробно рассказывал как решить эту проблему в одном из видео ⏬

«Так как интерфейс программы на момент 2024 года немного поменялся, то я решил записать подробную инструкцию в текстовом формате с скриншотами.»


Если сайт закрыт для сканирования/индексации, то наша задача заключается в том, чтобы разрешить краулеру заходить на такие страницы, для этого:

1. Переходим в настройки краулинга Configuration → Spider → Crawl
configuration spider crawl
2. Ставим галочку в разделе Follow Internal "nofollow"
Данная функция разрешает программе сканировать все страницы, которые содержат атрибут nofollow
3. Молодец, осталось только открыть сайт в robots.txt. Напомню, что этот файл отвечает именно за сканирование, поэтому если не разрешить лягушке игнорировать данный файл, то парсинг может не начаться.

Оставаясь в настройках сканирования переходим в раздел Robots.txt → Выбираем пункт "Ignore robots.txt but report status"
Опция разрешает программе игнорировать правила в файле robots.txt и показывать вам какие именно страницы были закрыты в robots.
Ignore robots.txt but report status
Нажимаем OK, чтобы настройки применились и запускаем сканирование заново. Если проблема сохранилась, то переходим к следующему методу ⏬

Причина №3 - У сайта установлена защита

В связи с массовой накруткой поведенческих факторов и увеличением числа ботного трафика многие сайты ставят защиту, которая мешает сканированию сайта. Существуют и другие защиты, которые требуют входа в систему с использованием файлов cookie. Такая защита также легко обходится.

  1. Переходим в раздел Configuration → Authentication → Form Based
Configuration Authentication Form Based
2. Нажимаем "+ Add" → вводим URL-адрес сайта, который хотим сканировать → Нажимаем OK
3. Откроется всплывающее окно, в котором отобразится сайт
Опция позволяет вам войти на сайт во встроенном браузере Chromium SEO Spider, получить файлы cookie, а затем сканировать его. Если открывшийся сайт защищен паролем, то изучите данную инструкцию.

Если всё прошло гладко, то нажимаем OK и пробуем запустить сканирование.
парсинг
Остались вопросы?
Оставьте свой номер телефона и я отвечу на все вопросы
Нажимая на кнопку, вы даете согласие на обработку своих персональных данных и соглашаетесь с политикой конфиденциальности

Еще статьи по данной теме:

В статье я описал самые банальные и бесплатные, но нужные сервисы. Постепенно опускаясь вниз вы будите видеть более дорогие, но классные сервисы.
Чем занимается SEO-специалист, уровни заработной платы, необходимые навыки и карьерные перспективы, которых можно достичь. Узнайте с чего начать освоение профессии
Сегодня мы с вами проверим скорость все страниц на сайте с помощью программы Screaming Frog.
Made on
Tilda