Screaming Frog не парсит сайт - решаем проблему

Время чтения - 10 мин
Количество прочтений
9172
Дата редактирования —
24 сентября 2024

Введение

Если Screaming Frog не начинает парсить сайт и забирает только одну страницу (как правило главную), показывающую код ответа 0, 403, 307 и парсинг останавливается, показывая 100%, то вы столкнулись проблемами, варианты решения которых находятся ниже ⏬

Я лично протестировал и использую все эти методы в работе. Метод №4 наиболее эффективен, но к нему стоит обращаться только после того, как были опробованы предыдущие способы.

Причина №1 - User-agent Screaming Frog запрещено сканирование

Скриминг фрог подчиняется правилам robots.txt, поэтому если его User-agent заблокирован, то парсинг не начнется. Чтобы обойти данное правило переходим в раздел Configuration → User-Agent
Configuration User-Agent
Напротив пункта Preset User-Agents выберите любого другого поискового робота, который точно не будет заблокирован.
Googlebot desktop
Я обычно выбираю Googlebot Desktop или Smartphone
Нажимаем OK, чтобы настройки применились и запускаем сканирование. Если проблема сохранилась, то переходим к следующему шагу ⏬

Причина №2 - Сайт закрыт от индексации или сканирования

Одна из самых частых проблем сканирования является блокировка сканирования сайта в файле robots.txt или попытка просканировать закрытый от индексации сайт в результате чего вы видите ошибку blocked by robots txt. Ранее я подробно рассказывал как решить эту проблему в одном из видео ⏬

«Так как интерфейс программы на момент 2024 года немного поменялся, то я решил записать подробную инструкцию в текстовом формате с скриншотами.»


Если сайт закрыт для сканирования/индексации, то наша задача заключается в том, чтобы разрешить краулеру заходить на такие страницы, для этого:

1. Переходим в настройки краулинга Configuration → Spider → Crawl
configuration spider crawl
2. Ставим галочку в разделе Follow Internal "nofollow"
Данная функция разрешает программе сканировать все страницы, которые содержат атрибут nofollow
3. Молодец, осталось только открыть сайт в robots.txt. Напомню, что этот файл отвечает именно за сканирование, поэтому если не разрешить лягушке игнорировать данный файл, то парсинг может не начаться.

Оставаясь в настройках сканирования переходим в раздел Robots.txt → Выбираем пункт "Ignore robots.txt but report status"
Опция разрешает программе игнорировать правила в файле robots.txt и показывать вам какие именно страницы были закрыты в robots.
Ignore robots.txt but report status
Нажимаем OK, чтобы настройки применились и запускаем сканирование заново. Если проблема сохранилась, то переходим к следующему методу ⏬

Причина №3 - У сайта установлена защита

В связи с массовой накруткой поведенческих факторов и увеличением числа ботного трафика многие сайты ставят защиту, которая мешает сканированию сайта. Существуют и другие защиты, которые требуют входа в систему с использованием файлов cookie. Такая защита также легко обходится.

  1. Переходим в раздел Configuration → Authentication → Form Based
Configuration Authentication Form Based
2. Нажимаем "+ Add" → вводим URL-адрес сайта, который хотим сканировать → Нажимаем OK
3. Откроется всплывающее окно, в котором отобразится сайт
Опция позволяет вам войти на сайт во встроенном браузере Chromium SEO Spider, получить файлы cookie, а затем сканировать его. Если открывшийся сайт защищен паролем, то изучите данную инструкцию.

Если всё прошло гладко, то нажимаем OK и пробуем запустить сканирование.
парсинг

Метод №4 - Используйте прокси

Если все вышеописанные методы были испробованы, но проблема сохраняется, скорее всего, ваш IP-адрес был заблокирован. В этом случае рекомендуется снизить скорость парсинга, изменить User-Agent и подключить отдельный прокси.

Вы можете как приобрести индивидуальный прокси, так и использовать бесплатные варианты, доступные в сети (хотя их стабильность и функциональность могут быть ограничены). Важно начать с уменьшения скорости парсинга, чтобы избежать блокировки нового IP-адреса. Как изменить User-Agent описано в пункте №1. Далее необходимо уменьшить скорость обхода: перейдите в Configuration → Speed → Установите флажок в разделе "Limit URL/s". В поле Max URL/s задайте значение от 1 до 1,5 и нажмите OK.
Для добавления прокси выполните следующие шаги: перейдите в Licence → Enter Licence, затем откройте Proxy и активируйте опцию Use Proxy Server. Укажите адрес прокси и порт, после чего нажмите OK and Restart и перезапустите программу, чтобы изменения вступили в силу и прокси корректно заработал.

«После добавления прокси он будет применяться и в последующих сканированиях. Если он больше не требуется, очистите поле настроек после использования.»

Завершающим шагом будет повторное выполнение действия из метода №3, где в появившемся окне нужно будет ввести логин и пароль от прокси и убедиться в работоспособности сайта.
Если проблем не возникло, можно смело запускать парсинг сайта. Если что-то не получилось или возникли вопросы, вы всегда можете написать мне в Telegram. Также я открыт для консультаций по более сложным вопросам и готов предложить помощь в рамках наставничества.
Остались вопросы?
Оставьте свой номер телефона и я отвечу на все вопросы
Нажимая на кнопку, вы даете согласие на обработку своих персональных данных и соглашаетесь с политикой конфиденциальности

Еще статьи по данной теме:

Made on
Tilda