Screaming Frog не парсит сайт - решаем проблему

Время чтения - 10 мин

Количество прочтений

9172

Дата редактирования —
24 сентября 2024

Андрей Павлович

Частный SEO-специалист и автор статьи

Введение

Если Screaming Frog не начинает парсить сайт и забирает только одну страницу (как правило главную), показывающую код ответа 0, 403, 307 и парсинг останавливается, показывая 100%, то вы столкнулись проблемами, варианты решения которых находятся ниже ⏬

Я лично протестировал и использую все эти методы в работе. Метод №4 наиболее эффективен, но к нему стоит обращаться только после того, как были опробованы предыдущие способы.

Содержание:
1. User-agent Screaming Frog запрещено сканирование
2. Сайт закрыт от индексации
3. У сайта установлена защита
4. Используем прокси

Причина №1 - User-agent Screaming Frog запрещено сканирование

Скриминг фрог подчиняется правилам robots.txt, поэтому если его User-agent заблокирован, то парсинг не начнется. Чтобы обойти данное правило переходим в раздел Configuration → User-Agent

Напротив пункта Preset User-Agents выберите любого другого поискового робота, который точно не будет заблокирован.

Я обычно выбираю Googlebot Desktop или Smartphone

Нажимаем OK, чтобы настройки применились и запускаем сканирование. Если проблема сохранилась, то переходим к следующему шагу ⏬

Причина №2 - Сайт закрыт от индексации или сканирования

Одна из самых частых проблем сканирования является блокировка сканирования сайта в файле robots.txt или попытка просканировать закрытый от индексации сайт в результате чего вы видите ошибку blocked by robots txt. Ранее я подробно рассказывал как решить эту проблему в одном из видео ⏬

«Так как интерфейс программы на момент 2024 года немного поменялся, то я решил записать подробную инструкцию в текстовом формате с скриншотами.»

Если сайт закрыт для сканирования/индексации, то наша задача заключается в том, чтобы разрешить краулеру заходить на такие страницы, для этого:

1. Переходим в настройки краулинга Configuration → Spider → Crawl

2. Ставим галочку в разделе Follow Internal "nofollow"
Данная функция разрешает программе сканировать все страницы, которые содержат атрибут nofollow

3. Молодец, осталось только открыть сайт в robots.txt. Напомню, что этот файл отвечает именно за сканирование, поэтому если не разрешить лягушке игнорировать данный файл, то парсинг может не начаться.

Оставаясь в настройках сканирования переходим в раздел Robots.txt → Выбираем пункт "Ignore robots.txt but report status"
Опция разрешает программе игнорировать правила в файле robots.txt и показывать вам какие именно страницы были закрыты в robots.

Нажимаем OK, чтобы настройки применились и запускаем сканирование заново. Если проблема сохранилась, то переходим к следующему методу ⏬

Причина №3 - У сайта установлена защита

В связи с массовой накруткой поведенческих факторов и увеличением числа ботного трафика многие сайты ставят защиту, которая мешает сканированию сайта. Существуют и другие защиты, которые требуют входа в систему с использованием файлов cookie. Такая защита также легко обходится.

Переходим в раздел Configuration → Authentication → Form Based

2. Нажимаем "+ Add" → вводим URL-адрес сайта, который хотим сканировать → Нажимаем OK

3. Откроется всплывающее окно, в котором отобразится сайт
Опция позволяет вам войти на сайт во встроенном браузере Chromium SEO Spider, получить файлы cookie, а затем сканировать его. Если открывшийся сайт защищен паролем, то изучите данную инструкцию.

Если всё прошло гладко, то нажимаем OK и пробуем запустить сканирование.

Метод №4 - Используйте прокси

Если все вышеописанные методы были испробованы, но проблема сохраняется, скорее всего, ваш IP-адрес был заблокирован. В этом случае рекомендуется снизить скорость парсинга, изменить User-Agent и подключить отдельный прокси.

Вы можете как приобрести индивидуальный прокси, так и использовать бесплатные варианты, доступные в сети (хотя их стабильность и функциональность могут быть ограничены). Важно начать с уменьшения скорости парсинга, чтобы избежать блокировки нового IP-адреса. Как изменить User-Agent описано в пункте №1. Далее необходимо уменьшить скорость обхода: перейдите в Configuration → Speed → Установите флажок в разделе "Limit URL/s". В поле Max URL/s задайте значение от 1 до 1,5 и нажмите OK.

Для добавления прокси выполните следующие шаги: перейдите в Licence → Enter Licence, затем откройте Proxy и активируйте опцию Use Proxy Server. Укажите адрес прокси и порт, после чего нажмите OK and Restart и перезапустите программу, чтобы изменения вступили в силу и прокси корректно заработал.

«После добавления прокси он будет применяться и в последующих сканированиях. Если он больше не требуется, очистите поле настроек после использования.»

Завершающим шагом будет повторное выполнение действия из метода №3, где в появившемся окне нужно будет ввести логин и пароль от прокси и убедиться в работоспособности сайта.

Если проблем не возникло, можно смело запускать парсинг сайта. Если что-то не получилось или возникли вопросы, вы всегда можете написать мне в Telegram. Также я открыт для консультаций по более сложным вопросам и готов предложить помощь в рамках наставничества.

Остались вопросы?

Оставьте свой номер телефона и я отвечу на все вопросы

Нажимая на кнопку, вы даете согласие на обработку своих персональных данных и соглашаетесь с политикой конфиденциальности

Еще статьи по данной теме:

Сканируем сайт, защищенный паролем в Screaming Frog

Создаем sitemap.xml в Screaming Frog

Как проверить скорость загрузки всех страниц на сайте

Проверка наличия счетчика Яндекс Метрики и Google Analytics на всех страницах сайта