Гайд по работе с Custom Search в Screaming Frog

Время чтения - 12 мин
Количество прочтений
4222
Дата редактирования —
26 февраля 2025
Screaming Frog позволяет найти все что угодно, в HTML и тексте вашего сайта с помощью функции пользовательского поиска. Ранее я уже рассказывал как найти страницы без кода Метрики и Аналитики, а сегодня мы поговорим про Custom Search и поиск определенных слов или фраз, а также поговорим про более расширенный поиск.

Как работает пользовательский поиск

При обходе сайта скриминг фрог сканирует весь код каждой страницы. Зная это, мы можем попросить его, при обходе, находить определенные данные на страницах и показать URL-адреса на которых он это нашел.

По умолчанию пользовательский поиск проверяет исходный HTML-код сайта, который может не совпадать с текстом, отображаемым в браузере. Обычно это связано в тем, что некоторые элементы реализованы через JavaScript и переключившись в режим рендеринга JavaScript, вы сможете легко найти эти элементы.

Обязательные действия перед поиском

1. Учитываем JavaScript при сканировании сайта

Краулер анализирует веб-сайт, переходя по ссылкам и сканируя содержимое страниц, включая HTML-код и доступные ресурсы. Однако, если контактные данные загружаются динамически с помощью JavaScript, стандартный обход может их не обнаружить. Поэтому важно разрешить рендеринг JavaScript в настройках Screaming Frog. Это позволит краулеру видеть сайт так же, как браузер, обрабатывая динамически загружаемые email-адреса и номера телефонов, которые иначе могли бы остаться скрытыми.

2. Разрешаем обход sitemap.xml

Перед настройкой поиска добавьте в сканирование файл sitemap.xml, так как в ней могут быть страницы, которые краулер не увидит при сканировании, так как на них нет ссылок внутри сайта (кстати, это тоже плохо). Чтобы учитывать карту при сканировании в меню верхнего уровня переходим в раздел Configuration → Spider → Crawl.

Ставим галочки напротив:
  1. Crawl Linked XML Sitemaps: просит обойти файл sitemap.xml и все URL, которые в нем находятся;
  2. Auto Discover XML Sitemaps via robots.txt: будет сканировать карту, указанную в robots.txt;
  3. Crawl These Sitemaps: указываем, если вам нужно указать дополнительные карты сайта или sitemap.xml не указана в файле robots.txt.

Руководство по работе custom search

Переходим в раздел пользовательского поиска Configuration → Custom → Custom Search
Custom Search
Чтобы произвести настройки и добавить значение, которое мы будем искать, нам нужно нажать на кнопку "+ Add", чтобы перед нами появилось поле с настройками.
Поле настроек

«Максимальное число поисковых фильтров, которое можно настроить - 100»

Теперь разберем каждый пункт в строке, которую мы только что добавили:
1. Search 1 - Название того, что мы ищем. Указываем понятное название для себя, чтобы не запутаться при поиске нужных значений.

2. Содержит (Contains) или Не содержит (Does Not Contain) значение, которое мы ищем.
Contains - лучше всего подходит при поиске определенных слов на странице, ненужного кода или поиска товаров, которых нет в наличии;
Does Not Contain - является идеальным вариантом при поиске страниц без кода Метрики или Аналитики.

3. Выбор поиска значений.
Text - Конкретный поиск именно того слова, числа или фразы, которое вы указали ;
Regex - позволяет использовать регулярные выражения, что значительно упрощает поиск, мы ещё поговорим про это подробнее ниже.

«Чтобы не испытывать боль с регистром (большая буковка будет или маленькая) рекомендую всегда, в поле ввода данных, ставить галочку напротив "Case sensitive". Так как по умолчанию программа разделяет буквы В ВЕРХНЕМ РЕГИСТРЕ и нижнем.»

Чувствительность к регистру Screaming Frog
Чтобы произвести настройки и добавить значение, которое мы будем искать, нам нужно нажать на кнопку "+ Add", чтобы перед нами появилось поле с настройками.

Как работать с регулярными выражениями (Regex)

По факту я опишу те вещи, с помощью которых вы сможете не только хвастаться упростить поиск элементов, но и сохраните львиную долю времени в перспективе, выделив чуть больше времени на обучение сейчас. Буду думать, что я вас убедил.
Ищем несколько слов сразу в 1 колонке
Чтобы стать более продвинутыми в использовании поиска, нужно переключиться на регулярные выражения (Regex)
Regex
Чтобы не использовать по 5-10 колонок для поиска одного значения в разных вариациях, мы можем объединять слова и искать их сразу в одном окне. Чтобы было понятнее разберем на примере.

Допустим, заказчик изменил название своей компании, после ссоры с партнером, и просит вас изменить название старого бренда на новый на всем сайте. В примерах выше мне нужно было создать отдельное поле для каждого варианта бренда, но с помощью регулярных выражений это решается правилом в 1 строку ⏬

\btehrem\b|\bтехрем\b|\bАв-Рем\b

Красным помечены названия бренда, которые вы можете заменить на свои значения

Любое регулярное выражение (Regex) чувствительно к регистру, чтобы сделать его нечувствительным к регистру, используйте (?i) перед формулой или словом. Чтобы было понятнее добавим это в нашу предыдущую формулу

(?i)\btehrem\b|\bтехрем\b|\bАв-Рем\b

Красным помечено значение, которое было добавлено

Regex screaming frog
Это лишь малая часть того, как можно использовать Custom Search для поиска слов, фраз, тегов, скриптов и прочих значений.
Остались вопросы?
Оставьте свой номер телефона и я отвечу на все вопросы
Нажимая на кнопку, вы даете согласие на обработку своих персональных данных и соглашаетесь с политикой конфиденциальности

Еще статьи по данной теме:

Made on
Tilda