Screaming Frog

Поиск любого текста с помощью Screaming Frog

Время чтения - 12 мин
Количество прочтений
2222
Дата публикации —
28 февраля 2024

Почему именно Screaming Frog

Screaming Frog позволяет найти все что угодно, в HTML и тексте вашего сайта с помощью функции пользовательского поиска. Ранее я уже рассказывал как найти страницы без кода Метрики и Аналитики, а сегодня мы поговорим про поиск определенных слов или фраз, а также поговорим про более расширенный поиск

Как работает пользовательский поиск

Я надеюсь, что вы прекрасно понимаете, что при обходе сайта скриминг фрог сканирует весь код каждой страницы. Зная это, мы можем попросить его, при обходе, находить определенные данные на страницах и показать URL-адреса на которых он это нашел.

По умолчанию пользовательский поиск проверяет исходный HTML-код сайта, который может не совпадать с текстом, отображаемым в браузере. Обычно это связано в тем, что некоторые элементы реализованы через JavaScript и переключившись в режим рендеринга JavaScript, вы сможете легко найдете эти элементы.

Переходим к практике

Перед настройкой поиска добавьте в сканирование файл sitemap.xml, так как в ней могут быть страницы, которые краулер не увидит при сканировании, так как на них нет ссылок внутри сайта (кстати, это тоже плохо). Чтобы учитывать карту при сканировании в меню верхнего уровня переходим в раздел Configuration → Spider → Crawl.

Ставим галочки напротив:
1. Crawl Linked XML Sitemaps (обойти файл sitemap.xml и все URL, которые в нем находятся)
2. Auto Discover XML Sitemaps via robots.txt (будет сканировать карту, указанную в robots.txt)
3. Crawl These Sitemaps (ставим галочку, если вам нужно указать дополнительные карты сайта или sitemap.xml не указана в роботсе)
После переходим в раздел пользовательского поиска Configuration → Custom → Custom Search
Custom Search
Чтобы произвести настройки и добавить значение, которое мы будем искать, нам нужно нажать на кнопку "+ Add", чтобы перед нами появилось поле с настройками.
Поле настроек

«Максимальное число поисковых фильтров, которое можно настроить - 100»

Теперь разберем каждый пункт в строке, которую мы только что добавили:
1. Название того, что мы ищем
Указываем понятное название для себя, чтобы не запутаться при поиске нужных значений.

2. Содержит (Contains) или Не содержит (Does Not Contain) значение, которое мы ищем
Contains - лучше всего подходит при поиске определенных слов на странице, ненужного кода или поиска товаров, которых нет в наличии;
Does Not Contain - является идеальным вариантом при поиске страниц без кода Метрики или Аналитики.

3. Выбор поиска значений
Text - Конкретный поиск именно того слова, числа или фразы, которое вы указали ;
Regex - позволяет использовать регулярные выражения, что значительно упрощает поиск, мы ещё поговорим про это подробнее ниже.

«Чтобы не испытывать боль с регистром (большая буковка будет или маленькая) рекомендую всегда, в поле ввода данных, ставить галочку напротив "Case sensitive". Так как по умолчанию программа разделяет буквы В ВЕРХНЕМ РЕГИСТРЕ и нижнем.»

Чувствительность к регистру Screaming Frog
Чтобы произвести настройки и добавить значение, которое мы будем искать, нам нужно нажать на кнопку "+ Add", чтобы перед нами появилось поле с настройками.

А теперь хардкор! Немного сложно, но это упрощает работу

По факту я опишу те вещи, с помощью которых вы сможете не только хвастаться упростить поиск элементов, но и сохраните львиную долю времени в перспективе, выделив чуть больше времени на обучение сейчас. Буду думать, что я вас убедил.
Ищем несколько слов сразу в 1 колонке
Чтобы стать более продвинутыми в использовании поиска, нужно переключиться на регулярные выражения (Regex)
Regex
Чтобы не использовать по 5-10 колонок для поиска одного значения в разных вариациях, мы можем объединять слова и искать их сразу в одном окне. Чтобы было понятнее разберем на примере.

Допустим, заказчик изменил название своей компании, после ссоры с партнером, и просит вас изменить название старого бренда на новый на всем сайте. В примерах выше мне нужно было создать отдельное поле для каждого варианта бренда, но с помощью регулярных выражений это решается правилом в 1 строку ⏬

\btehrem\b|\bтехрем\b|\bАв-Рем\b

Красным помечены названия бренда, которые вы можете заменить на свои значения

Любое регулярное выражение (Regex) чувствительно к регистру, чтобы сделать его нечувствительным к регистру, используйте (?i) перед формулой или словом. Чтобы было понятнее добавим это в нашу предыдущую формулу

(?i)\btehrem\b|\bтехрем\b|\bАв-Рем\b

Красным помечено значение, которое было добавлено

Regex screaming frog
Также часть контента может быть не найдена краулером, так как она будет реализована JavaScript, поэтому для поиска всей необходимой информации нам нужно разрешить сканирование JavaScript и только после этого запускать сканирование.
Это лишь малая часть того, как можно использовать SEO Spider для поиска слов, фраз, тегов, скриптов и прочих значений.
Остались вопросы?
Оставьте свой номер телефона и я отвечу на все вопросы
Нажимая на кнопку, вы даете согласие на обработку своих персональных данных и соглашаетесь с политикой конфиденциальности

Еще статьи по данной теме:

Made on
Tilda