Аудит

Как получить список товаров без изображений

Время чтения - 6 мин
Количество прочтений
1332
Дата публикации —
22 мая 2024

Инструкция для поиска информации через XPath в Screaming Frog

Что такое XPath

XPath (XML Path Language) – это язык запросов, используемый для навигации и поиска информации в XML-документах. Он позволяет точно указать путь к элементам, атрибутам и текстовым данным, которые нужно найти в структуре XML файлов и получить данные при необходимости.

Для чего можно применять XPath

  1. Поиск элементов: XPath позволяет найти определенные элементы в XML-документе с помощью путей и фильтров (вывод всех заголовков, определенных HTML-тегов).
  2. Извлечение данных: XPath позволяет извлекать конкретные значения из XML-документа (содержимое элемента или значение его атрибута).
  3. Проверка условий: XPath позволяет задавать условия и проверять их в XML-документе (отбор по определенным параметрам, подобно работе регулярных выражений).
  4. Навигация по структуре: XPath позволяет перемещаться по структуре XML-документа, находить конкретные узлы и выполнять с ними операции.
Из всего этого разнообразия возможностей, разберем “Поиск элементов” и “Извлечение данных” с помощью Screaming Frog (SF).

Пример поиска товаров у которых нет картинки

1. С помощью инструментов разработчика (клавиша F12) анализируем HTML-элемент (тег), в котором располагается ссылка на картинку на каждой товарной карточке. Для этого используем инструмент “Выбор элемента” или сочетание клавиш CTRL+SHIFT+C и наводим курсор на нужную область:
Configuration User-Agent
Все картинки располагаются в теге figure, который имеет одинаковое значение атрибута class=”woocommerce-product-gallery__image”:
Configuration User-Agent
2. На основе общих тегов и атрибутов формируем запрос XPath:

//figure[@class="woocommerce-product-gallery__image"]/@data-thumb

  • // – начало выражения;
  • figure – HTML-элемент, который мы ищем;
  • [@class="woocommerce-product-gallery__image"] – в таких скобках заключается условие поиска HTML-элемента, т.е. в примере мы ищем: “найди мне тег figure, у которого атрибут class равен woocommerce-product-gallery__image”;
  • /@data-thumb – извлечение значения атрибута data-thumb из элемента figure, у которого class=woocommerce-product-gallery__image.
Таким выражением мы запрашиваем вот это значение
3. Запускаем Screaming Frog. Переходим в “Configuration” – “Custom” – “Extraction”.
4. Добавляем наш запрос XPath.
5. Вводим сайт для поиска и запускаем парсинг SF:
6. После того, как парсинг завершен, ищем в правом окошке интерфейса “Custom Extraction” и выбираем искомый параметр.
7. Экспортируем данные в отчет:
8. Открываем полученный документ. Удаляем столбцы “Status Code”, “Status”.
9. Дополнительно добавляем к оставшимся столбцам фильтр.
10. С помощью фильтра удаляем лишние страницы.
В моем примере у всех товаров есть составная часть /product/.
Таким образом удаляем все URL, что не содержит ее.
11. Удаляем сортировку. В столбце “Product image 1” выбираем сортировку “Сортировка от А до Я”:
12. Результат получен! Пустое поле в столбце “Product image 1” означает, что на данной странице товара нет уникальной картинки:
Остались вопросы?
Оставьте свой номер телефона и я отвечу на все вопросы
Нажимая на кнопку, вы даете согласие на обработку своих персональных данных и соглашаетесь с политикой конфиденциальности

Еще статьи по данной теме:

Made on
Tilda