Как массово собрать email, телефоны и адреса c сайта

Время чтения - 10 мин
Количество прочтений
938
Дата редактирования —
21 марта 2025
Для получения телефонных номеров и email-адресов с сайта, не нужно тратить драгоценное время на ручной сбор информации. В этом посте я покажу, как автоматизировать процесс сбора данных и облегчить себе работу с помощью программы Screaming Frog.

Обязательные действия перед поиском

1. Учитываем JavaScript при сканировании сайта

Краулер анализирует веб-сайт, переходя по ссылкам и сканируя содержимое страниц, включая HTML-код и доступные ресурсы. Однако, если контактные данные загружаются динамически с помощью JavaScript, стандартный обход может их не обнаружить. Поэтому важно разрешить рендеринг JavaScript в настройках Screaming Frog. Это позволит краулеру видеть сайт так же, как браузер, обрабатывая динамически загружаемые email-адреса и номера телефонов, которые иначе могли бы остаться скрытыми.

2. Разрешаем краулеру сканировать закрытые страницы

На страницах, которые могут быть закрыты от индексации, также могут быть ненужные почты и номера. Поэтому перед сканированием разрешаем краулеру ходить по страницам, которые закрыты мета-тегом или в robots.txt - ссылка на инструкцию →

3. Указываем обход sitemap.xml

В моей практике были случаи, когда ненужные номера телефонов или адреса электронной почты оказывались на страницах, на которые не вели ссылки с сайта. Однако эти страницы присутствовали в файле sitemap.xml. Поскольку краулеры обычно сканируют только те страницы, на которые есть ссылки, без явного указания на обязательный обход sitemap.xml некоторые страницы могут остаться незамеченными.

  1. Spider → Crawl
  2. Ставим галочку в разделе "Crawl Linked XML Sitemaps" и "Crawl These Sitemaps"
  3. В Разделе "Crawl These Sitemaps" указываем ссылки на все .xml карты, которые у вас есть
  4. Нажимаем "OK"
Разрешаем сканирование sitemap.xml в Screaming Frog

Сбор контактных данных и адресов на сайте

Только после выполнения правил выше мы переходим в раздел “Configuration” → “Custom” → “Custom Extraction”.
Поиск артикула по коду

Первое поле используем для поиска email-адресов, второе — для телефонных номеров, третье — для физических адресов.
1. 5 раз нажимаем на кнопку "+Add";
2. В названия полей пишем поочередно названия того, что мы будем искать:
  • Почты
  • Номера
  • Адреса
  • Мессенджеры
  • Соц.сети
3. В втором поле выбираем значение Regex

Regex (сокращение от Regular Expressions, или "регулярные выражения") — это инструмент, который ищет значения, соответствующие определённым шаблонам. Проще говоря, это как магическое заклинание, которое говорит фрогу: "Найди мне все, что выглядит как номер телефона" или "Дай мне список всех email-адресов".

Custom Extraction Screaming Frog
4. В поле "Enter Regular Expression" вставляем значения, которые указаны ниже:
[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}

Данная конструкция ищет все почты на вашем сайте. Её вставляем в строку «Почты»

\+\d{1,4}[\d\s\-()]{8,}

Ищет номера телефонов. Её вставляем в строку «Номера»

(?:г\.?\s*|город\s+)?[А-ЯЁа-яё\-]+(?:,\s*|\s+)(?:ул\.?|улица|проспект|пер\.?|переулок|шоссе|бульвар|пл\.?|площадь|наб\.?|набережная)(?:\s*|<[^>]+>)[А-ЯЁа-яё\-]+(?:\s*,?\s*|<[^>]+>)\d+[А-ЯЁа-яё/]?

Ищет физические адреса, например: Москва, улица Центральная, 1. Вставляем это выражение в строку «Адреса»

(?:https?:\/\/t\.me\/[a-zA-Z0-9_]+|tg:\/\/resolve\?domain=[a-zA-Z0-9_]+|viber:\/\/chat\?number=[+\d][\d\s]{6,})

Поиск ссылок на мессенджеры

(?:https?:\/\/)?(?:[\w-]+\.)?(?:vk\.com|instagram\.com|linkedin\.com|youtube\.com\/@|facebook\.com|twitter\.com|tiktok\.com\/@|snapchat\.com\/add|pinterest\.com)\/[a-zA-Z0-9_.-]+\/?

Ищет ссылки на социальные сети

Если выражения вставлены правильно, то в правом боку появится галочка ✅
5. Нажимаем "OK" и запускаем сканирование сайта, нажав на кнопку "Start";
6. После окончания парсинга переходим в раздел Custom Extraction, в котором вы увидите все почты и номера, которые фигурируют на страницах вашего сайта.
custom extraction Screaming Frog
Для экспорта данных в Excel или Google таблицу:
  1. Перейдите в раздел "Custom Extraction" → All
  2. Выгрузите все данные с помощью кнопки "Export"
  3. Выберите в какой тип файла выгрузить данные
  4. Укажите путь файла
  5. Нажмите "Save", если хотите просто сохранить файл и "Save and Open", чтобы он сразу открылся после сохранения.
Export Custom Extraction

Разбор регулярных выражений

Для поиска номеров - \+\d{1,4}[\d\s\-()]{8,}

\+ — обязательный знак + в начале номера.
\d{1,4} — от 1 до 4 цифр после + (учитывает коды стран с разной длиной, такие как +7, +375, +44).
[\d\s\-()] — позволяет использовать цифры, пробелы, дефисы и круглые скобки в номере.
{8,} — минимум 8 символов после кода страны (чтобы исключить слишком короткие номера).

Для email-адресов - [a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}

[a-zA-Z0-9._%+-]+ — захватывает первую часть email-адреса (имя пользователя), которая может содержать:
  • буквы (заглавные и строчные);
  • цифры;
  • символы (точку (.), подчёркивание (_), процент (%), плюс (+), дефис (-).
@ — обязательный символ, разделяющий имя пользователя и домен.
[a-zA-Z0-9.-]+ — доменное имя, которое может включать: буквы, цифры, точку (.) и дефис (-).
\.[a-zA-Z]{2,} — обязательное расширение домена, начинающееся с точки и состоящее минимум из двух букв (например, .com, .ru, .org).

Для физического адреса - (?:г\.?\s*|город\s+)?[А-ЯЁа-яё\-]+(?:,\s*|\s+)(?:ул\.?|улица|проспект|пер\.?|переулок|шоссе|бульвар|пл\.?|площадь|наб\.?|набережная)(?:\s*|<[^>]+>)[А-ЯЁа-яё\-]+(?:\s*,?\s*|<[^>]+>)\d+[А-ЯЁа-яё/]?

(?:г\.?\s*|город\s+)? — необязательное упоминание "г." или "город" перед названием.
[А-ЯЁа-яё\-]+ — название города, может включать дефис.
(?:,\s*|\s+) — разделитель между городом и улицей (запятая или пробел).
(?:ул\.?|улица|проспект|пер\.?|переулок|шоссе|бульвар|пл\.?|площадь|наб\.?|набережная) — тип улицы (обязателен).
(?:\s*|<[^>]+>) — допускает разрывы HTML-тегами (<span>, <div>).
[А-ЯЁа-яё\-]+ — название улицы.
(?:\s*,?\s*|<[^>]+>) — допускает запятую или HTML-разрывы перед номером дома.
\d+[А-ЯЁа-яё/]? — номер дома, может содержать буквы и дроби (16А, 25/3).
Остались вопросы?
Оставьте свой номер телефона и я отвечу на все вопросы
Нажимая на кнопку, вы даете согласие на обработку своих персональных данных и соглашаетесь с политикой конфиденциальности

Еще статьи по данной теме:

Made on
Tilda