Полезные знания Что скрыл сайт? Архивные копии в OSINT

AlexV · 13/9/25

В арсенале OSINT-специалиста множество блестящих инструментов: VirusTotal для проверки безопасности, SpiderFoot для автоматизации, DNSDumpster для анализа инфраструктуры, Urlscan, Web-check и Pulsedive для всестороннего сканирования. Но у них всех есть критический недостаток: они показывают сайт только сейчас. Что если ключевая информация — старый адрес, удаленный контакт, измененное описание услуг, прошлые метрики аналитики — исчезла месяц или год назад? Стандартные инструменты оставят вас в неведении. Для подлинного понимания эволюции веб-ресурса нам нужна машина времени. И она существует – это Wayback Machine от Internet Archive и его мощный, но часто недооцененный CDX API.
В отличие от поверхностного просмотра через веб-интерфейс, CDX API предоставляет программный доступ к индексу всех сохраненных копий (снимков) сайта в архиве. Это позволяет:
1. Получать полный список снимков. Все даты и версии страниц, CSS, JS, изображений.
2. Фильтровать по времени. Изучать сайт в конкретный год, месяц или даже день.
3. Анализировать изменения. Сравнивать содержимое, заголовки, метатеги, скрипты между разными эпохами.

Шаг 1: Запрос к CDX API – получаем лог изменений

Базовый запрос для основного URL:

Для просмотра ссылки необходимо нажать Вход или Регистрация

Этот URL вернет текстовую таблицу со всеми сохраненными копиями главной страницы.
Нужен JSON? Добавьте

&output=json:

Для просмотра ссылки необходимо нажать Вход или Регистрация

Захват ВСЕХ поддоменов и файлов: Используйте маску *.domain и параметр collapse=urlkey для уникальных URL:

Для просмотра ссылки необходимо нажать Вход или Регистрация

Фильтрация по времени – ваша суперсила. Изучаем сайт в 2020 году? Добавим следующую строку, где параметры from и to используют формат YYYY, YYYYMM, YYYYMMDD, YYYYMMDDHH.

Для просмотра ссылки необходимо нажать Вход или Регистрация

Шаг 2: Google Sheets – ваша аналитическая станция

Скопируйте сырые данные (текст или JSON) из CDX API.
Вставьте в новый лист Google Таблиц.
Разделите данные: используйте формулу =SPLIT(A1, " ") (где A1 – ячейка с данной строкой, пробел – разделитель). Колонки станут вашими полями: URL, временная метка, MIME-тип, код ответа и так далее.

Шаг 3: Собираем живые ссылки на архивные копии

Ключевые колонки после разделения – временная метка (timestamp) и оригинальный URL. Создайте гиперссылку:

=HYPERLINK("

Для просмотра ссылки необходимо нажать Вход или Регистрация

"&C1&"/"&D1)

C1 – ячейка с временной меткой (например, 20200102131415).
D1 – ячейка с оригинальным URL (например,

Для просмотра ссылки необходимо нажать Вход или Регистрация

).
Эта формула создаст кликабельную ссылку на конкретную сохраненную версию страницы в Wayback Machine.

Шаг 4: Извлекаем контент в таблицу

Теперь используем ссылки для импорта.
Заголовок страницы (Title):

=IMPORTXML(I1, "//title") (где I1 – ячейка с гиперссылкой из шага 3)

Тело страницы (Body Content):

=JOIN(CHAR(10), IMPORTXML(I1, "//body"))

IMPORTXML извлекает весь текст внутри тега <body>.
JOIN(CHAR(10), ...) объединяет элементы (если их несколько) с переносами строк для читабельности.

Шаг 5: Охота за скрытыми данными – регулярные выражения

Собранный текст (особенно из колонки Body) – золотая жила. Автоматизируйте поиск. Например, для выгрузки адреса электронной почты можно использовать формулу:

=REGEXEXTRACT(K1; "[A-z0-9._%+-]+@[A-z0-9.-]+"), (где K1 – ячейка с текстом).

А для копирования никнеймов контактных лиц – даже проще:

=REGEXEXTRACT(K1; "[A-z0-9._%+-]+), (где K1 - ячейка с текстом).

Что мы можем увидеть? Анализируя исторические данные по колонкам, выявляем:
1. Смену контактов. Исчезнувшие email, телефоны, адреса офиса.
2. Эволюцию описаний. Как менялись услуги, миссия компании, ключевые клиенты.
3. Метрики аналитики. Появление, смена или удаление кодов Яндекс.Метрики или Google Analytics (прямо в HTML).
4. Геолокация. Изменение координат на встроенных картах (Google Maps, Yandex Maps).
Описанную методику можно применить не только для сбора данных об архивных копиях сайтов. Она также работает для просмотра изменений социальных профилей и даже Telegram-каналов.
CDX API Wayback Machine – это не просто архив, а детальный журнал изменений веб-ресурса. Интегрируя его данные через Google Sheets и используя простые формулы (IMPORTXML, REGEXEXTRACT), вы превратите статичные снимки в динамичную историю. Это позволит выявить закономерности, восстановить удаленную информацию и получить глубокое понимание эволюции цели вашего OSINT-расследования. Перестаньте смотреть только на «сейчас». Начните исследовать «тогда» — и вы откроете совершенно новый уровень аналитики.

Для просмотра ссылки необходимо нажать Вход или Регистрация

Поиск

Полезные знания Что скрыл сайт? Архивные копии в OSINT

AlexV

В теневом с 2008 г.

Шаг 1: Запрос к CDX API – получаем лог изменений

Шаг 2: Google Sheets – ваша аналитическая станция

Шаг 3: Собираем живые ссылки на архивные копии

Шаг 4: Извлекаем контент в таблицу

Шаг 5: Охота за скрытыми данными – регулярные выражения

Похожие темы

Полезные знания Что скрыл сайт? Архивные копии в OSINT

AlexV

В теневом с 2008 г.

Шаг 1: Запрос к CDX API – получаем лог изменений​

Шаг 2: Google Sheets – ваша аналитическая станция​

Шаг 3: Собираем живые ссылки на архивные копии​

Шаг 4: Извлекаем контент в таблицу​

Шаг 5: Охота за скрытыми данными – регулярные выражения​

Похожие темы

Шаг 1: Запрос к CDX API – получаем лог изменений

Шаг 2: Google Sheets – ваша аналитическая станция

Шаг 3: Собираем живые ссылки на архивные копии

Шаг 4: Извлекаем контент в таблицу

Шаг 5: Охота за скрытыми данными – регулярные выражения