Гид по технологиям

Архивируйте веб‑страницы локально с ArchiveBox

9 min read Архивирование Обновлено 11 Apr 2026
ArchiveBox — локальный архив веб‑страниц
ArchiveBox — локальный архив веб‑страниц

Кратко: ArchiveBox — это свободное решение для локального архивирования веб‑страниц. Оно сохраняет страницы в HTML, PDF, скриншотах и WARC, даёт статический, браузируемый индекс и позволяет хранить копии вне чужих сервисов. В тексте — установка, конфигурация, хорошие практики, чеклисты и рекомендации по безопасности.

Приложения для отложенного чтения — интерфейсы Instapaper и Pocket

Интернет полон знаний, но веб‑контент нестабилен: страницы исчезают, меняются URL, удаляются медиа. Если вы не готовы потерять важные заметки, полезно вести собственный архив копий страниц. Многие используют сервисы отложенного чтения, такие как Instapaper и Pocket, но они ориентированы на текст и не всегда сохраняют всю структуру страницы и медиаресурсы.

ArchiveBox предлагает иной подход: вы хостите архив локально или на своём сервере, сохраняете оригинальные ресурсы в нескольких форматах и получаете статический, браузируемый индекс. Ниже — полное руководство по установке, использованию и безопасному обслуживанию ArchiveBox, адаптированное для macOS и UNIX-систем.

Зачем использовать ArchiveBox

ArchiveBox подходит, если вы хотите:

  • Перенести копии важных страниц под свой контроль
  • Гарантировать доступ к содержимому вне зависимости от доступности удалённого сайта
  • Хранить несколько форматов копий (HTML, PDF, скриншот, WARC)

Коротко: ArchiveBox не заменяет хостинг оригинального сайта, он создаёт локальную резервную копию, удобную для поиска и навигации.

Что такое ArchiveBox в одном предложении

ArchiveBox — это инструмент с открытым исходным кодом, который берет список URL и создаёт статический HTML‑архив с локальными копиями страниц в разных форматах, включая WARC и PDF.

Основные преимущества и ограничения

Преимущества

  • Множество форматов резервных копий, пригодных для восстановления и чтения офлайн
  • Попытки ретейна оригинального вида страницы с учётом ресурсов CSS и JavaScript
  • Простой CLI для пакетной обработки ссылок, RSS‑фидов и экспортированных закладок
  • Не требует постоянно запущенного бэкенда: запускается по расписанию или вручную

Недостатки и компромиссы

  • Сбор всех активов сильно расходует дисковое пространство и процессорное время
  • Нужны внешние зависимости (wget, headless Chromium, youtube‑dl и др.), которые иногда тяжело согласовать
  • Ограниченная поддержка Windows без Docker или WSL; некоторые функции могут работать некорректно

Важно: ArchiveBox извлекает все ресурсы страницы. Если вы планируете архивировать тысячи ссылок с медиаконтентом, заранее оцените ёмкость диска и пропускную способность сети.

Поддерживаемые ОС

ArchiveBox официально поддерживает:

  • macOS 10.12 Sierra и новее (через Homebrew)
  • Linux: Ubuntu и Debian (APT). Другие дистрибутивы могут работать с дополнительной настройкой
  • BSD: FreeBSD, OpenBSD, NetBSD (pkg)

Зависимости и минимальные требования

Ключевые зависимости:

  • Python 3 (не используйте системный Python 2)
  • wget 1.16 или новее
  • Chromium 59+ или Google Chrome
  • youtube‑dl (опционально, для скачивания медиа)

Подсказка: если у вас уже установлен Google Chrome, дополнительная установка Chromium не требуется.

Установка на macOS через Homebrew (ручный способ, предпочтительнее)

Для примера используем macOS 10.14.6. Рекомендуемый порядок — поставить зависимости вручную, чтобы легче устранять ошибки.

Откройте Терминал и выполните:

brew install python3 git wget curl youtube-dl

Чтобы установить Chromium, если он нужен:

brew install --cask chromium

(Пропустите установку Chromium, если у вас уже установлен Google Chrome в папке Applications.)

Проверка версий установленных зависимостей

Убедитесь, что каждая зависимость корректно установлена, вызвав команду версии для каждой программы, например:

python3 --version
wget --version
youtube-dl --version
chromium --version

Проверка версий зависимостей в терминале

Подготовка списка ссылок

Экспортируйте закладки из Instapaper, Pocket или вашего браузера в формат HTML. Можно также сохранить список URL в простом текстовом файле, по одному URL на строку. ArchiveBox умеет читать оба формата.

Установка ArchiveBox из репозитория

Клонируйте репозиторий и перейдите в папку проекта:

git clone https://github.com/pirate/ArchiveBox
cd ArchiveBox/

После клонирования у вас появится папка ArchiveBox в домашней директории с основными файлами и утилитой archive.

Клонирование репозитория ArchiveBox в терминале

Быстрая архивация одной ссылки

В папке ArchiveBox выполните:

echo 'https://example.com'| ./archive

Это добавит одну запись в архив и начнёт процесс сохранения всех доступных форматов.

Архивация одной ссылки через скрипт archive

После завершения в папке output появится index.html — локальная статическая витрина архива.

Папка output с index.html и локальными файлами архива

Добавление множества ссылок

Для пакетной обработки поместите все URL по одному на строку в текстовом файле, например links.txt, и запустите:

./archive /путь/до/links.txt

Пример для папки Downloads:

./archive /Users/ваш_пользователь/Downloads/links.txt

Процесс может занять от минут до часов в зависимости от числа ссылок и размера медиаконтента. После завершения откройте output/index.html в браузере: таблица поддерживает сортировку, поиск и показывает общее количество ссылок.

Список заархивированных ссылок в интерфейсе ArchiveBox с поиском и сортировкой

Клик по фавикону в колонке Files открывает страницу деталей архива с ссылками на отдельные файлы и их форматы — HTML, PDF, скриншот, WARC и пр. Одно из действий — отправка статистики или копии в archive.org при включённых настройках.

Страница деталей для одного архива с ссылками на файлы разных форматов

Если у вас есть экспорт Instapaper или Pocket в виде HTML, процесс тот же:

./archive ~/Downloads/instapaper-export.html

При обработке больших наборов URL лучше разбивать их на пачки по несколько сотен, чтобы уменьшить количество таймаутов и ошибок сессии.

Конфигурация ArchiveBox

Файл с настройками по умолчанию находится в:

~/ArchiveBox/etc/ArchiveBox.conf.default

Не редактируйте этот файл напрямую, иначе при обновлении он будет перезаписан. Создайте пользовательскую копию:

cp ~/ArchiveBox/etc/ArchiveBox.conf.default ~/.ArchiveBox.conf

Сделанная копия будет находиться в домашней директории и по умолчанию скрыта. В Finder/unix‑терминале можно показать скрытые файлы сочетанием клавиш Cmd+Shift+Period. Откройте ~/.ArchiveBox.conf в текстовом редакторе и изменяйте параметры там.

Копия конфигурационного файла ArchiveBox в текстовом редакторе

Важные параметры конфигурации

  • ONLY_NEW: логическое значение True/False. Если True, ArchiveBox загружает только новые ссылки.
  • TIMEOUT: тайм‑аут в секундах, обычно 60 или 120. При частых таймаутах увеличьте значение.
  • URL_BLACKLIST: регулярные выражения для исключения доменов, расширений и шаблонов URL из архивации.
  • FETCH_MEDIA: если True, используется youtube‑dl для загрузки аудио и видео. Включайте при достаточном объёме хранилища.
  • WGET_USER_AGENT: задаёт user agent для wget, полезно при блокировке по умолчанию.

Подробности по параметрам доступны в документации ArchiveBox.

Публикация архива

ArchiveBox генерирует статическую папку output, которую можно развернуть на любом сервисе, умеющем отдавать статический HTML — например GitHub Pages, Netlify, обычный VPS, домашний сервер.

Важно:

  • Не запускайте сервер с исполнением CGI/PHP — цель, чтобы сайт был полностью статическим
  • Хостинг архива несёт риски: вы можете непреднамеренно разместить вредоносный CSS/JS, поэтому подумайте о правилах доступа
  • Для приватности добавьте ваш архив в robots.txt или ограничьте доступ паролем на уровне сервера

Когда ArchiveBox не подходит

  • Если вам нужны динамические функции оригинального сайта, требующие серверной логики — ArchiveBox не воспроизведёт их
  • Для больших сайтов с интерактивными приложениями и приватными API лучше использовать специализированные решения для резервного копирования
  • Архивация сотен тысяч страниц с медиа потребует серьёзной инфраструктуры и высокой дискотытомки

Альтернативы и сравнение

Краткий вариант сравнения:

  • Wayback Machine (archive.org): централизованный сервис, не требует настройки, но вы передаёте контроль внешнему провайдеру
  • HTTrack / wget –mirror: инструменты для зеркалирования сайтов, менее удобны для индексации и просмотра как «книги»
  • SingleFile / SingleFileZ: расширения браузера, сохраняют единичные страницы в один файл, удобны для выборочных сохранений

Выбор зависит от целей: если нужен полный локальный архив с индексом — ArchiveBox хорошо подходит. Если требуется единичное сохранение веб‑страниц для быстрого офлайн‑доступа — проще использовать расширение браузера.

Практическая методология архивации (мини‑план)

  1. Оцените объём: сколько ссылок, есть ли много видео/аудио
  2. Настройте рабочую машину с достаточным диском
  3. Установите зависимости вручную и проверьте версии
  4. Создайте тестовый набор из 10–50 ссылок и прогоните их
  5. Отладьте TIMEOUT, USER_AGENT и FETCH_MEDIA по результатам теста
  6. Разбейте большие списки на пачки и запускайте по очереди
  7. Регулярно делайте проверку целостности архива и обновите конфиг при необходимости

Роль‑ориентированные чеклисты

Администратор сервера:

  • Настроить cron/systemd timer для регулярного запуска архивирования
  • Контролировать свободное место и логировать ошибки
  • Настроить доступ по HTTPS и ограничение доступа для приватных архивов

Продвинутый пользователь:

  • Разбивать экспортированные файлы по темам/датам
  • Включать FETCH_MEDIA выборочно для важных доменов
  • Регулярно обновлять зависимости (youtube‑dl, Chromium)

Обычный пользователь:

  • Экспортировать закладки из Instapaper/Pocket
  • Бросать небольшой файл ссылок в папку ArchiveBox и запускать скрипт
  • Проверять output/index.html после обработки

Шаблоны команд и примеры crontab

Архивация списка каждый день в 02:00 (crontab):

0 2 * * * cd /Users/ваш_путь/ArchiveBox && ./archive /Users/ваш_путь/Downloads/links.txt >> /var/log/archivebox.log 2>&1

Ручной запуск архивации одного URL:

echo 'https://example.com'| ./archive

Импорт Instapaper экспорта:

./archive ~/Downloads/instapaper-export.html

Критерии приёмки

  • В папке output появляется index.html и одна запись на каждую обработанную ссылку
  • Для тестовой ссылки доступны минимум два формата: HTML и скриншот
  • Логи не содержат необработанных ошибок, кроме ожидаемых сетевых таймаутов

Тестовые случаи и приёмочные проверки

  1. Тест из 10 статей: все 10 должны появиться в output без ошибок
  2. Статья с видео: при ON FETCH_MEDIA проверить, что видео скачано и ссылка в деталях ведёт на локальный файл
  3. Повторный импорт одного и того же URL при ONLY_NEW=True: дубликатов не должно быть

Безопасность и приватность

  • Хранение архива делает вас ответственным за контент, в том числе за возможный вредоносный JS/CSS
  • Ограничьте доступ к архиву через серверные правила или Basic Auth, если архив содержит приватные ссылки
  • Для публичных архивов добавьте robots.txt с запрещающей записью, если вы не хотите индексирования поисковиками
  • Обновляйте зависимости, чтобы не допускать известных уязвимостей в Chromium или youtube‑dl

Когда и как откатывать изменения

Если после обновления ArchiveBox начинает выдавать ошибки, выполните:

  1. Откат к предыдущему коммиту репозитория через git
  2. Восстановите рабочую копию ~/.ArchiveBox.conf, если конфиг был перезаписан
  3. Запустите процесс архивации на тестовом наборе и проверьте логи

Когда ArchiveBox не заменит сервис типа Pocket

ArchiveBox не является сервисом для быстрого сохранения и чтения статей в мобильном интерфейсе. Для удобного чтения на телефоне лучше сохранить важные статьи в Pocket/Instapaper, а ArchiveBox использовать как долговременный резерв.

Часто задаваемые вопросы

Можно ли запускать ArchiveBox на Windows?

Поддержка Windows ограничена. Рекомендуется использовать Docker или WSL2. Некоторые инструменты вроде headless Chromium и youtube‑dl могут вести себя нестабильно в родной Windows среде.

Сколько места займёт архив?

Зависит от числа ссылок и количества медиа. Тексты и скриншоты относительно компактны, видео и аудио быстро увеличивают объём хранилища. Для оценки проведите тестовую прогонку с 50 ссылками, включая мультимедиа.

Можно ли исключать домены из архивации?

Да, используйте параметр URL_BLACKLIST в конфиге с регулярными выражениями для исключения доменов и шаблонов URL.

Короткая сводка и рекомендации

  • ArchiveBox подходит для долгосрочного локального архива контента
  • Перед массовой архивацией протестируйте настройки и оцените ёмкость диска
  • Настройте резервное копирование самой папки output при необходимости
  • Примеры команд и cron‑шаблоны помогут автоматизировать процесс

Ресурсы и дальнейшее чтение

  • Репозиторий ArchiveBox на GitHub — подробная документация и список опций
  • Руководства по экспорту закладок из браузеров и сервисов Instapaper/Pocket

Итог

ArchiveBox — мощный инструмент для тех, кто хочет полный контроль над архивами веб‑страниц. Он даёт несколько форматов копий, статический индекс и гибкие настройки. Но помните о компромиссе: объём хранилища и требуемая конфигурация зависят от объёма и типа контента. Если вам важна приватность и контроль — ArchiveBox стоит попробовать.

Поделиться: X/Twitter Facebook LinkedIn Telegram
Автор
Редакция

Похожие материалы

Как стать этичным хакером — навыки и старт карьеры
Кибербезопасность

Как стать этичным хакером — навыки и старт карьеры

Как составить CV фрилансера, которое продаёт
Фриланс

Как составить CV фрилансера, которое продаёт

Приоритизация благополучия для устойчивой продуктивности
Работа и здоровье

Приоритизация благополучия для устойчивой продуктивности

Как избежать укачивания в видеоиграх
Гейминг

Как избежать укачивания в видеоиграх

Как установить шрифты на Windows, Linux и Mac
Инструкции

Как установить шрифты на Windows, Linux и Mac

Вики в Notion: руководство по созданию и настройке
Документация

Вики в Notion: руководство по созданию и настройке