Архивируйте веб‑страницы локально с ArchiveBox
Кратко: ArchiveBox — это свободное решение для локального архивирования веб‑страниц. Оно сохраняет страницы в HTML, PDF, скриншотах и WARC, даёт статический, браузируемый индекс и позволяет хранить копии вне чужих сервисов. В тексте — установка, конфигурация, хорошие практики, чеклисты и рекомендации по безопасности.

Интернет полон знаний, но веб‑контент нестабилен: страницы исчезают, меняются URL, удаляются медиа. Если вы не готовы потерять важные заметки, полезно вести собственный архив копий страниц. Многие используют сервисы отложенного чтения, такие как Instapaper и Pocket, но они ориентированы на текст и не всегда сохраняют всю структуру страницы и медиаресурсы.
ArchiveBox предлагает иной подход: вы хостите архив локально или на своём сервере, сохраняете оригинальные ресурсы в нескольких форматах и получаете статический, браузируемый индекс. Ниже — полное руководство по установке, использованию и безопасному обслуживанию ArchiveBox, адаптированное для macOS и UNIX-систем.
Зачем использовать ArchiveBox
ArchiveBox подходит, если вы хотите:
- Перенести копии важных страниц под свой контроль
- Гарантировать доступ к содержимому вне зависимости от доступности удалённого сайта
- Хранить несколько форматов копий (HTML, PDF, скриншот, WARC)
Коротко: ArchiveBox не заменяет хостинг оригинального сайта, он создаёт локальную резервную копию, удобную для поиска и навигации.
Что такое ArchiveBox в одном предложении
ArchiveBox — это инструмент с открытым исходным кодом, который берет список URL и создаёт статический HTML‑архив с локальными копиями страниц в разных форматах, включая WARC и PDF.
Основные преимущества и ограничения
Преимущества
- Множество форматов резервных копий, пригодных для восстановления и чтения офлайн
- Попытки ретейна оригинального вида страницы с учётом ресурсов CSS и JavaScript
- Простой CLI для пакетной обработки ссылок, RSS‑фидов и экспортированных закладок
- Не требует постоянно запущенного бэкенда: запускается по расписанию или вручную
Недостатки и компромиссы
- Сбор всех активов сильно расходует дисковое пространство и процессорное время
- Нужны внешние зависимости (wget, headless Chromium, youtube‑dl и др.), которые иногда тяжело согласовать
- Ограниченная поддержка Windows без Docker или WSL; некоторые функции могут работать некорректно
Важно: ArchiveBox извлекает все ресурсы страницы. Если вы планируете архивировать тысячи ссылок с медиаконтентом, заранее оцените ёмкость диска и пропускную способность сети.
Поддерживаемые ОС
ArchiveBox официально поддерживает:
- macOS 10.12 Sierra и новее (через Homebrew)
- Linux: Ubuntu и Debian (APT). Другие дистрибутивы могут работать с дополнительной настройкой
- BSD: FreeBSD, OpenBSD, NetBSD (pkg)
Зависимости и минимальные требования
Ключевые зависимости:
- Python 3 (не используйте системный Python 2)
- wget 1.16 или новее
- Chromium 59+ или Google Chrome
- youtube‑dl (опционально, для скачивания медиа)
Подсказка: если у вас уже установлен Google Chrome, дополнительная установка Chromium не требуется.
Установка на macOS через Homebrew (ручный способ, предпочтительнее)
Для примера используем macOS 10.14.6. Рекомендуемый порядок — поставить зависимости вручную, чтобы легче устранять ошибки.
Откройте Терминал и выполните:
brew install python3 git wget curl youtube-dlЧтобы установить Chromium, если он нужен:
brew install --cask chromium(Пропустите установку Chromium, если у вас уже установлен Google Chrome в папке Applications.)
Проверка версий установленных зависимостей
Убедитесь, что каждая зависимость корректно установлена, вызвав команду версии для каждой программы, например:
python3 --version
wget --version
youtube-dl --version
chromium --version
Подготовка списка ссылок
Экспортируйте закладки из Instapaper, Pocket или вашего браузера в формат HTML. Можно также сохранить список URL в простом текстовом файле, по одному URL на строку. ArchiveBox умеет читать оба формата.
Установка ArchiveBox из репозитория
Клонируйте репозиторий и перейдите в папку проекта:
git clone https://github.com/pirate/ArchiveBoxcd ArchiveBox/После клонирования у вас появится папка ArchiveBox в домашней директории с основными файлами и утилитой archive.

Быстрая архивация одной ссылки
В папке ArchiveBox выполните:
echo 'https://example.com'| ./archiveЭто добавит одну запись в архив и начнёт процесс сохранения всех доступных форматов.

После завершения в папке output появится index.html — локальная статическая витрина архива.

Добавление множества ссылок
Для пакетной обработки поместите все URL по одному на строку в текстовом файле, например links.txt, и запустите:
./archive /путь/до/links.txtПример для папки Downloads:
./archive /Users/ваш_пользователь/Downloads/links.txtПроцесс может занять от минут до часов в зависимости от числа ссылок и размера медиаконтента. После завершения откройте output/index.html в браузере: таблица поддерживает сортировку, поиск и показывает общее количество ссылок.

Клик по фавикону в колонке Files открывает страницу деталей архива с ссылками на отдельные файлы и их форматы — HTML, PDF, скриншот, WARC и пр. Одно из действий — отправка статистики или копии в archive.org при включённых настройках.

Если у вас есть экспорт Instapaper или Pocket в виде HTML, процесс тот же:
./archive ~/Downloads/instapaper-export.htmlПри обработке больших наборов URL лучше разбивать их на пачки по несколько сотен, чтобы уменьшить количество таймаутов и ошибок сессии.
Конфигурация ArchiveBox
Файл с настройками по умолчанию находится в:
~/ArchiveBox/etc/ArchiveBox.conf.defaultНе редактируйте этот файл напрямую, иначе при обновлении он будет перезаписан. Создайте пользовательскую копию:
cp ~/ArchiveBox/etc/ArchiveBox.conf.default ~/.ArchiveBox.confСделанная копия будет находиться в домашней директории и по умолчанию скрыта. В Finder/unix‑терминале можно показать скрытые файлы сочетанием клавиш Cmd+Shift+Period. Откройте ~/.ArchiveBox.conf в текстовом редакторе и изменяйте параметры там.

Важные параметры конфигурации
- ONLY_NEW: логическое значение True/False. Если True, ArchiveBox загружает только новые ссылки.
- TIMEOUT: тайм‑аут в секундах, обычно 60 или 120. При частых таймаутах увеличьте значение.
- URL_BLACKLIST: регулярные выражения для исключения доменов, расширений и шаблонов URL из архивации.
- FETCH_MEDIA: если True, используется youtube‑dl для загрузки аудио и видео. Включайте при достаточном объёме хранилища.
- WGET_USER_AGENT: задаёт user agent для wget, полезно при блокировке по умолчанию.
Подробности по параметрам доступны в документации ArchiveBox.
Публикация архива
ArchiveBox генерирует статическую папку output, которую можно развернуть на любом сервисе, умеющем отдавать статический HTML — например GitHub Pages, Netlify, обычный VPS, домашний сервер.
Важно:
- Не запускайте сервер с исполнением CGI/PHP — цель, чтобы сайт был полностью статическим
- Хостинг архива несёт риски: вы можете непреднамеренно разместить вредоносный CSS/JS, поэтому подумайте о правилах доступа
- Для приватности добавьте ваш архив в robots.txt или ограничьте доступ паролем на уровне сервера
Когда ArchiveBox не подходит
- Если вам нужны динамические функции оригинального сайта, требующие серверной логики — ArchiveBox не воспроизведёт их
- Для больших сайтов с интерактивными приложениями и приватными API лучше использовать специализированные решения для резервного копирования
- Архивация сотен тысяч страниц с медиа потребует серьёзной инфраструктуры и высокой дискотытомки
Альтернативы и сравнение
Краткий вариант сравнения:
- Wayback Machine (archive.org): централизованный сервис, не требует настройки, но вы передаёте контроль внешнему провайдеру
- HTTrack / wget –mirror: инструменты для зеркалирования сайтов, менее удобны для индексации и просмотра как «книги»
- SingleFile / SingleFileZ: расширения браузера, сохраняют единичные страницы в один файл, удобны для выборочных сохранений
Выбор зависит от целей: если нужен полный локальный архив с индексом — ArchiveBox хорошо подходит. Если требуется единичное сохранение веб‑страниц для быстрого офлайн‑доступа — проще использовать расширение браузера.
Практическая методология архивации (мини‑план)
- Оцените объём: сколько ссылок, есть ли много видео/аудио
- Настройте рабочую машину с достаточным диском
- Установите зависимости вручную и проверьте версии
- Создайте тестовый набор из 10–50 ссылок и прогоните их
- Отладьте TIMEOUT, USER_AGENT и FETCH_MEDIA по результатам теста
- Разбейте большие списки на пачки и запускайте по очереди
- Регулярно делайте проверку целостности архива и обновите конфиг при необходимости
Роль‑ориентированные чеклисты
Администратор сервера:
- Настроить cron/systemd timer для регулярного запуска архивирования
- Контролировать свободное место и логировать ошибки
- Настроить доступ по HTTPS и ограничение доступа для приватных архивов
Продвинутый пользователь:
- Разбивать экспортированные файлы по темам/датам
- Включать FETCH_MEDIA выборочно для важных доменов
- Регулярно обновлять зависимости (youtube‑dl, Chromium)
Обычный пользователь:
- Экспортировать закладки из Instapaper/Pocket
- Бросать небольшой файл ссылок в папку ArchiveBox и запускать скрипт
- Проверять
output/index.htmlпосле обработки
Шаблоны команд и примеры crontab
Архивация списка каждый день в 02:00 (crontab):
0 2 * * * cd /Users/ваш_путь/ArchiveBox && ./archive /Users/ваш_путь/Downloads/links.txt >> /var/log/archivebox.log 2>&1Ручной запуск архивации одного URL:
echo 'https://example.com'| ./archiveИмпорт Instapaper экспорта:
./archive ~/Downloads/instapaper-export.htmlКритерии приёмки
- В папке
outputпоявляетсяindex.htmlи одна запись на каждую обработанную ссылку - Для тестовой ссылки доступны минимум два формата: HTML и скриншот
- Логи не содержат необработанных ошибок, кроме ожидаемых сетевых таймаутов
Тестовые случаи и приёмочные проверки
- Тест из 10 статей: все 10 должны появиться в
outputбез ошибок - Статья с видео: при ON FETCH_MEDIA проверить, что видео скачано и ссылка в деталях ведёт на локальный файл
- Повторный импорт одного и того же URL при ONLY_NEW=True: дубликатов не должно быть
Безопасность и приватность
- Хранение архива делает вас ответственным за контент, в том числе за возможный вредоносный JS/CSS
- Ограничьте доступ к архиву через серверные правила или Basic Auth, если архив содержит приватные ссылки
- Для публичных архивов добавьте
robots.txtс запрещающей записью, если вы не хотите индексирования поисковиками - Обновляйте зависимости, чтобы не допускать известных уязвимостей в Chromium или youtube‑dl
Когда и как откатывать изменения
Если после обновления ArchiveBox начинает выдавать ошибки, выполните:
- Откат к предыдущему коммиту репозитория через git
- Восстановите рабочую копию
~/.ArchiveBox.conf, если конфиг был перезаписан - Запустите процесс архивации на тестовом наборе и проверьте логи
Когда ArchiveBox не заменит сервис типа Pocket
ArchiveBox не является сервисом для быстрого сохранения и чтения статей в мобильном интерфейсе. Для удобного чтения на телефоне лучше сохранить важные статьи в Pocket/Instapaper, а ArchiveBox использовать как долговременный резерв.
Часто задаваемые вопросы
Можно ли запускать ArchiveBox на Windows?
Поддержка Windows ограничена. Рекомендуется использовать Docker или WSL2. Некоторые инструменты вроде headless Chromium и youtube‑dl могут вести себя нестабильно в родной Windows среде.
Сколько места займёт архив?
Зависит от числа ссылок и количества медиа. Тексты и скриншоты относительно компактны, видео и аудио быстро увеличивают объём хранилища. Для оценки проведите тестовую прогонку с 50 ссылками, включая мультимедиа.
Можно ли исключать домены из архивации?
Да, используйте параметр URL_BLACKLIST в конфиге с регулярными выражениями для исключения доменов и шаблонов URL.
Короткая сводка и рекомендации
- ArchiveBox подходит для долгосрочного локального архива контента
- Перед массовой архивацией протестируйте настройки и оцените ёмкость диска
- Настройте резервное копирование самой папки
outputпри необходимости - Примеры команд и cron‑шаблоны помогут автоматизировать процесс
Ресурсы и дальнейшее чтение
- Репозиторий ArchiveBox на GitHub — подробная документация и список опций
- Руководства по экспорту закладок из браузеров и сервисов Instapaper/Pocket
Итог
ArchiveBox — мощный инструмент для тех, кто хочет полный контроль над архивами веб‑страниц. Он даёт несколько форматов копий, статический индекс и гибкие настройки. Но помните о компромиссе: объём хранилища и требуемая конфигурация зависят от объёма и типа контента. Если вам важна приватность и контроль — ArchiveBox стоит попробовать.
Похожие материалы
Как стать этичным хакером — навыки и старт карьеры
Как составить CV фрилансера, которое продаёт
Приоритизация благополучия для устойчивой продуктивности
Как избежать укачивания в видеоиграх
Как установить шрифты на Windows, Linux и Mac