Веб-скрапинг на Rust: парсинг и извлечение данных

Логотип Rust и иллюстрация стопки контейнеров с логотипом Rust

Что такое веб-скрапинг

Веб-скрапинг — это автоматизированное извлечение данных из HTML-страниц. Когда нет официального API, скрапинг часто становится приемлемой альтернативой для получения структурированных данных с сайта. Определение: скрапинг — автоматический сбор содержимого веб-страницы и его преобразование в пригодную для анализа структуру.

Важно: перед началом убедитесь, что вы соблюдаете правила сайта (robots.txt) и юридические требования по использованию данных.

Почему Rust

Rust сочетает высокую производительность с безопасностью памяти и строгой обработкой ошибок. Это делает его хорошим выбором для долговременных скриптов и сервисов, работающих с большим объёмом запросов и парсинга.

Ключевые библиотеки:

reqwest — HTTP-клиент (в примерах используется blocking-режим для простоты).
scraper — парсер HTML, работающий через CSS-селекторы.
html5ever (при необходимости) — более низкоуровневый HTML-парсер.

Быстрый старт: проект и зависимости

Создайте новый проект и добавьте зависимости в файл Cargo.toml:

[dependencies]
reqwest = { version = "0.11", features = ["blocking"] }
scraper = "0.12.0"

Этот набор подходит для простых однопоточных задач. Для высоконагруженных решений рекомендуют асинхронный reqwest и пул потоков.

Получение страницы с reqwest

Простейший способ получить HTML — отправить GET-запрос и взять текст ответа:

fn retrieve_html() -> String {
    let response = reqwest::blocking::get("https://news.ycombinator.com").unwrap().text().unwrap();
    return response;
}

Пояснение: get отправляет запрос, text() возвращает тело ответа как строку. В реальном коде никогда не используйте unwrap() без обработки ошибок — используйте Result и логирование.

Парсинг HTML с помощью scraper

Модуль scraper предоставляет Html для разбора документа и Selector для поиска элементов по CSS-селекторам.

Пример: извлечь заголовки со страницы Hacker News:

use scraper::{Html, Selector};

fn main() {
    let response = reqwest::blocking::get("https://news.ycombinator.com/").unwrap().text().unwrap();

    // parse the HTML document
    let doc_body = Html::parse_document(&response);

    // select the elements with titleline class
    let title = Selector::parse(".titleline").unwrap();

    for title in doc_body.select(&title) {
        let titles = title.text().collect::>();
        println!("{}", titles[0])
    }
}

Пошагово:

Разбираем документ через Html::parse_document.
Создаём селектор через Selector::parse(".titleline").
Перебираем найденные элементы и читаем текстовые узлы.

результат извлечения заголовков со страницы

Извлечение атрибутов (href, src и др.)

Чтобы получить значение атрибута, найдите нужный элемент и используйте value().attr("имя"):

use reqwest::blocking::get;
use scraper::{Html, Selector};

fn main() {
    let response = get("https://news.ycombinator.com").unwrap().text().unwrap();
    let html_doc = Html::parse_document(&response);
    let class_selector = Selector::parse(".titleline").unwrap();

    for element in html_doc.select(&class_selector) {
        let link_selector = Selector::parse("a").unwrap();

        for link in element.select(&link_selector) {
            if let Some(href) = link.value().attr("href") {
                println!("{}", href);
            }
        }
    }
}

Результат — список URL из тега .

Практические приёмы: устойчивость и корректность

Обрабатывайте ошибки явно: время ожидания, коды ответов 4xx/5xx, ошибки парсинга.
Устанавливайте User-Agent и заголовки, имитируйте поведение браузера по необходимости.
Добавляйте задержки и соблюдайте rate limit, чтобы не перегружать сайт.
Сохраняйте состояние (checkpoint) при обработке больших списков — чтобы можно было продолжить после ошибки.
Используйте прокси и ротацию IP при масштабном сборе, если это соответствует правилам сайта.

Пример установки заголовка User-Agent:

let client = reqwest::blocking::Client::new();
let res = client
    .get("https://example.com")
    .header("User-Agent", "Mozilla/5.0 (compatible; MyBot/1.0)")
    .send()
    .unwrap();