Гид по технологиям

Data Engineering

Создание набора данных с IMDb через веб-скрейпинг
Data Engineering 6 min read

Создание набора данных с IMDb через веб-скрейпинг

В этой статье показано, как собрать и очистить собственный набор данных фильмов с IMDb с помощью Python и Beautiful Soup. Приведён полный рабочий рабочий процесс: выбор источника, настройка окружения, скрипты для парсинга, очистка данных и проверка качества.

Веб‑скрапинг: создать датасет на примере IMDb
Data Engineering 8 min read

Веб‑скрапинг: создать датасет на примере IMDb

Веб‑скрапинг позволяет собрать кастомный датасет, когда API отсутствует. В статье — пример на IMDb: код на Python, очистка данных, тесты, этика и рекомендации по масштабированию.

Объединение Excel‑файлов в Python с Pandas
Data Engineering 6 min read

Объединение Excel‑файлов в Python с Pandas

Python и Pandas позволяют быстро консолидировать Excel‑файлы: перечислите файлы, прочитайте их в DataFrame, объедините через pd.concat и сохраните. Добавьте обработку ошибок и нормализацию колонок для надёжности.