Как найти забытые хиты с Data.world

Важно: в статье используются публичные наборы данных. Проверяйте лицензию каждого датасета перед коммерческим использованием.

Женщина в позе композитора на фоне неоновых инструментов

Музыка — не только развлечение. Она формирует идентичность, отражает эпохи и стили жизни. Многие хиты прошлого со временем забываются — но данные помогают их находить и возвращать в актуальность. В этой статье я покажу, как использовать Data.world для поиска «забытых» песен в чартах Billboard и анализировать характеристики треков из Spotify.

Что вы получите из этой инструкции

Пошаговый план работы с набором данных Billboard и Spotify на Data.world;
Как фильтровать и сортировать записи локально и на платформе;
Примеры SQL-запросов для типовых задач (поиск по артисту, по пиковым позициям и по годам);
Как экспортировать найденные треки в плейлист Spotify (через Soundiiz) и полезные чек-листы для ролей.

Начало работы с Data.world

Концерт с ярким световым шоу

Зарегистрируйтесь на https://data.world и войдите в аккаунт.
В строке поиска в центре верхней части страницы введите “Billboard hot weekly charts” и выберите проект с тысячами закладок.
На карточке проекта нажмите «Bookmark», чтобы сохранить его в своём профиле и легко возвращаться.

Карточка набора данных Billboard Hot 100

Кнопка для добавления в закладки

В проекте обычно два файла:

CSV с детальной информацией о чартах (попадания, даты, позиции). Этот файл может быть большим — в проекте встречаются сводные списки с сотнями тысяч строк.
Excel (XLSX) с фичами треков из Spotify: danceability, energy, popularity и др. Этот файл легче и быстрее для локальной работы.

Примечание: проект содержит десятки тысяч записей — в источнике упоминалось около 30 000 песен в отдельных наборах и более 300 000 строк в объединённых исторических списках. Ожидайте, что некоторые операции в браузере будут работать медленнее на очень больших файлах.

Работа с данными Billboard

Открытие и первичный осмотр

Откройте файл HotStuff.csv в представлении Data.world или скачайте файл локально. Если вы будете работать в браузере — используйте фильтры платформы, но для глубокой сортировки удобнее импорт в таблицу.

Рекомендация: скачайте CSV и откройте в Google Sheets или Microsoft Excel, если планируете сложную фильтрацию или сводные таблицы.

Экран расширённой сортировки столбцов в Google Sheets

Как быстро сортировать и фильтровать

В Excel: Откройте CSV → Выберите диапазон → Данные → Фильтр. Для разбивки по датам используйте столбец с датой выхода чарта.
В Google Sheets: Файл → Импорт → Загрузить CSV → Создать таблицу. Затем Данные → Создать фильтр.

Если таблица очень большая, сортировка может быть медленной. Разбейте данные по годам или диапазонам дат и работайте с частями.

Топ-20 песен от 9 сентября 1969 года

Работа с данными Spotify

Девушка с наушниками и панковской причёской

Файл “Hot 100 Audio Features.xlsx” содержит аудио-метрики Spotify. Колонки обычно включают такие метрики, как danceability, energy, tempo и popularity.

Выбор категорий данных Spotify

Этот файл компактнее — около 30 000 записей — поэтому он удобен для интерактивного анализа прямо в Data.world или в Excel.

Использование SQL на Data.world

Если вы знакомы с SQL, Data.world позволяет выполнять запросы прямо в интерфейсе набора данных. Это удобно для быстрых выборок и агрегаций.

Откройте представление данных и нажмите “Запрос” в правом верхнем углу (UI-метка: Запрос).
Введите SQL и нажмите кнопку “Выполнить запрос” (UI-метка: Выполнить запрос).

Пример запроса: найти все песни Adele, попавшие в топ‑10

SELECT artist, title, peak_pos, chart_date
FROM hotstuff
WHERE artist ILIKE '%Adele%'
  AND peak_pos <= 10
ORDER BY chart_date DESC;

Пояснение: ILIKE — функция нечувствительного к регистру поиска; peak_pos — минимальная (лучшая) позиция на чарте; chart_date — дата чарта.

Советы по SQL:

Начинайте с LIMIT 100, чтобы быстро просмотреть выборку;
Используйте группировку по годам для трендов: GROUP BY EXTRACT(YEAR FROM chart_date);
Для больших таблиц применяйте предфильтрацию по диапазону дат.

Как экспортировать найденные треки в плейлист Spotify

Сформируйте список уникальных треков (artist + title) в результате запроса или в таблице.
Сохраните список в CSV с колонками “artist” и “title”.
Используйте сервисы миграции плейлистов, например Soundiiz, чтобы сопоставить ваши строки с треками Spotify и создать плейлист.

Важно: автоматическое сопоставление не всегда идеально — проверяйте результаты вручную и уточняйте названия или годы при необходимости.

Мини-методология: быстрый рабочий процесс

Забронируйте датасет на Data.world.
Просмотрите структуру файлов (CSV/XLSX).
Выполните небольшой SQL-запрос с LIMIT, чтобы понять схему.
Экспортируйте нужные подмножества в CSV.
Очистите данные в Excel/Sheets (удаление дубликатов, нормализация названий артистов).
Экспорт для Soundiiz → проверка сопоставлений → создание плейлиста.

Чек-лист по ролям

Аналитик данных:
- Проверить качество полей: artist, title, chart_date, peak_pos;
- Создать SQL-запросы для трендов и подсчёта хитов по годам;
- Экспортировать выборки в CSV для дальнейшей очистки.
Куратор плейлистов:
- Подготовить список треков в нужном формате для Soundiiz;
- Проверить точность соответствий Spotify;
- Прослушать и отобрать песни для финального плейлиста.
Разработчик/интегратор:
- Настроить автоматическую загрузку CSV в Google Drive или S3;
- Автоматизировать процесс обновления через API, если требуется.

Шаблон SQL для типичных задач

Топ‑10 по артисту:

SELECT artist, title, MIN(peak_pos) AS best_pos
FROM hotstuff
WHERE artist ILIKE '%%'
GROUP BY artist, title
HAVING MIN(peak_pos) <= 10
ORDER BY best_pos ASC;

Тренды по годам (сколько уникальных новых хитов в каждом году):

SELECT EXTRACT(YEAR FROM chart_date) AS year, COUNT(DISTINCT title||' - '||artist) AS unique_hits
FROM hotstuff
GROUP BY year
ORDER BY year;

Факт-бокс с ключевыми числами

Около 30 000 записей в отдельных Spotify-файлах.
Исторические чарты Billboard в совокупных проектах могут содержать сотни тысяч строк.
Использование SQL и локального экспорта ускоряет анализ по сравнению с интерактивной сортировкой в браузере.

Когда подход не сработает

Если вам нужен полный аудио контент (файлы треков) — Data.world содержит метаданные, а не саму музыку.
Если названия и артисты сильно неунифицированы, автоматическое сопоставление со Spotify будет ошибочно.

Краткий глоссарий (одно предложение каждое)

Датасет: упорядочённый набор данных, публикуемый на платформе.
CSV: текстовый формат для табличных данных, разделённых запятыми.
XLSX: формат электронных таблиц Microsoft Excel.
Soundiiz: сервис для миграции плейлистов между музыкальными сервисами.
Peak_pos: лучшая (наименьшая) позиция трека в чарте.

Примерный план развития проекта

Первичная выборка и тестовый плейлист (1–2 дня).
Автоматизация экспорта и очистки данных (1 неделя).
Тестирование точности сопоставлений Spotify, доработка правил очистки (1–2 недели).
Публикация итоговых плейлистов и метаданных.

Заключение

Data.world — удобный инструмент для поиска музыкальных «кладов». Он сочетает в себе возможность хранения больших наборов данных, простой SQL-интерфейс и интеграции с внешними инструментами. Начните с бронирования проекта Billboard, изучите CSV и XLSX файлы, используйте SQL для быстрых выборок и экспортируйте найденные треки в Spotify через инструменты миграции. Это надёжный способ обнаружить забытые и недооценённые композиции.

Краткие рекомендации: