Как найти забытые хиты с Data.world
Важно: в статье используются публичные наборы данных. Проверяйте лицензию каждого датасета перед коммерческим использованием.

Музыка — не только развлечение. Она формирует идентичность, отражает эпохи и стили жизни. Многие хиты прошлого со временем забываются — но данные помогают их находить и возвращать в актуальность. В этой статье я покажу, как использовать Data.world для поиска «забытых» песен в чартах Billboard и анализировать характеристики треков из Spotify.
Что вы получите из этой инструкции
- Пошаговый план работы с набором данных Billboard и Spotify на Data.world;
- Как фильтровать и сортировать записи локально и на платформе;
- Примеры SQL-запросов для типовых задач (поиск по артисту, по пиковым позициям и по годам);
- Как экспортировать найденные треки в плейлист Spotify (через Soundiiz) и полезные чек-листы для ролей.
Начало работы с Data.world
- Зарегистрируйтесь на https://data.world и войдите в аккаунт.
- В строке поиска в центре верхней части страницы введите “Billboard hot weekly charts” и выберите проект с тысячами закладок.
- На карточке проекта нажмите «Bookmark», чтобы сохранить его в своём профиле и легко возвращаться.
В проекте обычно два файла:
- CSV с детальной информацией о чартах (попадания, даты, позиции). Этот файл может быть большим — в проекте встречаются сводные списки с сотнями тысяч строк.
- Excel (XLSX) с фичами треков из Spotify: danceability, energy, popularity и др. Этот файл легче и быстрее для локальной работы.
Примечание: проект содержит десятки тысяч записей — в источнике упоминалось около 30 000 песен в отдельных наборах и более 300 000 строк в объединённых исторических списках. Ожидайте, что некоторые операции в браузере будут работать медленнее на очень больших файлах.
Работа с данными Billboard
Открытие и первичный осмотр
Откройте файл HotStuff.csv в представлении Data.world или скачайте файл локально. Если вы будете работать в браузере — используйте фильтры платформы, но для глубокой сортировки удобнее импорт в таблицу.
Рекомендация: скачайте CSV и откройте в Google Sheets или Microsoft Excel, если планируете сложную фильтрацию или сводные таблицы.
Как быстро сортировать и фильтровать
- В Excel: Откройте CSV → Выберите диапазон → Данные → Фильтр. Для разбивки по датам используйте столбец с датой выхода чарта.
- В Google Sheets: Файл → Импорт → Загрузить CSV → Создать таблицу. Затем Данные → Создать фильтр.
Если таблица очень большая, сортировка может быть медленной. Разбейте данные по годам или диапазонам дат и работайте с частями.
Работа с данными Spotify
Файл “Hot 100 Audio Features.xlsx” содержит аудио-метрики Spotify. Колонки обычно включают такие метрики, как danceability, energy, tempo и popularity.
Этот файл компактнее — около 30 000 записей — поэтому он удобен для интерактивного анализа прямо в Data.world или в Excel.
Использование SQL на Data.world
Если вы знакомы с SQL, Data.world позволяет выполнять запросы прямо в интерфейсе набора данных. Это удобно для быстрых выборок и агрегаций.
- Откройте представление данных и нажмите “Запрос” в правом верхнем углу (UI-метка: Запрос).
- Введите SQL и нажмите кнопку “Выполнить запрос” (UI-метка: Выполнить запрос).
Пример запроса: найти все песни Adele, попавшие в топ‑10
SELECT artist, title, peak_pos, chart_date
FROM hotstuff
WHERE artist ILIKE '%Adele%'
AND peak_pos <= 10
ORDER BY chart_date DESC;Пояснение: ILIKE — функция нечувствительного к регистру поиска; peak_pos — минимальная (лучшая) позиция на чарте; chart_date — дата чарта.
Советы по SQL:
- Начинайте с LIMIT 100, чтобы быстро просмотреть выборку;
- Используйте группировку по годам для трендов: GROUP BY EXTRACT(YEAR FROM chart_date);
- Для больших таблиц применяйте предфильтрацию по диапазону дат.
Как экспортировать найденные треки в плейлист Spotify
- Сформируйте список уникальных треков (artist + title) в результате запроса или в таблице.
- Сохраните список в CSV с колонками “artist” и “title”.
- Используйте сервисы миграции плейлистов, например Soundiiz, чтобы сопоставить ваши строки с треками Spotify и создать плейлист.
Важно: автоматическое сопоставление не всегда идеально — проверяйте результаты вручную и уточняйте названия или годы при необходимости.
Мини-методология: быстрый рабочий процесс
- Забронируйте датасет на Data.world.
- Просмотрите структуру файлов (CSV/XLSX).
- Выполните небольшой SQL-запрос с LIMIT, чтобы понять схему.
- Экспортируйте нужные подмножества в CSV.
- Очистите данные в Excel/Sheets (удаление дубликатов, нормализация названий артистов).
- Экспорт для Soundiiz → проверка сопоставлений → создание плейлиста.
Чек-лист по ролям
Аналитик данных:
- Проверить качество полей: artist, title, chart_date, peak_pos;
- Создать SQL-запросы для трендов и подсчёта хитов по годам;
- Экспортировать выборки в CSV для дальнейшей очистки.
Куратор плейлистов:
- Подготовить список треков в нужном формате для Soundiiz;
- Проверить точность соответствий Spotify;
- Прослушать и отобрать песни для финального плейлиста.
Разработчик/интегратор:
- Настроить автоматическую загрузку CSV в Google Drive или S3;
- Автоматизировать процесс обновления через API, если требуется.
Шаблон SQL для типичных задач
- Топ‑10 по артисту:
SELECT artist, title, MIN(peak_pos) AS best_pos
FROM hotstuff
WHERE artist ILIKE '%%'
GROUP BY artist, title
HAVING MIN(peak_pos) <= 10
ORDER BY best_pos ASC; - Тренды по годам (сколько уникальных новых хитов в каждом году):
SELECT EXTRACT(YEAR FROM chart_date) AS year, COUNT(DISTINCT title||' - '||artist) AS unique_hits
FROM hotstuff
GROUP BY year
ORDER BY year;Факт-бокс с ключевыми числами
- Около 30 000 записей в отдельных Spotify-файлах.
- Исторические чарты Billboard в совокупных проектах могут содержать сотни тысяч строк.
- Использование SQL и локального экспорта ускоряет анализ по сравнению с интерактивной сортировкой в браузере.
Когда подход не сработает
- Если вам нужен полный аудио контент (файлы треков) — Data.world содержит метаданные, а не саму музыку.
- Если названия и артисты сильно неунифицированы, автоматическое сопоставление со Spotify будет ошибочно.
Краткий глоссарий (одно предложение каждое)
- Датасет: упорядочённый набор данных, публикуемый на платформе.
- CSV: текстовый формат для табличных данных, разделённых запятыми.
- XLSX: формат электронных таблиц Microsoft Excel.
- Soundiiz: сервис для миграции плейлистов между музыкальными сервисами.
- Peak_pos: лучшая (наименьшая) позиция трека в чарте.
Примерный план развития проекта
- Первичная выборка и тестовый плейлист (1–2 дня).
- Автоматизация экспорта и очистки данных (1 неделя).
- Тестирование точности сопоставлений Spotify, доработка правил очистки (1–2 недели).
- Публикация итоговых плейлистов и метаданных.
Заключение
Data.world — удобный инструмент для поиска музыкальных «кладов». Он сочетает в себе возможность хранения больших наборов данных, простой SQL-интерфейс и интеграции с внешними инструментами. Начните с бронирования проекта Billboard, изучите CSV и XLSX файлы, используйте SQL для быстрых выборок и экспортируйте найденные треки в Spotify через инструменты миграции. Это надёжный способ обнаружить забытые и недооценённые композиции.
Краткие рекомендации:
- Начинайте с маленьких выборок (LIMIT) и расширяйте фильтр по мере уверенности;
- Стабилизируйте имена артистов и треков перед автоматическим сопоставлением;
- Документируйте процесс экспорта и проверки результатов.
Сводка в конце: см. блок “Что вы получите” для основных шагов.
Похожие материалы
Cloud Library: электронные книги и аудиокниги
Как собрать настольный вентилятор — 3D или картон
Как исправить медленное Wi‑Fi за несколько шагов
Как выпустить NFT на Cardano — пошагово
Перепродажа электронных книг — легальные способы