Гид по технологиям

Как найти забытые хиты с Data.world

6 min read Музыкальные данные Обновлено 29 Dec 2025
Как найти забытые хиты с Data.world
Как найти забытые хиты с Data.world

Важно: в статье используются публичные наборы данных. Проверяйте лицензию каждого датасета перед коммерческим использованием.

Женщина в позе композитора на фоне неоновых инструментов

Музыка — не только развлечение. Она формирует идентичность, отражает эпохи и стили жизни. Многие хиты прошлого со временем забываются — но данные помогают их находить и возвращать в актуальность. В этой статье я покажу, как использовать Data.world для поиска «забытых» песен в чартах Billboard и анализировать характеристики треков из Spotify.

Что вы получите из этой инструкции

  • Пошаговый план работы с набором данных Billboard и Spotify на Data.world;
  • Как фильтровать и сортировать записи локально и на платформе;
  • Примеры SQL-запросов для типовых задач (поиск по артисту, по пиковым позициям и по годам);
  • Как экспортировать найденные треки в плейлист Spotify (через Soundiiz) и полезные чек-листы для ролей.

Начало работы с Data.world

Концерт с ярким световым шоу

  1. Зарегистрируйтесь на https://data.world и войдите в аккаунт.
  2. В строке поиска в центре верхней части страницы введите “Billboard hot weekly charts” и выберите проект с тысячами закладок.
  3. На карточке проекта нажмите «Bookmark», чтобы сохранить его в своём профиле и легко возвращаться.

Карточка набора данных Billboard Hot 100

Кнопка для добавления в закладки

В проекте обычно два файла:

  • CSV с детальной информацией о чартах (попадания, даты, позиции). Этот файл может быть большим — в проекте встречаются сводные списки с сотнями тысяч строк.
  • Excel (XLSX) с фичами треков из Spotify: danceability, energy, popularity и др. Этот файл легче и быстрее для локальной работы.

Примечание: проект содержит десятки тысяч записей — в источнике упоминалось около 30 000 песен в отдельных наборах и более 300 000 строк в объединённых исторических списках. Ожидайте, что некоторые операции в браузере будут работать медленнее на очень больших файлах.

Работа с данными Billboard

Открытие и первичный осмотр

Откройте файл HotStuff.csv в представлении Data.world или скачайте файл локально. Если вы будете работать в браузере — используйте фильтры платформы, но для глубокой сортировки удобнее импорт в таблицу.

Рекомендация: скачайте CSV и откройте в Google Sheets или Microsoft Excel, если планируете сложную фильтрацию или сводные таблицы.

Экран расширённой сортировки столбцов в Google Sheets

Как быстро сортировать и фильтровать

  • В Excel: Откройте CSV → Выберите диапазон → Данные → Фильтр. Для разбивки по датам используйте столбец с датой выхода чарта.
  • В Google Sheets: Файл → Импорт → Загрузить CSV → Создать таблицу. Затем Данные → Создать фильтр.

Если таблица очень большая, сортировка может быть медленной. Разбейте данные по годам или диапазонам дат и работайте с частями.

Топ-20 песен от 9 сентября 1969 года

Работа с данными Spotify

Девушка с наушниками и панковской причёской

Файл “Hot 100 Audio Features.xlsx” содержит аудио-метрики Spotify. Колонки обычно включают такие метрики, как danceability, energy, tempo и popularity.

Выбор категорий данных Spotify

Этот файл компактнее — около 30 000 записей — поэтому он удобен для интерактивного анализа прямо в Data.world или в Excel.

Использование SQL на Data.world

Если вы знакомы с SQL, Data.world позволяет выполнять запросы прямо в интерфейсе набора данных. Это удобно для быстрых выборок и агрегаций.

  • Откройте представление данных и нажмите “Запрос” в правом верхнем углу (UI-метка: Запрос).
  • Введите SQL и нажмите кнопку “Выполнить запрос” (UI-метка: Выполнить запрос).

Пример запроса: найти все песни Adele, попавшие в топ‑10

SELECT artist, title, peak_pos, chart_date
FROM hotstuff
WHERE artist ILIKE '%Adele%'
  AND peak_pos <= 10
ORDER BY chart_date DESC;

Пояснение: ILIKE — функция нечувствительного к регистру поиска; peak_pos — минимальная (лучшая) позиция на чарте; chart_date — дата чарта.

Советы по SQL:

  • Начинайте с LIMIT 100, чтобы быстро просмотреть выборку;
  • Используйте группировку по годам для трендов: GROUP BY EXTRACT(YEAR FROM chart_date);
  • Для больших таблиц применяйте предфильтрацию по диапазону дат.

Как экспортировать найденные треки в плейлист Spotify

  1. Сформируйте список уникальных треков (artist + title) в результате запроса или в таблице.
  2. Сохраните список в CSV с колонками “artist” и “title”.
  3. Используйте сервисы миграции плейлистов, например Soundiiz, чтобы сопоставить ваши строки с треками Spotify и создать плейлист.

Важно: автоматическое сопоставление не всегда идеально — проверяйте результаты вручную и уточняйте названия или годы при необходимости.

Мини-методология: быстрый рабочий процесс

  1. Забронируйте датасет на Data.world.
  2. Просмотрите структуру файлов (CSV/XLSX).
  3. Выполните небольшой SQL-запрос с LIMIT, чтобы понять схему.
  4. Экспортируйте нужные подмножества в CSV.
  5. Очистите данные в Excel/Sheets (удаление дубликатов, нормализация названий артистов).
  6. Экспорт для Soundiiz → проверка сопоставлений → создание плейлиста.

Чек-лист по ролям

  • Аналитик данных:

    • Проверить качество полей: artist, title, chart_date, peak_pos;
    • Создать SQL-запросы для трендов и подсчёта хитов по годам;
    • Экспортировать выборки в CSV для дальнейшей очистки.
  • Куратор плейлистов:

    • Подготовить список треков в нужном формате для Soundiiz;
    • Проверить точность соответствий Spotify;
    • Прослушать и отобрать песни для финального плейлиста.
  • Разработчик/интегратор:

    • Настроить автоматическую загрузку CSV в Google Drive или S3;
    • Автоматизировать процесс обновления через API, если требуется.

Шаблон SQL для типичных задач

  • Топ‑10 по артисту:
SELECT artist, title, MIN(peak_pos) AS best_pos
FROM hotstuff
WHERE artist ILIKE '%%'
GROUP BY artist, title
HAVING MIN(peak_pos) <= 10
ORDER BY best_pos ASC;
  • Тренды по годам (сколько уникальных новых хитов в каждом году):
SELECT EXTRACT(YEAR FROM chart_date) AS year, COUNT(DISTINCT title||' - '||artist) AS unique_hits
FROM hotstuff
GROUP BY year
ORDER BY year;

Факт-бокс с ключевыми числами

  • Около 30 000 записей в отдельных Spotify-файлах.
  • Исторические чарты Billboard в совокупных проектах могут содержать сотни тысяч строк.
  • Использование SQL и локального экспорта ускоряет анализ по сравнению с интерактивной сортировкой в браузере.

Когда подход не сработает

  • Если вам нужен полный аудио контент (файлы треков) — Data.world содержит метаданные, а не саму музыку.
  • Если названия и артисты сильно неунифицированы, автоматическое сопоставление со Spotify будет ошибочно.

Краткий глоссарий (одно предложение каждое)

  • Датасет: упорядочённый набор данных, публикуемый на платформе.
  • CSV: текстовый формат для табличных данных, разделённых запятыми.
  • XLSX: формат электронных таблиц Microsoft Excel.
  • Soundiiz: сервис для миграции плейлистов между музыкальными сервисами.
  • Peak_pos: лучшая (наименьшая) позиция трека в чарте.

Примерный план развития проекта

  1. Первичная выборка и тестовый плейлист (1–2 дня).
  2. Автоматизация экспорта и очистки данных (1 неделя).
  3. Тестирование точности сопоставлений Spotify, доработка правил очистки (1–2 недели).
  4. Публикация итоговых плейлистов и метаданных.

Заключение

Data.world — удобный инструмент для поиска музыкальных «кладов». Он сочетает в себе возможность хранения больших наборов данных, простой SQL-интерфейс и интеграции с внешними инструментами. Начните с бронирования проекта Billboard, изучите CSV и XLSX файлы, используйте SQL для быстрых выборок и экспортируйте найденные треки в Spotify через инструменты миграции. Это надёжный способ обнаружить забытые и недооценённые композиции.

Краткие рекомендации:

  • Начинайте с маленьких выборок (LIMIT) и расширяйте фильтр по мере уверенности;
  • Стабилизируйте имена артистов и треков перед автоматическим сопоставлением;
  • Документируйте процесс экспорта и проверки результатов.

Сводка в конце: см. блок “Что вы получите” для основных шагов.

Поделиться: X/Twitter Facebook LinkedIn Telegram
Автор
Редакция

Похожие материалы

Cloud Library: электронные книги и аудиокниги
Библиотеки

Cloud Library: электронные книги и аудиокниги

Как собрать настольный вентилятор — 3D или картон
Сделай сам

Как собрать настольный вентилятор — 3D или картон

Как исправить медленное Wi‑Fi за несколько шагов
Сеть

Как исправить медленное Wi‑Fi за несколько шагов

Как выпустить NFT на Cardano — пошагово
NFT

Как выпустить NFT на Cardano — пошагово

Перепродажа электронных книг — легальные способы
Электронные книги

Перепродажа электронных книг — легальные способы

Уход за объективами камеры: полное руководство
Фотография

Уход за объективами камеры: полное руководство