4 個音樂資料集正在改寫 AI 訓練
4 個超過 2100 萬首曲目的音樂資料集,正在推動 AI 訓練與授權談判走向新局。

四個大型音樂資料集正在影響 AI 音樂模型的訓練方式。
這份清單看完,你可以快速判斷 4 個資料集各自的規模、來源透明度與法律風險,進而看懂音樂 AI 為何正從「抓資料訓練」走向「談授權合作」。
| 項目 | 曲目數 | 公開來源 | 重點 |
|---|---|---|---|
| LAION-DISCO-12M | 1200 萬以上 | 有 | 只提供公開 YouTube 連結與 metadata |
| 大型未具名資料集 | 約 900 萬 | 未在摘要中交代 | 兩個最大集合之一 |
| Free Music Archive | 10 萬以上 | 有 | 據報導被 Google、Stability AI 使用 |
| 另一個未具名小型資料集 | 10 萬以上 | 未在摘要中交代 | 兩個較小集合之一 |
1. LAION-DISCO-12M 先把規模拉到最大
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
LAION 的 LAION-DISCO-12M 是報導中最清楚、也最大的公開資料集之一,2024 年 11 月釋出,規模超過 1200 萬首。它的定位不是商業成品資料庫,而是研究用途。

這點很重要,因為它不是直接分發音訊檔,而是提供公開 YouTube 曲目連結與中繼資料。對 AI 開發者來說,這種形式更容易擴大訓練集;對版權方來說,則更難追蹤實際用了哪些內容。
- 1200 萬以上曲目
- 2024 年 11 月發布
- 研究用途框架
- 提供連結與 metadata,不直接提供音訊
2. 900 萬首的集合最能放大不透明問題
第二個大集合約有 900 萬首,但報導摘要沒有交代公開來源,這種不完整資訊正是音樂產業最在意的地方。當資料集大到這個量級,模型就可能在流派、年代與歌手目錄上都受到影響。
報導提到,這 4 個資料集合計超過 2100 萬首,且包含 Bad Bunny、Nirvana、Taylor Swift、Billie Eilish、Pearl Jam 和 The Beatles 等作品。對權利人來說,真正棘手的不只是「有沒有用到」,而是「怎麼用到、誰能查到」。
- 約 900 萬首
- 來源在摘要中未完整揭露
- 屬於兩個最大集合之一
- 涉及受版權保護的音樂
3. Free Music Archive 是最容易追溯的案例
Free Music Archive 最早是 2017 年由學術研究者發布,目的是做 music-information-retrieval,也就是搜尋、分類與分析音樂的研究。它的優勢不是量最大,而是來源最清楚。

這個資料庫來自 WFMU 的曲庫,許多作品早就以較寬鬆的 Creative Commons 授權公開。這讓它和後來被拿去訓練生成式 AI 的資料相比,具有更明確的授權脈絡。
- 10 萬以上曲目
- 2017 年以學術用途發布
- 基於 Creative Commons 授權作品
- 據報導被 Google 與 Stability AI 使用
4. 另一個 10 萬級資料集反映審計難度
第四個集合也是約 10 萬首,但報導摘要沒有點名。這種「有規模、沒名字」的狀況,正好說明音樂 AI 訓練資料的審計難題:外界知道它存在,卻不一定知道它怎麼來、怎麼被用。
The Atlantic 的報導指出,這 4 個資料集都被下載過好幾千次。當下載次數已經這麼高,卻仍缺少完整公開資訊,版權爭議自然會持續擴大。
- 10 萬以上曲目
- 在摘要中未命名
- 曾被下載數千次
- 最能代表訓練資料的黑箱問題
5. 真正的轉折是授權,不只是資料集
Udio 與 Suno 正面臨至少 12 起訴訟,但市場走向已經不只是在法院裡拉鋸。Universal Music Group 已在 2025 年 10 月與 Udio 和解,Warner Music Group 也先後與 Udio、Suno 達成協議。
這代表一個明顯訊號:音樂 AI 可能會從開放式抓取訓練,轉向授權式系統。Sony Music 仍在訴訟中,獨立音樂人與美國音樂家聯盟也還在追討未授權使用的補償。
- Udio 面臨至少 12 起訴訟
- UMG 已與 Udio 和解
- Warner 也與 Udio、Suno 達成協議
- Sony Music 仍在訴訟中
怎麼挑,才看得懂這場戰局
如果你重視規模,LAION-DISCO-12M 最值得看;如果你重視來源與授權脈絡,Free Music Archive 最有參考價值;如果你想判斷產業未來走向,Udio 和 Suno 的授權協議比單一資料集更重要。
對一般讀者來說,這份清單最重要的結論不是誰收錄最多,而是音樂 AI 的核心競爭已經從「資料量」轉到「資料能不能被查清楚、能不能合法使用」。