Text-to-Music (TTM) 本質上是將具備音樂語義的文字,轉化為具備物理特性的音訊。這個過程拆解開來非常有助於我們優化輸入。
語義轉譯 (Embedding)
Semantic to Vector
將人類語言(如「憂鬱的爵士」)映射至高維向量空間,讓機器理解音樂特徵。
- 優化點: Prompt Engineering 精確度
- 輸入要求: 結構化文字輸入
特徵生成 (Latent Space)
Latent Structure Gem
在隱藏空間中「雕刻」音樂特徵,形成旋律、節奏與曲式結構。
- 自回歸: 自回歸預測
- 擴散模型: 擴散模型重建
音訊重建 (Vocoding)
Feature to Waveform
將抽象的頻譜還原為可聽見的波形,決定音質、動態與空間感。
- 優化點: 解碼器性能與預訓練品質
技術視角
了解這三階段有助於診斷問題:
Embedding 階段決定「聽不聽得懂」。
Vocoder 階段決定「好不好聽」。