呆丸君 文章

各種文章

TTM 技術模型:三階段轉化過程

解構文字 Prompt 到音訊波形的底層邏輯。

返回系列
最後更新於 Feb 26, 2026 4 Min Read

Text-to-Music (TTM) 本質上是將具備音樂語義的文字,轉化為具備物理特性的音訊。這個過程拆解開來非常有助於我們優化輸入。

語義轉譯 (Embedding)

Semantic to Vector

將人類語言(如「憂鬱的爵士」)映射至高維向量空間,讓機器理解音樂特徵。

  • 優化點: Prompt Engineering 精確度
  • 輸入要求: 結構化文字輸入

特徵生成 (Latent Space)

Latent Structure Gem

在隱藏空間中「雕刻」音樂特徵,形成旋律、節奏與曲式結構。

  • 自回歸: 自回歸預測
  • 擴散模型: 擴散模型重建

音訊重建 (Vocoding)

Feature to Waveform

將抽象的頻譜還原為可聽見的波形,決定音質、動態與空間感。

  • 優化點: 解碼器性能與預訓練品質

技術視角

了解這三階段有助於診斷問題:
Embedding 階段決定「聽不聽得懂」。
Vocoder 階段決定「好不好聽」。

Explore More

Recommended Reading

View All