呆丸君 文章

各种文章

TTM 技术模型:三阶段转化过程

解构文字 Prompt 到音频波形的底层逻辑。

返回系列
最后更新于 Feb 26, 2026 4 Min Read

Text-to-Music (TTM) 本质上是将具备音乐语义的文字,转化为具备物理特性的音频。这个过程拆解开来非常有助於我们优化输入。

语义转译 (Embedding)

Semantic to Vector

将人类语言(如“忧郁的爵士”)映射至高维向量空间,让机器理解音乐特征。

  • 优化点: Prompt Engineering 精确度
  • 输入要求: 结构化文字输入

特征生成 (Latent Space)

Latent Structure Gem

在隐藏空间中“雕刻”音乐特征,形成旋律、节奏与曲式结构。

  • 自回归: 自回归预测
  • 扩散模型: 扩散模型重建

音频重建 (Vocoding)

Feature to Waveform

将抽象的频谱还原为可听见的波形,决定音质、动态与空间感。

  • 优化点: 解码器性能与预训练质量

技术视角

了解这三阶段有助于诊断问题:
Embedding 阶段决定“听不听得懂”。
Vocoder 阶段决定“好不好听”。

Explore More

Recommended Reading

View All