Text-to-Music (TTM) 本质上是将具备音乐语义的文字,转化为具备物理特性的音频。这个过程拆解开来非常有助於我们优化输入。
语义转译 (Embedding)
Semantic to Vector
将人类语言(如“忧郁的爵士”)映射至高维向量空间,让机器理解音乐特征。
- 优化点: Prompt Engineering 精确度
- 输入要求: 结构化文字输入
特征生成 (Latent Space)
Latent Structure Gem
在隐藏空间中“雕刻”音乐特征,形成旋律、节奏与曲式结构。
- 自回归: 自回归预测
- 扩散模型: 扩散模型重建
音频重建 (Vocoding)
Feature to Waveform
将抽象的频谱还原为可听见的波形,决定音质、动态与空间感。
- 优化点: 解码器性能与预训练质量
技术视角
了解这三阶段有助于诊断问题:
Embedding 阶段决定“听不听得懂”。
Vocoder 阶段决定“好不好听”。