呆丸君文章

各种文章

AI 音乐创作的三种底层模式

区分创作模式的关键不在于结果，而在于创作起点 (Source of Truth)。

最后更新于 Feb 24, 2026 5 Min Read

在 AI 音乐生成中，区分创作模式的关键不在于最后出来的风格（Style），而在于最初的“创作起点（Source of Truth）”。这是一个足够底层的三分法，决定了你的 Prompt 策略与角色分工。

先词再曲 (Lyric-led)

Text Structure → Musical Emotion

逻辑是从文字结构映射到音乐情绪。先有歌词，定了框架之后，再转译成音乐。

流程: 想像/主题 → 歌词生成 → 结构确认 → 风格转译 → 音乐生成
适用: 叙事性强、概念先行、诗词改编

先曲再词 (Music-led)

Audio Vibe → Narrative Extraction

从听觉氛围中寻找故事。先生成情绪或旋律想像，再从节奏中长出歌词。

流程: 情绪想像 → 音乐生成 → 结构解析 → 歌词情绪映射 → 歌词生成
适用: 氛围先行、Beat 制作、情绪宣泄

混合共生 (Co-evolution)

Iterative Feedback Loop

模糊意象同步收敛。让词曲同步迭代，在演化中捕捉灵感。

流程: 模糊意象 → 词曲同时生成 → 结构收敛 → 版本演化
适用: 实验性创作、灵感捕捉、风格混搭

呆丸君的小洞察

搞清楚模式决定了你的 Agent 分工：
Lyric-led 需要强大的 Music Translator。
Music-led 则需要强大的 Lyric Mapper。

Explore More

Recommended Reading

A2M 技术模型：音频翻译与再生成

除了 TTM，解析 Audio-to-Music (A2M) 的底层逻辑：从音频翻译、特征提取到再生成的变形组合。

TTM 技术模型：三阶段转化流程

解析 Text-to-Music (TTM) 的底层逻辑：从语义转译、特征生成到音频重建的技术路径。

四阶段思考框架：从灵感到结构化提示词

将抽象的、感性的灵魂，转化为 AI 可执行的精密工程指令。