ai音乐应用产业报告2024.07 量子位智库 qbitai insights 分析师丁乔 dingqiao@qbitai.com 技术篇010203目 录产业篇展望篇04产品案例 核心结论音乐符号模型打开ai音乐生成的大门,音频模型找到ai落地音乐应用的方式音频路线成为研究热点,为应用爆发奠定技术基础生成式ai改变音乐产业,简化音乐制作流程,提供音乐创作新思路流媒体平台或成为ai音乐商业化中最确定的一方,传统的音乐工程在此轮变革中是受冲击最大的一方数据是技术迭代和商业化过程中最关键的一环,生成音乐中对情感表达的把控是产品迭代的关键 技术篇01 定义:ai音乐生成是指通过对大量音乐数据进行学习和分析,掌握音乐的基本规律和风格特征,从而创作出音乐片段或完整的音乐。ai音乐生成发展关键节点2016202020232024•suno音乐生成领域的「集大成者」,实现ai生成完整歌曲;2024年3月发布v3模型•udio4 月 11 日,ai 音乐生成工具 udio 完成测试,正式上线•天工skymusic4月,昆仑万维发布基于「天工3.0 」打造的「天工skymusic」产品•openai发布jukebox奠定了transformer文生音乐的基本架构;采用压缩技术让jukebox能够处理更复杂的音乐,更好地理解音乐文本•谷歌发布musiclm2023年1月,谷歌发布musiclm,搭建在之前发布的语音模型audiolm之上•meta 入局2023年6月,meta推出audiocraft系列产品,包括负责生成音效的audiogen,生成音乐的musicgen以及一个全新的压缩编码方式encodec•谷歌megenta项目音乐生成进入神经网络时代 ai音乐生成的基本流程数据收集数据预处理特征提取训练阶段生成新的音乐评估和优化•音频文件、midi序列、乐谱或其他音乐数据•对收集到的音乐数据进行预处理,包括去噪、分割、标准化等•提取音乐数据里的特征,包括音高、音色、节奏、动态变化等•选择合适的模型进行训练•模型通过不断调整内部参数来最小化预测误差•对生成的音乐作品进行评估,包括主观评估和客观指标,如音乐理论的一致性和听觉效果的愉悦度;•根据评估结果,模型会进一步的调整和优化生成不同类型的音乐•包含人声的完整歌曲•背景音乐...... 音频生成模型两种技术路线符号模型的研究要早于音频模型的研究,但符号模型生成的音乐在最终效果上存在明显的机械、不自然特征,因此在应用侧难以落地。而音频路线在近两年取得了突破性进展,生成的作品更加流畅自然。因此,这条路线成为目前业内更受欢迎的一条路线。此外,音频模型路线因其生成音乐的完整性更高,且能够直接生成歌曲,对于用户来说可以做到零门槛创作,在商业化上也更具潜力。音乐符号模型打开ai音乐生成的大门,音频模型找到ai落地音乐应用的方式•原理直接用海量音频数据训练模型,使用深度神经网络和vae或transformer等方法,端到端直接生成音乐符号生成模型•原理提取出音频中的各类音乐信息,如歌词、旋律、乐器等,并对这些信息进行标注,拆分成音乐的各个环节来生成词、曲等•局限算力成本高昂;音频生成的侵权风险相较于符号生成更大(后者学习乐理规则,前者直接模仿成品音乐)•局限生成的是音乐的不同部分而非成品音乐,需要通过传统的音乐制作流程,将各部分融合起来,制作成音频内容音频 音乐符号协同生成•可根据文本直接生成音频•乐谱生成,并且支持对已生成的乐谱进行自动编辑操作•案例:腾讯的「琴乐大模型」,同时支持文本生成音乐,以及乐谱生成 谷歌musiclm音频模型的代表musiclm在跨模态创作和个性化音乐生成上表现出色,而musicgen则在音乐质量和风格适应性方面具有优势。musiclm的出现标志着音乐生成技术向更高级别的艺术创作和智能化方向发展,而musicgen则代表了音乐生成技术在音乐制作和质量方面的进一步提升。音频路线成为研究热点,为应用爆发奠定技术基础musiclm是一个基于transformer架构的模型。musiclm的一个显著特点是能够生成多音轨作品,生成的音乐更具艺术性和个性化。结合了文本和音乐两种模态,能够实现跨模态的创意表达模型能够捕捉音乐序列中的长距离依赖关系,生成连贯的音乐作品通过文本描述,模型能够更好地理解用户的需求和创作意图多模态能力模型能够生成具有丰富和声和旋律的音乐,接近专业音乐作品的水准能够学习和模仿各种音乐风格,从而生成符合特定风格的音乐作品通过优化模型结构和训练过程,musicgen能够快速生成音乐,提高创作效率长距离依赖处理上下文理解metamusicgen高质量音乐生成风格适应性高效生成musicgen同样基于transformer架构,但更侧重于生成高质量的音乐样本。musicgen能够生成具有高度复杂性和多样性的音乐作品,同时保持音乐的结构和风格一致性,生成的音乐听起来更加自然。 产业篇02 ai改变音乐产业音乐产业的核心动力来自于创作部分,属于音乐从0到1 的阶段;而音乐制作是音乐从1到100的过程,包含大量的音乐工程。音乐产业在进入工业化阶段后,存在供过于求,创新力不足等问题。ai音乐生成的出现,为音乐产业带来新的创作思路,让越来越多的人加入到音乐创作当中。此外,ai对于音乐产业的一大变革在于音乐流程的极大简化。原先不同步骤的工序需要不同的人/团队来完成。ai出现后,一个人可以完成所有工序。其中,生成式ai更多运用在创作部分,在制作和发行流程中,也会加入其他 ai技术。本报告主要聚焦于生成式ai对音乐产业中部分环节的变革。音乐制作流程简化,提供创作新思路传统方式ai通过学习大量乐理知识来形成对音乐的理解,花费大量时间来构思和设计音乐结构通过学习海量音乐数据来掌握音乐的基本规律,并进行创作作为自动化音频处理工具,保证音乐最终的质量音频工程师、母带工程师等对音乐进行处理艺人可以在流媒体平台发布自己的专辑或单曲,平台为用户匹配适合的歌曲风格,并提供个性化音乐推荐由唱片公司代理,承包艺人的宣发工作音乐创作•作词•作曲音乐制作•录音•剪辑•混声•母带处理推广发行•唱片发行编曲 ai音乐现状ai在音乐制作中的应用已经相对成熟,在母带处理、混音等工程含量较高的环节已经的到很好的应用,如landr通过ai进行母带处理并由此形成稳定的商业模式。然而,在音乐创作中,ai的应用处在早期阶段。suno属于这个赛道上第一家出圈的公司。昆仑万维、网易天音等是中国市场中的领先者。这份报告在产品侧主要聚焦于生成式ai在音乐创作上的应用。ai 制作走向成熟,ai创作处于发展上升期在音乐创作中,ai不仅需要理解和模仿复杂的音乐结构、和声、旋律、节奏等元素,还需要让人声和乐器完美结合具体体现音乐创作音乐制作音频信号处理自动去除音频中的杂音、噪音,音频压缩等混音处理根据创作者的要求,自动平衡轨道间的音量,调整均衡器设置母带处理自动检测音乐特点,并自动应用适当的母带处理效果一键生成ai编曲ai作曲ai作词根据用户提供的参数自动生成旋律、和弦等创作各种风格的编曲,提供音乐编排等建议选择场景、心情、环境等描述情感/氛围的关键词,或输入创作灵感,ai一键生成歌词输入提示词生成音乐,大致分为两类:1)一键生成完整音乐2)一键生成完整音轨需要音乐基础无需音乐基础注:未穷尽,重点展示关键工序/环节的ai应用 ai音乐产业图谱ai作词音频处理ai音乐创作ai音乐制作一键生成ai作曲混音处理母带处理 一键生成类产品产品密集发布,初步实现「人人皆可创作」海外产品产品是什么产品特点suno由ai 驱动的音频和音乐生成工具高品质、多语言、完整性高的歌曲生成udio由ai 驱动的音乐创作和分享平台在合成人声中捕捉情感的能力stable audioai生成音乐平台生成长度可调节cassetteaiai驱动的音乐生成平台一键生成完整音轨本土产品产品是什么产品特点网易天音使用ai进行编曲、作词或一键生成音乐支持一键生成、ai作曲/ai作词天工skymusic一键生成音乐平台作品的情感表达力丰富,人声逼真海绵音乐字节跳动推出的免费ai音乐创作和分享平台音乐风格更符合国人喜好bgm猫灵动音推出的一键生成背景音乐产品音乐高能点可调节今年3月,suno发布v3模型。用户只需给出风格和主题词,几秒钟便可以生成一首两分钟的原创歌曲。一个月后,另一款有相似功能的产品udio也正式推向市场。「一键生成」成为了ai音乐市场最热的话题,中国市场中网易、昆仑万维、腾讯等公司也推出了音乐生成产品。生成式ai在音乐领域,开启了「人人皆可创作」的时代。产品的可观表现,也激发了资本对于生成式ai落地的信心。suno在5月22日完成a轮1.25亿美元融资,udio在4 月正式上线之际也宣布完成1000万美元的种子轮融资。suno最新发布的v3.5,已经能够完成4分钟的音乐创作,在歌曲的完整度和情感表现上,都较v3.0版本有所提升。在中文歌曲的呈现上,suno等海外产品在人声上会出现明显的瑕疵(如声音不够稳),而中国本土的音乐生成软件不论是对中文歌的旋律、节奏等的把控,还是对歌词的理解上,都有更好的表现力。也因此,本土产品在生成音乐的曲风上更加符合本土市场需求。 降低创作门槛一键生成类产品对音乐人群的作用对于非专业人士来说,ai生成音乐主要解决了缺乏乐理的难题。而对于专业人士来说,目前ai更多是在制作环节帮助音乐人更高效地完成工作。专业人士的「降本增效」工具,爱好者的音乐入门产品创意助理•一键生成音乐作品创意助理•提供多样化的音乐表达音频工程师•音乐制作的各个流程都可以用ai来完成ai在产品提供的多种风格中进行选择,只需要输入合适的提示词,就能够生成音乐作品。即使用户没有乐理知识,只需对自己想要的音乐流派和风格有所了解,即可生成完整的音乐作品。非专业用户专业用户音乐人无需掌握复杂的工程能力,也能高效完成自己的作品。降低制作成本提升创作效率相比于传统的音乐制作流程,ai一键生成音乐的成本要低得多,并且在创作效率上也有大幅提高。生成的音乐需要后期处理来提高其质量,通过算法可自动优化混音、母带处理、声音优化等。这些工序往往涉及大量的重复性工作和对已有数据的处理,也可以由ai完成且成本更低。提升制作效率音乐制作进入工业化阶段后,在创新性上呈现乏力态势,而生成式ai所带来的不可预测性恰好为创作者提供了一个摆脱已有创作习惯的路径,让多样化的音乐创作变得更有可能。对于专业的创作者来说,ai生成音乐尽管不会成为他们的最终作品,却能够生成全新的音乐结构,为创作者提供灵感的同时提升创作效率。ai 应用场景-影视ai音乐在影视上的应用可大致分为两个方向:电影配乐和短剧音乐。电影配乐既是观众情绪的助推器,也是电影剧情的“提示词” ,这意味着ai想要达到影视配乐的标准,需要对电影从整体和细节上都准确把握。目前,生成式ai类产品尚无法做到这点。在电影配乐环节,生成式ai更多地是充当灵感激发和效率提升的作用,在创作环节还是由作曲家来把控。而在短剧领域,对于音乐的要求更简单,更加注重音乐传播度,音乐首先服务于传播效果。因此,在音乐的选择上也偏向于有记忆点,旋律简单易于传唱的类型。生成式ai已经能够很好地完成这种类型的音乐创作。正因为这样的适配度,使得ai音乐率先落地在短剧领域。短剧市场将率先接受ai音乐成品,电影市场中ai仅用于音乐生产的部分环节•供给端角度一部短剧的制作周期通常在几周左右,意味着跟剧集相关的所有内容都要在这个时间内完成,包括音乐制作。此外,由于短剧通常以小制作低成本的方式投入,可能没有足够的预算购买尊龙凯时人生就博的版权。因此,通过ai音乐平台创作与剧情相匹配的歌曲也成为短剧的选择。•市场需求侧近两年短剧市场呈井喷式增长,仅2023年前8月,全国备案拍摄的微短剧有3574部。据机构数据显示,2023年国内微短剧市场规模373.9亿元。短剧市场的繁荣,也将给ai音乐带来更多市场空间。•用户需求侧短剧的观众对于整体内容水平的包容度更高,ai音乐已经能够达到为