Stability AI发布基于稳定扩散的音频生成模型Stable Audio

2023-09-18 09:24:32

近日Stability AI推出了一款名为Stable Audio的尖端生成模型,该模型可以根据用户提供的文本提示来创建音乐。在NVIDIA A100 GPU上Stable Audio可以在一秒钟内以44.1 kHz的采样率产生95秒的立体声音频,与原始录音相比,该模型处理时间的大幅减少归因于它对压缩音频潜在表示的有效处理。

架构

自动编码器(VAE),一个文本编码器和U-Net扩散模型。VAE通过获取输入音频数据并表示为保留足够信息用于转换的压缩格式,因为使用了卷积结构,所以不受描述音频编解码器的影响,可以有效地编码和解码可变长度的音频,同时保持高输出质量。

文本提示通过预先训练的文本编码器(称为CLAP)无缝集成。这个编码器是使用精心策划的数据集从头开始构建的,可以保留了文本特征包含了足够的信息,可以在单词和相应的声音之间建立有意义的联系。从CLAP编码器的倒数第二层提取的这些文本特征,然后通过U-Net的注意力层进行引导。

为了生成用于时间嵌入的音频片段,需要计算两个关键参数:片段的起始时间(以秒为单位)(称为“seconds_start”)和原始音频文件的总持续时间(以秒为单位)(称为“seconds_total”)。这些值被转换成离散学习的嵌入,在输入到U-Net的注意层之前与查询令牌连接。在推理阶段,这些值作为条件允许用户指定所需的最终音频输出长度。

Stable Audio中的扩散模型是一个U-Net架构,具有强大的9.07亿个参数,灵感来自Moûsai 模型。它结合残差层、自注意力层和交叉注意力层,基于文本和时间嵌入对输入数据进行有效降噪。

数据集

Stable Audio在包含超过80万个音频文件的广泛数据集上进行了训练。这个多样化的集合包括音乐、音效、乐器样本及其相关的文本元数据,总时长超过19,500小时。这个广泛的数据集是通过与音乐库AudioSparx的合作而提供的。

总结

Stability AI的Stable Audio AI模型标志着人工智能驱动的听觉创造力的重大飞跃。它为音乐和声音爱好者打开了新的视野。在未来还会提供进一步增强模型、数据集和训练技术的体系结构,发布基于Stable Audio的开源模型,并将提供必要的代码,以方便定制音频内容生成模型的训练。

项目的官方网站:

https://avoid.overfit.cn/post/86c750a6534b4cd380c94d3301fcf1bd

更多推荐

华为HC2023 专题演讲:openGauss 内核架构双引擎,全新打造数据底座

华为全联接大会2023专题演讲:openGauss内核架构双引擎,全新打造数据底座2023年9月22日14:00-15:40(UTC+08:00)上海世博中心430openGauss5.1(Preview)版的最新技术分享社区、技术、商业、生态等最新进展与数据库大咖共探数据库技术与前沿未来精彩议程14:00-14:10

LeetCode 394. 字符串解码

题目链接力扣(LeetCode)官网-全球极客挚爱的技术成长平台题目解析使用栈来很好的解决每一个中括号(包含前边的数字)的重复插入问题。我们首先创建一个栈,栈中的数据是一个个的键值对{count,ans.size()};分别是当前字符串重复的次数,和当前字符串在ans的其实下标。ans代表的是遍历到当前字符的正确答案。

【ES6知识】Iterator迭代器与 class类

文章目录一、Iterator迭代器1.1基础知识概述1.2工作原理1.3Symbol.iterator1.4Generator函数来实现Symbol.iterator接口二、ES6Class类2.1概述2.2ES6中的继承2.3面向对象应用-React一、Iterator迭代器1.1基础知识概述迭代器(Iterator

小节9:Python之numpy

numpy全称为NumericalPython,是很多数据或科学相关Python包的基础。1、numpy数组(NDarrayN维数组)numpy数组是更适合数据分析的列表。numpy的数组和Python的内置列表有相似之处,也有不同之处。相似之处:我们都可以通过索引去获得某个元素,可以通过切片获得某个范围的多个元素,也

Excel中的宏、VBA

一、宏是什么?EXCELMACRO是一种记录和播放工具,它仅记录您的Excel步骤,并且宏将根据需要播放任意多次。VBA宏可自动执行重复任务,从而节省了时间。这是一段可在Excel环境中运行的编程代码,但您无需成为编码器即可对宏进行编程。但是,您需要VBA的基础知识才能在宏中进行高级修改。作为人类,我们是习惯的产物。我

C/C++计算分数的浮点数值 2019年12月电子学会青少年软件编程(C/C++)等级考试一级真题答案解析

目录C/C++计算分数的浮点数值一、题目要求1、编程实现2、输入输出二、解题思路1、案例分析三、程序代码四、程序说明五、运行结果六、考点分析C/C++计算分数的浮点数值2019年12月C/C++编程等级考试一级编程题一、题目要求1、编程实现两个整数a和b分别作为分子和分母,既分数a/b,求它的浮点数值(双精度浮点数,保

blog--1 hugo环境

静态博客框架jekyll、hexo和hugo三者之间的区别与差异博客生成器?全名为静态网站生成器,可在任意拥有主机功能的环境下寄存(托管)可直接配合域名进行全球访问劣势:每次更新网页必须重新生成整个网站编译速度(单位:秒)Jekyll:15.90Hugo:4.90Hexo的数据应当介于二者之间。environmentJ

【数学建模】2023华为杯研究生数学建模F题思路详解

强对流降水临近预报我国地域辽阔,自然条件复杂,因此灾害性天气种类繁多,地区差异大。其中,雷雨大风、冰雹、龙卷、短时强降水等强对流天气是造成经济损失、危害生命安全最严重的一类灾害性天气[1]。以2022年为例,我国强对流天气引发风雹灾害造成的死亡失踪人数和直接经济损失分别占73%和69%。由于强对流天气具有突发性和局地性

智慧公厕预见幸福生活、美好未来

随着城市化的加速发展,公共厕所作为城市基础设施的重要组成部分,对于提升城市形象和居民生活质量起着至关重要的作用。智慧公厕作为智慧城市建设的一部分,正逐渐成为城市管理的新宠儿,能有效助力网络强国、数字中国、智慧社会的建设。本文以智慧公厕源头厂家广州中期科技有限公司,大量精品案例项目实景实图,解读为什么说智慧公厕是预见“幸

windows nginx 本地部署访问静态资源zip文件 配置以及bug解决

步骤配置nginx服务器以提供静态资源zip文件的访问可以按照以下步骤进行:安装并配置Nginx:首先确保已正确安装和配置了Nginx服务器。你可以从Nginx官方网站下载和安装Nginx,然后根据操作系统的要求进行配置。准备静态资源zip文件:将你的静态资源文件打包成一个zip文件,确保zip文件中包含了你想要提供给

操作系统基本概念

目录一、基本概述二、操作系统的特点(一)并发性(实质是微观的串行、宏观的并行)1.对比看:并行性2.单核CPU和多核CPU(二)共享性(三)虚拟性(四)异步性三、操作系统的功能(一)用户与硬件的接口1.命令方式2.系统调用方式3.图形、窗口方式(二)资源管理者1.处理机管理2.存储器管理3.I/O设备管理4.文件管理(

热文推荐