了解 Meta AI 的新开发成果,称为 Voicebox。正如马克·扎克伯格所宣布的,该模型能够执行与语音生成相关的各种任务,例如编辑、采样和风格化,即使没有经过针对这些功能的专门训练。
在另一个层面上创建和编辑声音
Voicebox 使用情境学习方法来实现这些惊人的功能。Voicebox 的突出功能之一是它能够生成高质量的音频片段并对以前的录音进行编辑。
这意味着能够在不改变原始内容和风格的情况下消除不需要的噪音或纠正发音。此外,该模型能够生成六种不同语言的语音,展示了其多功能性和多语言方法。
在不久的将来, Voicebox 等生成式人工智能模型预计将发挥广泛的作用。
其中包括为虚拟助手和元宇宙中的角色提供自然语音的能力,让视障人士能够听到以他们喜欢的风格编写的消息,以及为创作者提供用于视频制作的音频编辑工具等诸多创新应用。
这一突破代表了生成人工智能研究的一个重要里程碑,并有望在音频领域开辟许多新的可能性。此外,它肯定会激励其他研究人员继续开发和完善这项革命性技术。
语音盒的主要特点
流程匹配方法:Meta IA 开发了一种称为“流程匹配”的方法来解决文本引导的语音填充任务。
数据规模:Voicebox 经过大量数据训练,提高了其在上下文中学习和在各种情况下执行的能力。
多种风格:该模型可以生成多种风格的结果,可以创建适应不同需求的高质量音频剪辑。
可用性有限:由于可能存在误用风险,该模型及其代码目前尚未向公众开放。
透明度和问责制:Meta IA 致力于在与人工智能社区分享其研究成果和确保模型使用的问责制之间找到平衡,优先考虑其行动的透明度。
通过上下文学习
GPT和 DALL-E等大规模生成模型彻底改变了自然语言处理和计算机视觉的研究,能够生成高质量的文本和图像。这些模型不仅因其保真度而脱颖而出,而且还因其解决尚未明确教授的任务的一般能力而脱颖而出。
然而,在语音生成模型领域,任务的规模和泛化性仍然面临挑战。就 Voicebox 而言,它是一种非自回归流匹配模型,旨在根据音频和文本上下文完成语音片段。
使用了超过50,000 小时的未经过滤和未经增强的语音进行训练,与该领域的其他进展相比,该模型处于早期阶段。与 GPT 一样,Voicebox 能够通过上下文学习来执行多任务处理。
然而,它的优势在于它也能够调节未来的环境。该工具可用于一种或多种语言的文本到语音合成,无需事先培训。