文章来源:08ai导航网发布时间:2025-08-14 09:43:35
图片来源:Nari
两名没有高度专业 AI 知识的本科生表示,他们已经创建了一个公开可用的 AI 模型,可以生成类似于 Google 的 NotebookLM 的播客风格的剪辑。
合成语音工具的市场巨大,并且还在不断增长。ElevenLabs 是最大的参与者之一,但不乏挑战者(参见 PlayAI、Sesame 等)。投资者认为这些工具具有巨大的潜力。
根据 PitchBook 的数据 ,开发语音 AI 技术的初创公司去年筹集了超过 3.98 亿美元的风险投资。
Nari Labs 是新发布模型背后的团队,总部位于韩国的联合创始人之一 Toby Kim 表示,他和他的同事在三个月前开始学习语音 AI。受 NotebookLM 的启发,他们希望创建一个模型,该模型可以更好地控制生成的声音和“脚本中的自由度”。
Kim 说,他们使用了 Google 的 TPU Research Cloud 计划来训练 Nari 的模型 Dia,该计划为研究人员提供了对该公司 TPU AI 芯片的免费访问。Dia 有 16 亿个参数,可以从脚本中生成对话,让用户自定义说话者的语气并插入不流畅、咳嗽、大笑和其他非语言线索。
参数是模型用于进行预测的内部变量。通常,参数越多的模型性能越好。
Dia 可从 AI 开发平台 Hugging Face 和 GitHub 获得,可以在大多数具有至少 10GB VRAM 的现代 PC 上运行。除非提示使用预期样式的描述,否则它会生成随机语音,但它也可以克隆人员的语音。
在 TechCrunch 通过 Nari 的网络演示对 Dia 进行的简短测试中,Dia 运行得相当不错,可以毫无怨言地生成关于任何主题的双向聊天。语音质量似乎与其他工具相比具有竞争力,而语音克隆功能是这位记者尝试过的最简单的功能之一。
然而,与许多语音生成器一样,Dia 几乎没有提供任何保护措施。制作虚假信息或诈骗录音很容易。
在 Dia 的项目页面上,Nari 不鼓励滥用该模型来冒充、欺骗或以其他方式参与非法活动,但该组织表示它“不对”滥用负责。
Nari 也没有透露它抓取了哪些数据来训练 Dia。Dia 可能是使用受版权保护的内容开发的。
Hacker News 的一位评论者指出,一个样本听起来像 NPR 的“Planet Money”播客的主持人。在受版权保护的内容上训练模型是一种普遍但法律上可疑的做法。一些 AI 公司声称合理使用使他们免于承担责任,而权利持有人则声称合理使用不适用于培训。
无论如何,Kim 表示,Nari 的计划是在 Dia 和更大的未来模型之上创建一个具有“社交方面”的合成语音平台。Nari 还打算发布一份 Dia 的技术报告,并将该模型的支持扩展到英语以外的语言。
相关攻略 更多
最新资讯 更多
速递|两名本科生3个月打造的AI语音模型,挑战谷歌NotebookLM,16亿参数实现自然对话生成
更新时间:2025-08-14
国内首例:小红书AI博主用Midjourney生图,不受法律保护
更新时间:2025-08-14
仅用3周时间,就打造出Manus开源平替!贡献源代码,免费用
更新时间:2025-08-14
突发!谷歌被逼卖身,OpenAI趁机收购Chrome?十亿搜索市场大洗牌
更新时间:2025-08-14
起底自媒体界的“江西帮”:批量起号,AI放量,甲方最爱
更新时间:2025-08-14
举全省之力打造AI创新高地,省委书记:拉高标杆,取得新突破
更新时间:2025-08-14
o3攻陷病毒学,超越94%博士级专家!生物武器门槛彻底崩塌?
更新时间:2025-08-14
起底AI算力新黑马:手握45万块GPU,年营收将超70亿,独家承包“星际之门”
更新时间:2025-08-14
红杉资本最新发布:全球最牛的31家AI应用公司,两个趋势值得关注
更新时间:2025-08-14
2025年教育AI商业化加速:头部应用单月营收突破2亿大关
更新时间:2025-08-14