关闭广告

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集

科技行者1687人阅读


科技发展到今天,人工智能已经能够模仿人类的声音说话了。然而,如果你曾经尝试过让AI说其他语言,比如让一个英语AI说中文,你可能会发现它的口音怪异,发音不准,甚至完全听不懂在说什么。这就像是一个只会说英语的人硬要说中文,结果说得让人啼笑皆非。这背后的根本问题是什么呢?缺乏高质量的多语言语音数据。

由国际数字经济研究院(IDEA)主导的研究团队最近发表了一项突破性成果,这项研究发表于2025年1月的arXiv预印本服务器上,论文编号为arXiv:2601.04233v1。感兴趣的读者可以通过这个编号查询完整论文。研究团队构建了一个名为LEMAS的庞大语音数据集,包含超过15万小时的多语言语音数据,覆盖10种主要语言,并且每个词都有精确的时间戳标注。基于这个数据集,他们还开发了两个强大的AI模型:LEMAS-TTS和LEMAS-Edit,前者专门负责语音合成,后者专门负责语音编辑。

为了理解这项研究的重要性,我们可以把语音AI比作一位多语言播音员。传统的播音员要想掌握多种语言,需要大量的训练素材和精确的指导。同样,AI要想说好多种语言,也需要海量的高质量语音数据作为"教材"。但现有的多语言语音数据存在许多问题:要么

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

德科:C罗是我见过最谦逊的人,他和梅西是不同类型的天才

懂球帝 浏览 3399

AI成核心方向 银行启动博士后招聘

北京商报 浏览 2322

E句话| 白姐从不爆假料?

仙女事件簿 浏览 2602

美国突袭委内瑞拉后,这些个股推动欧股创下历史新高

第一财经资讯 浏览 1714

领英平台新型钓鱼骗术瞄准高净值人士,微软账号安全受威胁

IT之家 浏览 2686

美国微软公司:10月14日起Windows 10将“停服”

财闻 浏览 2788

说它抄袭,打脸了吧

独立鱼 浏览 1380

卡内基梅隆大学团队揭秘:AI绘画无需人工标注也能学会"听话"

科技行者 浏览 2592

达成停火18天后战火再起 以总理下令袭击加沙

国际在线 浏览 2671

汽车图谱⑳|新能源车迎最强“金九” 新势力头部月销达4万量级

贝壳财经 浏览 2883

全球最大稳定币遭质疑 标普将评级降至“最差一档”

财联社 浏览 2282

原来他们是夫妻,恩爱27年无绯闻.现是影协主席

冷紫葉 浏览 3210

突然加速!避险资金拥抱消费ETF,什么信号?

券商中国 浏览 2849

业界首款攻克全金属与信号共存难题?华为Mate 80系列外观公布

IT之家 浏览 2451

购置税新规下的购车选择题,插混车抄底还是等新车?

百姓评车 浏览 2900

34年来首次 普京下令起草恢复核武器试验提议

红星新闻 浏览 2466

专家:特朗普对中国无牌可打了 没想到蠢到打起波音牌

澎湃新闻 浏览 2799

日企天空推出UMPC新品TENKU Pocket 8,搭载N305处理器

IT之家 浏览 1073

太狠了!奥特曼亲手「干掉」GPT-5.2,OpenAI祭出最强编程AI

新智元 浏览 1696

鑫元基金,出了个年度“亏损王”

深蓝财经 浏览 1738

60+女性穿搭指南来了:4招告别“大妈感”,解锁冬日优雅气质

静儿时尚达人 浏览 1751
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1