动态列表

  • Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!
  • 英伟达铁幕之后,谷歌AI芯片已成气候
  • 硅谷GPU蒙尘,马斯克一言成谶:美国AI被电卡脖子
  • 65岁图灵巨头离职创业!LeCun愤然与小扎决裂,Meta巨震
  • 年产值突破 150 亿,刚毕业的俊男美女涌入「团播」工厂
  • 马斯克想要 1 万亿,何小鹏只想等一句「牛 P」
  • 全模态到底是不是“1+1>2”?美团UNO-Bench揭示单模态与全模态能力的组合规律
  • 通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化
  • 北京内推 | 百度文心一言基座团队模型组招聘大模型方向研究型实习生
  • NeurIPS 2025 | 上交大、南农大提出ADPretrain:为工业异常检测量身打造的预训练“超能力”
  • 3DV 2026 | 特伦托大学等提出DEMO:让AI看懂复杂人体动作,实现密集描述新范式
  • 小米汽车 10 月销量近 5 万,YU7 超 Model Y;美团 AI 编程工具开启公测;马化腾王传福成智元机器人受益股东
  • AI版PUA!哈佛研究揭露:AI用情感操控,让你欲罢不能
  • AI领域全新热门职业,岗位需求今年已增长逾800%
  • 硅谷10万大裁员真相:AI根本没想取代你,是老板想干掉你
  • OpenAI试图绑架美国政府,奥特曼还有救命底牌?
  • 全球68%科研人压力爆表,高校AI人才集体大逃亡!
  • 「传统教育」的船快沉了,人们却还在挤「头等舱」
  • 保暖?排汗?时尚?户外运动装备这道「选择题」,亚瑟士要打破「不可能三角」
  • 北京内推 | 腾讯AI Lab招聘大模型/多模态大模型方向研究型实习生
  • 过去五年,BERT都在被“过度训练”?LeCun团队给出Encoder算力最优范式
  • EMNLP 2025 | 别再只看KV了!LLM越深越稀疏:UNCOMP用矩阵熵给出答案
  • 在 Cursor 工作 60 天,我发现了这家公司成功的秘密
  • 这款 AI 写作神器,让数百网文作者「月入过万」|AI 上新
  • AI“世界模型”离真实手术还有多远?首个外科视频生成基准SurgVeo揭示“合理性差距”
  • ACM MM 25 当MLLM遇上行人重识别:是“降维打击”还是“水土不服”?深度评测来了!
  • 美国AI巨头股缩水8000亿美元;传Meta靠诈骗广告收入超千亿;《英雄联盟》S15总决赛T1夺冠|极客早知道
  • 谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代
  • 狗也被AI抢饭碗?好莱坞动物演员全下岗,观众直接翻脸了!
  • ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了
  • 小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」
  • NeurIPS25 | 清华&北大提出LinearDiff-ViT:让Transformer学会“找不同”,实打实提升模型性能
  • AI 六巨头罕见同台,辨论 AI 泡沫;SpaceX 公布简化版登月舱方案;王者荣耀年度总决赛首次在鸟巢举办
  • LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律
  • 仅2天!谷歌AI破解十年谜题,锁定救命药人类全失手
  • 终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」
  • 仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类
  • AI六巨头罕见同台!李飞飞激辩LeCun,黄仁勋:你们都错了
  • 复盘大疆 Pocket 的七年:从「定义产品」到「定义时代」
  • TRO'25开源|机器人建图的终局?一个框架搞定光学、几何与语义!
  • 10.58 万!零跑造了一台「红米 YU7」
  • 当一家传统车企,终于决定「师中长技」
  • AI热潮推动,全球 DRAM 内存价格暴涨;泡泡玛特回应直播事故;媒体爆料iPhone 18 Pro工程机进展
  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • TCSVT 25 | 宁波诺丁汉大学等提出De-LightSAM:仅需SAM-H 2%参数,实现通用化医疗影像自动分割
  • IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元
  • 蔚来,破 4 万!
  • 今年双十一最大的赢家是这张表
  • 大道至简,中科院等提出OneRef:统一视觉定位和指代分割
  • 复旦大学&StepFun提出WithAnyone:告别“复制粘贴脸”,实现可控、高保真的多人ID一致性生成
  • 极客公园创新大会 2026 首批嘉宾揭晓!
  • 达摩院联合浙大、港理工推出PixelRefer:多模态大模型迈向像素级视觉理解
  • 北京内推 | 美团招聘大模型算法实习生(IM全渠道)
  • 自回归不必按token算了:微信AI × 清华用CALM直接「整段」预测
  • Altman 怒喷 OpenAI 唱衰者;小鹏发布新一代人形机器人 IRON;苹果支付 10 亿美金,新 Siri 将引入谷歌 Gemini|极客早知道
  • 博士申请 | 南洋理工大学王琦琛老师课题组招收数据库方向全奖博士/博后
  • 记忆让机器人更聪明:原力灵机提出MemoryVLA化解长时程任务操作难题
  • 别被一堆Strong Accept吓住:德州农工×康奈尔实锤论文晒分“系统性虚高”
  • 151% 的增长背后,它正在成为 AI 的「新入口」
  • 清华&南洋理工等提出稀疏模型反演:ViT反演加速高达3.79倍,告别无效背景!
  • 低光图像增强新探索:SASW-Loss,无需改网络,即插即用提升多种模型性能
  • 山姆更新后遭会员疯狂吐槽;Switch2 销量破千万;小米马志宇警告存储涨价:明年最新的成本预估“有点惊悚”|极客早知道

翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言



  新智元报道  

编辑:艾伦
【新智元导读】在7000多种人类语言中,只有少数被现代语音技术听见,如今这种不平等或将被打破。Meta发布的Omnilingual ASR系统能识别1600多种语言,并可通过少量示例快速学会新语言。以开源与社区共创为核心,这项技术让每一种声音都有机会登上AI的舞台。

你或许很难想象,在世界上7000多种活跃语言中,只有几百种享受过现代语音技术的「宠爱」。

绝大多数人类语言的使用者——从非洲部落的土著、亚马逊雨林的族群,到乡野小镇仍讲着古老方言的老人—— 一直生活在数字时代的旁白之外。

语音助手、自动字幕、实时翻译,这些AI带来的便利仿佛只为少数「主流」语言而生,其余的语言社区仍被挡在技术大门之外。

这种数字鸿沟如今迎来了破局者。

Meta人工智能研究团队日前发布了Omnilingual ASR系统,一个可自动识别转录1600多种语言语音的AI模型族,让几乎所有人类语言都能被机器「听懂」。

这套系统以开源方式共享给全世界,并能由社区亲手拓展新的语言,让每一种声音都有机会登上AI的舞台。

论文地址:https://ai.meta.com/research/publications/omnilingual-asr-open-source-multilingual-speech-recognition-for-1600-languages/
项目地址:https://github.com/facebookresearch/omnilingual-asr?tab=readme-ov-file

1600种语言,只是开始

Meta此次推出的Omnilingual ASR创造了语音识别覆盖语言数量的新纪录,支持超过1600种语言,其中包括500种此前从未被任何AI系统转录过的语言。

相比之下,OpenAI开源的Whisper模型只支持99种语言,而Omnilingual ASR几乎将这一数字提升了一个数量级。

对于全球众多使用小语种的人来说,这无疑是一次「数字雪耻」:他们的母语第一次有了被AI流利听懂的可能性。

这套系统的识别性能在很多语种上已达到领先水平。

据Meta提供的数据,在所测试的1600多种语言中,有78%的语种其识别错误率(CER)低于10%,若以10小时以上语音数据训练的语种来看,这一比例更是达到95%。

即使对于训练语料极其稀少的低资源语言,仍有36%实现了CER低于10%的效果。

这些数字意味着,Omnilingual ASR不仅覆盖面广,而且在大多数语言上都能给出实用且高质量的转录结果。

然而,1600种语言还不是Omnilingual ASR的终点。

更大的意义在于,它打破了以往ASR模型支持语言范围固定死板的局限,让语言覆盖从「定量」走向「可扩展」。

Omnilingual ASR借鉴了大语言模型(LLM)的思路,引入了零样本的「上下文学习」机制。

这意味着即便某种语言最初不在支持列表中,用户也可以通过提供几段该语言的音频和对应文本作为示例,在推理过程中即时让模型学会一种新语言。

无需耗费数月收集大型语料、无需专业深度学习训练,只需简单的少样本学习(few-shot)即可学会新语言。

凭借这种革新性的范式,Omnilingual ASR的潜在语言覆盖能力骤然扩张。

官方表示,理论上该系统可以扩展到超过5400种语言,几乎涵盖所有有文字记录的人类语言!

无论多冷门的口语,只要有对应的书写体系和几句示例,它就有机会被Omnilingual ASR捕捉记录。

在AI语音识别领域,这是从静态封闭走向动态自适应的范式转变——模型不再束缚于训练时预设的语言清单,而成为一个灵活开放的框架,鼓励各地社区自行加入新语言。

对于那些长期缺席于技术版图的族群来说,这无异于掌握了一把可以随时亲手「解锁」新语言的大门钥匙。

开源与社区
打破语言鸿沟

Omnilingual ASR的另一个显著特点在于其开源和社区驱动的属性。

Meta选择将这一庞大的多语种ASR系统在GitHub上完全开源,采用Apache 2.0许可发布模型和代码。

无论是研究人员、开发者还是企业机构,都可以免费使用、修改、商用这套模型,而无需担心繁琐的授权限制。

对比此前一些AI模型带有附加条款的「半开源」模式,Omnilingual ASR的开放姿态可谓十分坦荡,为技术民主化树立了榜样。

为了让各语言社区都能受益,Meta不仅开放了模型,还同步释放了一个巨大的多语言语音数据集——Omnilingual ASR语料库。

该语料库包含了350种语料稀缺的语言的转录语音数据,覆盖了许多以前在数字世界中「失声」的语言。

所有数据以CC-BY协议开放提供。

开发者和学者可以利用这些宝贵资源,去训练改进适合本地需求的语音识别模型。

这一举措无疑将帮助那些缺乏大规模标注语料的语言跨越数据门槛,让「小语言」也有大作为的机会。

Omnilingual ASR能够囊括前所未有的语言广度,离不开全球合作的支撑。

在开发过程中,Meta与各地的语言组织和社区携手收集了大量语音样本。

他们与Mozilla基金会的Common Voice项目、非洲的Lanfrica/NaijaVoices等机构合作,从偏远地区招募母语人士录制语音。

为确保数据多样且贴近生活,这些录音往往采用开放式提问,让说话人自由表达日常想法。

所有参与者都获得了合理报酬,并遵循文化敏感性的指导进行采集。

这种社区共创的模式赋予了Omnilingual ASR深厚的语言学知识和文化理解,也彰显了项目的人文关怀:技术开发并没有也不应该居高临下地「拯救」小语种,而是与当地社区合作,让他们自己成为语言数字化的主角。

技术规格上,Meta提供了一系列不同规模的模型以适配多样化的应用场景:从参数量约3亿的轻量级模型(适合手机等低功耗设备)到高达70亿参数的强力模型(追求极致准确率)一应俱全。

模型架构采用自监督预训练的wav2vec 2.0语音编码器(拓展到70亿参数规模)提取通用音频特征,并结合两种解码器策略:一种是传统的CTC解码,另一种则是融入Transformer的大模型文本解码器,后者赋予了模型强大的上下文学习能力。

庞大的模型需要海量数据来支撑——Omnilingual ASR训练使用了超过430万小时的语音音频,涵盖1239种语言的素材。

这是有史以来最大规模、多样性最高的语音训练语料之一。如此大体量的数据加上社区贡献的长尾语言语料,确保了模型对各种语言都学到稳健的语音表示,甚至对完全没见过的语言也有良好的泛化基础。

正如研究论文所指出的,「没有任何模型能预先涵盖世界上所有语言,但Omnilingual ASR让社区能够用自己的数据持续拓展这份清单」。

这标志着语音AI从此具备了自我生长的生命力,能够与人类语言的丰富多样性共同进化。

当技术放下傲慢,以开源姿态拥抱多元,当每一种语言的声音都有机会被聆听和记录,当没有任何一种语言被数字世界遗忘,我们离真正消弭语言鸿沟又近了一大步,人类的连接才能真正开始消除边界。

参考资料:
https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition

<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652644089&amp;idx=1&amp;sn=0e8cb5b74697df9d7fb12bfe51ffd18e&amp;chksm=f0f3ce40b21d03578c37389c55b1878724e1a27f9c83a87513c60b6c4c80803ee70ca4815bc5&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/BybxydLJvT&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们