作者:小编 日期:2026-02-11 04:47:15 点击数:
pg官方电子在全球化日益加深的今天,语言的障碍依然是人们沟通交流的一大难题。Meta公司旗下的基础人工智能研究(FAIR)团队近日宣布推出一款名为“全语种自动语音识别系统”(OmnilingualASR)的创新技术,旨在支持1600多种语言的语音转写,极大地扩展了语音识别技术的应用范围。
目前,世界上存在7000多种语言,但大多数语音识别工具仅覆盖了其中几百种资源丰富的语言,原因在于缺乏足够的训练数据。OmnilingualASR的推出,正是为了弥补这一缺口。根据Meta的介绍,该系统在支持的1600种语言中,有500种是首次被任何AI系统覆盖,这无疑是向“通用语音转写系统”迈出的重要一步。
在技术层面,OmnilingualASR的识别精度与训练数据的数量密切相关。Meta公布的数据表明,该系统在测试的1600种语言中,有78%的语言实现了低于10%的字符错误率(CER)。对于拥有至少10小时训练音频的语言,这一比例更是提升至95%。即使是音频时长不足10小时的“低资源语言”,也有36%的语言达到了低于10% CER的标准。这一数据展示了OmnilingualASR在处理不同语言资源时的强大能力。
为了推动后续的研究与实际应用,Meta还同步发布了“全语种ASR语料库”(OmnilingualASRCorpus),这是一个包含350种代表性不足语言的大规模转录语音数据集。该语料库采用知识共享署名许可协议(CC-BY)开放获取,旨在帮助开发者和研究人员根据特定的本地语言需求,构建或适配定制化的语音识别模型。
OmnilingualASR的一大创新在于其“自带语言”(Bring Your Own Language)功能。该功能依托上下文学习机制实现,用户只需提供少量配对的语音与文本样本,系统便能直接从中学习,而无需重新训练或依赖高算力资源,便可添加新的语言。这一方法理论上可将OmnilingualASR的语言支持能力扩展至5400余种,远超当前行业标准。
尽管对于极低资源语言的识别质量尚未达到完全训练的水平,但该技术已为众多之前完全缺乏语音识别能力的语言社区提供了切实可行的解决方案。Meta以Apache 2.0开源许可协议发布OmnilingualASR的全部模型,允许研究人员与开发者自由使用、修改及商用,同时配套数据集也采用CC-BY协议开放。这种开放的态度不仅促进了技术的共享与合作,也为未来的语言识别技术发展奠定了基础。
总之,Meta推出的OmnilingualASR系统不仅是技术上的一次重大突破,更是推动跨语言沟通和信息可及性的重要工具。随着这一系统的应用,全球语言的壁垒有望被逐步打破,促进人类社会的进一步融合与发展。返回搜狐,查看更多
2025-05-06
2025-02-19
2025-04-02
2025-03-24
移动商城
抖音店铺二维码
快手店铺二维码