Meta于周二宣布推出Seamless M4T AI模型,展示其通用语言翻译方向的成果。 此模型能快速、有效地理解多达100种语言的语音或文字,并生成翻译,甚至从文字生成语音。
- 近100种语言的语音识别
- 近 100 种输入和输出语言的语音转文字翻译
- 支持近 100 种输入语言和 36 种(包括英文)输出语言的语音转语音翻译
- 近 100 种语言的文字转文字翻译
- 支持近 100 种输入语言和 35 种(包括英文)输出语言的文字转语音翻译
近100种不同语言进行语音识别
Meta 于网志文章中描述其新的翻译系统为「第一个集多模态和多语言 AI 翻译模型于一身」的系统,能够为近 100 种不同语言进行语音识别和语音至文字的翻译。 Seamless M4T 亦能理解用户在句子中间更换语言,这对于翻译那些在讲话时混合使用不同语言部分的人来说,可能有所帮助。 与过去的翻译模型不同,SeamlessM4T 使用一个单一系统,Meta 相信这最终将减少错误和延迟,提高质量。
Creative Commons 授权释出
Meta 将 Seamless M4T 以 Creative Commons 授权释出,以便其他翻译人员和 AI 研究人员可以研发。 该公司还将发布SeamlessAlign的元数据,其中包含超过270,000小时的挖掘语音和文字。 Meta 声称这是此类数据集中最大的一个。
整合 WhatsApp/Messenger
未来公司会将这些 AI 翻译技术整合在旗下的 Facebook、Instagram、WhatsApp、Messenger 及 Threads 产品之中。 外界估计,WhatsApp 及 Messenger 将可加入「语音消息」变成「文字」功能。