解读Meta开源AI项目MMS创新点

作者：balconychy来源：Twitter2023-05-23

注：原文来自@balconychy发布长推。

Meta开源的Massively Multilingual Speech太厉害了。个人觉得最大的创新点是：大大减少语音标记数据时长要求。对比Whisper：FLEURS基准的54种语言上将Whisper的单词错误率减少了一半以上，这还是在在一小部分标记的数据上进行训练得前提下。标记数据:whisper(680K) VS MMS (3K 和 45K）。

关键是：自监督预训练+微调。

这种模式看来是遍地开花：

-大语言：预训练（句子补全自监督训练）+微调（问题-答案样本监督学习）

-语音识别：预训练（无标记语音自监督训练）+微调（语音-文本样本监督学习）

直觉上看符合人类学习：大量的无意义语音输入，然后在来一些有限的教学，小孩就能掌握语言。

具体训练过程：

预训练

使用自监督学习wav2vec 2.0在未标记语音数据上训练。类似句子补全，将语音随机屏蔽一段，然后猜屏蔽的部分。在A100GPU上训练1百万个updates. MMS (0.3B) 48个GPU上按2.3小时每批次大小训练 MMS (1B）在64个GPU上按3.5小时每批次大小训练。

文本转语音子任务

对预训练的MMS（1B）模型进行微调来训练多语言语音识别模型。在模型上添加线性层，映射到输出词汇表。

模型已经开源可以下载，包含底座和具体识别任务模型。支持微调。 https://github.com/facebookresearch/fairseq/tree/main/examples/mms…

上一篇：揭露90%币圈老手都会上当的教科书式“无感”骗局
下一篇：EigenLayer创始人回应Vitalik新文：与再质押所倡导理念一致

解读OpenAI超级人工智能治理

解读OpenAI超级人工智能治理

Vic TALK

解读比特币Oridinals协议与BRC20标准的原理创新与局限

解读比特币Oridinals协议与BRC20标准的原理创新与局限

十四君

引领新一轮去中心化创新的$APE加速器

引领新一轮去中心化创新的$APE加速器

MarsBit

解读比特币Oridinals协议与BRC20标准、原理创新与局限

解读比特币Oridinals协议与BRC20标准、原理创新与局限

十四菌

Cregis Research：解读BRC-20的前世今生

Cregis Research：解读BRC-20的前世今生

Cregis Research

Tranchess---分级基金defi协议的以太坊质押赛道业务深度解读 Vic TALK 第532期

Tranchess---分级基金defi协议的以太坊质押赛道业务深度解读 Vic TALK 第532期

Vic TALK

用AI在一周之内创造一个市值4千万的meme项目，代币价格一夜上涨1000倍

用AI在一周之内创造一个市值4千万的meme项目，代币价格一夜上涨1000倍

和AD一起穿越熊市

关于生成式AI的4个工具领域及其解决问题

关于生成式AI的4个工具领域及其解决问题

FinanceYF5

谁是Open AI真正拥有者？

谁是Open AI真正拥有者？

FinanceYF5

解读新标准 ERC-6551 NFT即钱包的新玩法

解读新标准 ERC-6551 NFT即钱包的新玩法

BTW0205

分享6个实用的 AI Chrome 扩展应用

分享6个实用的 AI Chrome 扩展应用

Crypto_QianXun

明牌大毛空投 zksync交互项目合集，按照这一集交互，百分百获得空投 zksync交互项目合集

明牌大毛空投 zksync交互项目合集，按照这一集交互，百分百获得空投 zksync交互项目合集

【局长数字货币投研工作室】

© 2023 币视网 BShiW.com 　专注于比特币行情分析　关于我们