快讯 >

谷歌推出大模型 AudioPaLM，可支持文本及语音

2023-06-26 18:54:44 三易生活

【资料图】

近日，谷歌方面宣布推出能够处理和生成文本及语音的大型语言模型（LLMs）AudioPaLM。据了解，AudioPaLM 将两个现有的大模型、即文本大模型 PaLM-2 和语音大模型 AudioLM，融合到一个统一的多模态架构中，并利用该架构处理和生成文本和语音。

据谷歌方面透露，AudioPaLM" 继承 " 了 PaLM-2 模型的语言知识，以及 AudioLM 模型保留副语言信息（例如说话者身份和语调）的能力，从而能够更全面地理解和生成文本和音频，使得其能够适用于语音识别、语音翻译、语音转文字的多种应用场景。

据了解，AudioPaLM 使用了一个联合词汇表，可使用有限数量的离散标记表示语音和文本。并将这个联合词汇表与标记化的任务描述相结合，此外 AudioPaLM 还可以在各种声音和基于文本的任务上训练单个解码器模型，这也意味着传统需要单独模型来处理的语音识别、文本转语音合成和语音到语音翻译等任务，可统一到一个架构和训练过程中。

谷歌方面透露，经试验表明，AudioPaLM 在语音翻译方面的表现明显优于现有模型。同时 AudioPaLM 还展现了对语言组合执行零样本语音到文本翻译的能力，也就是说这款大模型可以准确地将陌生语言的语音翻译成文本。

此外，AudioPaLM 还可基于简短的口语提示在语言之间进行声音转换，并捕捉和重现不同语言中的独特声音，以实现语音转换和适应。

对此谷歌方面表示，" 我们证明，用纯文本大语言模型的权重初始化 AudioPaLM 可改善语音处理，也成功地利用了预训练中使用的大量文本训练数据来帮助语音任务。所得模型在语音翻译任务方面明显优于现有系统，并且能够对训练中未发现输入 / 目标语言组合的许多语言，执行零样本语音到文本的翻译。AudioPaLM 还演示了音频语言模型的功能，例如基于简短的语音提示跨语言传输语音。"

【本文图片来自网络】

相关文章

谷歌推出大模型 AudioPaLM，可支持文本及语音

星火成炬 | 点亮乡村多彩生活

东淠河湿地生态美 万千水鸟共嬉戏_讯息

碳中和板块跌0.68% 光一退涨19.81%居首_焦点播报

观点：南亚新材跌8.5% 上市即巅峰超募8.7亿光大证券保荐

东淠河湿地生态美万千水鸟共嬉戏_讯息