大型言语模型(LLMs)如GPT-4等,曾经在多个畛域展现了其弱小的才干,能够经过对话协助人们成功各种义务。但是,这些模型在须要语音输入或输入的场景中仍面临清楚的限度。虽然最近的技术停顿,如GPT-4o,优化了语音交互的照应速度,但依然存在提前和品质方面的应战。如何成功低提前且高品质的语音交互,成为开源社区亟待处置的疑问。
01、概述
为了成功与LLMs的语音交互,钻研者们尝试了多种方法,每种方法都有其局限性。最经常出现的做法是将智能语音识别(ASR)和文本到语音(TTS)模型串联经常使用,但这种方法因为逐渐处置转录文本、生成文本照应和语音照应,往往造成较高的提前。为了改良这一点,一些钻研提出了多模态语音-言语模型,尝试将语音团圆化为标志,并裁减LLM词汇表以允许语音输入和输入。虽然实践上这些模型能够成功低提前的语音到语音生成,但实践上仍需生成两边文本以坚持高品质,从而就义了一局部照应速度。
此外,还有尝试经过在语义或声学标志上训练言语模型,或将语音编码器增加到LLMs中,以提高语音了解才干。但是,这些方法通常须要少量的数据和计算资源,或许只专一于语音了解,而漠视了生成才干。
02、LLaMA-Omni的打破性翻新
为了打破这些限度,中国迷信院大学的钻研团队推出了一种名为LLaMA-Omni的全新模型架构。LLaMA-Omni的设计指标是成功与LLMs的低提前和高品质的语音交互。其翻新之处在于集成了语音编码器、语音适配器、LLM和流式语音解码器,能够成功无缝的语音到语音通讯。详细来说,该模型经过间接处置语音输入绕过了两边文本转录的步骤,清楚缩小了照应提前。
LLaMA-Omni的架构重要包括四个局部:语音编码器、语音适配器、LLM和语音解码器。语音编码器基于Whisper-large-v3,从用户的语音输入中提取无心义的示意。接着,这些示意经过语音适配器处置,经过下采样和两层感知器映射到LLM的嵌入空间。LLM则基于Llama-3.1-8B-Instruct间接从语音指令生成文本照应。而语音解码器,一个非自回归流式Transformer,应用衔接时序分类(CTC)预测与语音照应相对应的团圆单元,成功了文本和语音的同步生成。
03、LLaMA-Omni的训练与评价
LLaMA-Omni驳回了两阶段的训练战略。第一阶段关注从语音指令生成文本照应,第二阶段则专一于生成语音照应。在推理环节中,LLaMA-Omni能够同时生成文本和语音照应,语音解码器在LLM生成文本的同时实时转换为语音波形。这种方法成功了极低提前的语音交互,使得用户在文本齐全生成之前即可听到照应。
为了允许LLaMA-Omni的开发和评价,钻研人员创立了InstructS2S-200K数据集。该数据集蕴含200,000个语音指令、文本照应和语音照应的三元组。构建环节包括经常使用Llama-3-70B-Instruct重写文本指令以顺应语音,生成适宜语音的繁复照应,并经常使用CosyVoice-300M-SFT和VITS启动语音分解。该数据集结合了Alpaca的50,000条条目和UltraChat的150,000条条目,涵盖了宽泛的主题,为LLaMA-Omni在语音交互义务上的训练提供了松软基础。
04、未来展望
LLaMA-Omni在InstructS2S-Eval基准测试中的体现优于之前的模型,特意是在语音到文本和语音到语音指令的内容微格调分歧性上。模型在语音品质和照应提前之间提供了良好的掂量,提前低至226毫秒。与其余模型相比,LLaMA-Omni的文本和语音同时生成才干清楚提高了解码速度。案例钻研显示,LLaMA-Omni能够提供更繁复、更详细且更有协助的照应,特意适宜语音交互场景。
总之,LLaMA-Omni作为一种翻新的AI模型架构,不只在低提前和高品质的语音交互方面成功了打破,还经过创立专门的数据集和优化训练环节,推进了基于LLMs的语音交互技术的开展。其出色的功能和高效的训练环节,为未来的语音交互模型的极速开发奠定了基础。
参考:
基咯咯
原文链接: