昨天国产大模型接收了人类的手机电脑！

koi

2024-11-14发布
关注私信

422 472 646

整顿｜言征

国产多模态、智能体版本的GPT-4o终于来了！

10月25日，国际大模型独角兽智谱连发两个大招，小编过后差点愣住，不愧国产大模型之光！

废话不多说，间接上干货。这次智谱推出了一个模型GLM-4-Voice，一款运行AutoGLM。

开源地址：

GLM-4-Voice 是智谱 AI 推出的端到端语音模型。GLM-4-Voice 能够间接了解和生成中英文语音，启动实时语音对话，并且能够遵照用户的指令要求扭转语音的情感、语调、语速、方言等属性。

模型架构

GLM-4-Voice 由三个局部组成：

GLM-4-Voice-Tokenizer: 经过在Whisper的 Encoder 局部参与 Vector Quantization 并在 ASR 数据上有监视训练，将延续的语音输入转化为团圆的 token。每秒音频平均只有要用 12.5 个团圆 token 示意。

GLM-4-Voice-Decoder: 基于CosyVoice的 Flow Matching 模型结构训练的允许流式推理的语音解码器，将团圆化的语音 token 转化为延续的语音输入。起码只有要 10 个语音 token 即可开局生成，降落端到端对话提前。

GLM-4-Voice-9B: 在GLM-4-9B的基础上启动语音模态的预训练和对齐，从而能够了解和生成团圆化的语音 token。

预训练方面，为了攻克模型在语音模态下的智商和分解体现力两个难关，咱们将 Speech2Speech 义务解耦合为“依据用户音频做出文本回复”和“依据文本回复和用户语音分解回复语音”两个义务，并设计两种预训练指标，区分基于文本预训练数据和无监视音频数据分解语音-文本交织数据以适配这两种义务方式。

GLM-4-Voice-9B 在 GLM-4-9B 的基座模型基础之上，经过了数百万小时音频和数千亿 token 的音频文本交织数据预训练，领有很强的音频了解和建模才干。

对齐方面，为了允许高品质的语音对话，咱们设计了一套流式思索架构：依据用户语音，GLM-4-Voice 可以流式交替输入文本和语音两个模态的内容，其中语音模态以文本作为参照保障回复内容的高品质，并依据用户的语音指令要求做出相应的声响变动，在最大水平保管言语模型智商的状况下依然具有端到端建模的才干，同时具有低提前性，最低只有要输入 20 个 token 便可以分解语音。

电脑、手机遵从指令帮你操作AutoGLM 同步上线

在情感语音通话片面开明的同时，智谱也发表了另一项前沿成绩：AutoGLM。

让 AI 像人类一样操作电脑和手机，是近期畛域内的热点话题。以往这是一项颇具应战性的义务，由于在此类场景下，AI 须要依据用户的要求拆解指令面前包括的步骤，感知环境、布局义务、执执行作，逐渐实现义务。某种水平上说，这打破了大模型的惯例才干边界，愈加器重其「工具」属性。

很多大模型公司都在探求这一方向，锚定其为「下一个 AI 前沿」。基于大言语模型（GLM 系列模型）、多模态模型和工具经常使用（CogAgent 模型）等方面的探求，智谱曾经在由自主智能体（Agent）驱动的人机交互新范式方面取得了一些阶段性成绩。

在智谱最新颁布的 AutoGLM App 中，用户可以仰仗一句指令让 AI 智能实现许多义务，比如阅读网页消息、电商产品购置、点外卖、订酒店、评论和点赞微信好友圈等。目前，AutoGLM 已开启内测（临时仅允许 Android 系统）。

在 AutoGLM App 颁布之前，AutoGLM-Web 曾经经过「智谱清言」插件对外开明经常使用。这是一个能模拟用户访问网页、点击网页的阅读器助手，可以依据用户指令在私域网站上实现初级检索并总结消息、模拟用户看网页的环节启动批量、极速的阅读并总结多个网页，联合历史邮件消息回复邮件。

本文转载自技术栈，作者：言征

文章版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#LaMDA #AI #开源大模型 #Bard #日日新 #ChatGPT #文心一言 #GPT #Copilot #孟子 #手机 #4 #AIGC运行 #人工智能 #清言 #盘古 #Agent #通义千问 #AIGC #国产 #云雀 #紫东太初 #多模态 #悟道 #大模型 #OpenAI #言犀 #Sora #混元

昨天 国产大模型接收了人类的手机 电脑！

电脑、手机遵从指令帮你操作AutoGLM 同步上线

昨天国产大模型接收了人类的手机电脑！