通义千问继续开源多模态模型Qwen2-Audio音频理解能力刷新行业最佳水平星空体育下载，

新闻中心 NEWS

NEWS
新闻中心

通义千问继续开源多模态模型Qwen2-Audio音频理解能力刷新行业最佳水平星空体育下载，

发布时间：2024-08-13 14:55:46 浏览：次

[返回]

　　8月13日消息，阿里通义大模型继续开源，Qwen2系列开源家族新增音频语言模型Qwen2-Audio。Qwen2-Audio可以不需文本输入，直接进行语音问答，理解并分析用户输入的音频信号，包括人声、自然音、音乐等。该模型在多个权威测评中都显著超越先前的最佳模型。通义团队还同步推出了一套全新的音频理解模型测评基准，相关论文已入选本周正在举办的国际顶会ACL 2024。

　　声音是人类以及许多生命体用以进行交互和沟通的重要媒介，声音中蕴含丰富的信息，让大模型学会理解各种音频信号，对于通用人工智能的探索至为重要。Qwen2-Audio是通义团队在音频理解模型上的新一步探索，相比前一代模型Qwen-Audio，新版模型有了更强的声音理解能力和更好的指令跟随能力。

　　Qwen2-Audio是一款大型音频语言模型（Large Audio-Language Model ，LALM)，具备语音聊天和音频分析两种使用模式，前者是指用户可以用语音向模型发出指令，模型无需自动语音识别（ASR）模块就可理解用户输入；后者是指模型能够根据用户指令分析音频信息，包括人类声音、自然声音、音乐或者多种信号混杂的音频。Qwen2-Audio能够自动实现两种模式的切换星空体育下载，。Qwen2-Audio支持超过8种语言和方言，如中文、英语、法语、意大利语、西班牙语、德语、日语，粤语。

　　根据Qwen2-Audio技术报告，Qwen2-Audio的模型结构包含一个Qwen大语言模型和一个音频编码器。在预训练阶段，依次进行ASR、AAC等多任务预训练以实现音频与语言的对齐，接着通过SFT（监督微调）强化模型处理下游任务的能力，再通过 DPO（直接偏好优化）方法加强模型与人类偏好的对齐。

　　星空体育app下载，

上一篇：行业景气度回暖这些上市厦企半年报业绩喜人星空体育app官网，

下一篇：物流新篇章中国物流产业ESG协同发展联盟成立为行业星空体育app官网，注入绿色动力

NEWS 新闻中心

通义千问继续开源多模态模型Qwen2-Audio音频理解能力刷新行业最佳水平星空体育下载，

友情链接：

NEWS
新闻中心