阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型：自由互动，无需输入文本

阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型：自由互动，无需输入文本

2024-08-13 13:28:07 热点新闻 25

8 月 13 日消息，阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。

作为一个大规模音频语言模型，Qwen2-Audio 能够接受各种音频信号输入，并根据语音指令执行音频分析或直接响应文本，有两种不同的音频交互模式：

语音聊天：用户可以自由地与 Qwen2-Audio 进行语音互动，而无需文本输入
音频分析：用户可以在互动过程中提供音频和文本指令对音频进行分析

官方在一系列基准数据集上进行了测试，Qwen2-Audio 超越了先前的最佳模型。

▲ Qwen2-Audio 整体表现

附相关链接如下：

试用链接：https://huggingface.co/spaces/Qwen/Qwen2-Audio-Instruct-Demo
论文地址：https://arxiv.org/abs/2407.10759
评估标准：https://github.com/OFA-Sys/AIR-Bench
开源代码：https://github.com/QwenLM/Qwen2-Audio

本网站不对因使用该等信息而引起的任何损失承担任何责任。在访问和使用本网站时，用户必须自行承担风险。我们保留随时更改本免责声明的权利，并将在网站上发布最新版本。用户应定期查看本免责声明以了解任何更改。如有侵权内容请联系我。

上一篇

谷歌首批印度制造的 Pixel 8 手机成功下线

上一篇

又增 30 万套，卡普空宣布《鬼泣 5》游戏全球销量破 840 万套