Mistral 推出 Voxtral 语音理解模型：开源浪潮重塑语音智能格局

百度AI 2025-07-17 阅读:241 评论:0

法国AI初创公司Mistral正式发布首个开源语音理解模型Voxtral，以“真正可用的语音智能生产”为定位，向全球语音技术市场投下一枚重磅炸弹。这一举措不仅打破了OpenAI、ElevenLabs等巨头的技术垄断，更以开源模式重新定义了语...

法国AI初创公司Mistral正式发布首个开源语音理解模型Voxtral，以“真正可用的语音智能生产”为定位，向全球语音技术市场投下一枚重磅炸弹。这一举措不仅打破了OpenAI、ElevenLabs等巨头的技术垄断，更以开源模式重新定义了语音智能的商业化路径。

Voxtral系列包含三大核心版本：面向生产级部署的240亿参数Voxtral Small，可与ElevenLabs Scribe、GPT-4o-mini等顶尖模型竞争；适用于本地/边缘计算的30亿参数Voxtral Mini；以及专为转录优化的3亿参数Voxtral Mini Transcribe。其中，Mini Transcribe在成本敏感场景中性能超越OpenAI Whisper，价格却不到其一半；Voxtral Small则以同等性能水平，将高级语音理解成本压缩至行业平均水平的40%。

技术层面，Voxtral支持32K Token上下文长度，可处理30分钟音频转录或40分钟音频理解，并具备生成结构化摘要、实时调用API等交互能力。其多语言支持覆盖英语、西班牙语、法语等8种印欧语系，满足全球化企业需求。目前，开发者可通过Hugging Face免费获取API，集成成本低至每分钟0.001美元。

作为欧洲AI开源运动的旗手，Mistral此次布局语音领域，标志着其从文本生成向多模态智能的跨越。在AI技术竞争白热化的当下，Voxtral的开源策略或将引发新一轮行业变革，推动语音智能从“贵族技术”走向普惠应用。