美团正式上线LongCat App，可体验语音通话等新功能

APP下载

扫一扫

下载观察者APP

美团正式上线LongCat App，可体验语音通话等新功能
- 史岱君
分享到：

2025-11-03 14:57:45 字号：A- A A+ 来源：观察者网

11月3日消息，美团LongCat团队今日宣布，LongCat-Flash 系列大模型再升级，正式发布全新家族成员——LongCat-Flash-Omni，并开源。

目前，新App已支持联网搜索、语音通话等功能，视频通话等功能会稍后上线；Web端则增加图片、文件上传和语音通话等功能。

iOS用户可直接在APP Store中搜索“LongCat”获取。

在此之前，LongCat仅通过官网（https://longcat.ai/）来为C端用户提供大模型的相关能力。

网页版

我们迅速下载该APP测试了一下，发现该模型最大的亮点，那就是“快”！（天下武功，唯快不破）

该模型总参数560B，激活参数仅27B，继承了LongCat-Flash系列“快”的基因，使其在保持庞大知识容量的同时，实现了极高的推理效率。

我们发现，从输入指令到生成token的时间间隔非常短暂，整个过程相当丝滑，小编感觉比豆包通义及微信元宝的反应速度都更快一些。

据悉，在当前主流旗舰模型的性能标准和参数规模下，这是首个能够实现全模态实时交互的开源模型，它能同时处理文本、图像、音频、视频，而且还能实时进行音视频交互。

据官方介绍，LongCat-Flash-Omni以LongCat-Flash系列的高效架构设计为基础（Shortcut-Connected MoE，含零计算专家），集成了高效多模态感知模块与语音重建模块，在总参数 5600 亿（激活参数 270 亿）的庞大参数规模下，仍实现低延迟的实时音视频交互能力，为开发者的多模态应用场景提供了更高效的技术选择。

美团采用了 Shortcut-connected MoE 架构，配合零计算专家（zero-computation experts）设计，就像高速公路上的ETC通道，让信息处理更高效，避免了“堵车”。

更重要的是，美团还提出了早期融合训练范式（Early-Fusion Training），能确保模型在获得多模态能力的同时，不会在单一模态上“偏科”。

并不是先语言训练，然后再后加上视觉或音频能力。这就像培养全能运动员，不能因为练游泳就忘了跑步，每天都要一起练，而不是先练两年游泳，然后再去学跑步。

这样的一体化架构，让这只“龙猫”实现了完全端到端的设计：视觉与音频编码器作为多模态感知器，LLM 直接处理输入并生成文本与语音 token，再通过轻量级音频解码器重建为自然语音波形。

此外，打开LongCat APP，从首页可以看到，它目前支持文字/语音两种输入方式，并能进行语音通话（视频通话功能正在跑步入场中），Web端还支持上传图片和文件。

APP端

在综合性的全模态基准测试（如Omni-Bench, WorldSense）上，超越Qwen3-Omni、Gemini-2.5-Flash，这款模型直接达到了开源SOTA水准（开源最先进水平），而且能和闭源的Gemini-2.5-Pro相媲美。即使单拉出来文本、图像、音频、视频等各项模态能力，它也依旧能打（单项能力均位居开源模型前列），真正实现了“全模态不降智”。

文本：LongCat-Flash-Omni 延续了该系列卓越的文本基础能力，且在多领域均呈现领先性能。相较于 LongCat-Flash 系列早期版本，该模型不仅未出现文本能力的衰减，反而在部分领域实现了性能提升。这一结果不仅印证了该团队训练策略的有效性，更凸显出全模态模型训练中不同模态间的潜在协同价值。

图像理解：LongCat-Flash-Omni 的性能（RealWorldQA 74.8分）与闭源全模态模型 Gemini-2.5-Pro 相当，且优于开源模型 Qwen3-Omni；多图像任务优势尤为显著，核心得益于高质量交织图文、多图像及视频数据集上的训练成果。

音频能力：从自动语音识别（ASR）、文本到语音（TTS）、语音续写维度进行评估，Instruct Model 层面表现突出：ASR 在 LibriSpeech、AISHELL-1 等数据集上优于 Gemini-2.5-Pro；语音到文本翻译（S2TT）在 CoVost2 表现强劲；音频理解在 TUT2017、Nonspeech7k 等任务达当前最优；音频到文本对话在 OpenAudioBench、VoiceBench 表现优异，实时音视频交互评分接近闭源模型，类人性指标优于 GPT-4o，实现基础能力到实用交互的高效转化。

视频理解：LongCat-Flash-Omni 视频到文本任务性能达当前最优，短视频理解大幅优于现有参评模型，长视频理解比肩 Gemini-2.5-Pro 与 Qwen3-VL，这得益于动态帧采样、分层令牌聚合的视频处理策略，及高效骨干网络对长上下文的支持。

跨模态理解：性能优于 Gemini-2.5-Flash（非思考模式），比肩 Gemini-2.5-Pro（非思考模式）；尤其在真实世界音视频理解WorldSense 基准测试上，相较其他开源全模态模型展现出显著的性能优势，印证其高效的多模态融合能力，是当前综合能力领先的开源全模态模型。

端到端交互：由于目前行业内尚未有成熟的实时多模态交互评估体系，LongCat团队构建了一套专属的端到端评测方案，该方案由定量用户评分（250 名用户评分）与定性专家分析（10 名专家，200 个对话样本）组成。

定量结果显示：围绕端到端交互的自然度与流畅度，LongCat-Flash-Omni 在开源模型中展现出显著优势 —— 其评分比当前最优开源模型 Qwen3-Omni 高出 0.56 分；定性结果显示：LongCat-Flash-Omni 在副语言理解、相关性与记忆能力三个维度与顶级模型持平，但是在实时性、类人性与准确性三个维度仍存在差距，也将在未来工作中进一步优化。

美团这款新发布模型也引发了外国网友的热议。其中有网友表示：“这家中国外卖公司可是大有来路，年营收高达数百亿美元，员工人数也超过 Meta，是那种可以把前沿模型开发当成副业来搞的巨头公司。”甚至点名扎克伯格：快来学着抄作业。
|

举报
- 违反法律法规
- 垃圾信息、广告
- 色情、淫秽信息
- 人身攻击
- 谣言、不实信息
- 冒充，冒用信息
- 破坏社区秩序
- 其他
- 涉未成年人有害信息
观察者网举报制度规范
确定取消
标签美团大模型世界模型 AI 谷歌 Gemini
- 责任编辑: 史岱君
- 余承东致员工信：鸿蒙生态要想走得远，必须快速转变思维
  
  2025-11-03 13:18 产经科创
- 难卖的iPhone Air，加入“政府补贴”
  
  2025-11-03 11:33 产经科创
- 锚定智算市场、产业生态破局，良信股份稳健增长
  
  2025-11-03 09:59 产经科创
- 智能早报丨安世中国反击荷兰断供；9月份中国工业机器人产量7.63万套
  
  2025-11-03 09:50 产经热点关注
- 中方向日方提出严正交涉和强烈抗议
  
  2025-11-01 22:22 日本
- 寒武纪公告：前高管梁军起诉索赔近43亿元
  
  2025-11-01 18:08 观网财经-科创
- 走访富光：推新、破价、共创，京东超级供应链助力国货品牌破圈增长
  
  2025-11-01 13:56 观网财经-互联网
- 小米可穿戴部创新产品业务负责人已离职，曾主导AI眼镜项目
  
  2025-10-31 23:25 产经科创
- 苹果全球营收普涨，大中华区下降
  
  2025-10-31 22:07 观网财经-科创
- 在小米汽车直播间多次谩骂、造谣，一男子被刑拘
  
  2025-10-31 22:00 网络谣言
- 淘宝闪购发布新品牌“淘宝便利店”
  
  2025-10-31 20:33 观网财经-互联网
- 恒瑞医药三季报：营收净利双增，多笔海外授权交易落地
  
  2025-10-31 20:33 观网财经-健康
- 微信官宣：将逐步上线三项新功能
  
  2025-10-31 20:32 观网财经-互联网
- 放弃教师铁饭碗，她用30年干成中国女首富：财富1410亿，涨幅83%
  
  2025-10-31 20:32 观网财经-健康
- 透过“菜篮子”工程，看到中国式经济学的关键奥秘
  
  2025-10-31 19:52 观察者头条
- 理想汽车发长文回应
  
  2025-10-31 17:40
- 从华为剥离四年后，服务器巨头超聚变“着急上市”
  
  2025-10-31 17:37 观网财经-科创
- 三季度又亏了近一个亿，一瓶不到20元的牛栏山也卖不动了？
  
  2025-10-31 17:26 观网财经-消费
- 贝泰妮三季度业绩持续低迷，出海与线下战略何时见效？
  
  2025-10-31 17:21 观网财经-消费
- 市监总局：理想主动召回超1.1万辆MEGA 2024款电动汽车
  
  2025-10-31 17:19
搜索

   观察者头条查看全部

俄军会打波罗的海国家？美军司令：没有的事评论 8

“再不改革，10年后美国富人只能去中国看癌症了…” 评论 96

改口复改口？特朗普又说谈成了不打了…伊朗：否认评论 123

为何美国人不爱足球？答案在这里评论 132

国产光刻胶“生死局” 评论 95

   风闻 · 24小时最热查看全部

   最新视频查看全部
最新闻 Hot
快讯

美团正式上线LongCat App，可体验语音通话等新功能

余承东致员工信：鸿蒙生态要想走得远，必须快速转变思维

难卖的iPhone Air，加入“政府补贴”

锚定智算市场、产业生态破局，良信股份稳健增长

智能早报丨安世中国反击荷兰断供；9月份中国工业机器人产量7.63万套

中方向日方提出严正交涉和强烈抗议

寒武纪公告：前高管梁军起诉索赔近43亿元

走访富光：推新、破价、共创，京东超级供应链助力国货品牌破圈增长

小米可穿戴部创新产品业务负责人已离职，曾主导AI眼镜项目

苹果全球营收普涨，大中华区下降

在小米汽车直播间多次谩骂、造谣，一男子被刑拘

淘宝闪购发布新品牌“淘宝便利店”

恒瑞医药三季报：营收净利双增，多笔海外授权交易落地

微信官宣：将逐步上线三项新功能

放弃教师铁饭碗，她用30年干成中国女首富：财富1410亿，涨幅83%

透过“菜篮子”工程，看到中国式经济学的关键奥秘

理想汽车发长文回应

从华为剥离四年后，服务器巨头超聚变“着急上市”

三季度又亏了近一个亿，一瓶不到20元的牛栏山也卖不动了？

贝泰妮三季度业绩持续低迷，出海与线下战略何时见效？

市监总局：理想主动召回超1.1万辆MEGA 2024款电动汽车

“再不改革，10年后美国富人只能去中国看癌症了…”

又倒打一耙，“菲防长犯下三宗罪，罪有应得”

特朗普再称马上和伊朗达成协议，CNN：39次了，谁还信？

遭美国拒绝入境的索马里裁判，将执裁欧洲超级杯

SK海力士发生本月第二起火灾

台当局在欧洲“水饺联盟”，露馅了

电线上有蛇？“别慌，它是机器人巡检员”

日媒酸了：石脑油危机席卷日韩，唯独中国...

“已经在总统府打包书籍了”武契奇：将很快辞职

改口复改口？特朗普又说谈成了不打了…伊朗：否认

美议员焦躁：中国领先一头，美国承受不起

“制造平壤上空无人机入侵事件”，尹锡悦一审被判30年

装都不装？特朗普的倒影池翻新工程花费1400万美元，承包给熟人

骑脸开大！特朗普大寿两天前，这组数字直接印白宫边上了…

默茨要对华强硬？

“SpaceX怎么着，都得依靠中国”