-
美团正式上线LongCat App,可体验语音通话等新功能
11月3日消息,美团LongCat团队今日宣布,LongCat-Flash 系列大模型再升级,正式发布全新家族成员——LongCat-Flash-Omni,并开源。
目前,新App已支持联网搜索、语音通话等功能,视频通话等功能会稍后上线;Web端则增加图片、文件上传和语音通话等功能。
iOS用户可直接在APP Store中搜索“LongCat”获取。
在此之前,LongCat仅通过官网(https://longcat.ai/)来为C端用户提供大模型的相关能力。
网页版
我们迅速下载该APP测试了一下,发现该模型最大的亮点,那就是“快”!(天下武功,唯快不破)
该模型总参数560B,激活参数仅27B,继承了LongCat-Flash系列“快”的基因,使其在保持庞大知识容量的同时,实现了极高的推理效率。
我们发现,从输入指令到生成token的时间间隔非常短暂,整个过程相当丝滑,小编感觉比豆包通义及微信元宝的反应速度都更快一些。
据悉,在当前主流旗舰模型的性能标准和参数规模下,这是首个能够实现全模态实时交互的开源模型,它能同时处理文本、图像、音频、视频,而且还能实时进行音视频交互。
据官方介绍,LongCat-Flash-Omni以LongCat-Flash系列的高效架构设计为基础(Shortcut-Connected MoE,含零计算专家),集成了高效多模态感知模块与语音重建模块,在总参数 5600 亿(激活参数 270 亿)的庞大参数规模下,仍实现低延迟的实时音视频交互能力,为开发者的多模态应用场景提供了更高效的技术选择。
美团采用了 Shortcut-connected MoE 架构,配合零计算专家(zero-computation experts)设计,就像高速公路上的ETC通道,让信息处理更高效,避免了“堵车”。
更重要的是,美团还提出了早期融合训练范式(Early-Fusion Training),能确保模型在获得多模态能力的同时,不会在单一模态上“偏科”。
并不是先语言训练,然后再后加上视觉或音频能力。这就像培养全能运动员,不能因为练游泳就忘了跑步,每天都要一起练,而不是先练两年游泳,然后再去学跑步。
这样的一体化架构,让这只“龙猫”实现了完全端到端的设计:视觉与音频编码器作为多模态感知器,LLM 直接处理输入并生成文本与语音 token,再通过轻量级音频解码器重建为自然语音波形。
此外,打开LongCat APP,从首页可以看到,它目前支持文字/语音两种输入方式,并能进行语音通话(视频通话功能正在跑步入场中),Web端还支持上传图片和文件。
APP端
在综合性的全模态基准测试(如Omni-Bench, WorldSense)上,超越Qwen3-Omni、Gemini-2.5-Flash,这款模型直接达到了开源SOTA水准(开源最先进水平),而且能和闭源的Gemini-2.5-Pro相媲美。 即使单拉出来文本、图像、音频、视频等各项模态能力,它也依旧能打(单项能力均位居开源模型前列),真正实现了“全模态不降智”。
文本:LongCat-Flash-Omni 延续了该系列卓越的文本基础能力,且在多领域均呈现领先性能。相较于 LongCat-Flash 系列早期版本,该模型不仅未出现文本能力的衰减,反而在部分领域实现了性能提升。这一结果不仅印证了该团队训练策略的有效性,更凸显出全模态模型训练中不同模态间的潜在协同价值。
图像理解:LongCat-Flash-Omni 的性能(RealWorldQA 74.8分)与闭源全模态模型 Gemini-2.5-Pro 相当,且优于开源模型 Qwen3-Omni;多图像任务优势尤为显著,核心得益于高质量交织图文、多图像及视频数据集上的训练成果。
音频能力:从自动语音识别(ASR)、文本到语音(TTS)、语音续写维度进行评估,Instruct Model 层面表现突出:ASR 在 LibriSpeech、AISHELL-1 等数据集上优于 Gemini-2.5-Pro;语音到文本翻译(S2TT)在 CoVost2 表现强劲;音频理解在 TUT2017、Nonspeech7k 等任务达当前最优;音频到文本对话在 OpenAudioBench、VoiceBench 表现优异,实时音视频交互评分接近闭源模型,类人性指标优于 GPT-4o,实现基础能力到实用交互的高效转化。
视频理解:LongCat-Flash-Omni 视频到文本任务性能达当前最优,短视频理解大幅优于现有参评模型,长视频理解比肩 Gemini-2.5-Pro 与 Qwen3-VL,这得益于动态帧采样、分层令牌聚合的视频处理策略,及高效骨干网络对长上下文的支持。
跨模态理解:性能优于 Gemini-2.5-Flash(非思考模式),比肩 Gemini-2.5-Pro(非思考模式);尤其在真实世界音视频理解WorldSense 基准测试上,相较其他开源全模态模型展现出显著的性能优势,印证其高效的多模态融合能力,是当前综合能力领先的开源全模态模型。
端到端交互:由于目前行业内尚未有成熟的实时多模态交互评估体系,LongCat团队构建了一套专属的端到端评测方案,该方案由定量用户评分(250 名用户评分)与定性专家分析(10 名专家,200 个对话样本)组成。
定量结果显示:围绕端到端交互的自然度与流畅度,LongCat-Flash-Omni 在开源模型中展现出显著优势 —— 其评分比当前最优开源模型 Qwen3-Omni 高出 0.56 分;定性结果显示:LongCat-Flash-Omni 在副语言理解、相关性与记忆能力三个维度与顶级模型持平,但是在实时性、类人性与准确性三个维度仍存在差距,也将在未来工作中进一步优化。
美团这款新发布模型也引发了外国网友的热议。其中有网友表示:“这家中国外卖公司可是大有来路,年营收高达数百亿美元,员工人数也超过 Meta,是那种可以把前沿模型开发当成副业来搞的巨头公司。”甚至点名扎克伯格:快来学着抄作业。
- 责任编辑: 史岱君 
-
余承东致员工信:鸿蒙生态要想走得远,必须快速转变思维
2025-11-03 13:18 产经 科创 -
难卖的iPhone Air,加入“政府补贴”
2025-11-03 11:33 产经 科创 -
锚定智算市场、产业生态破局,良信股份稳健增长
2025-11-03 09:59 产经 科创 -
智能早报丨安世中国反击荷兰断供;9月份中国工业机器人产量7.63万套
2025-11-03 09:50 产经 热点关注 -
中方向日方提出严正交涉和强烈抗议
2025-11-01 22:22 日本 -
寒武纪公告:前高管梁军起诉索赔近43亿元
2025-11-01 18:08 观网财经-科创 -
走访富光:推新、破价、共创,京东超级供应链助力国货品牌破圈增长
2025-11-01 13:56 观网财经-互联网 -
小米可穿戴部创新产品业务负责人已离职,曾主导AI眼镜项目
2025-10-31 23:25 产经 科创 -
苹果全球营收普涨,大中华区下降
2025-10-31 22:07 观网财经-科创 -
在小米汽车直播间多次谩骂、造谣,一男子被刑拘
2025-10-31 22:00 网络谣言 -
淘宝闪购发布新品牌“淘宝便利店”
2025-10-31 20:33 观网财经-互联网 -
恒瑞医药三季报:营收净利双增,多笔海外授权交易落地
2025-10-31 20:33 观网财经-健康 -
微信官宣:将逐步上线三项新功能
2025-10-31 20:32 观网财经-互联网 -
放弃教师铁饭碗,她用30年干成中国女首富:财富1410亿,涨幅83%
2025-10-31 20:32 观网财经-健康 -
透过“菜篮子”工程,看到中国式经济学的关键奥秘
2025-10-31 19:52 观察者头条 -
理想汽车发长文回应
2025-10-31 17:40 -
从华为剥离四年后,服务器巨头超聚变“着急上市”
2025-10-31 17:37 观网财经-科创 -
三季度又亏了近一个亿,一瓶不到20元的牛栏山也卖不动了?
2025-10-31 17:26 观网财经-消费 -
贝泰妮三季度业绩持续低迷,出海与线下战略何时见效?
2025-10-31 17:21 观网财经-消费 -
市监总局:理想主动召回超1.1万辆MEGA 2024款电动汽车
2025-10-31 17:19
相关推荐 -
呵呵,“‘民主国家’看不上中国技术”? 评论 221
普京访印:美国都在买,印度凭啥不能买? 评论 79
日本开发稀土担心中国干扰?日防相放话 评论 134
“美欧抢矿,遭殃的却是他们” 评论 16
美国又开炮欧盟:你们在“霸凌”美国军工! 评论 73最新闻 Hot-
呵呵,“‘民主国家’看不上中国技术”?
-
普京访印:美国都在买,印度凭啥不能买?
-
“白宫‘慌乱应对’,想赢中国,支持得到位啊”
-
国安战略报告迟迟未出,“美财长要求软化对华措辞”
-
自民党“黑金”丑闻“吹哨人”再出手,这次是高市
-
“彻底反转了,中国是发达国家,我们才是新兴国家”
-
“华德858”轮触礁断裂
-
机密通话曝光!“美国恐将背叛,你要小心”
-
“云冈石窟大佛冻得流鼻涕”,官方:将暂时封闭、处置渗水
-
“高市早苗更加不安了”
-
高善文离职后,又有分析师集体出走国投证券
-
台军又出意外,这次是炮弹砸了民宅
-
“中产、富裕阶层也去1元店”,特朗普还嘴硬
-
日本开发稀土担心中国干扰?日防相放话
-
“按下葫芦浮起瓢”,英伟达想重返中国市场又难了…
-

观察员
上海市互联网违法与不良信息举报中心