从百模大战到价值厮杀:AI评测新规则,专治“高分低能”!
| 坐北科技泽传媒| 2025-07-09
【流媒体网】摘要:AI评测体系2.0推动大模型从技术竞赛转向价值创造,聚焦行业实际应用需求。

  现在AI圈儿有点热闹,或者说,有点“虚火”。你发现没?这两年各种大模型在测试里的分数高得吓人,一个个都快满分了,搞得好像AI立马就能上天入地似的。但真到用的时候呢?不少模型就掉链子了,要么答非所问,要么解决不了实际问题。

  微软CEO纳德拉都忍不住吐槽,说有些所谓的AGI里程碑,其实就是在测试里耍小聪明作弊。他这话虽然直,但点出了个关键问题:咱们到底该咋判断一个AI好不好?总不能光看分数吧?还得看看有没有实体经济的贡献价值!

  为什么说这事很有必要?

  最近好多国际研究机构都发现,现在衡量AI能力的那些主流测试,有点“不靠谱”了,就像咱们考试时遇到的“高分低能”情况,在AI圈也越来越明显。

  拿那个叫SWE-Bench的软件工程测试来说吧,研究人员发现,有些模型压根不是真的代码能力强,而是靠“押题”——专门针对测试里的题型做优化,最后分数倒是挺高,可真让它写段复杂代码、解决个实际工程问题,立马就露馅了。

  还有个测网络导航能力的WebArena测试,更有意思。有的模型不琢磨怎么真的看懂网页、找到信息,反倒偷偷记住了测试里那些特定的网址结构,相当于走了“捷径”,测试时表现得特牛,可一到真实的复杂网络环境里,就晕头转向,啥也干不了。

  这事儿现在整个行业都在议论。一方面吧,有些人为了让模型分数好看,故意用测试数据去“喂”模型,或者专门对着测试内容优化,结果就是分数和实际能力严重脱节;另一方面更麻烦,好多人把测试排名当成宣传点,动不动就说“我家模型排第一”,可这排名早就不代表真实水平了。

  Epoch AI做的研究也能说明问题。像MMLU这种主流测试里,头部模型的分数都快赶上人类甚至超过了,可问题是,大家分数都挤在90分以上,你高个零点几、我低个零点几,根本没法看出这些模型的真实能力到底差在哪儿。就像班里好学生都考98、99,那一分两分的差距,能说明谁更会解决实际问题吗?显然不能啊。

  这情况放到实际应用里就更明显了。好多模型在标准化测试里成绩拔尖,可真到具体业务场景里,就不灵了。比如让它处理某个行业的专业知识,或者适配企业里那些弯弯绕绕的流程,通用测试的分数就没啥参考价值了,经常是“考试状元”干不了“具体活儿”。

  所以啊,现在行业里都在盼着一把更靠谱的“尺子”——能精准衡量AI在特定场景下的专业能力,还得务实、安全,别再让那些虚高的分数晃了眼。毕竟咱们用AI,是想让它解决真问题,不是看它在测试里当“学霸”,你说对吧?

  我想说这种变革是系统性的!

  就在上个月,认知智能全国重点实验室联合中科院文献情报中心这些权威机构,搞出了个《通用大模型评测体系2.0》。我跟你说,这可不只是换个版本号那么简单,从设计思路到技术框架,都透着一股“要来真的”的劲儿——目标很明确,就是要让AI评测从“证明技术多牛”变成“证明真能创造价值”。

  《通用大模型评测体系 2.0》(来源:认知智能全国重点实验室)

  你知道这2.0体系有多细致吗?

  打个比方吧,1.0时代的评测,就像看一个模型“能不能算出一道复杂的数学题”;到了2.0时代,就得看它“能不能像个有经验的老师那样,把解题思路讲得明明白白,还能根据不同学生的水平,出一套循序渐进的练习题”。你看,这差别多大?不再是死磕单一能力,而是看它能不能在真实场景里解决问题。

  这种转变的核心,就是“场景导向”。2.0里的每一项评测,都对应着一个具体的应用场景和实际痛点。最关键的是,为了防止厂商又来“刷榜”——就是专门对着测试数据死磕优化,它搞了个动态更新机制,承诺每个季度都大比例换测试题。这下好了,想靠死记硬背混高分?门儿都没有。

  具体说说2.0三个特别实在的突破。

  第一个是规模上的。以前评测任务才481项,现在直接涨到1186项,主流应用领域基本都覆盖到了。更重要的是,从以前单一的文本或图像测试,扩展到了文本、图像、语音、视频全模态——就是说,既能看懂字、认得出图,还得听得懂话、理解得了视频,这才叫真本事。另外,它特别强调中英文能力并重,这既考虑了咱们国内市场的需求,也能看出咱们AI产业想在全球闯闯的野心,挺提气的。

  第二个是专项上的。就是针对不同行业的专业需求,搞了一堆细分评测。比如教育专项,完全贴合咱们国家的K12体系,不光看模型会不会做题,更看它能不能帮老师备课、给学生做个性化辅导、批改作业这些实际教学场景。还有个叫AI4S的科研专项,专门测模型在物理、数学、化学这些科学领域的本事,细分成98项任务,就是想看看它能不能当科研人员的好帮手——毕竟现在好多实验室都靠AI分析数据呢。最有意思的是,为了防止那些厂商专门对着测试数据“刷分”,这体系还搞了个动态更新机制,承诺每个季度都大比例换测试题。你想啊,题目总在变,光靠死记硬背肯定不行,得真有本事才行。

  第三个是方法上的。为了让评测结果靠谱,2.0用了“人工+自动”结合的办法。有些任务没法用机器打分,比如看模型的逻辑性、创造性,就搞“多人主观双盲评测”——专家打分时,既不知道这是哪个模型做的,也不知道其他专家给了多少分,这样就没偏见了。同时还加了个JudgeModel辅助评分,效率和一致性都能保证。更细致的是,它搞了“1+4”评价体系:一个总体分,再从相关度、连贯度、完整度、有效度四个方面给分,这样模型到底哪儿强、哪儿弱,看得清清楚楚。

  对了,现在大家不都担心AI的安全和伦理问题吗?2.0也考虑到了,专门弄了16项指标评估风险,连“指令安全”都算进去了,完全照着咱们国家的《生成式人工智能服务管理暂行办法》来。这意味着,能通过2.0评测的模型,在国内用着肯定合规,这点让人挺放心的。

  说到底啊,这2.0体系就像一把更准的尺子,不光量得出AI的技术水平,更能看出它到底能不能在真实世界里派上用场——这才是咱们真正需要的,对吧?

  从“军备竞赛”到“价值创造”,行业越来越取向成熟!

  有了这么细致的评测体系,各个模型的真实水平就显出来了。国际上的GPT-4o和Gemini在多模态融合方面确实厉害,但咱们国内的模型也有不少拿手好戏。

  比如讯飞星火,它那个“一句话声音复刻”技术,在评测里拿了快满分,音色和风格都特别像原人。你知道吗?某电车车企最新的智能助手NOMI,那超像人的声音,就是用的讯飞的技术,这可是行业里第一个车载生成式语音合成框架呢。

  在图像和视频生成方面,豆包和MiniMax表现挺突出。豆包不是有抖音生态撑腰嘛,对内容的理解特别到位,它那个P图功能、让老照片动起来的功能,玩过的人都说有意思。它还有个叫Seedance 1.0的模型,文生视频、图生视频都挺厉害,在短视频创作圈里用得不少。

  MiniMax是个后起之秀,它不搞那种单纯的对话模型,而是做“全模态理解+自动化执行”的智能体。它那个Hailuo 02视频生成模型,在海外火得很,有人用它做了个“猫咪奥运会”的视频,短短几小时就在社交平台上有150万次观看,大家都觉得视频里的物理效果太逼真了。

  再说说医疗领域,今年上半年冒出了288个医疗大模型,市场规模都到82亿元了,真是爆发式增长。这里面,讯飞星火、阿里蚂蚁、腾讯优图的“天衍”都各有千秋。

  腾讯觅影依托他们的混元大模型,整合了3000万份医疗问答数据,从影像分析到临床决策,一套流程都能搞定。讯飞星火呢,在医学影像方面也不含糊,和华西医院合作的病历质控系统,在呼吸内科、骨科这些复杂科室的准确率能到90%。更厉害的是它的临床辅助能力,在心血管内科、儿科这些专科里,水平居然能赶上三甲医院的主治医师,写的诊断报告比不少医生都清楚、全面。

  其实这背后是人家多年的积累。讯飞从2018年就开始做基层医疗,一开始是帮着看常见病,后来慢慢扩展到病历质控、专科诊断,现在智医助理已经给了超过10亿次的辅诊建议,规范了3.8亿份病历,这数字还是挺惊人的。

  针对普通人的健康管理,讯飞晓医APP也很实用,查症状、查药物、解读体检报告都行,还能连血压计、血糖仪这些设备,给你画个健康画像。最近阿里蚂蚁也在往这个方向发力,看来个人健康管家会是个大趋势。

  教育领域也非常热闹。评测里显示,星火X1在批改数学解答题步骤、给英语主观题打分、预测知识点这些方面特别厉害,而豆包在判断相似题上更胜一筹。

  你见过讯飞那个AI黑板吗?上面有个虚拟人助教,能读课文、答问题,还会用“问题链”引导学生思考。最绝的是,你在上面写个数学公式、化学方程式,它能立马认出来,还推荐相关的3D动画,把抽象的知识点变得特别直观,这对教学帮助可太大了。

  现在不光是医疗、教育,政务、金融、工业这些行业,都在试着把大模型用到实际场景中。这时候就看出生态的重要性了:像DeepSeek这样的,搞开源让开发者一起创新;字节、阿里、腾讯这些,利用自己的生态搞好用好玩的AI;讯飞星火则在教育、医疗这些关键行业深耕,筑牢底座安全。这种多元发展的局面,既能满足不同需求,也能让整个AI产业持续创新。

  说到底,这个2.0评测体系的出现,标志着AI行业开始从“比谁更厉害”转向“比谁更有用”。以前那种不管实际应用、光追求技术突破的“军备竞赛”,慢慢变成了踏踏实实解决行业问题。

  这对咱们用户来说是好事啊,以后选AI的时候,就不用光看那些花里胡哨的宣传了,有实实在在的评测结果可以参考,知道哪个模型在哪个领域真正拿手。

  当然了,AI评测这条路还长着呢。以后肯定会有更动态、更智能的评测方式,但不管怎么变,核心都应该是:AI到底为经济增长、社会进步、人类知识拓展做了多少实实在在的贡献。比如能不能推动经济增长,能不能让大家的生活更舒服,能不能帮着人类探索更多未知的知识。而且这些贡献,得是能说清楚、能衡量的,不能是虚无缥缈的空话。

  总的来说,现在AI圈算是慢慢从“镀金时代”走出来了,开始往“实干时代”发展。这条路肯定不好走,但方向是对的,你说对吧?

责任编辑:凌美

分享到:
版权声明:凡注明来源“流媒体网”的文章,版权均属流媒体网所有,转载需注明出处。非本站出处的文章为转载,观点供业内参考,不代表本站观点。文中图片均来源于网络收集整理,仅供学习交流,版权归原作者所有。如涉及侵权,请及时联系我们删除!