中国电信“天罡”AI评测平台发布2026年1月大模型榜单
| 科创电信| 2026-01-23
【流媒体网】摘要:“天罡”评测揭晓实力格局。

  推荐阅读:

  灯少年度演讲丨视听“斩杀线”,一切为了活跃度

  【灯少演讲PPT】预见2026大屏七大增长机遇

  近期,AI大模型领域迎来重大里程碑——《人工智能 大模型》系列国家标准(GB/T 45288)正式实施。作为我国首部聚焦通用大模型的国家标准体系,它的落地标志着大模型产业全面迈入规范化、标准化、高质量发展的新阶段。

  中国电信研究院深度参与了该系列国家标准的制定,尤其是《人工智能 大模型 第2部分:评测指标与方法》(GB/T 45288.2-2025)和《人工智能 大模型 第3部分:服务能力成熟度评估》(GB/T 45288.3-2025),这两项标准为大模型的性能评测、能力分级、服务质量及成熟度评估提供了权威、科学、可操作的技术依据,为产业高质量发展奠定了坚实基础。

  中国电信研究院“天罡”AI评测平台立足“标准引领”,聚焦大模型增强能力的评测,如长文本理解、因果及数学推理、代码理解与生成、复杂逻辑处理等,构建了涵盖深度推理与复杂问题求解(含数学、物理、化学、生物及抽象推理等高难度测试)、代码理解与生成、多模态理解与生成的全维度评测框架。

  基于此框架,“天罡”AI评测平台对业界主流大模型进行了全面评测,测试全过程严格遵循国家标准GB/T 45288.2-2025《人工智能 第2部分:评测指标与方法》,通过科学量化的指标体系,确保评测结果的权威性、公正性与可比性,为行业提供了清晰的技术发展导向。

  评测结论

  海外模型依旧占据榜首,国内模型表现亮眼

  在本次评测中,deepseek-v3.2-Speciale以85.43的总分位居国内模型榜首,deepseek-r1-0528、qwen3-235b-A22B-thinking-2507等多款模型跻身前列,展现出较强的竞争力。海外模型中,gpt-5.1-high领跑榜单占据top1位置,claude-opus-4-5进入第一梯队,其余如gpt-oss-120b、claude-sonnet-4-5等模型处于第二梯队中游,国内头部模型在整体综合评分上优势显著。

  国内模型更聚焦实用场景

  在常识推理、文本问答、代码理解等实用性任务中,国内模型表现突出。其他维度方面,deepseek-v3.2-Speciale信息抽取得分93.49,任务分解93.5,均为榜单TOP1;deepseek-r1-0528、doubao-seed_250615_enabled的长文本理解表现跻身榜单前三,适配中文场景下的复杂文本处理需求,实用性更强。

  海外模型更侧重高阶推理

  deepseek-v3.2-Speciale在因果推理任务拔得头筹,gpt-5.1-high、claude-opus-4-5、gpt-oss-120b分列第二至第四位,claude-sonnet-4-5、gpt-oss-20b亦位列榜单中上游位置。整体来看,海外大模型在该任务上仍具一定优势。

  国内模型均衡性与适配性更优

  国内模型在多任务间的表现更均衡,多数模型无明显短板,且在中文相关的文本问答、文本分类等任务中适配度更高。海外模型则存在任务表现分化较大的问题,如部分模型因果推理强势但复杂推理薄弱,整体适配中文场景的能力稍逊于国内模型。

  后续,中国电信“天罡”AI评测平台通过引入国家标准,将持续优化评测框架,提升可靠性,为行业提供全面、深入的大模型能力分析,促进大模型技术在更多领域的有效应用和价值创造。

责任编辑:李楠

分享到:
版权声明:凡注明来源“流媒体网”的文章,版权均属流媒体网所有,转载需注明出处。非本站出处的文章为转载,观点供业内参考,不代表本站观点。文中图片均来源于网络收集整理,仅供学习交流,版权归原作者所有。如涉及侵权,请及时联系我们删除!