推荐阅读:
近期,AI大模型领域迎来重大里程碑——《人工智能 大模型》系列国家标准(GB/T 45288)正式实施。作为我国首部聚焦通用大模型的国家标准体系,它的落地标志着大模型产业全面迈入规范化、标准化、高质量发展的新阶段。
中国电信研究院深度参与了该系列国家标准的制定,尤其是《人工智能 大模型 第2部分:评测指标与方法》(GB/T 45288.2-2025)和《人工智能 大模型 第3部分:服务能力成熟度评估》(GB/T 45288.3-2025),这两项标准为大模型的性能评测、能力分级、服务质量及成熟度评估提供了权威、科学、可操作的技术依据,为产业高质量发展奠定了坚实基础。
中国电信研究院“天罡”AI评测平台立足“标准引领”,聚焦大模型增强能力的评测,如长文本理解、因果及数学推理、代码理解与生成、复杂逻辑处理等,构建了涵盖深度推理与复杂问题求解(含数学、物理、化学、生物及抽象推理等高难度测试)、代码理解与生成、多模态理解与生成的全维度评测框架。
基于此框架,“天罡”AI评测平台对业界主流大模型进行了全面评测,测试全过程严格遵循国家标准GB/T 45288.2-2025《人工智能 第2部分:评测指标与方法》,通过科学量化的指标体系,确保评测结果的权威性、公正性与可比性,为行业提供了清晰的技术发展导向。
评测结论
海外模型依旧占据榜首,国内模型表现亮眼
在本次评测中,deepseek-v3.2-Speciale以85.43的总分位居国内模型榜首,deepseek-r1-0528、qwen3-235b-A22B-thinking-2507等多款模型跻身前列,展现出较强的竞争力。海外模型中,gpt-5.1-high领跑榜单占据top1位置,claude-opus-4-5进入第一梯队,其余如gpt-oss-120b、claude-sonnet-4-5等模型处于第二梯队中游,国内头部模型在整体综合评分上优势显著。
国内模型更聚焦实用场景
在常识推理、文本问答、代码理解等实用性任务中,国内模型表现突出。其他维度方面,deepseek-v3.2-Speciale信息抽取得分93.49,任务分解93.5,均为榜单TOP1;deepseek-r1-0528、doubao-seed_250615_enabled的长文本理解表现跻身榜单前三,适配中文场景下的复杂文本处理需求,实用性更强。
海外模型更侧重高阶推理
deepseek-v3.2-Speciale在因果推理任务拔得头筹,gpt-5.1-high、claude-opus-4-5、gpt-oss-120b分列第二至第四位,claude-sonnet-4-5、gpt-oss-20b亦位列榜单中上游位置。整体来看,海外大模型在该任务上仍具一定优势。
国内模型均衡性与适配性更优
国内模型在多任务间的表现更均衡,多数模型无明显短板,且在中文相关的文本问答、文本分类等任务中适配度更高。海外模型则存在任务表现分化较大的问题,如部分模型因果推理强势但复杂推理薄弱,整体适配中文场景的能力稍逊于国内模型。
后续,中国电信“天罡”AI评测平台通过引入国家标准,将持续优化评测框架,提升可靠性,为行业提供全面、深入的大模型能力分析,促进大模型技术在更多领域的有效应用和价值创造。
责任编辑:李楠
24小时热文
流 • 视界
专栏文章更多
- [常话短说] 【解局】2026,中国广电定调了! 2026-01-23
- [探显家] 创始人对话|Netflix的文化密码:如何重写全球娱乐业? 2026-01-23
- [常话短说] 【解局】历史性完成,广电如何发挥真正威力?! 2026-01-22
- [常话短说] 【解局】某广电上市公司“靴子落地”! 2026-01-21
- [常话短说] 【解局】广电现在最难的不是技术问题,而是人?! 2026-01-21






