中国电信“天罡”AI评测平台发布2026年1月大模型榜单

| 科创电信| 2026-01-23

【流媒体网】摘要：“天罡”评测揭晓实力格局。

　　推荐阅读：

　　【灯少演讲PPT】预见2026大屏七大增长机遇

　　近期，AI大模型领域迎来重大里程碑——《人工智能大模型》系列国家标准（GB/T 45288）正式实施。作为我国首部聚焦通用大模型的国家标准体系，它的落地标志着大模型产业全面迈入规范化、标准化、高质量发展的新阶段。

　　中国电信研究院深度参与了该系列国家标准的制定，尤其是《人工智能大模型第2部分：评测指标与方法》（GB/T 45288.2-2025）和《人工智能大模型第3部分：服务能力成熟度评估》（GB/T 45288.3-2025），这两项标准为大模型的性能评测、能力分级、服务质量及成熟度评估提供了权威、科学、可操作的技术依据，为产业高质量发展奠定了坚实基础。

　　中国电信研究院“天罡”AI评测平台立足“标准引领”，聚焦大模型增强能力的评测，如长文本理解、因果及数学推理、代码理解与生成、复杂逻辑处理等，构建了涵盖深度推理与复杂问题求解（含数学、物理、化学、生物及抽象推理等高难度测试）、代码理解与生成、多模态理解与生成的全维度评测框架。

　　基于此框架，“天罡”AI评测平台对业界主流大模型进行了全面评测，测试全过程严格遵循国家标准GB/T 45288.2-2025《人工智能第2部分：评测指标与方法》，通过科学量化的指标体系，确保评测结果的权威性、公正性与可比性，为行业提供了清晰的技术发展导向。

　　评测结论

　　海外模型依旧占据榜首，国内模型表现亮眼

　　在本次评测中，deepseek-v3.2-Speciale以85.43的总分位居国内模型榜首，deepseek-r1-0528、qwen3-235b-A22B-thinking-2507等多款模型跻身前列，展现出较强的竞争力。海外模型中，gpt-5.1-high领跑榜单占据top1位置，claude-opus-4-5进入第一梯队，其余如gpt-oss-120b、claude-sonnet-4-5等模型处于第二梯队中游，国内头部模型在整体综合评分上优势显著。

　　国内模型更聚焦实用场景

　　在常识推理、文本问答、代码理解等实用性任务中，国内模型表现突出。其他维度方面，deepseek-v3.2-Speciale信息抽取得分93.49，任务分解93.5，均为榜单TOP1；deepseek-r1-0528、doubao-seed_250615_enabled的长文本理解表现跻身榜单前三，适配中文场景下的复杂文本处理需求，实用性更强。