【观察】Sora 2来了,如何赋能广电视听

赵京文| 国家广电智库| 2025-10-13

【流媒体网】摘要：Sora 2技术迭代下广电视听行业的发展、风险与应对策略。

　　导读

　　美国开放人工智能研究中心（OpenAI）近日发布新一代音视频生成模型Sora 2，其在生成质量、可控性及多模态融合方面实现显著技术突破。以Sora 2为代表的生成式人工智能技术持续迭代演进，不断为广电视听行业的内容生产、传播形态与商业模式带来新的发展空间，同时也对行业现有的版权保护、内容安全与伦理规范提出更严峻的挑战。如何审慎把握技术机遇并有效构建治理体系，成为行业发展的紧迫课题。

　　一、Sora 2技术性能实现多维突破

　　Sora 2作为去年发布的Sora模型升级版，在模拟物理世界的准确性、真实感和可控性等方面都有显著提升，增加同步对话和音效生成功能。OpenAI还同步推出AI短视频社交应用Sora App，由Sora 2模型驱动，用户可浏览、点赞、评论AI生成的视频，也可通过文字提示、Cameo（客串）或Remix（二创）功能创作并分享视频。

　　一是物理世界模拟能力显著增强。Sora 2模型强化对物理规律的理解与再现，能根据语义指令生成符合真实光影、运动、材质等特性的动态画面，在光照变化、物体反射、人物行走、环境运动等方面实现较高精度的模拟效果，生成结果更接近实拍影像。在OpenAI官网展示的视频实例中，Sora 2能完成许多对以往视频生成模型来说极具挑战、甚至完全不可能实现的任务，比如奥运体操比赛的连贯动作，在桨板上精准模拟浮力与刚体动力学的后空翻等。

　　二是实现音视频同步生成，生成可控性与连贯性显著增强。Sora 2在多模态融合方面实现突破，能在视频生成过程中同步生成环境音、对白及背景声效，实现音画内容的自动匹配与协调。能在较长视频片段中维持人物、场景、光线等元素的一致性，支持多轮提示的复杂指令和细节调整，用户可在生成过程中对镜头角度、节奏、风格进行设置，提升内容生成的可控程度。

　　三是独立客户端推动生成式音视频内容社会化传播。配套推出的Sora App降低了AI视频创作门槛，实现生成式视频从专业生产工具向社会化使用平台的延伸。用户可在移动端完成视频脚本输入、人物替换、语音添加及画面生成，并直接发布至社交平台。Cameo（客串）功能可将用户或他人形象与声音置入AI生成的视频中，通过录制短视频样本系统能复制用户形象与声音，实现与虚拟环境互动。

　　二、Sora 2撬动广电视听发展新空间

　　一是简化复杂场景制作，提高视听内容生产效率。Sora 2实现从抽象概念到具象呈现的跨越，在灾害模拟、历史复原等场景制作中，能精确还原光影效果、物体运动，增强长镜头中人物、场景的连贯性，节省大量实拍与后期制作时间，降低制作成本。

　　二是强化抽象内容可感性，拓展视听内容叙事空间。Sora 2支持多镜头、多角色、多场景生成，能将严肃、抽象的内容议题转化为直观生动的可视化影像。为广电视听提供更丰富的创作空间，让观众在新闻报道、政策解读、科学普及等内容场景中更清晰感知细节，增强对内容的代入感和理解力。

　　三是改变创作流程，催化广电视听人才结构转型。随着AI技术深度介入生产流程，编导、编辑岗位正向“人机协同创作者”转变，提示词工程师、虚拟演员设计师、AI编辑策划等新兴职位应运而生。要求广电视听机构打破部门、职能壁垒，建立内容人员、技术人员共同参与的跨部门协作机制。

　　尽管Sora 2在内容生成质量上有显著提升，但处理复杂场景时仍存明显短板，较难满足高阶应用需求,导致其暂时无法满足电视剧、大型纪录片等广电视听精品内容的生产要求，只能作为辅助工具应用于中低精度内容创作。

　　三、Sora 2存在的版权与安全风险

　　Sora 2一方面提升音视频生成的效率与表现力、推动行业创新;另一方面其技术本身的复杂性、开放性及社交传播属性，也带来一系列风险挑战。

　　一是进一步加剧版权、伦理等风险。Sora 2的开放式生成机制引发对数据来源、版权归属和肖像使用的广泛争议。模型训练数据包含大量现有影视、图片、音频素材，但OpenAI未明确公开训练数据的授权来源。同时，AI生成内容的版权归属界定模糊，较难明确版权归属。此外，“客串”“换脸”等功能存在滥用风险。

　　9月30日，Sora 2发布时采用“默认允许”（Opt-out）的版权政策，即默认情况下，模型可以生成包含受版权保护角色的视频，除非版权所有者主动联系OpenAI并明确要求“选择退出”。这种“宽松模式”将保护自身权益的责任完全推给创作者，可能引发系统性侵权风险。10月3日，OpenAI更新政策，将版权模式改为“选择加入”（Opt-in），即除非版权方明确可以授权使用，否则模型自动拒绝生成，但仍被质疑授权流程不透明、隐私保护措施不足。

　　二是引发内容安全风险显著上升。Sora 2的技术进步在提高生成质量的同时，也使虚假内容更具迷惑性。其在人物动作、表情及音视频同步方面的高精度模拟能力，使“深度伪造”（Deepfake）内容更易生成、更难识别，“眼见不再为实”，对舆论安全、新闻公信力及社会信任体系构成潜在威胁。

　　四、加强协同发展，积极应对技术变革

　　Sora 2发布后，如何平衡生成式人工智能技术的发展与安全再次成为各方热议的话题。面对技术加速迭代的态势，广电视听行业亟需构建可落地的综合治理体系。

　　在政策引导方面，推动行业主体严格落实《人工智能生成合成内容标识办法》等现有法规，确保AI生成内容规范标注、可追溯，从源头保障内容合规。完善专项政策，结合Sora 2等音视频生成模型的技术特点，制定广电视听领域AI技术应用专项指导意见，明确技术使用边界、版权归属、收益分配等关键规则，为行业应用技术提供清晰指引。建立健全AI音视频生成技术的内容质量、安全防护等行业标准，提升行业整体规范化水平。

　　在技术生态方面，需加大研发投入，支持国产AI音视频生成模型迭代升级，聚焦核心技术开展攻关。加快构建算力底座，统筹布局广电视听行业专用算力资源。推动广电机构与科技企业、高校科研院所深度合作，形成“产学研用”协同创新体系，培育AI内容创作、审核、运营等全链条服务能力，构建自主可控的技术生态。

　　在风险防控方面，建立智能审核体系，加大AI内容审核技术研发力度，如深度伪造检测、版权溯源系统等，构建高效审核模式，提升风险识别与处置能力。推动行业自律，引导广电视听机构建立AI技术应用内部管理制度，规范内容创作、传播全流程，主动防范化解风险与法律纠纷，维护行业良好生态。

　　在人才培育方面，开展专项培训，联合高校、职业院校开设AI技术与广电业务融合的特色课程。推动岗位转型，指导广电视听机构优化内部岗位设置。制定优惠政策，延揽AI算法研发、数据安全等领域的高端人才投身广电视听行业。

　　（作者单位：国家广电总局发展研究中心）

　　2025年10月30~31日，由流媒体网主办的「天津论道暨第30届智能视听与科技创新产业论坛」，将以“视听破圈智联无界"为主题集结产业链各方，共探融合路径，共创商业新机。

　　10月30~31日，天津鹏邸·凯悦尚选酒店，邀您共赴这场关于融合与新生的行业之约。