中原论道|酷开科技郭尚锋:大屏AI智能解决方案

| 流媒体网| 2025-05-23

【流媒体网】摘要：在大屏面前，尤其是在小屏流量占据主导的当下，很多用户并没有强烈的影视观看需求。我们是否具备其他能力，或者能否为大屏赋予新的玩法和定义，让用户有一个打开电视的理由？

　　2025年5月22日-5月23日，流媒体网主办的「中原论道暨第29届智能视听与科技创新产业论坛」在河南开封隆重举行。

　　本届论道以“新局新视智合聚变”为主题，围绕产业的破局路径展开积极探讨。5月22日上午的主论坛上，创维酷开公司智能系统研究院院长郭尚锋发表了题为《大屏AI智能解决方案》的主题演讲。

　　各位领导、各位嘉宾，大家早上好！下面分享一下大屏AI智能解决方案。今年，AI领域异常火热，行业内流传着一句话：所有事情都值得用AI重新做一遍。那么，在AI这个行业里，我们究竟应该做些什么？我们的出发点又应该是什么？

　　酷开在这方面进行了诸多探索。但在行动之前，我们不得不面对一个现实困境：电视开机率低、用户日活低、互联网营收也低。因此，我们做AI的目标和出发点，就是如何解决这一行业困境、企业困境，如何借助AI这股东风，真正助力企业和行业的发展。

　　围绕这个出发点，我们内部进行了深入的探索和思考。今天，我主要想分享一下我们的探索成果。我们认为，有三件事情可能有助于我们解决行业困境。

　　三件事情可能有助于解决行业困境

　　第一是打造专属的数字管家。为什么要做数字管家呢？它不仅仅是一个虚拟人或一个形象。一方面，我们的电视或设备往往是冷备用设备，很难与用户建立情感沟通。设备可能过几年就更换了，但背后提供的服务却难以被真正替代。因此，如何与用户建立连接，是我们首先要考虑的问题。另一方面，专属虚拟管家背后所提供的服务变化，能否打动用户？它提供的主动服务，能否真正触动用户？这才是数字管家的核心和本质。形象只是一个情感的寄托、一个载体，而背后提供的主动服务才是我们应该深入探索的。

　　第二个是极简的交互模式。在AI时代，以ChatGPT为例，它自2022年爆发以来，之所以被称为“chat”，是因为它能够读懂人的意思，理解人的意图，并能与人进行聊天。这是之前所有AI与当前AI之间最大的差异。那么，为什么我们选择了语音赛道呢？一方面，GPT或大模型的发展，让我们能更好地理解用户的意图，促进人与设备之间的有效沟通。一旦我们明白了用户真正想要什么，做起事情来自然事半功倍。另一方面，我们选择语音，是因为语音沟通是人类从两岁到百岁、从小孩到老人都具备的基础能力。可能有些人不识字，不认识很多东西，但语言沟通是普遍适用的。因此，我们认为语音是人与设备之间沟通最基础、最适用、最通用的桥梁。所以，我们选择了语音赛道，希望在这个领域里，能够进一步简化人与设备之间的沟通，让设备的交互变得更加简单。

　　第三个是场景化的专业智能体。我们不仅仅局限于影音领域，还拓展到了娱乐、生活、教育、健康等多个方面。我们发现，在大屏面前，尤其是在小屏流量占据主导的当下，很多用户并没有强烈的影视观看需求。如果我们强行用影音需求来吸引用户，让他们打开电视，这并不现实。之前，我们与内部和外部的客户沟通时，就遇到过这样的情况。有位年纪较大的客户说，虽然我们的影音检索已经非常准确，但他并没有观看影视的诉求，家里的电视摆在那里，他根本不想打开。这让我们思考，我们是否具备其他能力，或者能否为大屏赋予新的玩法和定义，让用户有一个打开电视的理由。就像我们每天使用抖音、使用手机一样，是因为手机里有我们必需的功能。同样，我们也需要帮助大屏找到这样一个点，给用户一个打开电视的理由。

　　酷开的三个探索方向

　　1、专属的数字管家

　　它不仅仅是一个虚拟的形象，陪伴用户一起看电视、观影，更是一个情感的寄托。但其背后的本质，是推荐方案和主动服务的变化。在以往的实践中，无论我们如何优化影音推荐、电视首屏或IPTV首屏的推荐，核心都是基于大数据的推荐。我们可能会对用户进行分群，为某一类用户推荐更适合他们的方案。但这种方式很难实现真正的千人千面，难以触动用户个人的内心。

　　我们认为，在线上拥有 3000 万乃至 4000 万日活用户的情况下，我们会为每一位用户创建一个专属的智能体。也就是说，背后将有 3000 万（或 4000 万）个智能体为用户提供服务。这些智能体能够主动为用户提供影音服务、娱乐服务，甚至是健康服务等各类服务，而且都是为用户量身定制的。这超越了上一代智能推荐框架，是一种新一代的技术体系框架，也是我们独特的推荐机制。通过这种方式，我们能够真正与用户深度融合，精准记录用户的行为习惯，并将其长期保存下来。如此一来，用户就会觉得电视屏幕里那个虚拟形象或形象代表真的懂自己，能切实为自己推荐所需的服务。这就是我们在技术本质上与以往的新一代差异所在。我们致力于将大模型技术运用到极致，力求打动用户，让用户开机第一眼就觉得电视懂自己。这是我们目前电视实验后开机界面的呈现样式，与以往相比发生了较大变化。同时，从实验数据来看，开机体验等方面有了约 10%的提升。

　　2、极简的交互模式

　　我们始终认为语音是人机设备交互中最简单的途径。虽然摄像头交互也有其优势，但我们坚信语音是人与设备沟通最便捷的桥梁。在新的语音交互道路上，我们追求的目标是，用户开机后，只需通过语音就能唤起所有想要的服务，实现一键直达。用户无需知晓电视安装了哪些 APP，也不必了解电视背后的复杂机制，只需提出自己的需求和诉求，电视就能满足，这就足够了。我们真正要打破原有传统行业的限制，实现资源整合，这才是所谓的超级 APP 或极简的交互方式。

　　为什么我们在大屏上敢于采用这样的模式？首先，我们认为大屏相较于手机有一个显著的优势：大屏的整个生态相对封闭。这种封闭性使得大屏更容易进行资源整合，更容易将影音、生活等各类服务的全链路整合在一起，进而为用户带来更加便捷的服务体验。然而，在手机端，由于其产业链过于庞大且复杂，要实现这样的整合会更具挑战性。这也是为什么我们一直在探索全新的电视交互模式。

　　我们曾经做过一个与竞品的实验对比。在我们的电视上，用户基本上可以通过语音指令以极简的方式完成几乎所有功能操作。而许多其他产品虽然也增加了不少功能，但用户往往需要对这些功能有所了解，进入某个专区或者打开某个应用后才能使用。这就给用户带来了较高的认知成本。从本质上来说，以往的交互模式大多是层级式的，用户需要先了解某个功能，才能打开爱奇艺、腾讯或其他 APP，然后再通过层级浏览来获取服务。

　　在 AI 时代，交互模式应该更加便捷。我们不再拘泥于原有的形态，而是直接打破这种限制，让用户只需要关心他们想要什么，而不是去关注原有的形态。通过整合更大的行业资源，真正让用户的生活更加便捷，这才是我们行业的破局关键。这也是我们在实际探索中一直坚定不移走的路径。

　　3、满足场景化需求

　　除了交互模式的改变，我们在具体的使用场景中也做了一些体验优化。我们重点围绕六大专业智能体进行布局，包括影视、教育、创作、生活、健康和设备管理。为什么选择这些领域？其实每个领域都有其独特的考量。

　　1）大屏影音是电视的核心功能

　　观影是其主要用途，如何让用户更快速地找到自己想看的影片，甚至仅凭模糊的印象就能快速定位？同时，还需要实现全网资源的深度融合。目前，我们已经能够整合国内的影片资源，后续还将进一步融合海外资源。我们的目标是真正满足用户的需求，无论用户想看什么影片，都能帮助他们快速找到。在这个基础上，还希望后续能陪伴用户观影，进一步提升体验。

　　酷开影视搜索的几个特点：

　　首先是广度搜索，我们整合多达30多家的内容分类，并且从内容源上打破了原有APP的限制。无论是芒果TV、B站还是其他平台的资源，用户无需关注内容来自哪里，一键直达。这种能力不仅在OTT电视产业中有广泛的应用，甚至在车载系统等领域也有广泛应用。用户不再需要去反复查找某个影片的来源，这是广度搜索的优势。

　　另一方面，我们还具备深度搜索能力。以前用户只能通过片名或导演来搜索影片，但用户可能记不住片名，可能只记得某个片段、台词或视觉风格，深度搜索功能能解决这个问题。它可以根据用户提供的任意模糊片段、台词、印象或视觉风格，精准定位到该影片甚至具体片段，这才能真正实现让用户找片更加快捷的路径。

　　此外，我们在海报和短视频生成上也下了一番功夫。用户打开电视或屏幕时，第一眼看到的往往是海报，而不是文字。因此，海报的质量和呈现方式对用户体验的影响至关重要。同一个影片，海报的质量是否精良、是否能触动用户，决定了用户是否会进一步点击观看，进而影响到用户日活跃度的提升。我们曾做过内部对比实验，发现使用优化后的海报和短视频，用户的质感完全不同，真正提升了服务品质。通过这些小的技术积累，我们让用户感受到电视服务背后的精致，从而提升使用体验。

　　我们的搜片功能采用了大模型技术，并与媒资库深度融合。传统方式往往需要10秒以上才能完成搜索，且很难精准定位到短视频。而酷开的搜片能力可以在1.5秒内完成，真正实现了快且精准。我们追求极致的用户体验，让用户在交互过程中能够实时得到反馈。

　　2）教育智能体

　　之所以决定做教育智能体，是因为发现大屏前主要活跃着两类人群：儿童和老人。在儿童群体中，又进一步细分为学龄前儿童和处于 K12 教育阶段的孩子。针对这些孩子，我们开发了几款特色功能应用。

　　去年，我们推出了一款爆款应用——AI绘本馆。这款应用能在12秒内实时生成绘本，还支持实时音色克隆。当初，我们的志国总提到带小孩讲故事很头疼，小朋友每天都要求听不一样的故事。于是，我们就设想，AI技术能不能解决这样的家庭场景需求呢？基于这个想法着手开发，发现AI 绘本馆不仅生成绘本的速度极快，而且在大屏上的展示效果也非常出色。

　　也有不少同行在做AI绘本，我们的优势在于响应反馈迅速，还能实时克隆音色，大大提升了用户的体验感。对于小朋友来说，AI讲故事有个独特的魅力：即使让小朋友每天听同一个故事，AI 每次讲出来的内容都不一样，这对小朋友的吸引力极大，AI产品在少儿领域展现出了更大的活力。绘本馆上线后，用户粘性至少提升了60%以上。而且，AI讲故事的内容往往超出我们的想象，比如会讲一些小朋友爱放屁之类的有趣故事，这些故事主题原本我们可能永远想不到。可以说，AI 真正放大了小朋友的创意。

　　除了AI绘本馆，我们还开发了AI小画家，能在10秒内生成画作，并支持多轮作画。不过，目前这款产品更多是作为一种主观体验工具，整体效果还有待提升。它主要是好玩，能吸引小朋友，但使用频次并不是特别高。

　　另外，我们还探索了互动视频领域。小朋友看动画片的场景特别多，那么如何将 AI 和视频结合起来呢？我们在这方面做了内容探索，实验效果非常好。具体来说，在整个产品中，无论是用户的主动聊天，还是视频知识点的自动拆分和与儿童的互动，都是由AI自动完成的。比如，我们有一个小狐狸的角色，它会陪着小朋友看动画片，还能发散出更多的知识点，帮助小朋友更多地了解世界。智库乐园这款产品上线后，日活率至少提升了 60%以上，效果非常显著。

　　此外，在面向未来教育层面，我们也做了一些探索，其中重点是具备一对一讲题的能力，可以引导小朋友或读书的孩子理解知识点，掌握解题方法，真正做到像家教一样。目前，这个功能已经在学习平板中上线了。

　　我们还具备 AI 润色能力，能够支持中英文混输混说，并适用于多种专业化的场景。口语陪练功能能够有效支持并引导儿童逐步学习英语，鼓励他们大胆开口练习。

　　此外，我们的全学科智能体不仅具备专业特色，还能全面整合所有学科内容，支持全学科的语音自然交互，并形成专注记忆。我们将 AI 深度融入教学场景，从内容讲解到自由问答，AI能够将全学科内容有机结合，形成一个完整的产品体系。这一产品的目标是替代传统家教，提升教育智能体验。目前，教育领域是我们重点发力的新赛道。

　　3）健康智能体

　　我们之所以开发健康智能体，是因为大屏的主要用户群体除了儿童之外，还有老年人，同时健康也是社会发展的大趋势。我们发现用户存在诸多痛点，例如体检报告的管理——去年的体检报告和今年的体检报告之间有何变化？再如，用户可能经常感冒，却分不清是风热感冒还是风寒感冒，不知道该挂什么科室或吃什么药。这些问题是健康智能体需要解决的关键。

　　健康智能体的成功不仅依赖技术，背后还需要丰富的资源支持。是否有完善的医药中西药库？是否有与正规医院的合作？是否有专业的医疗器材库和医生团队？这些才是健康领域专业性和可信度的关键。此外，健康智能体需要帮助用户解读并长期记录体检报告，例如提醒用户去年的体检结果以及今年的变化，如胆固醇是否升高等，帮助用户进行健康管理，并指导生活习惯，例如高血压或心脏病患者的日常饮食注意事项。用户可以拍照询问某种食物是否适合食用，或者在孕期询问某种药品是否安全。此外，健康智能体还支持特色功能，如中医望面、望舌以及面部皮肤检测，能够与美容医疗企业合作，检测皮肤状况。

　　我们的智能体不限于特定设备，手机上支持APP和小程序。我们提供的服务是综合性推荐，而非简单的文字回复。这是健康智能体的核心优势所在。目前，我们的核心优势是永久记忆功能，能够帮助用户管理体检报告和各类检查结果，并提供线上挂号和医生就诊指导。

　　4）创作智能体

　　创作智能体更多是基于好玩、增强电视娱乐属性的考量而开发的。

　　我们具备几个特色能力，首先来说说AI作画功能。从本质上讲，我们的AI作画具备类似“纹身服务能力”（此处可理解为能生成可用于特定设计如纹身图案等创意图像的能力），但关键在于如何让这一功能在电视上展现出独特魅力，找到合适的应用场景。我们发现，要实现这一目标，首先要保证图片质量，我们的 AI作画生成的图片能达到10K超高清，而且生成速度极快，15 秒内就能实时生成。即便如此，用户初次使用时可能会觉得很惊艳、效果很棒，但很难经常主动使用这个产品。

　　于是，我们进一步思考什么样的能力适合这样的场景，最终想到了将AI作画应用到 AI 壁纸每日订阅服务中。大家知道，不管是手机屏保还是电视屏保，以往的屏保内容总是在有限的范围内循环播放。而当引入AI壁纸后，每天都能给用户带来不一样的惊喜。我们认为，每一种 AI能力都有其特色，但关键是要找到适合用户的使用场景，为用户带来不一样的体验和惊喜，这才是我们的特色所在。

　　另外，我们还有一项特色功能——AI作曲家。它支持用户通过一句话就生成一首完整的歌曲，涵盖曲风以及歌词背景的创作。

　　为什么要开发这样的能力？更多是想给用户一个打开电视的新理由。比如，很多小朋友在聚餐、过生日时，就会提出类似需求，像“帮我生成一张奥特曼祝我生日的图片”。这其实就是给电视赋予了另一种被打开的理由，小朋友想在朋友面前炫耀一下，展示自家电视打开后，奥特曼能祝自己生日快乐。同样，AI作曲家也有这样的魅力。

　　值得一提的是，这些歌词并非人工撰写，而是由 AI实时生成的。这样的功能，在我们开发者手中可能只是用来体验、玩一玩，但在用户的实际家庭场景中，用途却大不相同。之前内部体验时，就有一个很有意思的例子。有个用户说朋友失恋了，让帮忙创作一首歌曲来“嘲讽”一下。这让我突然意识到，这个功能其实很实用。虽然我在办公室经常使用这个功能，觉得挺好用，但始终觉得它没有真正触动我，因为我很难有这样的使用场景。然而，用户在实际使用中，却为这个功能创造了不一样的应用场景，真正把AI功能放大了。

　　所以，我们将其称为娱乐智能体或者创作娱乐智能体。核心就在于，我们想给大屏增添更多玩法，让用户能找到炫耀的点。一旦用户有了这样的需求，就可能成为他们购买设备、使用我们服务的理由。这也是我们开发 AI 作曲家这一功能的核心原因。

　　5）生活智能体

　　我们秉持的理念是“懂家庭更懂质价比”，旨在打造更完善的生活服务闭环。

　　很多时候，AI无法实现服务的闭环，这也是此前某些产品虽火爆一时却后续乏力的重要原因。比如之前有产品声称能创建PPT，但仅仅生成PPT还不够，若能直接完成PPT制作并交付，才会让大家觉得它真正实用、很酷。在家庭生活服务领域也是如此，当用户提出想吃某种美食时，我们希望生活智能体不仅能推荐相关美食，还能直接把外卖送到用户面前，或者推荐合适的餐厅让用户前往就餐，甚至能把制作美食的食材直接送到用户家中，这才是真正的服务闭环。

　　目前，我们正致力于探索如何在家庭生活方面实现这样的服务闭环。从自身实际出发，我们在旅行票务、美食、旅行规划等方面已经开展了一些探索，不过仍处于摸索阶段，我们希望这条发展链路能越来越完善。因为只有真正实现服务闭环，才能让家庭生活服务变得更加便捷。

　　虽然目前我们还无法直接把美食送到用户家中，但可以借助平台资源为用户提供有价值的信息。比如在B站上，我们可以告诉用户哪些店的美食更值得一试；如果用户计划去某个地方旅游，我们能介绍当地景点的特色。总体而言，生活服务不仅仅是依靠大模型完成一些简单任务，更重要的是将天气、机票、美食、旅游等各种文旅元素真正融合起来，在实现用户触达时，真正打动用户。目前，我们在这条探索之路上已经迈出了一小步，但如何精准契合用户的使用场景，仍在寻找有效路径。不过可以肯定的是，我们的整体方向是正确的。

　　就拿天气和美食信息展示来说，我们并非按照固定的排版格式输出内容，而是让大模型理解我们具备哪些能力后进行自主组合。比如，大模型考虑到用户可能关注天气，就会在输出信息时更多地考虑天气因素，而不是遵循某种固定的输出格式和模板。我们致力于用大模型切实提升用户的生活服务质量，这就是我们生活智能体的核心目标。

　　6）设备智能体

　　该智能体分为两部分：一部分是提升设备的易用性，另一部分是智能客服。

　　目前，服务热线的接通率仅有90%，而问题处理效率较低。我们希望通过AI的能力，高效处理用户问题，提升服务效率与质量。用户的问题能够得到快速解决，是我们努力的方向。

　　在开发智能客服时，我们面临两个主要问题：一是如何实现拟人化回复。如果用户在通话中第一时间察觉到对方是机器人，他们的情绪可能会更加激动，原本只有8分的怒气值，可能因此直接升级为更激烈的投诉。因此，我们需要解决如何让回复更加拟人化，让用户感受到更贴切的服务。二是如何提升处理效率，真正帮助用户快速解决实际问题，而不仅仅是通过电话沟通。我们希望实现设备之间的自动化联动，直接对问题进行处理。

　　从我们内部的实验效果来看，以灰度测试的10万用户为例，无论是投诉服务的满意度，还是解决问题的耗时，都发生了显著的变化。除六大专业智能体之外，我们更希望构建一个超级智能体，就像用户的私人管家或助手一样，基于用户个人及家庭的行为，快速反馈并提供智能化服务。这是我们整体服务框架和模型的核心：统一记忆与智能分发和反馈。我们有多个专业智能体，但背后需要一个类似私人管家助手的系统，来全方位调度智能路由，整合所有专业能力，为用户提供专业化、权威性的服务。

　　目前，我们的产品主要应用于电视端，而在移动端和其他终端，产品的形态会有所不同。我们核心强调的是个人超级APP助手与超级助手的融合，将教育、健康等各方面的能力整合在一起，为用户提供全方位服务。

　　我们是如何实现这一点的？总结起来，分为算法优势和数据优势。在数据优势方面，我们汇聚了全网络包括爱优腾芒在内的各类资源。只有拥有足够多的内容，我们才能实现用户想搜什么就搜什么，无论是教育还是生活健康。数据是所有模型的基础，资源背后就是服务能力。

　　另一方面，在算法优势方面，我们不仅关注大模型算法，还注重模型的深度。只有深度足够，才能提供更加细腻、贴近用户的服务。此外，在用户交互中，我们能够实时获取反馈并快速响应，大语言模型的秒级响应是关键。只有足够快，用户才会更频繁地使用。

　　目前，我们已经在大屏端输出了六大智能体，并面向更多行业客户提供服务。感谢您的聆听！

　　查看更多演讲内容：【专题】中原论道|嘉宾演讲集萃

责任编辑：凌美

分享到：