中原论道|酷开科技郭尚锋:大屏AI智能解决方案
| 流媒体网| 2025-05-23
【流媒体网】摘要:在大屏面前,尤其是在小屏流量占据主导的当下,很多用户并没有强烈的影视观看需求。我们是否具备其他能力,或者能否为大屏赋予新的玩法和定义,让用户有一个打开电视的理由?

  2025年5月22日-5月23日,流媒体网主办的「中原论道暨第29届智能视听与科技创新产业论坛」在河南开封隆重举行。

  本届论道以“新局新视  智合聚变”为主题,围绕产业的破局路径展开积极探讨。5月22日上午的主论坛上,创维酷开公司 智能系统研究院院长 郭尚锋发表了题为《大屏AI智能解决方案》的主题演讲。

  各位领导、各位嘉宾,大家早上好!下面分享一下大屏AI智能解决方案。今年,AI领域异常火热,行业内流传着一句话:所有事情都值得用AI重新做一遍。那么,在AI这个行业里,我们究竟应该做些什么?我们的出发点又应该是什么?

  酷开在这方面进行了诸多探索。但在行动之前,我们不得不面对一个现实困境:电视开机率低、用户日活低、互联网营收也低。因此,我们做AI的目标和出发点,就是如何解决这一行业困境、企业困境,如何借助AI这股东风,真正助力企业和行业的发展。

  围绕这个出发点,我们内部进行了深入的探索和思考。今天,我主要想分享一下我们的探索成果。我们认为,有三件事情可能有助于我们解决行业困境。

  三件事情可能有助于解决行业困境

  第一是打造专属的数字管家。为什么要做数字管家呢?它不仅仅是一个虚拟人或一个形象。一方面,我们的电视或设备往往是冷备用设备,很难与用户建立情感沟通。设备可能过几年就更换了,但背后提供的服务却难以被真正替代。因此,如何与用户建立连接,是我们首先要考虑的问题。另一方面,专属虚拟管家背后所提供的服务变化,能否打动用户?它提供的主动服务,能否真正触动用户?这才是数字管家的核心和本质。形象只是一个情感的寄托、一个载体,而背后提供的主动服务才是我们应该深入探索的。

  第二个是极简的交互模式。在AI时代,以ChatGPT为例,它自2022年爆发以来,之所以被称为“chat”,是因为它能够读懂人的意思,理解人的意图,并能与人进行聊天。这是之前所有AI与当前AI之间最大的差异。那么,为什么我们选择了语音赛道呢?一方面,GPT或大模型的发展,让我们能更好地理解用户的意图,促进人与设备之间的有效沟通。一旦我们明白了用户真正想要什么,做起事情来自然事半功倍。另一方面,我们选择语音,是因为语音沟通是人类从两岁到百岁、从小孩到老人都具备的基础能力。可能有些人不识字,不认识很多东西,但语言沟通是普遍适用的。因此,我们认为语音是人与设备之间沟通最基础、最适用、最通用的桥梁。所以,我们选择了语音赛道,希望在这个领域里,能够进一步简化人与设备之间的沟通,让设备的交互变得更加简单。

  第三个是场景化的专业智能体。我们不仅仅局限于影音领域,还拓展到了娱乐、生活、教育、健康等多个方面。我们发现,在大屏面前,尤其是在小屏流量占据主导的当下,很多用户并没有强烈的影视观看需求。如果我们强行用影音需求来吸引用户,让他们打开电视,这并不现实。之前,我们与内部和外部的客户沟通时,就遇到过这样的情况。有位年纪较大的客户说,虽然我们的影音检索已经非常准确,但他并没有观看影视的诉求,家里的电视摆在那里,他根本不想打开。这让我们思考,我们是否具备其他能力,或者能否为大屏赋予新的玩法和定义,让用户有一个打开电视的理由。就像我们每天使用抖音、使用手机一样,是因为手机里有我们必需的功能。同样,我们也需要帮助大屏找到这样一个点,给用户一个打开电视的理由。

  酷开的三个探索方向

  1、专属的数字管家

  它不仅仅是一个虚拟的形象,陪伴用户一起看电视、观影,更是一个情感的寄托。但其背后的本质,是推荐方案和主动服务的变化。在以往的实践中,无论我们如何优化影音推荐、电视首屏或IPTV首屏的推荐,核心都是基于大数据的推荐。我们可能会对用户进行分群,为某一类用户推荐更适合他们的方案。但这种方式很难实现真正的千人千面,难以触动用户个人的内心。

  我们认为,在线上拥有 3000 万乃至 4000 万日活用户的情况下,我们会为每一位用户创建一个专属的智能体。也就是说,背后将有 3000 万(或 4000 万)个智能体为用户提供服务。这些智能体能够主动为用户提供影音服务、娱乐服务,甚至是健康服务等各类服务,而且都是为用户量身定制的。这超越了上一代智能推荐框架,是一种新一代的技术体系框架,也是我们独特的推荐机制。通过这种方式,我们能够真正与用户深度融合,精准记录用户的行为习惯,并将其长期保存下来。如此一来,用户就会觉得电视屏幕里那个虚拟形象或形象代表真的懂自己,能切实为自己推荐所需的服务。这就是我们在技术本质上与以往的新一代差异所在。我们致力于将大模型技术运用到极致,力求打动用户,让用户开机第一眼就觉得电视懂自己。这是我们目前电视实验后开机界面的呈现样式,与以往相比发生了较大变化。同时,从实验数据来看,开机体验等方面有了约 10%的提升。

  2、极简的交互模式

  我们始终认为语音是人机设备交互中最简单的途径。虽然摄像头交互也有其优势,但我们坚信语音是人与设备沟通最便捷的桥梁。在新的语音交互道路上,我们追求的目标是,用户开机后,只需通过语音就能唤起所有想要的服务,实现一键直达。用户无需知晓电视安装了哪些 APP,也不必了解电视背后的复杂机制,只需提出自己的需求和诉求,电视就能满足,这就足够了。我们真正要打破原有传统行业的限制,实现资源整合,这才是所谓的超级 APP 或极简的交互方式。

  为什么我们在大屏上敢于采用这样的模式?首先,我们认为大屏相较于手机有一个显著的优势:大屏的整个生态相对封闭。这种封闭性使得大屏更容易进行资源整合,更容易将影音、生活等各类服务的全链路整合在一起,进而为用户带来更加便捷的服务体验。然而,在手机端,由于其产业链过于庞大且复杂,要实现这样的整合会更具挑战性。这也是为什么我们一直在探索全新的电视交互模式。

  我们曾经做过一个与竞品的实验对比。在我们的电视上,用户基本上可以通过语音指令以极简的方式完成几乎所有功能操作。而许多其他产品虽然也增加了不少功能,但用户往往需要对这些功能有所了解,进入某个专区或者打开某个应用后才能使用。这就给用户带来了较高的认知成本。从本质上来说,以往的交互模式大多是层级式的,用户需要先了解某个功能,才能打开爱奇艺、腾讯或其他 APP,然后再通过层级浏览来获取服务。

  在 AI 时代,交互模式应该更加便捷。我们不再拘泥于原有的形态,而是直接打破这种限制,让用户只需要关心他们想要什么,而不是去关注原有的形态。通过整合更大的行业资源,真正让用户的生活更加便捷,这才是我们行业的破局关键。这也是我们在实际探索中一直坚定不移走的路径。

  3、满足场景化需求

  除了交互模式的改变,我们在具体的使用场景中也做了一些体验优化。我们重点围绕六大专业智能体进行布局,包括影视、教育、创作、生活、健康和设备管理。为什么选择这些领域?其实每个领域都有其独特的考量。

  1)大屏影音是电视的核心功能

  观影是其主要用途,如何让用户更快速地找到自己想看的影片,甚至仅凭模糊的印象就能快速定位?同时,还需要实现全网资源的深度融合。目前,我们已经能够整合国内的影片资源,后续还将进一步融合海外资源。我们的目标是真正满足用户的需求,无论用户想看什么影片,都能帮助他们快速找到。在这个基础上,还希望后续能陪伴用户观影,进一步提升体验。

  酷开影视搜索的几个特点:

  首先是广度搜索,我们整合多达30多家的内容分类,并且从内容源上打破了原有APP的限制。无论是芒果TV、B站还是其他平台的资源,用户无需关注内容来自哪里,一键直达。这种能力不仅在OTT电视产业中有广泛的应用,甚至在车载系统等领域也有广泛应用。用户不再需要去反复查找某个影片的来源,这是广度搜索的优势。

  另一方面,我们还具备深度搜索能力。以前用户只能通过片名或导演来搜索影片,但用户可能记不住片名,可能只记得某个片段、台词或视觉风格,深度搜索功能能解决这个问题。它可以根据用户提供的任意模糊片段、台词、印象或视觉风格,精准定位到该影片甚至具体片段,这才能真正实现让用户找片更加快捷的路径。

  此外,我们在海报和短视频生成上也下了一番功夫。用户打开电视或屏幕时,第一眼看到的往往是海报,而不是文字。因此,海报的质量和呈现方式对用户体验的影响至关重要。同一个影片,海报的质量是否精良、是否能触动用户,决定了用户是否会进一步点击观看,进而影响到用户日活跃度的提升。我们曾做过内部对比实验,发现使用优化后的海报和短视频,用户的质感完全不同,真正提升了服务品质。通过这些小的技术积累,我们让用户感受到电视服务背后的精致,从而提升使用体验。

  我们的搜片功能采用了大模型技术,并与媒资库深度融合。传统方式往往需要10秒以上才能完成搜索,且很难精准定位到短视频。而酷开的搜片能力可以在1.5秒内完成,真正实现了快且精准。我们追求极致的用户体验,让用户在交互过程中能够实时得到反馈。

  2)教育智能体

  之所以决定做教育智能体,是因为发现大屏前主要活跃着两类人群:儿童和老人。在儿童群体中,又进一步细分为学龄前儿童和处于 K12 教育阶段的孩子。针对这些孩子,我们开发了几款特色功能应用。

  去年,我们推出了一款爆款应用——AI绘本馆。这款应用能在12秒内实时生成绘本,还支持实时音色克隆。当初,我们的志国总提到带小孩讲故事很头疼,小朋友每天都要求听不一样的故事。于是,我们就设想,AI技术能不能解决这样的家庭场景需求呢?基于这个想法着手开发,发现AI 绘本馆不仅生成绘本的速度极快,而且在大屏上的展示效果也非常出色。

  也有不少同行在做AI绘本,我们的优势在于响应反馈迅速,还能实时克隆音色,大大提升了用户的体验感。对于小朋友来说,AI讲故事有个独特的魅力:即使让小朋友每天听同一个故事,AI 每次讲出来的内容都不一样,这对小朋友的吸引力极大,AI产品在少儿领域展现出了更大的活力。绘本馆上线后,用户粘性至少提升了60%以上。而且,AI讲故事的内容往往超出我们的想象,比如会讲一些小朋友爱放屁之类的有趣故事,这些故事主题原本我们可能永远想不到。可以说,AI 真正放大了小朋友的创意。

  除了AI绘本馆,我们还开发了AI小画家,能在10秒内生成画作,并支持多轮作画。不过,目前这款产品更多是作为一种主观体验工具,整体效果还有待提升。它主要是好玩,能吸引小朋友,但使用频次并不是特别高。

  另外,我们还探索了互动视频领域。小朋友看动画片的场景特别多,那么如何将 AI 和视频结合起来呢?我们在这方面做了内容探索,实验效果非常好。具体来说,在整个产品中,无论是用户的主动聊天,还是视频知识点的自动拆分和与儿童的互动,都是由AI自动完成的。比如,我们有一个小狐狸的角色,它会陪着小朋友看动画片,还能发散出更多的知识点,帮助小朋友更多地了解世界。智库乐园这款产品上线后,日活率至少提升了 60%以上,效果非常显著。

  此外,在面向未来教育层面,我们也做了一些探索,其中重点是具备一对一讲题的能力,可以引导小朋友或读书的孩子理解知识点,掌握解题方法,真正做到像家教一样。目前,这个功能已经在学习平板中上线了。

  我们还具备 AI 润色能力,能够支持中英文混输混说,并适用于多种专业化的场景。口语陪练功能能够有效支持并引导儿童逐步学习英语,鼓励他们大胆开口练习。

  此外,我们的全学科智能体不仅具备专业特色,还能全面整合所有学科内容,支持全学科的语音自然交互,并形成专注记忆。我们将 AI 深度融入教学场景,从内容讲解到自由问答,AI能够将全学科内容有机结合,形成一个完整的产品体系。这一产品的目标是替代传统家教,提升教育智能体验。目前,教育领域是我们重点发力的新赛道。

  3)健康智能体

  我们之所以开发健康智能体,是因为大屏的主要用户群体除了儿童之外,还有老年人,同时健康也是社会发展的大趋势。我们发现用户存在诸多痛点,例如体检报告的管理——去年的体检报告和今年的体检报告之间有何变化?再如,用户可能经常感冒,却分不清是风热感冒还是风寒感冒,不知道该挂什么科室或吃什么药。这些问题是健康智能体需要解决的关键。

  健康智能体的成功不仅依赖技术,背后还需要丰富的资源支持。是否有完善的医药中西药库?是否有与正规医院的合作?是否有专业的医疗器材库和医生团队?这些才是健康领域专业性和可信度的关键。此外,健康智能体需要帮助用户解读并长期记录体检报告,例如提醒用户去年的体检结果以及今年的变化,如胆固醇是否升高等,帮助用户进行健康管理,并指导生活习惯,例如高血压或心脏病患者的日常饮食注意事项。用户可以拍照询问某种食物是否适合食用,或者在孕期询问某种药品是否安全。此外,健康智能体还支持特色功能,如中医望面、望舌以及面部皮肤检测,能够与美容医疗企业合作,检测皮肤状况。

  我们的智能体不限于特定设备,手机上支持APP和小程序。我们提供的服务是综合性推荐,而非简单的文字回复。这是健康智能体的核心优势所在。目前,我们的核心优势是永久记忆功能,能够帮助用户管理体检报告和各类检查结果,并提供线上挂号和医生就诊指导。

  4)创作智能体

  创作智能体更多是基于好玩、增强电视娱乐属性的考量而开发的。

  我们具备几个特色能力,首先来说说AI作画功能。从本质上讲,我们的AI作画具备类似“纹身服务能力”(此处可理解为能生成可用于特定设计如纹身图案等创意图像的能力),但关键在于如何让这一功能在电视上展现出独特魅力,找到合适的应用场景。我们发现,要实现这一目标,首先要保证图片质量,我们的 AI作画生成的图片能达到10K超高清,而且生成速度极快,15 秒内就能实时生成。即便如此,用户初次使用时可能会觉得很惊艳、效果很棒,但很难经常主动使用这个产品。

  于是,我们进一步思考什么样的能力适合这样的场景,最终想到了将AI作画应用到 AI 壁纸每日订阅服务中。大家知道,不管是手机屏保还是电视屏保,以往的屏保内容总是在有限的范围内循环播放。而当引入AI壁纸后,每天都能给用户带来不一样的惊喜。我们认为,每一种 AI能力都有其特色,但关键是要找到适合用户的使用场景,为用户带来不一样的体验和惊喜,这才是我们的特色所在。

  另外,我们还有一项特色功能——AI作曲家。它支持用户通过一句话就生成一首完整的歌曲,涵盖曲风以及歌词背景的创作。

  为什么要开发这样的能力?更多是想给用户一个打开电视的新理由。比如,很多小朋友在聚餐、过生日时,就会提出类似需求,像“帮我生成一张奥特曼祝我生日的图片”。这其实就是给电视赋予了另一种被打开的理由,小朋友想在朋友面前炫耀一下,展示自家电视打开后,奥特曼能祝自己生日快乐。同样,AI作曲家也有这样的魅力。

  值得一提的是,这些歌词并非人工撰写,而是由 AI实时生成的。这样的功能,在我们开发者手中可能只是用来体验、玩一玩,但在用户的实际家庭场景中,用途却大不相同。之前内部体验时,就有一个很有意思的例子。有个用户说朋友失恋了,让帮忙创作一首歌曲来“嘲讽”一下。这让我突然意识到,这个功能其实很实用。虽然我在办公室经常使用这个功能,觉得挺好用,但始终觉得它没有真正触动我,因为我很难有这样的使用场景。然而,用户在实际使用中,却为这个功能创造了不一样的应用场景,真正把AI功能放大了。

  所以,我们将其称为娱乐智能体或者创作娱乐智能体。核心就在于,我们想给大屏增添更多玩法,让用户能找到炫耀的点。一旦用户有了这样的需求,就可能成为他们购买设备、使用我们服务的理由。这也是我们开发 AI 作曲家这一功能的核心原因。

  5)生活智能体

  我们秉持的理念是“懂家庭更懂质价比”,旨在打造更完善的生活服务闭环。

  很多时候,AI无法实现服务的闭环,这也是此前某些产品虽火爆一时却后续乏力的重要原因。比如之前有产品声称能创建PPT,但仅仅生成PPT还不够,若能直接完成PPT制作并交付,才会让大家觉得它真正实用、很酷。在家庭生活服务领域也是如此,当用户提出想吃某种美食时,我们希望生活智能体不仅能推荐相关美食,还能直接把外卖送到用户面前,或者推荐合适的餐厅让用户前往就餐,甚至能把制作美食的食材直接送到用户家中,这才是真正的服务闭环。

  目前,我们正致力于探索如何在家庭生活方面实现这样的服务闭环。从自身实际出发,我们在旅行票务、美食、旅行规划等方面已经开展了一些探索,不过仍处于摸索阶段,我们希望这条发展链路能越来越完善。因为只有真正实现服务闭环,才能让家庭生活服务变得更加便捷。

  虽然目前我们还无法直接把美食送到用户家中,但可以借助平台资源为用户提供有价值的信息。比如在B站上,我们可以告诉用户哪些店的美食更值得一试;如果用户计划去某个地方旅游,我们能介绍当地景点的特色。总体而言,生活服务不仅仅是依靠大模型完成一些简单任务,更重要的是将天气、机票、美食、旅游等各种文旅元素真正融合起来,在实现用户触达时,真正打动用户。目前,我们在这条探索之路上已经迈出了一小步,但如何精准契合用户的使用场景,仍在寻找有效路径。不过可以肯定的是,我们的整体方向是正确的。

  就拿天气和美食信息展示来说,我们并非按照固定的排版格式输出内容,而是让大模型理解我们具备哪些能力后进行自主组合。比如,大模型考虑到用户可能关注天气,就会在输出信息时更多地考虑天气因素,而不是遵循某种固定的输出格式和模板。我们致力于用大模型切实提升用户的生活服务质量,这就是我们生活智能体的核心目标。

  6)设备智能体

  该智能体分为两部分:一部分是提升设备的易用性,另一部分是智能客服。

  目前,服务热线的接通率仅有90%,而问题处理效率较低。我们希望通过AI的能力,高效处理用户问题,提升服务效率与质量。用户的问题能够得到快速解决,是我们努力的方向。

  在开发智能客服时,我们面临两个主要问题:一是如何实现拟人化回复。如果用户在通话中第一时间察觉到对方是机器人,他们的情绪可能会更加激动,原本只有8分的怒气值,可能因此直接升级为更激烈的投诉。因此,我们需要解决如何让回复更加拟人化,让用户感受到更贴切的服务。二是如何提升处理效率,真正帮助用户快速解决实际问题,而不仅仅是通过电话沟通。我们希望实现设备之间的自动化联动,直接对问题进行处理。

  从我们内部的实验效果来看,以灰度测试的10万用户为例,无论是投诉服务的满意度,还是解决问题的耗时,都发生了显著的变化。除六大专业智能体之外,我们更希望构建一个超级智能体,就像用户的私人管家或助手一样,基于用户个人及家庭的行为,快速反馈并提供智能化服务。这是我们整体服务框架和模型的核心:统一记忆与智能分发和反馈。我们有多个专业智能体,但背后需要一个类似私人管家助手的系统,来全方位调度智能路由,整合所有专业能力,为用户提供专业化、权威性的服务。

  目前,我们的产品主要应用于电视端,而在移动端和其他终端,产品的形态会有所不同。我们核心强调的是个人超级APP助手与超级助手的融合,将教育、健康等各方面的能力整合在一起,为用户提供全方位服务。

  我们是如何实现这一点的?总结起来,分为算法优势和数据优势。在数据优势方面,我们汇聚了全网络包括爱优腾芒在内的各类资源。只有拥有足够多的内容,我们才能实现用户想搜什么就搜什么,无论是教育还是生活健康。数据是所有模型的基础,资源背后就是服务能力。

  另一方面,在算法优势方面,我们不仅关注大模型算法,还注重模型的深度。只有深度足够,才能提供更加细腻、贴近用户的服务。此外,在用户交互中,我们能够实时获取反馈并快速响应,大语言模型的秒级响应是关键。只有足够快,用户才会更频繁地使用。

  目前,我们已经在大屏端输出了六大智能体,并面向更多行业客户提供服务。感谢您的聆听!

  查看更多演讲内容:【专题】中原论道|嘉宾演讲集萃

责任编辑:凌美

分享到:
版权声明:凡注明来源“流媒体网”的文章,版权均属流媒体网所有,转载需注明出处。非本站出处的文章为转载,观点供业内参考,不代表本站观点。文中图片均来源于网络收集整理,仅供学习交流,版权归原作者所有。如涉及侵权,请及时联系我们删除!