>首页> IT >

数字人的表里,仰算力之鼻息

时间:2023-08-17 21:26:12       来源:腾讯网

(图源:摄图网)


(资料图)

文/Renee

编辑/孙越

2023,可谓是数字人们的“当打之年”:

4月,腾讯云发布智能小样本数智人生产平台。该平台基于通用多模态大模型技术,只需要3分钟真人口播视频、100句语音素材等小样本,便可通过多模态数据输入与实时建模,制作出与真人近似的“数智人”;

同月,商汤在发布的“日日新”大模型体系下,上线了如影数字人视频生成平台,用户可通过一段5分钟真人视频素材生成数字人;

(商汤如影虚拟人生产平台 图源:商汤)

近日,在上海举办的第二十届中国国际数码互动娱乐展览会(ChinaJoy)上,华为云宣布,与360、网易伏羲、斗鱼、爱奇艺等7家互联网企业发起“华为云盘古大模型互联网联创计划”,并将推出盘古数字人大模型,探索AI在数字文娱的创新应用。

涌现的数字人背后,是大模型的倾囊相助:大模型解决了成本难题。在数字人的下半场,谁更有趣,谁更像人,成为大模型时代的竞争主题。

对于人,好看的皮囊与有趣的灵魂,有一项即可。而对于数字人这一产品,二者缺一不可。

那么,大模型如何解决了成本难题,好看的皮囊与有趣的灵魂代价如何?

PART-01

数字人“兵败”元宇宙

人,总是想着如何替代人。

基于人们的贪婪与懒惰、对完美的极致渴求,尽管24小时工作且效率高的机器人落地遥遥无期,但热度一直没降过。更简单的数字人(包括虚拟人、虚拟数字人),更是火了十几年:今年已是洛天依出道11周年,现仍居于2023年中国虚拟人百强榜榜首。

11年间,各式各样的虚拟人纷纷涌现:《中国虚拟数字人影响力指数报告》课题组副组长张丽锦表示,虚拟偶像、虚拟员工、虚拟主播这三类是当前虚拟数字人商业化价值最高、企业及资本参与度最强的类型。

(2023年中国虚拟人百强榜 图源:华泰研究)

目前市面上的身份型虚拟偶像扎堆,但只有极少数接代言接到手软。虚拟人偶像鼻祖洛天依,重金打造的柳叶熙、AYAYI,除了接代言,办演唱会这类稍纵即逝的福利,并没有长期“饭碗”存在。

“巨星”背后,是难以估量的巨款。七牛云AIGC事业部负责人许斐在接受媒体采访时指出,早期制作一个纯3D数字人,总成本大约为几十万,要做到柳叶熙同等级别,成本甚至会高达百万,小规模B端客户很难去负担。

瑞银发布的数字人研究报告指出,高级虚拟人物的先期投入成本平均为3000万元,后期又需要真人团队完成拍摄、配音、剪辑。以乐华娱乐的虚拟女团A-SOUL为例,其一支单曲制作成本约200万元,一场线下演唱会成本约2000万元。

关于虚拟偶像,最致命问题是,真人偶像尚且沉浮,缺乏人格魅力的虚拟人如何一直活下去?

职能型虚拟员工小“X”们也出过几次新闻。例如浦发银行的“小浦”,提高了营业厅业务效率;湖南卫视“小漾”和何炅一起主持,增添了节目热度。

而经《银行科技研究社》测试体验,工行、建行新推出的数字人智能程度并不高,表现为面对稍微复杂的问题便无法回答或答非所问,不能准确联系上下文进行理解并给出答案等。

就如百家云总裁马义所说,虚拟人算一个不错的点,但是想要提供拟人的服务与体验,还有很长的路要走,目前还没到产生巨大应用价值的时候。虽然有很多新颖的玩法,但往往一出来很快被同质化。

想要玩好虚拟人,必须要让大家看到长远的价值。相比于“昙花一现”的艺人、“形式大于内容”的虚拟员工,虚拟主播所在的电商,无疑成为最具价值量的赛道。

目前直播间存在主播水平参差不齐,背景混乱,产品展示失焦等问题。而虚拟交互技术,能够重塑“人货场”:用AR丰富场景,用3D技术全方位展示货品,用动作捕捉和LIVE 2D及3D技术打造中之人,或用AI语料库锻炼出能够实时对话的虚拟人,并将三者结合,做一场高科技感,高互动性,全新体验的直播。

然而,想要打造现象级的中之人制作成本高,时间成本也不容小觑。

去年7月,在抖音拥有42.7万粉丝的虚拟主播“许安一”迎来了自己的直播百天纪念日,直播期间在线人数超过了1万人。据自媒体有趣动漫社报道,许安一这一百天的直播中收到970多万的打赏,相关知情人士只表示“确实很强,但他们成本也挺高”。据了解,许安一制作团队花了将近7个月的时间进行“人设”的打造。

在先前的元宇宙时代,无论是虚拟偶像、员工还是主播都面临着同质化严重,成本关难过等难题,所以新人难进,仅有头部idol,长久地瓜分虚拟人的蛋糕。

PART-02

从元宇宙到大模型

大模型到来之后,数字人“容光焕发”,如雨后春笋般冒出。

我们都知道的是,GPT-4等大模型提高了AI的智力。基于此,虚拟员工、虚拟主播(AI驱动型)能够提升自己的业务能力。

例如,在直播电商场景中,当你告诉数字人带货产品的主要特点、价格以及产品优势,并且让他以爆笑喜剧风设计三种直播讲稿,数字人平台将会直接提供几种不同风格的稿件。

百度数字人业务负责人李士岩表示,现阶段虚拟数字人的人格化和内容运营往往受限于前期的创意效率问题,如果能和一些大模型结合起来,那么就可以通过AIGC拓展创意边界、提升内容生产效率。

创意边界,毋庸置疑将会依靠大模型的语料库、算力储备,以及其所迸发的涌现能力来提升,效果仁者见仁智者见智;而内容生产效率的提升,已有厂商和客户给出确切答案:大模型来临之后,数字人突然变“便宜”了。

2023年,厂商们抢着给出自己的低成本数字人:

360透露,目前正重点将数字人营销作为大模型落地的商业化业务,从年初至今已经产生了千万级收入。按照会员用户每月付费的标准估算,一款数字人的价格最低几十元,最高在一、二百元上下。

一家数字人解决方案的公司风平智能表示,原本一家客户需要请专业人才完成医疗咨询,每年花费超过1亿,使用大模型驱动的AI数字人方案之后,费用预计降低至少80%。

与此同时,客户也给出了五星好评:确实省钱。

据太火梁一亲身体验,数字人直播平时日销5-10万,618大促数字人直播15小时GMV30万。

(数字人直播数据 图源:太火梁一)

以下是其在上海用真人直播18小时和用数字人直播18小时的每月成本对比(此成本预估根据具体人员安排和所在地市,有些许差异)。

综合市场目前的观点来看,成本的节省来源于单个视频生成成本,二是多个行业迁移成本。

商汤数字人相关产品负责人表示,基于大模型的AI数字人视频生成平台,可打通从上传视频、处理数据、训练模型、转换模型到模型部署的自动化闭环,将传统视频制作流程中的人工处理时间大幅减少90%,模型训练时间减少60%,只需1天即能完成各类定制数字人训练。

风平智能CEO林洪祥,给出了新阶段数字人的生成流程与耗时:只需要对人物进行一段5分钟时间的视频拍摄,人物形象就可以有效地建立起来;同样是几分钟的声音录制,便可完成声音采集;接下来视频、声音分别进行建模,常规建模周期只需2-5天。

同时,依靠大模型的底座能力,通过输入多个小样本,能够适应多个场景的业务需求。先前的数字人需要一个一个分别培养,现阶段每个数字人皆有通识知识,“分配”岗位之时,输入多个行业的小样本之后,便能快速上岗。

大模型过后,数字人的历史包袱正一个一个被卸下:成本已然得到解决,智力提升“有,但可能不多”,而同质化有待考察,亟需精细化运营。

PART-03

魅力,取决于算力

当能够飞入寻常百姓家之时,数字人需要对自己“高要求”。

业内人士,给了些tips:英伟达副总裁沈威认为,多模态交互和深度学习是数字人真正的灵魂。上海科技大学虞晶怡教授给出了更具体的说法:通过建模、渲染、动作捕捉和AI驱动等关键技术构成底层架构,能够让数字人的外貌更加精致、形象更加逼真,动作更加自然。

(数字人技术汇总 图源:腾讯)

而无论是好看的皮囊还是有趣的灵魂,都需算力的倾囊相助。

好看的皮囊,对于算力加码的变化是肉眼可见的。据科技最前线报道,以阿凡达为例,《阿凡达2》所有存储数据总量为18.5PB,而《阿凡达1》只有1PB。

好看的背后是数据量的爆炸倍增,而数据量背后的支撑则是澎湃的算力。

在《阿凡达1》的视觉效果制作中,制作工作室为了渲染其中美轮美奂的特效场景,动用了占地10000平方英尺的服务器群,其中有4,000台物理服务器,共有35,000个处理器核心。《阿凡达2》的超级渲染更是夸张,为了完成部分画面的渲染任务,制作工作室调用了六千个处理器渲染了一年之久。

而有趣的灵魂层面,大模型对算力的夺取能力更不用说了。据偲睿洞察测算,现阶段 ChatGPT 日活一亿,若每日有5%的人每秒同时提问,将会吞噬三峡大坝近一年的发电量。

假设有1亿人同时在线,每日有5%的人每秒同时提问,每个prompt占30个token,便需要1530万颗H100芯片来提供其推理算力;而每颗H100的功耗在750W左右,若每天运行10个小时,这些H100芯片所在的数据中心一年的耗电量将达到840亿kW*h,而三峡大坝一年的发电量是882亿kW*h。

这,还只是ChatGPT一个大模型在推理阶段的耗电量,百家大模型全阶段、全部运作的耗电量,难以估量。此时,大厂的优势便显现出来:有多项业务去瓜分大模型训练的好处,分担其成本。这也就意味着,落实到数字人这一项目的成本,较为可观。

在算力消耗居高不下之时,厂商还要给出一套低功耗的数字人解决方案,中科深智创始人成维忠表示:客户的要求首先则是算力消耗要低,国内用户对这点很敏感,按照现在各家的报价来推理,我们的用户是用不起的。

而算力之外,大模型与数字人的接洽,也并非十分“愉快”:据雷锋网报道,有用户反馈,目前市面上的大模型无法满足他们的要求。

中科深智对国内外主流的大模型进行测试,发现几个问题:第一是调用的速度不能满足虚拟人的实时交互要求,其实响应速度的问题从原理上来说是解决不了的;第二是国外的模型对于中文的支持度很差,国内的模型虽然调用的速度快,但是在开放性方面存在问题。

作为现阶段大模型为数不多商业化落地的数字人,若要做出差异,好看的皮囊,有趣的灵魂都不可缺少,供应商们必然要给足算力与语料库的“养分”,去建模、渲染、仿真、AI驱动,去幽默、带货、搬砖······

数字人的表里,如一地需要算力的支持。

关键词: