时间进入 2023 年,尽管智能手机市场还在持续疲软,但手机厂商在产品竞争丝毫没有放缓,甚至在影像上还有增无减。更大面积的传感器、光学防抖、全焦段覆盖,高端智能手机的影像配置基本都上了一个台阶。
(资料图片)
不过一方面,硬件上的提升容易带来同质化的竞争,很难拉开体验上的差异。另一方面,更豪华的硬件规格,也会影响到机身重量和内部空间设计,就比如小米 13 Ultra,在影像上确实带来了相当惊艳的体验,但同时,机身重量的增加和硕大的相机模组,都极大影响到了日常的手持体验。
所以在软件与算法等其他层面加大投入,几乎就成为了手机厂商一种的共识。但问题在于往什么方向做?又怎么做?
在 7 月底举办的 2023 vivo 影像盛典特别活动上,vivo 影像产品高级总监李卓表示,手机影像技术目前是三个领域同时走路:光学、算力、算法。
2023 vivo 影像盛典特别活动,图/vivo
具体到当前的技术背景下,光学到了一定瓶颈之后,突破起来难度非常大,可能需要材料学和基础物理的突破才行。但与此相对,一旦突破光学瓶颈就会带来全新的世界。二九目前,算力和算法带来的进步和突破则是非常明显。
从光学到算法,vivo 一个都不想放过。
在 3D 模型里沉淀算法,在手机上应用算法
不久前,雷科技受邀参观了位于 vivo 重庆智能制造中心内的 3D 影像实验室。在 vivo 3D 影像实验室,可以看到由 175 台单反相机,配合闪光灯、处理器、控制器和服务器组成的 3D 影像系统。
采集人体信息时,vivo 3D 影像实验室会同时调动 174 台单反相机从不同的角度进行拍摄,生成 100 余张 2D 图片(另外 1 台负责控制),随后通过局域网上传至存储服务器,再通过一连串的计算处理,最终生成一个 3D 模型。
vivo 3D 影像实验室内,图/雷科技
vivo 在现场展示了整个流程以及生成的 3D 模型。尽管与实际「拍摄」的媒体老师还有明显的区别,但模型的精细程度也足以让在场观众感到些许惊艳。不过,这种方式显然不可能复制到智能手机上。vivo 也明白这一点。
实际上,vivo 的目的在于通过 3D 模型采集大量且精准的人体躯干与面部信息,不断优化算法,最终实现对智能手机影像的提高。
众所周知,传统的智能手机人像虚化算法,往往是在 2D 层面判断人的轮廓来实现虚化,不具备 3D 层面的深度信息,因此主体与背景之间的过渡往往比较生硬,背景也会缺少层次。
vivo 希望能通过大量的 3D 模型进行预训练,让 vivo 的算法变得更加智能,让手机可以更好地判断人体的深度信息,使得人像虚化更加细腻与自然。
vivo X90 Pro+ 拍摄的人像照片,图/雷科技
此外,3D 模型的加入也让手机人像虚化算法应用范围可以进一步扩大。目前人像虚化算法由于缺乏深度方向的信息,只能拍摄全身像或是半身像,未来则可能拍摄眼睛的特写虚化画面。
而在 3D 模型之外,vivo 3D 影像实验室内还有一套「重打光」系统——由 96 个可编程的同步光源搭配工业相机,工作站以及服务器共同组成。这套系统可以模拟不同光照条件下的成像图片,为自研人像算法做数据支撑,提升手机上的算法效果。
3D 模型计算处理过程,图/雷科技
但不同于 iPhone 上的「人像光效」,未来在加入重打光技术后,vivo 手机可以对前期拍摄到的「逆光黑脸」进行高精度补光,调整光线的冷暖色温。甚至还能通过纹理重建与光照估计算法等技术,让用户基于自身喜好对光照、年龄、发型、表情等方面进行重新编辑。
「未来以算法为龙头,也并不是它自己往前跑,未来算法要去给传统的光学赋能,这是它里面的逻辑关系,」vivo 影像副总裁于猛说。
我们有理由相信,这些技术应该会在不久后就能实现落地,而按照 vivo 工作人员的透露,它们将会在 vivo X 系列上率先应用。
不过 vivo 3D 影像实验室的目的还不止于此。
未来的「影像」,未必是实拍
随着生成式 AI 的普及,手机和芯片厂商都在陆续加速相关技术投入。高通、荣耀强调了端侧 AI 大模型的概念,谷歌宣布将在下一款 Pixel 机型中加入最新的 PaLM2 大模型(壁虎版),华为也于最近宣布在鸿蒙 4 中结合了自家的盘古大模型,率先应用在语音助手小艺上。
vivo 自然也不例外。不同的是,vivo 想要抓住移动影像这个生成式 AI 的最佳「试验场」。
在海外,Midjourney、Stable Diffusion 以及 DALL·E 2(OpenAI 旗下) 都在绘画、图片等应用上取得了突破性进展。在国内,一款名为「妙鸭相机」的 AI 绘画小程序,也凭借精准的应用场景、较低的价格以及不俗的生成效果,迅速吸引了大量用户。
「妙鸭相机」用户体验,图/即刻@乌云花栗鼠
作为 vivo 布局 3D 影像技术的重要平台,重庆 3D 影像实验室通过搭建影视级光场系统,可重建出「毛孔级」人体 3D 模型,实现了更具真实感的高保真渲染视效。同时基于人像 3D 重建感知能力,vivo 也在探索叠加 AIGC 算法,通过手机即可「拍摄」虚实结合更为自然的照片,实现「足不出户拍大片」的体验。
在参观 3D 影像实验室后的闭门会议上,vivo 就展示一张由 3D 模型结合 AI 绘画能力生成的「照片」,画面里是一个极具真实感的赛博朋克世界以及人物。
vivo 不允许拍摄,类似将一个人塞入《赛博朋克 2077》世界。图/Fun Academy
不同于我们之前见过的 AI 绘画,借由工业级相机系统拍摄处理得出的精细化真人模型,vivo 这张「照片」里的人物不仅足够真实,理论上各种姿势与动作也都可以比较完美地呈现。
某种程度上,你可以将其理解为「妙鸭相机」的进阶版,除了精细上的巨大优势,更核心的还是「人」。「妙鸭相机」利用 20 多张人像照片在大模型上进行训练微调,vivo 则是直接拍摄计算得出的 3D 模型,更接近真人,适用范围也更广。
不过就像前文所提,这终究只能在实验室环境下产生,vivo 最后还是要落地到手机等个人终端上,否则只能是空中楼阁。
另外值得一提的是,3D 影像的相关技术可以应用在虚拟人应用上。包括近期比较火热的 3D 数字人直播、3D 表情驱动、3D 的虚拟场景编辑以及相应的动画制作等领域。而基于 3D 影像衍生的 3D 换装应用,可以根据采集者的人体模型,在虚拟场景内实现足球游戏,目前已经可以在 vivo 手机和平板电脑上进行演示。
无论如何,vivo 展示了一种未来。未来我们的拍照方式或许被彻底颠覆,拍照不再是拍照,而是基于 3D 模型、生成式 AI 技术的一种新的创作方式。
关键词: