专题栏目:ARVRMR虚拟现实

老罗再次创业,进军AR领域,这次能成功吗?

听说,老罗搞AR去了。

VR/AR作为下一个可能与智能手机媲美的电子消费浪潮以及前沿科技,早已纳入公号的关注清单,这次借着罗老师的热度,试着从技术及产业的角度,梳理未来的可能发展。

结论先行,以目前公开的产业进展,罗老师这次创业非常危险

为什么?故事要从互联网时代的萌芽开始说起。

1991年8月6日,世界上第一个服务器和第一个网站在欧洲核子研究中心上线。

在此之前的千百年,全世界都是以实体文字or图像记录经验和想法,但网页的诞生,意味人类从此有了新的工具去记录或者重写过去所有的文化积累,千百年来所有的文字、图像、思想都可以搬到虚拟端,世界迎来了第一次实体数字化。

在万维网初期,网页还不像如今这么丰富多彩,只有少数的企业端或者个人在上面编写内容,网页的编写也并没有标准。于是同样的代码,在不同浏览器上识别效果可能是不同的,渲染结果也千差万别。

Tim Berners-Le在1994年建立了万维网联盟(W3C),制定了网页开发的标准,以使同一个网页在不同的浏览器中有相同的效果,标准的统一进一步促进网页数据库的繁荣。

随着互联网上沉淀的文字越来越多,也出现了以Google为代表的专业浏览器处理数据,同时迎来了个人电脑(Personal Computer, PC)的黄金发展期。

国内的百度也是借由这一波浪潮,2011年3月,成为中国市值最高的互联网公司,其创始人李彦宏也一举登上“中国首富宝座”。

此后,互联网行业进一步深化,从PC端转移至移动端,从静态的网页,发展至交互更为密切的社交网络,数据形式也从简单的一维文字变化为文字、图片、短视频更丰富的二维形态。

这个过程大致是2010→2020年,从中诞生了一系列的互联网巨头,如腾讯、Facebook、Apple等。

有意思的是,互联网创立之初是希望这张网将人人都联系在一起,发展到了如今,更像是一个又一个的以平台巨头为名的数据孤岛。

以往,我们在浏览器检索一遍就可以得到很多详尽的数据,现在平台巨头的数据并没有打通,找一份资料的时候,网页内容找Google或者百度,公号文章搜微信,视频内容看抖音,苹果更是打造了一个封闭的生态圈。

回到互联网时代2.0的发展主脉,尽管现在的数据形式丰富多样,也真切的改变了我们每一个人的生活状态。但终究是在二维平面上,但我们真实的生活是一个三维立体,而未来三维立体数据可能的呈现方式,就是VR/AR

当立体的数据如今日的短视频一般可以串行于你我日常生活之间,我们也就迎来了所谓的元宇宙时代,那是一个带上眼镜,就可以被"传送"到2.5亿英里外火星表面的时代,是一个老罗准备把所有的一切都搭进去的时代。

参考互联网时代的发展历程,几乎可以确信,在元宇宙时代,一定还会诞生很多新的平台巨头,也是罗老师相信的,下一代的计算平台。

但就现状来看,3D数据才开始积累,数据格式尚未统一,大部分AI还仅限于处理一维数据,二维的视频智能处理都还没成熟,更别说三维数据处理的应用落地,而VR/AR的硬件形态也还没定型,从电池、芯片、屏幕显示等硬件限制到软件的交互方式都还有大量的挑战。

如果说现在是元宇宙的网页时代,参照互联网发展历史,也得30年(1991→2020)才能看到如今这样的繁荣。

具体产业进展分析:

1、数据生成

3D数据采集:3D激光扫描可以将周围的器件实现3D建模,目前多用于工业领域,值得一提的是,苹果从iPad Pro或iPhone12 Pro开始,也提前预埋了激光扫描技术,可以通过开启摄像头及相关应用,就能对身边的物件实现三维建模。

此外,还有多次提及的车载用激光雷达,其实质也是对周围环境的快速建模。一旦车载用激光雷达可以大规模量产,也使得大场景、低成本的3D建模可以实现。

相关链接:

量产边缘的LUMINAR

未来汽车的眼睛 —— 激光雷达

3D设计软件的发展:

目前三维设计软件已经进入稳定发展期,全球三维设计软件市场中,前三的市占率高达70%,但格式并不统一,一定程度上阻碍了数据的分享、交流和传播。

2、数据打通

目前,为推进3D数据的格式标准发展,苹果(Apple)、英伟达(Nvidia)、皮克斯(Pixar)共同推出了USD标准。

以2020年12月英伟达推出的Ominiverse为例。Ominiverse是一种基于“元宇宙”概念的平台型程序。完全基于3D通用场景格式USD而构建,可以用于建筑工程、自动驾驶、媒体娱乐、制造业等多个领域,创作者可以通过它在所有环境下无缝地实时协同工作,并做出数字孪生或完全虚拟的扩展现实作品。

但这也仅限于数据标准的一个示范。

3、数据处理

元宇宙时代的数据处理方式几乎可以确定是AI智能系统

计算机科学家吴恩达22年的表述,“我们已经在自然语言处理(NLP)领域看到了基础模型(Foundation Models)的威力。但说实话,我对计算机视觉中构建基础模型感到兴奋。视频数据中有很多信息可以利用,但由于算力以及成本的限制,还无法建立相关的基础模型。”

简单说,就目前的算力而言,对自然语言和图像处理还行,但到了视频数据就很吃力了,更别提比视频数据更为复杂的三维立体数据。

这里可以插一个今年Google开发者大会上的好消息,因为Youtube已经启用了由AI执行的分段并加标签功能,未来我们可以像检索网页内容一样检索视频内容,不必再手动拉进度条找那几秒钟的精彩瞬间。

回到主题,AR的一个重要参与者,Meta,前身Facebook,为了AR应用,从2020年开始在打造一个史上最大的专用于训练AI的超级计算机,光是AI模型参数就超过1万亿个。

4、内容呈现

目前来看元宇宙时代的数据内容呈现方式是VR/AR硬件设备,但基本的硬件样式尚未定型。

VR(Virtual Reality),即虚拟现实,其利用计算技术、显示技术等将现实和虚拟分隔开,重构数字化虚拟世界,佩戴设备的人将背靠交互技术沉浸在虚拟世界中。

AR(Augmented Reality) / MR(Mixed Reality),即增强现实/混合现实,强调虚拟数字世界与现实世界的重叠;其中MR是AR的升级,AR强调虚拟画面+裸眼现实(仅呈现人眼可见的现实),MR强调虚拟画面+数字现实(包括人眼看不见的现实)且强调与虚拟信息的交互。

VR/AR特征对比:

相较AR,VR行业率先走出低谷,经过了9年的发展,它刚刚走过了黎明前的黑暗,将要进入一个长期稳定的上升期。

按照Gartner技术成熟度曲线来看,一项最终成功普及的新技术,必然要在大红大紫的创业热潮后,经历一个短则五年、长则十几年的低谷期。而随着用户数量的积累以及使用成本的降低,有可能进入复苏期,迎来新一轮的生成成熟期。

21年是VR出货量拐点,1)硬件端:2021年全球VR头显出货量达1095万台,突破年出货1000万台的行业重要拐点;2)内容端:C端硬件起量带动内容正向循环,内容平台应用数迅速增长。


IDC对VR的预测是,2024年全年出货量3560万台,未来5-10年会迎来长期且稳定增长的阶段。目前最有代表的是Meta的Oculus Quest2。

但VR的应用生态尚未积累起大量的开发者和用户聚集的生态环境,主要的应用领域也还局限于游戏。

AR受限于更复杂的光学显示技术,其发展速度远滞后于VR,不同于VR直接在头显的位置形成封闭的显示系统,为了实现AR中虚拟和显示的交互,首先要对显示场景里的所有元素都建模,然后和虚拟生物合成在一起,用内置的物理引擎计算相互作用的结构,最后,只输出虚拟部分的结果

Magic Leap曾经给出过相关的宣传图片:

可惜要实现像影视作品那样的效果,目前的AR硬件还面临软硬件上非常多的限制。

首先是在硬件上的限制,包含了电池、芯片、屏幕显示。

今天最大能量密度的锂电池大约是250Wh/kg。对于让AR眼镜既能实时识别物体,还能运算加工生成优化后的视觉特效的终极要求来说,上百瓦的功耗是必须的。

这样算下来,要么电池太重完全没法佩戴在脑袋上,要么完全不够能量支撑相关功耗。现实和终极梦想在能量密度上相差了千倍。

即使固态电池实现规模量产,也顶多能把能量密度提升2-3倍,而且这还是几十年后才能实现的目标。

相关链接:电池技术分析

芯片的限制类似,AR眼镜要进行大量的向量乘法运算,要完成这些计算,现在的芯片结构的耗能就是这么大,除非未来芯片的基础结构就要变成其它方式,也许能大幅度弥补与终极梦想的差距。但这个突破,距离实现也很远。

此外,硬件的限制还包括屏幕。

传统眼镜模样的AR眼镜,屏幕大都使用的是Micro LED技术。在小拇指指甲盖大小的范围内,做一个硅基材料的发光显示器。然后利用光波导材料把光射出到镜片上。

还要在几十克电池的基础实现2个8K(对比目前几百分辨率的水平)才能较好实现一些游戏大作中身临其境的效果,今天还没有任何显示技术能达到。

其次,AR眼镜还面临着软件上的限制,最明显的就是交互方式。

微软HoloLens可以用手势操控,但操作不精准,速度也特别慢。对着空气戳了半天,AR眼镜才说出了一句“你好”。MagicLeap的One干脆不用手势,而换成游戏手柄操作。而国内这些厂商,交互也不单独设计了,而是直接用手机做沟通媒介。

而终极效果的AR眼镜可能需要追踪视觉焦点,自动做出判断和选择。比我带着眼镜走到大街上,只要想要知道,目光所及物件的右上角就会出现相关的名称和简介。

但想要实现这些功能,要求眼镜能够实现自动扫描、识别判断,这背后需要依赖高水准的人工智能。但这样水准的AI,到今天也还没有出现

2021年英伟达炫过一把技,视频演讲中的英伟达CEO黄仁勋并非他本人,其中的14s是通过一系列数字技术合成的“替身”,直到事后官方透露才被媒体报道出来。

但为了实现14s的以假乱真,光制作视频,英伟达租用了一辆装载数百个数码相机的卡车,对黄仁勋的住宅多角度拍摄数千张照片;后期制作中,动员了34位3D设计师和15位软件工程师,再加上数不尽的GPU,才完成了3D建模。

假如再加上AR眼镜里面的展示、实时运算、无线传输,对现有的硬件水平,会是一个巨大的挑战。

但目前的AR也不是完全没有成功的商业化案例的,其主要用于To B端。在军事、医疗领域,微软的HoloLens都有不错的应用场景,但距离革命性产品,还有一段距离。

目前VR/AR硬件最大的变量,就是Apple,但哪怕强如Apple,在手机及电脑上还提前预埋了激光雷达、芯片算力等相关技术,也屡次推迟相关产品的发布,2019计划发布相关头显但至今未见踪影。

当然,作为即将倾尽全力的老罗而言,所知晓的肯定比任何一个产业外人士丰富得多,他在采访中也表达了相关的看法:

最后,带着对VR/AR的产业认识,试着去理解这个选择背后的艰巨与理想。

然后,祝福他。

发表评论

相关文章