苹果 Vision Pro 和 GPT-4,塑造了人类未来 10 年的模样

苹果 Vision Pro 和 GPT-4,塑造了人类未来 10 年的模样

来源:刘学文 APPSO 2023-06-06 发表于广东

2023 年已经接近过半,但是还没有什么人说这一年是「XX 元年」,毕竟我们在乐观时代的乐观情绪鼓动下,已经把「AI 元年」,「VR 元年」,「元宇宙元年」,以及区块链,Web3 等等技术的元年分配出去了。

与之相反,2023 年早已不属于乐观时代,那种火热的乐观情绪正在变得异常谨慎,最简单的例子就是,OpenAI 目前的估值还不到 300 亿美元,要是在四五年前,它的估值很可能翻倍甚至更多。

当然,这一年注定还有很多其他的事情,比如智能手机行业彻底进入了下行通道,曾经被认为是出货量下滑主因的疫情因素剔除之后,大家只能面对严酷的现实:大家对智能手机已经意兴阑珊了。再比如阿里云开启史上最大规模降价,随后腾讯云也跟进。还有比如高通展示了在 Android 手机上本地运行的 Stable Diffusion(一种开源 AI 绘图工具)。或者是一些和互联网关系不大的,比如大家对于可控核聚变突然信心充足起来了……

当然,以世界之广阔,一年之悠长,类似的新闻年年有之,只看这些,2023 年又类似于万历十五年那样,不过是历史上平平淡淡的一年。

但如果时间维度拉长,我们回看 2023 年的时候,一定有两款产品在历史维度上留名:已经发布的 GPT-4,和刚刚发布的苹果 Vision Pro 头显。

2023 不是任何「元年」,但因为 GPT-4 和苹果 Vision Pro 成为极为重要的一年。

智力

实际上,GPT-4 是一个统称:可以取代部分脑力工作的 AI 工具。

比如,微软 Office Copilot,原本需要学习很久的 Excel 公式才可以实现的数据分析,如今只需要一句话就可以做到;原本需要一整天制作的 PPT,现在还是一句话的事儿。

▲MidJourney 生成的图片,玻璃反射极为逼真
再比如 AI 画图工具 MidJourney,可以在几分钟时间里输出质量极高的各类图片,无论是二次元插画风格,还是像是专业相机拍摄的以假乱真图片。

还有 GPT-4 本身作为大语言模型以及通用人工智能的代表所呈现出来的「智力」:让它去参加「美国高考」SAT 考试的话,它的成绩可以打败 90% 考生,分数足以让它进入美国哈佛或者斯坦福等名校。

除此之外,现在每天还有各种各样的 AI 工具出现,在某些方面上展现出远超人类能力的高效。

如同 GPT-4 等大模型展现出来的「涌现」现象一样,现在的 AI 工具也不断地涌现出来,对于大多数人来说,不谈学习和使用这些工具,光是做到知道这些工具的存在就已经不太可能了。

《漫长的季节》当中,男主角王响在钢铁厂开了几十年的火车,开火车的技能让王响手捧铁饭碗,也享有不错的社会地位和家庭地位。

在同样或者更早的时期,一项并不难获得的技能足以保证一个人在几十年时间里获得安稳的工作:五六十年前的美国高中毕业生如果会用打字机或者计算器,那就可以在一家公司找到稳定 30 年的白领工作。
现在,没有人认为依靠掌握了 Office 软件就能在一家公司干 30 年。

在 10 年前,我在爱范儿写一些编译类快讯新闻类消息,一天写 6 条已经让我倍感疲惫,但是如今借助 ChatGPT 的翻译和总结能力,一个有基本英语和语文能力的高中生,一天写 60 条快讯新闻也不是难事。
这是一道最简单的算术题,现在的 AI 工具并不能完全替代人,但是可以在一些工作岗位上实现「1 个人+AI=10 个人」的效果。

这种算术题并不是作为威慑的战略武器,而是正在发生的情形,不少游戏公司已经用 AI 进行人物原画绘画和场景建模。

▲盒马鲜生用 MidJourney 生成的宣传图,能够以假乱真

上上个月盒马卖花促销活动「芍药季」的宣传海报中,就已经用到了 MidJourney 制作不在花期的花卉图片,如果不是特别标注,几乎不会有人看出这是 AI 绘图。

▲很多人猜测这张《王者荣耀》游戏插画是 AI 绘图,人工修改完成

而不久前手游《王者荣耀》里的一幅插画也引起了不少玩家和画师的猜测:因为诸多细节上的不合理之处,让大家怀疑这是 AI 绘图,人工略微修改的作品。
一位游戏大厂的市场营销员工告诉爱范儿,类似的单幅海报插画,给外包画师的价格是 2-5 万元,有特别要求的还会更贵。

当然,还有很多人,包括我自己,在进行 AI 工具测试的时候会发现,目前 AI 工具还不具备取代自己的能力,或者说没法很好地融入到自己的工作流。但是对自己再自信的人心里也明白,今天它不行,不过总有一天它可以,这一天也不会太久。

在多数打工人的视角看来,ChatGPT 等等 AI 工具不会让某种工作消失,但会让岗位需求锐减,少数精英加 AI 的工作模式使得原本是行业平均水平左右的人面临失业风险,而这些人又是行业的主流人群。

始作俑者 OpenAI 自己也发布了报告,列举了不少最容易被 ChatGPT 影响的职业,其中有不少曾经被认为是白领甚至是金领的职业面临被取代的风险。

这个风险不在以后,就在现在。

前不久好莱坞编剧行业正在进行大罢工,除了抗议待遇过低,NetFlix 等雇佣方压榨劳力之外,矛盾点还集中在 AI 创作上,这批编剧的集体诉求是「禁止使用 AI 撰写文学材料;禁止将其作为原始材料;禁止使用作家们创作的材料训练 AI。」

但是,代表雇佣方利益的 AMPTP(美国影视制片人联盟)主席却表示:

编剧能有一份短期工作已经是很幸运的事了。

言下之意大概是,以后或许连短期工作都找不到了。

这就是路人皆知的司马昭之心,从雇佣方的角度来看,ChatGPT 带来的效率提升和人力成本降低,是巨大的机遇,这也是为什么这么多互联网行业的老板热衷于转发各种 AI 进展到朋友圈的底层原因,他们坚信并且希望 AI 能够降本增效。

正如经济学家 Tyler Cowen 在《平均的终结》所表述的,哪个行业的就业人数更多,颠覆这个工种就会创造更大的商业价值。

被雇佣的打工人自然是另外的想法,降本增效,降本靠裁员,增效靠压榨,横竖逃不脱悲惨的命运。

▲约翰迪尔 CP690 摘棉机

以农业为例,爱范儿曾去巴音郭楞蒙古自治州尉犁县看过现代农业机械如何让几个人就能管理数千亩的棉花田:一架农业无人机每小时可以喷洒农药超过 150 亩的农田,相当于 60 个人的效率。一辆价值 500 多万元的约翰迪尔 CP690 摘棉机的效率相当于 700 多个采棉工人。

可以说,过往数千年,尤其是近代农业和工业的发展,就是创造「体力盈余」,用机器代替人力的历史。

如果重复的体力劳动可以被机器取代,那么重复的脑力劳动为什么不可以?

现在看来,智力的屏障,并不比体力的屏障牢固。

智力的载体

其实把 ChatGPT 等 AI 称为工具是有失妥当的,因为对于人类来说,工具无需智力,不需要什么人类定义的「主观能动性」,遵循特定的逻辑,菜刀切菜,微信聊天,Photoshop 修图等等,我们使用工具的每一个动作,都有一个明确预期。

这种预期的典型例子就是「图形界面,GUI」,无论是 PC、Mac 还是智能手机,都依赖于图形界面进行操控,我们触碰微信图标,手机绝对不会打开微博。我们在飞书上点击会议录音按钮,它绝不会打开月报汇报页面。这是因为程序是写死的,A 到 B 的路径是一定且透明的。

但是对于 ChatGPT 而言,不光是我们没法保证预期结果是明确的,更不知道我们发出的指令到 ChatGPT 输出结果之间发生了什么。

正如前面所说,在很多涉及到推理和理解环节,ChatGPT3.5 显得很弱智,但是 GPT-4 则表现得像是个情智双高的学霸。

2023 年上半年的科技新闻热搜显然是被 ChatGPT 霸榜的半年,其中有三个新闻热度最高:GPT-4 发布,基于 GPT-4 能力的微软 Office Copilot 发布,ChatGPT 发布 iOS 版应用。

▲苹果的 Vision Pro 头显

然后,就是苹果 Vision Pro 头显的发布。

之所以这款设备被如此看重,是人们在智能手机之后,孜孜不倦地寻找下一个计算平台,一度人们寄希望于智能手表这样的可穿戴设备,但事实证明它的定位是没法干活也没法娱乐,智能手表能在交互上做的革新乏善可陈。

▲数量众多的传感器和摄像头,为全新交互提供了基础

那么,苹果 Vision Pro 头显在交互上做了什么呢?
我们操控电脑,需要键盘和鼠标;我们操控智能手机,需要触摸屏幕,总有一个东西作为「介质」来连接设备和人,而在苹果 Vision Pro 头显上,我们几乎不需要这种「介质」了,手势、眼球和嘴巴就成了主要的交互工具:

手势:代表将要执行的动作

眼球:代表注意力的方向

嘴巴:代表繁重的内容输入

键鼠之所以精确,是因为我们点击 F 键,它不会被识别为 G 键,但触控屏偶有误触的现象,针对误触,很多输入法又推出了「智能纠错」,在我们打出类似于「zjihui」的时候,智能纠正为「zhihui」,这就是设备开始有了自己的「判断」。

对于苹果 Vision Pro 头显而言,它几乎无时无刻都在进行「判断」:用户这个手势代表什么,眼球看向哪里,说的这句话是什么意思?

简言之,它需要足够「聪明」,才能执行这样的交互。在一些游戏主机配件和智能手机,手势操作,眼球追踪,还有语音识别都不是新鲜事,但也都是锦上添花型的功能,图个新鲜感,并不能作为主要的交互方式。

但没有键鼠和触屏的苹果 Vision Pro 头显,把三者结合,既是丢了过去的包袱,也开启了新的未来,交互的自由度和维度得到最大程度的解放,在脑机接口商用之前,人类新的人机交互方式讲会以此为基础:无需借助「介质」,人体器官就是交互的主体。

如果到这里,你还是觉得苹果 Vision Pro 头显缺了点什么,毫无疑问就是一个类似于 ChatGPT 这样的大语言模型以及相关应用。

▲2023 年最令人震撼的场景之一:Office Copilot 自动生成 PPT

再如果一下,要是微软牢记使命不改初心,坚持做最好的苹果生态开发者,把 Office Copilot 留到六月,在苹果 Vision Pro 头显环节进行演示,绝对要比什么米老鼠之类的更炸裂。

哪个打工人不想在虚拟世界里对着 Office Copilot 说一句话就能生成个 PPT,然后给老板交差,自己接着看电影呢?

微软把 Office Copilot 上难吗?

一点都不难。

那么如果 Stable Diffusion 能在骁龙旗舰手机上跑,ChatGPT 能在 iOS 上跑,那带着一颗 M2 芯片的苹果 Vision Pro 头显加上它带来的全新交互方式,意味着它可以是,也应当是一种「智力的载体」。

如果不能理解为什么类似于 ChatGPT 这样的大模型是一种智力,苹果 Vision Pro 头显是一种智力的载体,那么在鼓吹「元宇宙」时代一路沉沦的 Meta,在 AIGC 时代股价连连提升,其发布的诸多大模型都能和 VR 业务挂钩,至少证明资本市场对其逻辑的认可,这也是佐证「智力和智力的载体」的例子。

所有 AR、VR 和 XR 从业者都期待着苹果的「打样」,3499 美元的售价则给其他相关产品留下了足够的市场空间。

诸如 PICO 4 Pro 这样轻便(597 克),性能不错,视角和分辨率处于主流水平,搭载眼动和面部追踪等新技术,有了初步生态,还带点性价比(相比于 Vision Pro)的产品预计会成为不少人的「平替」,除了价格,苹果 Vision Pro 的上市时间和初期产量也给大家留下了不小空间。

另一个传感器越来越多,算力越来越强,语音交互地位越来越高的「电子产品」,是汽车。

也就是前不久,理想汽车创始人李想就说:

智能驾驶和智能空间都已经进入大模型时代,大模型的研发和训练是智能电动车企业的必要能力,否则只会停留在电动车的时代。

这则是另一品类殊途同归的例子。

▲用最炫酷的 Vision Pro,做最枯燥的工作

智力盈余

前不久去看广东美术学院毕业展的时候,看到了一个广东美术学院和腾讯合作的展区,主题是未来城市 WeCityX,在畅享未来办公,居住,出行场景的时候,还未踏出校园的学生展现了他们充满未来视角的展望:

一个毕业设计作品是 AR 眼镜,满足了随时随地办公的需求。

另一个毕业设计作品是未来工位,搭配 AR 眼镜,可以在工位上工作,锻炼,休憩。

还有一个作品是未来出行,在无人驾驶汽车里安排了工位,不开车可以,但得工作。

更早之前,在采访金山办公高管的时候,我问「AI 是不是让曾经是伪命题的移动办公成真了?」,得到的答案是肯定的。

在手机处理表格是很多人的噩梦,在电脑上易如反掌的「把表格第三行和第八行互换位置」的操作在手机上会变得非常繁琐,但是如果是拥有「智力」的 AI,我们只需要说出来,在任何设备上,PC、手机、平板乃至智能头显,其效率都是一样的。

对于未来工作场景的设想,广美毕业生们都预判到了一点:工作如风,常伴吾身。

为什么会变成这样呢?

其实是我们离信息和智力这两个处理工作的要素越来越近了。

皮尤研究中心不久前的针对美国成年人的一项调查研究结果表明,更年轻,更高学历和更高收入的人,使用 ChatGPT 更多。

我们没法准确预测,这群对 AI 持更开放态度的人,未来会因为 AI 变成什么样,但是「强者愈强」的马太效应确实无处不在的。

放宽到城市维度,城市核心地产的价格涨幅,往往大于郊区;城市经济增长和能源消耗水平也往往大于人口增长;城市经济增长的成果大部分被收入前 10% 的群体获得,当然,这个群体也会被城市增长的快节奏所裹挟,回到前面说的:工作如风,常伴吾身。

如果皮尤研究中心的报告增加一个地理纬度的话,那几乎可以肯定,位于加州湾区或者纽约的人,相比于五大湖地区铁锈带的人,更乐于使用 ChatGPT。

类似的认知领先在过往的例子比比皆是,如果在 2013 年左右成为第一批网约车司机,因为平台竞争和补贴等优惠政策,月入两三万很简单。现在的情况是,长沙三亚等多地交管部门发布预警,称当地网约车司机数量趋于饱和,不宜作为职业选择。

因为 ChatGPT 等 AI 工具有非常明显的「傻逼牛逼二象性」,这使得很多人对它们的认知并不清晰。

一家公司里面,最善于驱使他人智力的,一般是老板和主管,这种地位和分工,亦可能形成认知上的领先,比如每次当我对 AI 工具将信将疑,使用几次发现不过尔尔的时候,我的老板就会用亲身经历和实践以及结果告诉我:如果 AI 工具没给到你要的东西,不是它不行,而是你问得不对或者不够。

当我思考,为什么他总是可以从 AI 那里获得他想要的结果时,得到的答案有两点,一是他对 AI 的智力和知识有信心;二是他有丰富驱使其他智力的经验。

对于大多数贡献自己智力和体力的人来说,选择、驱使和利用其他智力,是一个全新的命题。

在以 BAT 为代表的大型互联网公司中,较为成功的员工可能是既聪明又勤奋的,最为成功的员工往往是再叠加一个「善于利用公司各种资源」的要素,这种资源往往就包括智力。

这种不平均自古有之,现代汽车功率大小所采用的单位「马力」源自蒸汽动力设备的出现,蒸汽机改良者瓦特测定一匹马一个小时可以转动磨坊转盘 144 圈,折算为一匹马每秒能够把 75 千克的水提高 1 米,即字面上的意思:一匹马的力量。

显然步行时候,人的力量是远不如马的,但古人达官贵人的马车有三四匹马牵引,还有时候,人是贡献马力的,比如给达官贵人抬轿的时候。

▲特斯拉 Model S

而现在最新的特斯拉 Model S Plaid 则能够瞬间爆发出 1000 马力的功率,这在古代是上千骑兵才有的力量,但现在一辆轿车就仅为 1-5 人服务而已。

美国学者和咨询顾问克莱·舍基在《认知盈余:自由时间的力量》中认为,互联网的产生和勃兴,源自于人类的认知盈余和分享精神。因为对这本书观点的认可,马化腾还给这本书得中文版进行作序,他认为「认知盈余」概念是平台型互联网企业得以发展的时代红利,Facebook、Twitter、维基百科和微博都是基于此。

实际上,UGC(用户贡献内容)和 PGC(专业用户贡献内容)的概念和「认知盈余」一脉相承,当这一波 AI 浪潮冠以 AIGC 之名的时候,实际上印证的是 AI 能够贡献的「智力盈余」几乎是无限的。

每个人都有机会,拥有无限的「外部智力」。

对于这种新工具的认知差异,比自己步行和开特斯拉 Model S Plaid 的差异还要大得多,前者使用的不过是 0.1 马力不到,而后者能用到 1000 马力,前者的行进速度大概是 5KM/h,而后者可以达到 320KM/h。
在这一波 AI 浪潮中,受益最大的是英伟达,它的市值前不久一度超过

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注