【深度】AI 硬件:一直游到海水变蓝随着AI赛道的兴起,无论是AI软件(应用)还是AI硬件,经典的PMF理论又在不同项目上被高频地提及和运用,以及新提出来的、用以强调技术和产品之间适应重要性的TPF,形成了TPF-PMF的传导链条。(其实这三者并不是完整的传导,更完整地可能还要考虑科学理论、发明创造、工艺等层级)
借用西方经济学常用的思考方式,假设P(产品的定义设计)和M(用户需求)之间达到了均衡(Fit),P很好地满足了M,那么我们探讨畅想下这三者,分别是:
2)技术(T)向产品(P)的产品化过程会遇到什么?—— 以史为鉴,回顾触屏技术(T)与智能手机(P)的相遇匹配的经典过程
A.需求是一直在的,需求是有很清晰的脉络的,需求是要顺人性的,脉络就是人性,人性具有普适性顺带让技术具有了中性
通常会用“用户需求”,这里更想用“人类需求”。因为,回顾梳理下来我们就会发现人类的需求是一直在的,且一直就有很清晰的脉络。这脉络就是人性,需求一定是顺人性的。
除了化学反应质变创造一个新东西以外,人类干活的改进基本就是两种,一是借助工具提高效率,二就是对操作步骤的合并减省,最古早的时候甚至不是为了追求效率、节省时间,只是为了省力气,这肯定是最天然的人性。
本质上就是“短链条化”——缩短从需求想法产生到任务目标达成的全过程米乐M6,减少全过程所需的操作步骤。比如:书写和印刷,从刻板到活字,再到后面的打印机,总步骤和总时长一定是大大缩减了,但人类在技术摸索和产品化上则是用了上千年时间。打印机刚刚诞生时,也一定会有大多数人更愿意依旧誊抄,直到使用门槛降到被大多数人都能接受。
这波AI,对话式ChatGPT就是减省了人类组织语言,减省了将自然语言转换成步骤和代码;而日益广泛使用的语音指令+实时转录+跨语种翻译,更是多步骤合并的很好例子。
上述主要是单任务的情况,随着人类社会的不断演进,人类承担的社会角色越来越多,时间越来越不够用,因此人类面临的多任务场景(Multi-task scenario)也越来越多。这里说的多任务场景(Multi-task)主要指的是那些需要同时调用人的不同感官才能完成的任务,比如:对照着说明书安装家具(眼-手并用)、同声传译(耳-脑-嘴并用)、足球比赛实时分析/ 解几何题(眼-脑-手并用)。高度紧张的神经,渴求能够同时给多个使用中感官提供支持的产品方案,人类就是想把此时其他感官对齐所需要的能量留给大脑,使脑力更好地发挥。
人类长期奢望解放双手,但“解放双手”和“借助工具”长期是无法解决的一对矛盾。这必然导致对“无形化操控交互”技术孜孜不倦的探索,站在今天这个时点看就是AR、MR,未来或许会有新的名词出来。隔空交互的实现,会淘汰掉以前的操控工具(遥控器、手柄、鼠标、键盘等)。
人类对于干活姿势的舒适性的永恒追求。碳基的人类,无论是眼睛还是颈椎和肌肉,舒适性都越来越重要。能坐着就不站着,能躺着就不坐着。
科幻电影里的很多不可思议的设想,仔细想来都是按照这些人性需求(省力、舒适)来幻想的,符合以上大脉络的。再次说明“人类需求”其实一直都在,甚至远期的方向也是大致明确的,就看技术T如何发展到匹配产品P和市场需求M。
正因为,这些人性需求一直都在,且人性具有普适性,顺带让技术具有了中性,让我们可以相信人工智能赛道,尤其是AI硬件,都会被世界各主要国家准予发展。
机器人和AI都将为人类大脑脑力节省出大幅能量。人类原先向体力四肢分配的能量,将大幅向感官倾斜,而所有感官最后都要优先给大脑脑力,这可能是碳基生物为了未来与硅基生物博弈的提前能量腾挪的不自觉准备,但也意味着人类要想出供给超量算力消耗的新能耗方案,体内的脑细胞不消耗了,体外的算力就要代为消耗。
B.进入二战后现代工业经济后,人类长期存在的各种需求开始有越来越多被设计出来的产品承接,人类作为用户的需求经历了“从垂类垂直不断合并集中”的过程,这过程又体现为①先从硬件层面合并集中,②再从软件层面合并集中,如下图:
回顾过去30年至今,我们就会想起小时候有各种各样的电子电器,分别满足不同的需求,那时的时髦学生通常要带着很多东西行动。那个时期的硬件公司,几乎是立足于一个垂直需求就可以开创一个新的产品品类或者成为最早汉化者,由于蓝海,进而就可以从一个品类开创者形成一个品牌。这个阶段主要是占领垂直品类,迅速封装集成、产品化,快速推向饥渴包容的市场。
于是进入21世纪后,顺着人性,智能手机成为下一个急切的产品方向。因为产品经理们或许加上用户们,都已经发现C端需求的多样性在快速展开,如果还是依靠每个垂类需求都开发一款电子硬件产品品类,这太重了,急需一种更轻地承接C端需求的方式,尽可能地将C端需求穷举。手机的“智能化”很大程度上是把前一个周期内的承接用户主要垂类需求的各种电子硬件合并集中在了一台手持设备上,这背后的关键技术突破是触屏技术的突破。而原本被各个垂类电子硬件产品承接的用户需求,迅速开始被以预置app和开发者生态开发app承接。百花齐放的应用软件,在编程语言的技术条件下是当时最轻的承接C端需求多样性的方式和最小单元,于是开启了全球范围的移动互联网时代。
这里有一个典型的例子:在电视时代,如果想多人同步看,那么就要围坐在一起看电视。手机时代后,大量当面分享场景消失,但“同步看”的这个需求还依然存在,于是为了这个很细分狭窄的需求开发者弄出了像“微光”这样可以远程同步观看的小app,原先由硬件和物理空间承担的需求功能变为了各种软件应用。
智能手机做到了垂类移动硬件的最大程度合并集中,几乎成为了C端需求的最大并集并且不断扩大,于是智能手机做到了人手一台。这时还有未解决人性吗?可能还是有的,面对手机,用户虽然不用再携带一揽子电子设备,但是需要面对手机中众多app的众多入口,这需要大量的打开、点击、切换、退出、重进,即使很多app都增加了分屏、多屏显示、画中画播放等功能,但对用户来说依然不方便。于是人类的“合并集中”DNA再一次动了。
ChatGPT引领的自然语言大模型,开始将众多前端入口收敛合并集中为一个对话式通用对话框,尽管最初只针对文本问答,但可以想见未来必将扩展到任务处理,比如硅谷的MultiOn和国内的某最新AI Agents项目。在大模型的基础之上,用户将尽量少地需要面对繁多的app入口和频繁切换,用户指令可以逐渐“长链条化”,这就已经是AI的初现。
前面已经探讨了①先从硬件层面合并集中,②再从软件层面合并集中的两次浪潮。经过第一次硬件产品层面的合并集中,手机实现了“感知-决策-执行”的最小闭环,真正做到了人手一台,过往的各种垂类电子硬件产品随之迅速消亡。与此同时,面对有史以来的最强“掌机”,用户的视线、注意力也变得高度集中、高度中心化,分散的“注意力”集中后形成了巨大的“流量”。手机也成了高度机密的个人隐私集合体,就像电影《手机》那样。
对于销售渠道等也产生了其他社会影响,最明显的是2000-2010十年。一揽子尚未轻量化的垂类电器、电子产品,还归属于“家电”范畴,品类的繁多和品牌的泛滥使得线下的家电大卖场、电器城做大,比如国美、苏宁一时风头无两,反而是渠道商成为了更具价值的公司。进入移动互联网时代后,功能、机型的快速合并使得垂直品类的数量快速收敛,销售渠道也开始了品牌线下旗舰店和线上并重,线下品牌旗舰店进入了强调自有品牌化+学习苹果极简风的风格。
高度合并集中后的智能手机,回到前面的人性需求分析上,就是给到用户的显示屏幕太小了,小面积显示和视觉感官上的舒适性天然有矛盾,即:高度合并集中的硬件一体机,和永远追求大显示的矛盾。例证就是:拼多多上动辄月销上千上万的大屏显示器,人们用来把手机上的内容投到大显示器屏幕上,来缓解视力的疲劳和眼干涩。
追求大屏的尽头,一定是打破屏幕的边界,实现无屏化。因此让我们畅想一下虚拟屏幕取代实体屏幕,实现“无屏化,处处即屏幕,处处能显示”的那天。从这个角度,也可以推导出AR、MR的趋势。而人类凭借裸眼的三维显示交互,就是“皇冠上的明珠”。与直接裸眼三维显示交互相比,近眼遮眼的头显、眼镜产品方案,仅算是“弱满足”了需求。
老牌PC厂商在做什么呢?联想近期发布了最新的“透明PC”,同样使用了Micro-LED技术,虽然还是在维护PC,但也无法背逆“显示屏的边界将被打破”的大趋势和信号。
一旦屏幕边界、显示边界被打破,坐姿、伏案、手持小屏等固定姿势也肯定会被改变,二维平面将不再能够满足需要,空间显示和空间计算会真正爆发,那时最佳硬件形态就未必再是PC和手机。由此可见,光学光机显示技术会是带来“豹变”的关键技术突破点。这会使得割裂的物理现实和虚拟数字内容逐渐交融混合在一起。
二维平面显示到三维立体显示,拓宽了人感知力、理解力的边界。例如立体几何课的学习,由于所有的题目图示都是平面印刷的,老师经常会说某些学生缺乏“立体思维”,而几何学得好的学生往往是在大脑中就复原和建立了立体,想象出在空间中添加了辅助线,过去这常常被作为学生是否聪明的判断标准之一。而未来空间显示技术可实现所有几何体题目的三维空间立体展示,那么学生之间的这种差距会被一定程度上的抹平。
在机器的输出端(显示)尚不能跟随人类移动之时,人类已经开始思考怎么操控与自己有一定距离的机器(显示状况)了,遥控器、手柄都是如此,那时使用的是红外信号与电信号之间的转换解码技术米乐M6,按键是主要形式,还需要用户主动手动操控。二维平面显示时代衍生出来的电竞行业,能够作为竞技比赛的依据之一就是玩家选手对按键这种当时唯一操作交互形式的手速熟练度。
当机器设备的输出端可以随人类移动后,无论是AR眼镜、MR头显还是可以保持裸眼的AI可穿戴设备,人类实现了自己第一视角的随身显示,视线被内容更自动地占据,按键式的主动手动操控交互本身也需要视线,这就强化了对操控交互媒介工具的“无形化”需求,各类追踪式三维交互技术最为突出的就是手势追踪交互、眼动交互等。相信未来的沉浸式游戏,全身的感知-反应能力相比于单纯的按键手速更为重要。智能手机可能自“切水果”兴起,也可能自“切水果”退潮……
在电视年代,人们围看电视,抢遥控器,等直播,直播错过了只能等很久以后的重播,夜晚是没有节目可看的,人无聊的时候会发呆,内容的质量和数量可很匮乏。因为互联网,内容的供给打破了固定时间段的限制,24小时都可以观看,也打破了人们原来对于时间流逝速度的被动接受,“倍速观看一切”大大加快了单位时间内可播放内容量。从人的一生来说,Z世代一生可接受的内容量、可被内容覆盖的时间,都至少数十倍于老一代。于是内容供给平台大增,内容创作者也有了无尽的展示舞台。
一旦年轻人发现“时间是被可以折叠的”(指的是:通过熬夜、倍速、多个窗口/多台设备同时干不同的事看不同的东西等手段来延长自己的可用时间),就会更加想极致利用时间,甚至加上空间,背后就是对时间空间的饥渴和拓展。
用户的观看习惯和观看场景更趋个人,甚至有些反社交,即使在寻找共鸣和窥视他人意见时也倾向于和他人保持一些距离,弹幕就具有这样的疏离性,弹幕可以一起狂欢却也毫不在乎是谁在说。这种需要陪伴但又要保持疏离的需求,年轻人们甚至找到了MBTI理论来解释。
创造独处个人场景,用户在其中更关注自己的感受。戴耳机,实现了自我和外界的感官隔绝。Vision Pro 通过设计旋钮来让用户设置100%AR浓度的完全隔绝外界的物理现实,拉下“帘子”,进入自己的完全沉浸“虚拟茧房”。
当人对时间/空间可以折叠也可以展开、人和自我/外界都处理到了可以随意切换的新型关系时,元宇宙可能就形成了,元宇宙其实就是这种类“混元”的状态。期待未来人人都有自己的“传送门”、“可移动的专属虚拟茧房”……
在比较刚性的学习、工作场景,流程往往是由多任务串联或者并联的,这需要耗费很多心流,这就是人们常说的“心累”所在,心流=注意力的衔接。在前AI时代,多任务的心流链条是间断、断裂的,中间的每个空隙需要靠人自己完成和衔接上,这在过去常常被用来判断一个人是否勤奋和自律米乐M6。现在有了AI-native,这些中间的断点将由AI Agents自动补齐完成,心流链条将顺滑、连续、更长。如下图,如间点函数和连续函数的区别,本质上符合前文所说的“指令长链条化”趋势特征。Vision Pro上面新出的各种开发应用,大多是立足于助力Multi-task场景,借助的最主要力量就是三维空间显示交互:
当流程中的间断环节已被AI很好地执行并衔接上之后,用户只需在最开始发出长链条指令,和在最后验收成果。AI的个人助理属性会随着成本的降低而普及,人类干活从自己按部就班式执行变为等待AI执行成果,AI在其中的跳跃式涌现可能半喜半忧。
但这种转变确实是对“执行力”的大幅解放,不管是生成式AI还是任务拆解型AI Agents、串流衔接式AI Agents,人终于成“干活者”转向了“验收者”,成为人类跳出内部内卷的机会。人类精力会转向放空修养、筹谋、创意、思考本质内核,过去强调的人的执行力的重要性将让位于人的思考认知水平。AI主攻的是一些外化的内容,而人类给出的指令、提示词才是本质性思考。开个脑洞,这是人类为了保证自己依旧是日益变幻的世界上最具控制力的物种,所做出的精力上的的节省和腾挪。碳基生物抵御硅基生物的布局已经不自觉地开始。
2024年CES展会上,当各个玩家端上“菜品”后,我们发现玩家们的切入点几乎不约而同地顺应了广泛的社会性疲惫和人类不可逆转的惰性,例如:在冰箱里配备AI Vision Inside,支持识别冰箱内多达几十种不同食物并自动打上“推荐食用日期”等标签;在洗烘一体机里使用深度技术,学习不同衣物的特点以及不同用户的习惯,从而实现个性化的洗衣和烘干等等……
在二维平面显示的维度中,对话框、搜索框、瀑布流等已经是用户主动操作最高效的结构化范式。在结构化的结构中,层层向下。AI的发散性会突破结构化结构,尤其是表格。用户和信息之间匹配的精准度,加入了AI在学习了用户习惯之后对用户意图的识别和揣测。“人找信息”快速向“人坐等信息ready”转换,同样是节省人类在思考、认知、创新之外的能量消耗。
从这个角度来说,字节的推荐算法算是在先人一步洞察了大模型前时代对用户和信息之间匹配机制后做出的前进尝试,只不过那时推荐算法还不是基于今日的大模型技术。
C.综上,我们探讨了这么多人性需求M的脉络和逻辑,现在可以说:认清M就很难,T与之匹配上实现目标效果就更难。可以说“赛道时间还早,方向难度很大”,但我们要认清目标M的价值,找清其中的关键逻辑节点在哪。然后就是全力支持科研人员、产品经理、创始人们朝着目标M埋头做技术研发突破和产品方案迭代优化。因为知道了终极方向,才能识别出哪些只是过渡战场。否则像iphone出世换机潮再次席卷重演之时,这一切将再一次与我们无关。
那什么是符合人性M的未来终极AI显示交互硬件呢?能够同时满足这些“不可能多边形”条件特征的就是未来的终极方向:
1) 能够帮助人类大幅缩短从需求想法产生到任务目标达成的过程,大幅度促进用户对操作步骤的合并减省,大幅度减少全过程所需的用户操作步骤,实现极致“短链条化”的
2) 能够帮助人类在多感官并用的、脑细胞吃紧的多任务场景,提供全景式多模态的支持,使各个感官同步对齐,心流连续而不断,场景立体且可延伸
3) 有效解决了“解放双手”和“借助工具提高效率”这一对长期矛盾,真正实现“操控交互媒介无形化”
5) 有效解决了小面积显示和视觉感官上的舒适性天然有矛盾,即:高度合并集中的硬件一体机,和永远追求大显示的矛盾。目前看来,“皇冠上的明珠”就是,人类凭借裸眼的三维显示交互。一旦屏幕边界、显示边界被打破,人类伏案、坐姿、手持小屏等固定姿势也肯定会被改变,二维平面将不再能够满足需要,三维的空间显示和空间计算会真正爆发,这会带来原本割裂的物理现实的显示和虚拟数字内容的显示逐渐交融混合在一起
6)一旦年轻人发现“时间是被可以折叠的”(指的是:通过熬夜、倍速、多个窗口/多台设备同时干不同的事看不同的东西等手段来延长自己的可用时间),就会更加想极致利用时间,甚至加上空间,背后就是对时间空间的饥渴和拓展。种种迹象表明,年轻用户们已经发现自己这种企图折叠时空、拓展时空、拓展生命的越来越强……
当人对时间/空间可以折叠也可以展开、人和自我/外界都处理到了可以随意切换的新型关系时,元宇宙的“境界”可能就形成了,其实就是这种类“混元”的状态
7)AI软件、硬件不断耦合,来帮助人类自动补齐、衔接生活中的所有多任务心流链条中间的各种断点,自动执行完成各众环节的间隙任务,心流链条将顺滑、连续、更长。Vision Pro上面新出的各种开发应用,大多是立足于助力Multi-task场景,而借助的最主要力量就是三维空间显示交互
8)人类干活从自己按部就班式执行变为等待AI执行成果,完成对人类“执行力”的大幅解放,帮助人类从数千年的“执行者”脱身。往小处说是,顺应了广泛的社会性疲惫和人类不可逆转的惰性。往大处说是,下个历史时期,人类精力会转向放空修养、筹谋、创意、思考本质内核,过去强调的人的执行力的重要性将让位于人的思考认知力。机器人和AI都将为人类大脑脑力节省出大幅能量。人类原先向体力四肢分配的能量,将大幅向感官倾斜,而所有感官最后都要优先给大脑脑力,这可能是碳基生物为了未来与硅基生物博弈的提前能量腾挪的不自觉准备
9) AI的发散性会突破结构化结构,尤其是表格。用户和信息之间匹配的精准度,加入了AI在学习了用户习惯之后对用户意图的识别和揣测。“人找信息”快速向“人坐等信息ready”转换,同样是节省人类在思考、认知、创新之外的能量消耗……
我们知道,“科学理论、发明创造、技术、工艺、产品方案”是不同的层级,分别对应了科学家/科研人员、发明家、工程师、工艺师、产品经理等等。
这里我们可以回顾下触屏技术的“构想-研究-以此创业开公司-深度攻克-先驱产品化应用-世界范围的商用爆发”全过程,那时还没有一级创投市场,但是触屏技术还是破土而生了,并且花了50年时间经过这些先驱者们的手手传递精准地找到了“最大的钉子”。参与传递的这些先驱全都像有先知般地坚定笃信,而世人仿佛醉了几十年,直到看到触屏智能手机被端上面前。说明这些先驱者们本就有更好的联想力、更敏锐的嗅觉,甚至比科幻电影还提前了20年(科幻剧《星球大战》1987年提到了触摸屏概念)。向上一波先驱者们致敬。
无论哪种都需要包含传感器、触摸检测和触摸。触摸屏本身就是一个传感器,同时也是触摸检测器。当手指在触摸屏上一点,触摸点就会被触摸屏检测出来,触摸将收集来的信息转换成触点坐标,判断出触点的意义;这个命令被解读之后,信息即被送入主机,从而按照传入信息执行命令。触摸屏技术第一次让屏幕显示从单向显示转化为双向互动交互,也使显示技术从单纯研究显示效果向变种为交互技术开始迈进。
1965——英国马尔文皇家雷达研究所的 约翰逊(E.A. Johnson) 在杂志发表的论文《触摸面板:一种新的电脑输入设备》一文中首次提出了触摸屏的概念
1967——约翰逊将这个设想变成了现实,制造出了世界上第一块电容式触摸屏。但这时它的最大问题是只能计算一根手指,同时也不能感知接触的力度。英国航空管理局、欧洲核子研究中心等单位将约翰逊发明的电容式触摸屏结合指挥系统,从1973年开始投入使用,一直工作到了90年代末
1970——原在肯塔基大学任教的美国人 塞缪尔·赫斯特博士(Dr.G.Samuel Hurst) 用导电纸读取一对(X,Y)坐标,就此偶然间发明了利用压力改变电流传输的电阻式触摸屏。尽管资助这一项目的学院并不认为这一发明能够在短时间走出实验室投入商业生产,塞缪尔博士自己却认为只需要通过进一步的改良,这项技术与计算机屏幕的结合将会替代鼠标成为控制计算机更加便捷的方式。后来的历史证明他的直觉预见是正确的。这之后,塞缪尔去到橡树岭国家实验室(ORNL)工作,开始利用下班的空闲时间研究这个,并邀请了9位在其他领域各有造诣的好友一起加入研究,在家里的地下室里成立了名叫“ Elographics”的公司 ,意为“电子制表(electronic graphnics)”,也就是说创业开始了
1971——与此同时, 美国Carroll Touch公司 最早商业性地开发了基于红外技术的触摸屏。 美国伊利诺伊大学 把触摸屏安装在PLATO IV计算机上,用于课堂辅助教学。后续沿此路线, 惠普 推出的PC-150是最早的商用触屏电脑之一,屏幕上网格红外线可记录手指运动。由于红外式触摸屏存在诸多局限性,在发明后相当的长时间内并没有发展起来,电阻式触控技术仍炙手可热
塞缪尔团队申请了电阻式触摸屏的专利,并且以手工作坊的形式团队亲手制造触摸屏样机:有人负责制造传感器,有人负责计算器编程,有人负责制造导电板,最终在塞缪尔的家里将这些部件手工装拼在一起。这群科学家们首批制造出了25台成品触摸屏,并命名为“E-100”
1973——塞缪尔的“电子制表”公司被美国《工业研究》杂志评为当年100项最重要的新技术产品之一,之后生意开始滚滚而来。公司开始有了专门的办公场地,开始改进并大量生产触摸屏,还开始雇佣专业的经理和营销人员,将研究以外的事务都交给了他们。而公司最困难时账上只剩10美元
1977——塞缪尔的“电子制表”公司开发出了可以应用在计算机上的电阻式触摸屏, 摩托罗拉公司 推出了第一款支持触摸笔输入的掌上电脑Palm pilot
1982——触控技术自发明起就有一个难以解决的技术难点,即:只能实现单次点击,无法多点同时触控。为了解决这个问题,1982年 多伦多大学 NimishMehta研发了一种通过内置摄像机追踪手势的平板电脑,这项技术使得屏幕可以同时读取多个触摸点,但这并不是真正意义上多点触摸屏。
大约在同一时间,美国计算机设计师 迈伦·克鲁格(Myron Krueger) 开发出了一种光学系统,它可以追踪手势运动,这可以说是今天使用的触摸屏中手势识别功能的先驱,当然这也不是多点触摸屏。Myron Krueger设计出了手势交互技术,他开发出了一个光学系统以跟踪纪录手的移动。克鲁格设计的视频地带(video place)后来被称之为视频台(video Desk)。他用一个投影器和一个视频摄像头跟踪记录人手,手指,及相应的人。不像多点触摸技术那样,完全不需要知道是谁及是什么东西在触碰,但软件可以对不同的姿态作出响应。却没能得到应有知名度。克鲁格在他的职业生涯的后期,成为虚拟现实及交互操作艺术的先驱。
这第一块具有多点触摸功能的屏幕诞生于1984年,这块首个透明多点触摸屏的叠层屏幕由 贝尔实验室 的鲍勃·鲍伊(Bob Boie)制造,他将一组透明的电容触摸感应器放置在了一个CRT显示器上,用户第一次可以用手指直接操作多个图形目标,而且屏幕的反应时间很短,这可以说是一个伟大的进步。
塞缪尔与 西门子 合作,将电阻式触控技术应用于电视机。不过此时,对于电视这样的单向媒体而言,触摸屏显得昂贵而多余。触摸屏要真正走入普通大众的生活,还有漫长的商业化道路要走。
1983—— 惠普 发布了第一批触屏电脑之一的HP-150,HP150搭载的名为红外线触摸屏。触摸屏这个亮点并没有给HP150带来多少人气,因为它所搭载的MS-DOS本质上是一种字符操作系统,即便搭载了触摸屏显示器,绝大多数操作也还是要通过键盘操作,加上还有一些使用性问题都没解决,自然绝大多数消费者看着高昂的定价都会转头
1990S——触摸屏开始出现在当时最新的高端PDA(Personal Digital Assistant,个人电子手持终端)里,当时的快译通和文曲星都有过触摸屏
1993——由 IBM和BellSouth 推出第一台触屏电话IBM Simon个人通讯器。在此后的近10年时间里,以摩托罗拉为代表的各大手机厂商都推出过触摸屏手机。但是,无论是从成本、耐用性、可维护性还是使用习惯上看,触摸屏手机比之普通的按键手机都没有明显的优势。这种局面直到iPhone手机横空出世才被改变
1993—— 苹果公司 也推出了可触的Newton掌上电脑,使用的是电阻式触摸屏,定位于高端商务市场。尽管MessagePad100销售量也不高,但苹果仍然坚持生产了6年多。事实上相当于苹果创造了“PDA”这个词。但PDA的概念一出,跟风产品便在市场上泛滥开来。在一场混乱的价格战中,“Newton牛顿”败走麦城,苹果公司也几乎因此走到了破产的边缘。
1997—— 乔布斯 重回苹果,砍掉了 斯高利 的Newton系列,但改变人们使用PC方式的想法却被乔布斯继承了下来。出于乔布斯一贯化繁为简的设计理念,他对新手机的要求之一就是这款手机只能有一个按键。要做到这一点,只能选择触摸屏。由于当时在市场上充斥着各种低劣垃圾的PDA,所以他另辟蹊径,选择了在当时还属于尖端技术的电容式触摸屏
1998—— Palm公司 凭借Pilot系列统治PDA掌上电脑市场近10年,又新推出了它自己的第一代掌上电脑Pilot,一时间成为商务人士的必备
1999—— 特拉华大学 的教授John Elias和正在攻读博士学位 的Wayne Westerman 先是发表了题为“Hand Tracking,Finger Identification,and Chordic Manipulation on a Multi-Touch Surface”的博士论文,详细阐述了今天所知成为现代设备配备的触摸屏技术主流的“电容性多点触摸”关键性技术,而后创立了 FingerWorks公司 ,基于韦斯特斯曼的研究,FingerWorks开发了第一批多点触控产品,包括TouchStream LP、MacNTouch和iGesture Pad等产品都广受好评,但是由于价格过高,这些产品在发行之后一直是高端定位,无法真正融入广大消费者。显然,教授们对于商业市场经验不足,但FingerWorks始终严密地做好了自身技术专利的申请布局和法律保护,这才为后面的故事做好了准备
2000——FingerWorks还在为公司到底做出什么样的产品和如何融资而发愁。偶然在一次投资人会议上遇到了一位精于商业运营的投资人 Jeff White ,后者在看了他们的技术演示及专利情况后提出加入,并许诺可以帮助他们盈利,条件是由自己负责公司管理和运营。在Jeff White的操持下,FingerWorks与IBM、微软、NEC、苹果等企业开始了接洽
2001—— Alias/Wavefront 为大型设计团队推出了基于手势的Portfolio Wall,面向日常处理,由通用汽车与Alias|Wavefront公司的人员共同完成,用户仅用手势就可以操作图像、动画、3D模型
2002——加拿大的 DSI Datotech 公司开发出了支持多点触控的HandGear设备。HandGear能够使用户更好的实时把握三维物体,该公司甚至开发出了自动桌面的应用接口。不幸的是,当他们打算继续推进的他的多触点技术设想时,公司资金消耗完竭致使DSI Datotech公司早早关门
2004—— 任天堂(Nintendo) 的掌上游戏机NDS在全球热卖,其最大的热点就是NDS拥有两块屏幕,其中一块是触摸屏。触摸屏随着NDS的流行而进入了更多人的视野。
微软 曾经在Winter框架下,先后尝试推出了SmartDisplay、TabletPC等产品或概念。这些产品同样以触摸屏为重要卖点,这说明微软也想到了触屏的趋势,并不是没想到,但却没有取得苹果iPad那样巨大的市场成功。说到底,微软太想把它在PC操作系统上的优势复制到其他领域,而忽略了到底什么样的操作方式才更适合新品类Pad。这就回到了人性,人们使用PC时往往在桌前正襟危坐,而用pad时则是更休闲懒散的姿势,基于前文的分析,姿势状态的不同必然导致对操作系统的不同要求。微软的软件/操作系统基因,使得对硬件的思考方式一开始就脱离了人性需求M的出发点,而是事事从Windows出发,无法开拓出来认知以外的业务
2005——关键的来了: 苹果 在了解 FingerWorks 的专利布局情况之后,快速收购FingerWorks,连同FingerWorks所有的多点触控专利技术和产品一齐收入囊中,一举补全了关键性技术专利,并快速用在了拳头新品上
FingerWorks的创始团队当然获得了不菲的收益,创始人Westerman和Elias后来都成为了苹果的技术管理层,Jeff White则成为运营专家见诸报端。苹果在后来则不断为这一技术在美国、日本、欧洲、韩国等国家和地区就不同的创新点申请新专利,衍生出了几百件的专利家族体系,牢牢地将多点触控技术的核心专利控制在自己手中。这就是经典的有效收购,所有人都赢了……
然后6月,第一代iPhone发售,重新定义了智能手机。在iPhone发售之前,智能手机的定义是“用户能够自主安装软件的手机”,而在iPhone发售之后,智能手机的定义变成了“屏幕可以滑的手机”。人们很快地接受了这种“触摸”的操作方式。点播歌曲、银行取款、图书信息、医院挂号机、车站购买车票、电影院里的售票机等,可触摸屏幕开始无处不在、无处不用。iPhone的出现,第一次让触控屏从之前的曲高和寡,步入到大众消费者之中。在此之后电阻式触控屏开始走下坡路,电容式触控屏昂扬向上,很快在智能移动终端确立起自己的核心地位,并逐渐扩展到中大尺寸屏幕设备上。触摸屏已经发展到了用手指触摸的位置、触摸的力度和触摸方向来表达更复杂的指令
下半年,诺基亚的工程师出具了对第一代iphone的评估报告,后续结论主要是“目前不太可能对诺基亚构成威胁”。当诺基亚得出这个结论时,从乔布斯苦心孤诣开始做触屏产品算起已经10余年,距离乔布斯2011年因病去世还剩4年
第一代iPhone使用的是电阻式触摸屏,支持基本的触控交互。后来苹果逐渐开始使用改用电容屏,极大提升了操作手感。虽然此后至今电容式触摸屏大行其道,电阻式触摸屏已经很少使用,但在2007年之前,电阻式触摸屏式占据绝对市场主导地位,因为当时电阻屏的技术更为成熟,成本更为低廉,使用寿命也比电容屏要长。这2条技术路线的商业化之路,从投资创业角度上来说都称得上成功。这些科学家团队别说没有商业化经验,研发上更是没有任何可参考借鉴资料、在没有融资的情况下、自己动手作坊式生产,现在看来堪称疯批,但也就这样走下来了。
峰回路转的是,无论是电容式触控还是电阻式触控,在大尺寸触控显示方面都面临着瓶颈。电阻式触控的技术原理使其无法应用于大尺寸显示,而电容式触控在2007年之后的很长时间内一直无法突破30英寸以上屏幕的触控,虽然现在已经可以做到100英寸左右,但成本和价格较高,这使得红外触控技术获得了发展机遇。不过红外式触控也有不足,就是分辨精度不是很高,而且怕强光干扰、灰尘和水,较大的水滴或颗粒物导致产生误触摸信号。因此主要应用于40英寸以上中大尺寸、无红外线和强光干扰的、要求不是非常精密的场所,70英寸以上是红外式触摸屏大显身手的地方。
交互的重要性不言而喻,键鼠和GUI(用户图形界面)之于PC,触控之于手机,都完全改变了人类和机器交互的方式。曾几何时,我们是生活在九宫格或者全键盘上的“拇指族”。一股浪潮席卷而来,手机上的实体按键都消失了,虚拟按键仅在需要时出现。现在我们又走到了下一个关口:用户不再需要不断重复掏出手机、解锁、打开App、操作完成、锁屏并放回口袋等等动作,图像显示界面也仅在需要时浮现……
如果说2023年最大的科技趋势是AI软件的变革,随着AI芯片、端侧大模型的普及,AI硬件的变革就可以断定将是2024年及以后的最大方向之一。但AI是技术,不是产品,无法直接产生用户价值,所以留给2024年和所有消费电子厂商的共同命题是:AI时代如何做产品。任何变革都不是一蹴而就的,就算不考虑初代iPhone之前数十年对于“手持终端”的探索,也花了好几年才确定今天智能手机的产品形态。AI硬件亦然。在不久前,《MIT科技评论》杂志就将几个月前火过的AI Pin列入“年度争议性技术”,无法否认一点:AI正在改变消费电子产品,也必将改变。
当技术突破遇到礁石需要投入更多力量时,产品经理的角色是否就可以忽略了呢?未来,产品经理的角色是否还重要?如下图,人类产品经理的总体思路(最佳方案最简方案)其实一直没变,但是关键细节上又各有各的灵光:
一方面,整个产业都需要大量的产品经理,一方面又知道同时具备用户同理心、原创性、平衡感的天才产品经理是多么稀缺。天才的产品经理,无一不是精准地用巧劲牢牢抓住了人性的。产品经理,要比户提前很久就完成想象、推演和判断。故而,成为好的产品经理的前提是知道什么是好产品。在做出好产品之前,至少看到好产品能够马上识别出来。这种“嗅觉雷达”可以通过好产品来启发培养,但更多的是一种天赋和直觉。这需要给予足够的自由、耐心和决断权力,以致于要求创始人自己本身就得是一个出色的产品经理,而不是完全依赖于话语权不多的下属。当然,不排除在三维空间显示交互时代,用户们会人人即可参与产品经理的一部分。
至于如何技术实现,各条技术路线的研发进度和产品实现在这里就不详细展开了,后续会就细节访谈一些在一线奋斗的创始人,也欢迎添加文末的联系方式进群讨论交流。
C端的接受阀值高于B端:对新品类新产品,B端的接受门槛阀值总是比C端更低,B端的可应用条件相较极致的C端更为宽松。以触屏技术为例,我们清晰地记得在智能手机面世之前,我们就已经在电视上看到电视台主持人们在节目上开始使用,开始可以通过手指/触控笔直接在背后的大显示屏上翻页、圈画等等
C端的接受阀值虽然高但是基本相近普适,因此C端的接受往往是迅速普及推广的:这种带有点“周期性”的匹配Fit,看似是忽如一夜春风来的“横空出世”,但突然的匹配Fit前、长夜难明前主要等待的是关键技术的突破。就像智能手机首次应用的触屏技术、摄像头、移动支付、电子栅栏定位技术等等,但毫无疑问首要位置的是触屏技术的突破成熟
C端的价格敏感度没有印象中的那么强,但这是有条件的:在达到匹配Fit的时刻,通常被认为消费者们关心的价格因素甚至会退至后面。只要产品P确确实实地达到了C端的广泛阀值,用户是会肯定产品和技术的巨大前进的。就像当年戏谑的“买iphone”,大家没有对惊艳产品的高昂价格口诛笔伐,反而转为了对自己的无能狂怒,才会有了这样的真事和戏谑;反而是手机厂商“挤牙膏式”的每年微迭代,才让用户们对并没有下降多少的价格越来越诟病不止
虽然需求M和产品P/技术T在相向过程的动态中互相促进,但终极需求是一直在那里的,一直遵循人性的,由于人类需求是远远超前于人类实际技术水平的,所以基本上可以说是技术适应追赶需求,而非需求被技术塑造,所以硬件方向需求的轮廓是有研究意义的。例如前文提到的人类对“大显示”的追求,在AR/MR、全息投影实现之前,就以各种投屏来解决,人类是很聪明的,各种过渡方案也是有很大的经济利益的,这一点拼多多各种白牌大显示器动辄过千的月销量可以佐证
这里又想说下近期广泛被讨论的TPF和PMF,很多人会觉得是技术先行,技术未来发展到什么方向不清楚,光有需求但是技术实现不了,那么对于需求的研究就意义不大,至少在硬件产品上需求才是在前面引领着技术往前探索发展的“吸铁石”。所以至少在交互硬件上,对需求M的历史脉络和动态预测是十分必要的。至于技术层面的研究和发展,应该交给实验室和产业里最前沿的科学家、工程师和创业者们。
回看历史上出现的几次规模广泛的“换机潮”前夜的轨迹,我们有理由相信现在到了为下一次换机潮所需的攻克而全力努力的时候了。我们试着大胆预测:
硬件的高度重叠中心化被打破,视线随之去中心化、分散至整个空间,视线所及皆可计算、交互。硬件设备在不同的可穿戴位置上轻量化、小型化,分层次地形成一个体系,配合着眼动、手动、肌肉电信号、脑电波以及目前尚未被发现的等等介质。
在“触屏”时代,点击click的一刻产生流量,流量就是用户们的注意力。流量入口就是点击入口,移动互联网时代的这个入口基本处在app层,app就是吸引用户注意力的最大单元形态,app里面的账号、账号里面的单条内容则是最小单元。当移动互联网层层分发层次体系下的内容供给越来越多后,用户们的注意力除了头部内容,剩余注意力分布也就越来越分散,集中流量变得稀缺和昂贵,流量的聚拢越来越困难,聚拢的边际成本越来越高。最后就是身处移动互联网其中的所有,可能存在间发性的“翻红回血”,流量长期都在下降。
未来,应用及上面的内容不再以用户为目标渗透对象,而是以我们所在的物理空间作为渗透对象。不同于人类用户的一人只能注册一次、一人只能渗透一次,物理空间可以被不同的应用/内容在不同的时点多次填充渗透。对用户时间的抢夺,将变成对用户“时间×空间”的抢夺,大大拓展了我们面对的“全集”。
至于如果出现信息爆炸、空间中的显示过载、人与信息匹配机制进化等担忧问题,边走边去解决,交给大家和年轻一辈的智慧~
关于大模型和硬件之间的关系,有几种已知的构想,①大模型作为应用之一;②大模型取代所有的应用,作为操作系统级别,适逢德国电信联合高通、Brain.AI努力几年共同推出了“无app手机”——T Phone,没有app这种最小应用单元,也就没有app store应用商店,直接在操作系统层级上面 发展AI能力,挑战已久无更新的安卓和ios ;③大模型作为传感器……
即使一段时间内仍保留app,各种二维互联网时代的app也需要开始适配空间显示计算,以后要么转置成三维应用得以留在前端,要么可能就彻底沦为被Agents调用的后端资源。
今天我们主要探讨了需求M的脉络,也简单回顾了上一波P、T是如何发展起来的,并总结出了可以Fit匹配时的迹象和规律,可以说对AI必然要与三维空间显示、交互、计算结合在一起的这件事的原因和逻辑做了整体梳理,如果这是一个确定性的方向,那么我们又该怎么看待它,怎么身处其中很好地自处呢,在实现那一天来到之前?
对短期内谨慎乐观,那是因为“忽如一夜春风来”之前,是难以计数的产业内从业者和利益相关者坚持每一天的努力,需要勤奋的天才产品经理和工程师在黑暗中把乍现的灵光不断的尝试,一点一点地向前拱。这需要时间,需要消耗,需要资金,需要对天赋的耐心,需要敬畏……
而远景的乐观,除了对年轻一辈天赋和勤奋的相信,也是由于在上一波浪潮后硬件已经形成了全球化市场,C端用户们的信息获取渠道日益开放,信息平权使得各国用户们对于新硬件几乎没了信息差;同时硬件可以提供的使用体验、满足的人类需求具有普适性,这让硬件背后的技术研发商、零部件供应商是技术中性的,相比软件的政策风险更低,而未来硬件和软件的耦合程度可能会达到连开发者都难以分离的程度,或者说可以强行分离,但分离后无法使用失去意义。
回看美国、日本的硬件发展史,长河里尽是先驱,有自始至终没有等到充分商业化变现的,有中途失败继而转型耕耘细分市场的,有产品化不尽如人意但给后来者提供了思路和阶梯的……
各有各的历史阶段,各有各的历史任务,即使站在今天听这些公司的名字依然觉得有创业投资的价值,即使先驱者们没有抵达最初的目标山峰,但也称得上伟大,称得上完成了历史任务,起到了承上启下的作用。这山峰强如苹果乔布斯,也是站在无数前人的肩膀上才爬上去的。“集大成者”是硬件行业的一个高频词,惊艳的性硬件和AI全都是特定时间段至少往前10年的集大成者。但先驱者们同样重要甚至更为重要,没有一个个先驱者们永远不会有最后的集大成成功收束者。
站在原地静态地judge并不能给赛道和生态里的从业者们什么精神和实质上的帮助,除了眼看着下一代的硬件可能又是率先诞生在大洋彼岸。期待创业投资者们一起创造更为激荡澎湃的下一个40年……
最重要的一点就是当碰到难题时,我们能经常先回到“什么是对的事情”而不是停在讨论“这是不是最好的(赚钱)的办法”上。本分这个东西看起来似乎不起眼,但20年到30年后的差异就是我们公司的现状和当时我们那些竞争对手的现状的差异。我至少还能想起来几十个当年看起来比我们强大很多的对手,从游戏机到学习机到VCD到DVD,无不如此……——段永平
现组织了“MR+AI技术产品一级市场讨论群”,欢迎多多交流探讨!请注明机构、名字和关注方向~