什么时候我们才会迎来个人智能机器人时代

nksakdfn · 发表于 2021-9-16 19:11:36

随着以智能手机为首的智能设备普及，以及人工智能概念大潮席卷神州大地，人们开始思考一个问题，人形态的机器人是不是智能设备的发展方向？

不同的人对这个问题有着不同的看法，科学家与工程师们在这个领域进行了长期的研究。

从科学的角度来说，我们只有推翻所有可能性才能证明一件事情是不可能的，而证明一件事情成立却只需要一个可重复的案例，这激励着工程师们进行各种各样的尝试。

让我们假定，如果人型机器人就是智能设备的发展方向，是什么原因会导致对伴随形态人形机器人的需求呢？

我的答案是：对环境交互的复用。

环境的交互
让我们把环境分为三种：人类，人造物，大自然。

首先是人类，传统来说，人类与人类之间的交流常常通过口头语言与肢体语言，换句话说，听觉与视觉是人类交互的输入输出主体。而人与机器交流则往往更多的使用触摸，点选等等隶属于触觉的操作，这对于传统人类来说是反直觉的。

如果机器人注定是要为人类服务，那么让机器人更多的接受听觉与视觉输入，能听到人类的口头语言并且看见人类的肢体语言，并且使用肢体动作以及语音向人类进行反馈，这可能会是一种有用的发展方向，因为机器人「复用」了人类与人类之间的交互界面，这对一部分人类来说会更具有亲和力。

小插曲：在这个话题中，现实的「理工男」与「文青女」展开了激烈的争论，理工男认为这些人性化输入方式效率不高，精准度欠奉，实用价值不大，然而文青女却认为这就是自己想要的，即便动动嘴比按一下遥控按钮明显耗费更长的时间，她也依然觉得这是更好的操控方式。

然后是人造物，人造物常常被设计为与人类交互。例如茶杯是为人类的手指量身定制，门把手适合人类手臂的高度并且适合手掌握持，楼梯被设计得适合人类步进的高度与脚掌长度。凡此种种，这个世界上已经存在的大量的人造物，都是被设计得最适合与人类交互。如果机器人被设计为人形态，则可以直接复用与这些人造物的交互接口。否则，这些人造物就需要专门的为机器人设计的交互接口。

一个反面的例子是机读答题卡，为了能够让机器很好的识别它，我们对它的尺寸，黑标定位符，厚度与尺寸，格式，涂写的深浅甚至使用铅笔的标号都必须作出严格的要求，即便如此，参加过考试的大多数同学们，经历过涂写答题卡的胆颤心惊，依然会觉得涂写答题卡是一件反人类的操作。如果一件人造物被设计得优先兼顾与机器交互的接口，那么它的使用往往会让人感觉非常不自在。

模仿人类的交互则必然需要机器人具有与人类相似的动作器官，最典型的是具有同样的躯干、四肢跟五官，它们的存在对更好的使用人造物非常重要。

人造物交互往往对机器人的材质以及动作能力提出更高要求。但在这个问题上，无论是科研工作者还是普通用户，都奇迹般的保持了一致观点，那就是机器人使用人类的接口与人造物交互是一件很酷的事儿。而机器人使用专门为机器定制接口的交互相比之下并没有那么激动人心。

最后，是大自然，人类经过几十万年进化成现在这个样子，最主要是适应大自然，因为天然造物本身无法改变其交互，无论人还是机器人，都只能主动去适应它。

面对大自然的交互，人形态当然不是唯一可用的设计，甚至不一定是最好的设计，但它却是一种已经被实践证实可用的设计。例如，有很多人质疑为什么人类没有进化出轮子，但轮子在大自然环境中的通过性其实很糟糕，越野坦克更需要动用履带。

腿其实是另一种版本的轮子。如果我们仔细观察一代摩拜单车的五个臂，会发现与地面接近的臂始终只有两个，人类的双腿在自动轮换之后，其原理也基本等效为一个轮子。

越野行走，攀爬，跳跃这些是与大自然交互可能出现的挑战，在科研工作室中，目前的机器人已经有能力做到这些。

硬件的发展
智能手机的发展可能给人类一种感觉，目前我们已经可以在如此小型的设备中配置一台功能几乎完整的电脑。这个观点是否适用于机器人呢？

人类的输入，大致有听觉，视觉，触觉，嗅觉，味觉，以及被称为第六感的直觉。人类的输出，则会是身体数百骨骼与肌肉运动的组合，它表现出的输出主要有声音和动作。

电脑在模拟人类视觉方面，采用了取巧的办法：因为人类的眼睛只能分辨三种频率的光，所以电脑也就只采集这三种频率，常规电子设备的显示器只显示三种颜色，常规电子设备的摄像头也只采集三种颜色，有三种颜色像素点的显示器在人类看来显示出了看起来与真实场景一样的图像。

人类识别出的所有颜色都只是基于三种频率的颜色成分的不同加权组合，如果对每种频率的光设定256个强度级别，那么一共能组合出16777216种色彩，也就是一千多万种。

如果对于一些特别的生物，可以识别四种颜色，那么可以组合出的色彩将会增加到4294967296种，也就是四十多亿种。他那么他可能会发现，电脑显示屏显示的图像，没有一个是真实的。个别的人类因为基因变异等原因能识别四种颜色，他的人生是痛苦的，因为其他人对颜色的感觉都与他完全不同，他很难与人准确分享他的经历。

仅仅只多一种频率判定，能识别的颜色就多了许多倍。而对于嗅觉传感器来说，人类与其他生物差别更大。人类能识别的嗅觉种类是个位数，而犬类可以识别几十种。按照强度组合，这就意味着，如果人类识别的气味是亿级，那么犬类能识别的气味种类是天文数字。

如果机器人能够完整的检测五感，则其信息收集将更完备，然而现状离这一点还有一定差距。这是因为，虽然有更多的输入源，但人类的输出仅仅以声音和行动为主，味觉与嗅觉只参与输入，并不参与主要输出，硬件方面的味觉和嗅觉的研发现状落后于声音跟行动。虽然在实验室有一定的成果，但离普及的民用产品尚有距离。因而，目前可以民用的机器人，还是以对声音以及运动的输入输出为主。

对机器人来说，声音大致可以对应语音输入和语音输出，行动输入可以对应摄像头，行动输出可以对应四肢。这是目前能达到的程度，不过对行动能力的取舍，我把设备分为三类：带着动，自己动，两者皆有。

一类设备是人类带着动的设备。比如手机，一般放在手上或者包里或者桌子上，相对都是比较理想的环境，万一掉地上或者水里，立即会捡起来擦呀擦。又比如智能音箱，我们通常会把它放在室内的桌子上，如果需要移动，只能由人类把它移动到另外一张桌子上。

二类设备是自己运动的设备。比如扫地机，他们天生被设计为在相对复杂的恶劣工况下运行，我的扫地机可以勇敢的扫过风吹雨打的露台，然而这样的设备虽然脏，我们也不会过于在意，因为你不会想把扫地机抱在身上，也不会过于在乎它可能不太体面的外观。

第三类设备，则需要同时满足以上两种场景，它需要经常被人带着移动，同时还需要自己能动。这类设备有体面的外观，需要与人类亲密接触，同时还要在地上摸爬滚打，它的角色在不断从二类到一类互相转变。这类设备不算太常见，某种例子是机器宠物狗。如果它是一只宠物，那么就必然存在与人类亲密接触的需求，而同时，如果机器宠物狗的体型确实有真正的狗那么大，它平时必然需要呆在地上自己跑。

智能设备的移动性越强，就越能满足更多场景的应用。通常来说，移动性可以体现为便携性与运动能力两方面：其中，便携性可以让人类「带着它走」的时候更为舒适；而运动能力则可以让设备「自行移动」的范围更广泛。网上有动手能力较强的玩家把智能音箱接上电池供电然后固定在扫地机上，从而使得智能音箱可以在整个家里不同房间自由行动，这就是便携性与运动能力综合起来的一种思路，它的问题在于扫地机的过坎能力并不理想，如果扫地机能适时的变形为人型进行障碍跨越，然后变形回轮形态移动，或许就更完美。

与生物一样，电子设备的运动能力同样收到尺寸的限制。这是因为设备的重量与尺寸的三次方成比例，而四肢运动的力矩仅仅与尺寸是线性关系，地面接触面积则仅仅是尺寸的二次方比例。把一个小尺寸设备等比例放大之后，它的运动能力将大幅度下降。因而，限于现有条件，人类的智能机器人，很可能是会从小尺寸开始，逐渐发展到大尺寸。

人工智能领域
普罗大众对人工智能的能力从怀疑到信任，可能是自阿法狗开始。不过说到人工智能，总是离不开神经网络与深度学习。

在人工智能之前的时代，程序们接受已知范围内的输入，按照已知的算法，产生已知的输出，大多数电子设备的实质表现就是一台有限状态自动机。有限状态自动机的优点就是给定了输入输出以及状态，所有响应都可预期。

然而，人类却似乎存在某种能力，对于从未发生过的未知状态，也能紧急的作出合理的应对。人类对于未知事务的应对能力来自于过去的人生经验，甚至可能会有一些失败的，碰壁的经验。它超出了有限状态自动机模型的范畴。

对于围棋来说，为什么要动用人工智能，主要原因在于以现有计算机的运算能力，无法穷举所有的情况，也就无法把所有的棋局都变成已知，无法把整个棋局变成有限状态自动机。那么就必须通过之前的对局经验，去应对未知的棋局。而阿法狗可以通过自我对弈的方式实现充分的大量的自我学习，获得足够多的失败经验。已经足够刻苦的柯杰，迄今为止下过的棋局数量也仅仅是万级或者数万级。而阿法狗的训练局数则是百万级起步，在如此大的先验学习样本下拉开与人类的距离，战胜人类并不算什么奇迹。

然而，对于除了围棋以外的很多现实事物，并没有那么多的机会让人工智能进行学习，或者说，并没有那么多的机会让人工智能进行试错。如果人工智能无法预先获取比人类多得多的学习样本，那么它即便增加了神经网络的深度学习，依然难以战胜人类。一个典型的例子就是A股。首先，人类与人工智能能获得的数据都是一样的，同样都仅仅只是现有的公开的真实交易数据，其次，A股作为政策市，表现往往具有强烈的时效性，多年前的历史未必具有非常强烈的可参考性。人工智能的交易机会以及可获得的数据量基本等同于人类，在输入数据量相同的情况下，人工智能的学习能力并不会大幅度超过人类，于是谷歌的团队在研究A股人工智能交易多年之后惨败收场。

如果深度学习的数据如此重要，那么一个最理想的成年情感交流机器人，需要是真实的经历了幼儿园，九年义务教育，工作，甚至结婚生子的人，它有了足够多的经历，与足够多的人交流，有了足够多的学习与反馈，这样的机器人才能更像一个人，更加人性化。

然而，机器人本身并没有人权，因为它无法担负任何责任。人类做了错事，将可能牺牲自身的财富与健康作为代价，在这种责任担当下人类被赋予进行一些决策的权利。让机器人获得成年人那样的经历，往往需要赋予它完整的人权，这在现有的社会框架下很难做到。目前机器人的数据来源只能是基于不完全行为能力人类。

因而，以现有可以模拟出来的，智能机器人的智能化程度大约会是个未成年人水平。

猜测与展望

如上所说，人形机器人一方面的侧重点在于人性，它可以用于情感陪伴或者单身陪护，限于社会学而非科学技术上的原因，目前机器人只能表现出孩童级别的智慧。

人型机器人另外一方面的需求来自对环境交互方式的复用，它可以被设计来直接操作原本用人类操作的物件。对于一些本身制作耗费较高成本，不方便另行添加机器人专用接口的事物，人形机器人可以以无缝透明的方式实现机器自动化。这涉及到各种各样的动作模拟，目前的机器人可以走路跑步甚至翻跟头搬运货物，虽然对一些非常精细的动作控制尚有不足，但在特定的细分领域已经可以很好的完成任务。

什么时候才会迎来个人智能机器人时代？一方面，取决于用户的需求，更多的需求就带来更多的商机，促使了更多的资源被投入到相关研发。另一方面，人类近200年来的技术成就比几万年的成就还要大很多，未来技术发展的速度往往难以预测，如果产生技术爆炸，较大的技术鸿沟可能在短时间内获得跨越。所以，迎来个人智能机器人时代的时间表，与技术爆炸的程度息息相关。

虽然目前，个人智能机器人的发展尚处于「起点」，但对机器人的研究其实已经进行了很多年，智能音箱的大卖说明了雏形状态的个人机器人已然存在着巨大市场需求，扫地机搭载的智能音箱甚至被部分极客当作心目中智能设备的理想形态，因而个人机器人的未来趋势是看好的，个人智能终端时代向个人智能机器人的转变会是人类文明进程中的重要一环。

广谈大湾网

热图推荐

什么时候我们才会迎来个人智能机器人时代

nksakdfn 楼主

nksakdfn
关注TA

图文推荐

春天多吃糯米，教你一个神仙吃法，上锅蒸一

英德云海江湾假日酒店！￥199抢住宿+自助早

深圳五一假期去哪儿看海？深圳这9大最佳海

被柳絮“伤透”的嗓子，全靠它润回来！清热

春天别忘了吃菠萝，教你创意做法，酸甜开胃

广谈大湾网

热图推荐

什么时候我们才会迎来个人智能机器人时代

nksakdfn 楼主

nksakdfn 关注TA

图文推荐

春天多吃糯米，教你一个神仙吃法，上锅蒸一

英德云海江湾假日酒店！￥199抢住宿+自助早

深圳五一假期去哪儿看海？深圳这9大最佳海

被柳絮“伤透”的嗓子，全靠它润回来！清热

春天别忘了吃菠萝，教你创意做法，酸甜开胃

nksakdfn
关注TA