尊龙app下载机器东说念主新纪元x地瓜机器东说念主隋伟：从自动驾驶汽车到机器东说念主，具身智能的技巧演变之路

发布日期：2026-04-02 14:05 点击次数：63

作家：王金旺

作家 | 金旺

栏目 | 机器东说念主新纪元

2025年年底，咱们初始操办《机器东说念主新纪元》栏目同名视频播客。

之是以有这么的思法，是因为在作念《机器东说念主新纪元》栏目访谈报说念这几年里，总会络续有东说念主问：你们的内容有莫得视频时势？

再加上身在其中的咱们，也亲自感受到了内容传播介质的更始，越来越多读者初始风俗“阅读”音频和视频，是以就有了作念视频播客的念头。

其时思到作念这个主题播客，开端思到的是，咫尺的具身机器东说念主本色上依然是自动驾驶汽车的一个技巧延续。

于是，就有了思请本就是从自动驾驶技巧商讨转向具身智能技巧商讨的隋伟博士来作念咱们第一期节目的嘉宾的思法。

2026年春节转头后，咱们邀请地瓜机器东说念主算法副总裁隋伟来咱们这里作客，在这之后在团队内几位同仁共同发奋下，有了环球今天看到的这期节目。

第一期节目咱们将主题定为“从自动驾驶汽车到机器东说念主，具身智能的技巧演变之路”，隋伟博士在一个多小时的访谈经由中，密集输出了大齐信息。

他告诉咱们，自动驾驶与机器东说念主系统中的任务，有许多相似之处；

他告诉咱们，关于模子来说，数据迭代成本和效鲠径直影响着居品竞争力；

他告诉咱们，为了锻真金不怕火自动驾驶的BEV系统，其时团队作念了100-200万视频数据的标注；

他告诉咱们，自动驾驶也好，具身智能也好，咫尺齐在模仿大模子发展的模子锻真金不怕火范式；

……

天然，这些仅仅本期内容的冰山一角，咱们信托这期节目能让你对具身机器东说念主有更潜入的通晓，也信托它能为你带来些许启发。

以下为本期节目内容QA精选（经整理）：

01 自动驾驶，是一类特殊的机器东说念主

Q：您是什么时候第一次斗争到机器东说念主的？

隋伟：我在读博士的时候就斗争过，但那时其实就是用机械臂来完成操作和持取任务，因为其时机器东说念主还处于比较早期阶段，是从预编程刚刚往深度学习、智能化迁徙的一个阶段。

咱们其时主如若用3D视觉去提示机械臂作念这种物体的持取，用的有关技巧的话，其实照旧模块化的技巧。

举例，先通过3D视觉识别物体的位姿，然后提示机械臂用传统的商酌适度方法去作念一些持取和操作。

其实这个技巧到咫尺来看的话也不算过期，像21年、22年的时候，许多这种操作任求推行上用的照旧这种方法。

Q：您是2019年加入地平线的，然后初始作念自动驾驶有关技巧商讨，其时自动驾驶是如何的一个发展阶段？其时有作念哪些劳动？

隋伟：2019年自动驾驶处于L2刚要初始普及，L3限于高速场景，城市NOA还处于相等早期的demo阶段。

2019年的时候，其实像国际，像特斯拉（这么）走的比较快的，还是要初始往端到端主见转，还是有个BEV有关算法，传感器这些布局也从单咫尺视布局走到了环顾布局。

咱们其时在作念的主如若单目往环顾感知，就是L2往L3、高速的L3（场景）转化的阶段，我其时主要作念的是深度意象，亦然用来作念避障，另外就是3D检测，其实也十分于是BEV的一个前身。

Q：您其时在地平线所在部门，在业务上和自后您在机器东说念主这块的劳动会有一些杂乱吗？

隋伟：我其时在地平线在的部门叫平台与技巧部，咱们其时是给统统这个词地平线体系的行状部，像智能驾驶行状部、机器东说念主行状部，提供一些算法和有蓄意。

因机器东说念主也好，自动驾驶也好，其实齐属于一种具身的形态，或者咱们叫机器东说念主商讨形态，咱们里面也会说，自动驾驶车辆其实是一种特殊的机器东说念主。

那它里面有一些任务口舌常相似的。

举例，统统这些，就不管是室内的破钞机器东说念主也好，或者像自动驾驶也好，其实它齐需要处治A点到B点的移动问题，其中触及到定位、导航、避障，触及到商酌。

是以咱们其时主要的任务就是给这两个行状部提供一些算法，尤其是像3D视觉感知类的，还有定位建图类的算法。

Q：自动驾驶十分于是把说念路这个事儿切成许多个场景来作念，如果是具身机器东说念主的话，在某个特定场景里面，它也需要把特定场景中的多个任务切分才能已毕在这个场景的初步通用吗？

隋伟：对，是以我认为像VLA的话，其实它跟着数据量或者模子的容量大小，通用性老是相对的，在某一个场景下去处治一类或多类任务，那我认为这其实是比较合理的一个范式。

自动驾驶其实第一它有博弈的安全性要求，有高效性要求，还有懒散性要求，这三者要求相等高。因为也就是在2024年，端到端，尤其是一段式的端到端起来之后，城区的这种NOA才到了好用的进程。

02 具身智能，让咱们多了一个上游，多了一个卑鄙

Q：您认为当时特斯拉下场作念机器东说念主对统统这个词行业来说迫切吗？

隋伟：相等迫切，不错认为是具身智能的一个拐点，但具身智能并不是一个新的想法，即等于在2022年之前，其实咱们在千般学术会议上齐有具身智能这个版本。

我牢记在2022年参加一个VALSE会议的时候，在天津那儿就专诚有一个workshop在讲具身智能，但其时齐在处治一些持取、planning建模的一些问题，但其时具身智能莫得相等火热的一个进程，用的也齐是像机械臂这么一些简便形态的一些机器东说念主。

到2022年底特斯拉发布了Optimus之后，把行业带到了一个新的高度，其实十分于是给这个行业建议了一个新的难题。

因为从东说念主形机器东说念主这个形态来看，其实不只消处治这些操作的任务了，还有一些运控的任务，还有一些硬件难题，其实是开辟了一个新的鸿沟。

Q：从居品形态上来看，其实您不管是在地平线照旧在地瓜，最终作念的齐是芯片，可是从技巧商讨鸿沟来看的话，您在此前后劳动有哪些变化？

隋伟：从自动驾驶转到具身智能这个鸿沟，咱们提供的齐是AI芯片和一些软件处治有蓄意。

从底层AI感知来看，我认为莫得太大区别，尤其是像感知算法，像地平线和地瓜推出的BPU这个AI加快模块，它其实是领先在自动驾驶中得到大限制考证，咱们许多AI感知算法齐有大限制量产警告，芯片和算法齐还是在自动驾驶场景里面得到了打磨，那我要作念的事情就是把这些还是打磨好的算法，还有之前的一些警告，迁徙到地瓜机器东说念主来处治具身智能鸿沟的问题。

但其实委果来到地瓜后，我发现要处治的问题还口舌常多，比如像在自动驾驶的时候，咱们不需要调理车辆的形态，不需要调理数据是如何聚集的，因为自身自动驾驶数据聚集就很高效，不管是聚集车也好，或者是数据闭环也好，齐口舌常高效的聚集神情。

在机器东说念主鸿沟，咫尺硬件还莫得调处，数据聚集也莫得拘谨，数据聚集成本高，如何去找到一条更合适的锻真金不怕火数据的取得有蓄意，况兼保证它是灵验的，以及用完这些数据完成锻真金不怕火后，让它勾搭卑鄙的适度去完成任务，这个其实有许多问题要处治。

自动驾驶其实不需要调理太多底层适度，具身智能咱们是需要调理的，因为现存这些模子其实无法兴奋致密化操作的要求，是以必须要和传统适度有蓄意、力控有蓄意勾搭起往来完成这么的一些任务。

是以就咱们多了一个卑鄙，也多了一个上游。

03 统统的深度学习问题，齐是统计学问题

Q：自动驾驶和具身机器东说念主其实是东说念主工智能不同阶段的两个迫切技巧载体，咱们咫尺再来看这两个系统的话，它们有如何的相似度？您之前在地平线作念自动驾驶有哪些技巧不错沿用过来，有哪些技巧不成沿用、但不错模仿？

隋伟：我认为自动驾驶是深度学习进行大限制落地实践一个相等迫切的场景，它的发展蹊径是不错给具身智能提供相等迫切的参考，致使汽车工业自身的发展也能给具身智能提供参考，其实我还专诚商讨了一下汽车发展史。

汽车其实一初始也不是像咫尺这么四个轮子、一个主见盘这种步骤化居品，简略在一八九几年的时候，其时好像是飞驰发明了第一台内燃机三轮车，主见盘也不是圆形的，而是有点像摇杆一样去适度前向的转向，这是第一台内燃机式三轮车。

这么的车其实它出来之后，兴奋不了大家需求，因为速率一快就容易翻车，是以到背面渐渐迭代出了四轮的形态，然后渐渐把主见盘变成了圆形，这个差未几还是是十年之后的事了。

再到1908年的时候，四轮车能够兴奋东说念主类出行需求了，是以其时福特就发明T型（车）分娩线，阿谁时候汽车的产量初始爆发式增长。

那在早期的时候，刚才说的早期车辆阿谁形态和咫尺的具身机器东说念主差未几，每年的产量简略也就是几千台，齐是行为一些糜掷或者是一些特地物，然后在一些有钱有成本的东说念主手里去作念保藏展示。

T型车分娩线出现之后，车的形态渐渐能兴奋东说念主类的需求了，产量也渐渐增多到了差未几一年1500万台，价钱也缩小了。只不外阿谁时候的东说念主工智能软件技巧的发展莫得那么快，是以一直要到一百多年之后，跟着深度学习技巧的发展，才初始快速智能化。

但也就十几年的时刻，智能驾驶就从实验室的一个居品完成了落地的量产。

其实具身的发展我认为亦然一个参考。

咫尺这个阶段咱们看到，它的硬件并莫得拘谨，形态也莫得拘谨，举例解放度、传感器、重要的形态、个数，还有身段的形态，其实齐莫得绝对拘谨。

处于像三轮车阿谁时候的阿谁阶段，然后也不成够绝对兴奋这个任务的需求，尤其是复杂的一些操作任务，致密化操作的任务，是以它有一个阶段要完成硬件的迭代。

完成硬件迭代之后，澳客app官网然后在场景里面能够先劳动起往来聚集数据，完成智能化。

Q：BEV在自动驾驶鸿沟是什么时候火起来的，关于自动驾驶系统来说，它有如何的历史真谛？

隋伟：BEV全称是Bird's Eye View，是一个俯瞰视角，其实它不是一个新的想法，在3D重建、3D视觉里很早就存在了。

BEV在自动驾驶里面火起来的是在2019年-2020年前后，亦然从特斯拉AI Day公布了FSD之后，然后BEV在在自动驾驶鸿沟是可行的，从那时初始渐渐发展起来，成为主流。

BEV感知出现之前，咱们是通过单视角的感知，然后再去通过大齐的后处理完成2D到3D的转移。

但这种转移会有许多问题，第一是许多时候这个假定是不斥地的，咱们假定说念路是平的，其实许多的说念路它齐不是平的，你仔细看的话，其实说念路中间是杰出的，双方是凹陷去的，它不是一个平面，那这就会给这个测距带来瑕玷，况兼这瑕玷会相等大。

第二是检测，尤其是两个视角，两个视角之间的这种拼接会相等的复杂。

是以BEV感知其实是处治了感知后处理，十分于是把后处理也交给模子去实践了，是以它输入的是多视角的图像，输出径直是在3D空间里输出的收尾。

其实这亦然端到端的基础，因为端到端最终的空间亦然在planning的空间，是在3D空间里。

Q：我看您在地平线有作念一个4D标注系统，这是一个如何的系统？关于自动驾驶系统有如何的作用？

隋伟：4D标注系统其实主如若给BEV感知来提供真值的，因为在深度学习期间，或者说东说念主工智能期间的落地场景中，最迫切的就是数据，有若干数据就是有若干智能，是以真值标注相等重要。

那为什么在BEV期间非要有这个4D标注？

因为BEV它的感知模态发生了变化，蓝本在这种图像感知期间的时候，你输入的模子是2D的图像，然后输出亦然在图像空间的收尾，也就是咱们所说的所见即所得，它的感知收尾和输入是在肃清个空间里面的。

BEV作念的是3D重建，从图像的数据径直输出3D收尾，既然输出的是3D收尾，那模子的锻真金不怕火也需要3D真值去作念监督，4D Label系统就是要处治这个问题。

Q：其时在4D标注系统作念了简略多大体量的数据标注，才去激动BEV在地平线系统里的落地？

隋伟：BEV感知需要的数据是以短视频时势出现的，举例，一辆车装有11个camera，那它其实会记载这11个camera在45秒到1分钟这么一个时刻序列内的数据来行为一个锻真金不怕火样本。

这个视频（片断）其实在业界一般齐叫clip，咱们简略有到200万clips操纵的数据，然后在BEV上能有一个比较好的一个成果了。

Q：百万数据量的需求是如何测算出来的？

隋伟：在自动驾驶里面的数据量的需求其实是有一套估算的方法的，可是前提条目是你要细目它的场景、需求，以及任务。

以动态物体检测为例，3D的物体检测，我要检测这个场景里车辆和行东说念主这么的一个任务，那咱们如何去测算它的数据使用量呢？

领先咱们会细目场景、需求、任务，比如说任务就3D检测，那场景的话就是比如说城区、高速或乡村，统统这些场景齐要包含在内。然后我要有这个任务的要求，比如说它的调回是若干，准确率是若干，有准确的一个目的。

有了这种评价步骤，咱们就去意象这个模子，比如说我一初始的时候独一10万clips，用这10万clips锻真金不怕火模子作念一个评测，那看这个简略的模子的性能是在什么处所。

然后咱们会不停地增多数据去画图这么的一个模子成长弧线，跟着数据量的增长，看模子性能的增长情况。

大多数情况下这个模子的增长弧线并不是线性的，而是跟着数据量的增多，它的性能的增长会越来越冷静，雷同于一个log体式的这个弧线。

有了这条弧线之后，咱们就能梗概测算出来这个模子要到这个性能简略需要若干数据。

Q：是以它其实照旧一个数学问题。

隋伟：统统的深度学习其实齐是统计学的问题。

04 具身智能、自动驾驶，齐在模仿大模子的技巧蹊径

Q：自动驾驶系统里面的话，端到端技巧蹊径不错分为几个阶段吗？

隋伟：如果说端到端细分的话，我认为不错分为三个阶段。

第一个阶段是VA，就是用视觉传感器或者激光雷达输出action。

第二个阶段就是VLM+端到端，这是一个相等良晌的中间形态，其实目的就是用来处治上一个阶段，VA濒临大齐的corner case的问题。

固然说端到端的平允是它本色上是一个师法学习，它能处治拟东说念主化的问题，就是不错在安全、懒散和高效这三个自动驾驶的评价步骤里面去齐达到一个比较好的成果。

尤其是拟东说念主化，这个是许多传统的端正方法是作念不到的，可是它的问题是大齐依赖数据，莫得见过的一些场景，它的成果就会相等差。

是以背面为了处治corner case问题，就出现了VLM+端到端这么一个良晌的一个形态。

这个形态的起点就是思用VLM这么的一些模子的通用成果，去把这个学问迁徙到端到端里面。

是以其时成果就是，尊龙app下载你会看到，你给它一个自动驾驶的场景图片，然后喂到VLM里，你问它到底我该如何驾驶，其实它不错回话的相等好，因为它见过许多数据，它知说念交通端正，它也知说念该作念什么样的反馈。但它的这个反馈有可能是一个言语的描述。

如果把这个VLM稍作操作的话，它不错是一条粗犷的轨迹，然后把这条轨迹给到端到端里面，其实就是思行使它的这个学问性去处治corner case的问题。

但这一代有蓄意有个最大的问题是，端上的算力不够的情况下，这两个是跑在双系统，这两个系统是不同步的，就会导致它们之间的锻真金不怕火和迭代会相等复杂，是以就会出现第三个阶段，第三个阶段就是VLA。

VLA其实就是VLM和端到端的这么一个一体化的阶段，咱们咫尺听到的两段式的端到端，就属于刚才说的VLM+小的端到端模子，一段式端到端就是VLA。

Q：咫尺能看到的具身机器东说念主，除了跳舞，就是叠穿着，照旧planning的阿谁任务，为什么咫尺机器东说念主的端到端照旧只可实践这些任务？

隋伟：其已毕在VLA的话，它还是不错作念到电机信号这个层面上，就给输入数据，然后输出这些重要提示，然后径直去作念实践。

那么，VLA为什么咫尺还在作念叠穿着这么的一些任务？

因为叠穿着、线缆、打包这些齐属于一些复杂的柔性长程任务，这是传统先检测后实践的神情处治不了的，天然咱们也看到其实VLA之前也在作念一些持取和放手的一些操作，这些其实用传统方法的着力会更高一些。

但VLA的责任是要处治通用性和方法性的问题，就是它能够像VLM一样解放地到任何场景中去实践随性一个任务，这是它的责任。

可是咫尺来说，从硬件或者从数据量来说的话，这个模子还不具备这么的智力。

Q：通过端正编程和端到端是两个大的阶段，在自动驾驶鸿沟会有一个技巧越过的时刻节点吗？

隋伟：在自动驾驶鸿沟，我认为2019年-2020年就是一个跨过了模块化，插足到端到端这么的一个时刻节点。

弘扬就在BEV技巧、感知技巧的熟识，它为统统这个词端到端奠定了基础。

其实端到端亦然分才略的，第一步是先处治了感知后处理，第二步是处治了planning的问题，是以是感知智力越来越强，然后端到端越来越澈底，最终到这个planning。

在这个具身智能鸿沟，我认为倒不是说模块化和端到端的问题，这个其实还是是共鸣了，不管是用VA也好，用VLA也好，我认为咫尺环球齐会认为端到端是最终的技巧形态。

它的点在于数据量，谁能取得富有多的灵验数据，那就能决定智能化的上限。

但取得数据的前提又在于要在一个什么样的场景、什么样的任务，这些明确下来之后，然后就是高效的这种聚集数据，构建数据闭环，去提高智能化。

Q：真实数据和仿真数据在两类系统中的价值，和在这个时刻节点上来看的话，它的真谛会有不一样吗？

隋伟：自动驾驶的话，咫尺的数据景色是，绝大部分的锻真金不怕火数据照旧靠实车聚集，尤其是数据闭环、影子模式这些神情去及时回传灵验的corner case数据去作念模子的迭代。

仿真数据在自动驾驶里其实主要照旧雅致评测，尤其是像这种world model不错适度的，用这种可控神情生成这种样本数据，用来作念一些特定场景的评测，评测收尾比如说达到了一些目的要求之后，然后再去作念一些发版。

这天然也跟这个自动驾驶数据取得的方便性和低价性有关。

在具身智能鸿沟，咫尺还莫得一条明确的数据蹊径。

最早的有仿真，然后有遥操，以及客岁兴起的UMI数据，但这些咫尺还齐不成够绝对撑持具身数据的需求。

是以仿真数据和真实数据最大的问题照旧在于，仿真数据它有域的gap，Real2Sim的gap，这种gap其实是很难越过的，因为真实场景的数据其实口舌常复杂千般的，然后仿确切数据它相对会比较单一。

那前期如果说在具身鸿沟数据聚集能比较高效的情况下，咱们顺服不会用仿真数据，只不外说咫尺比较不毛的情况下，会回极度来再去看仿真数据能产生什么样的一些价值。

我认为，一方面，在0到1阶段锻真金不怕火数据的情况下，仿真数据能起到什么样的作用，以及在延续增多仿真数据的时候，它对模子的这种成长能带来多大收益，这个是我要处治的。

第二，咫尺这种gap也许多，比如说图像级别的、传感器级别的Sim2Real gap，还有任务级别的gap、场景级别的gap。

那是不是说仿真数据在比如说像这种任务级别的gap上会更小少许，这些我认为咫尺还齐是需要来探索的。

Q：视频数据、仿真数据、遥操数据、UMI数据，咫尺基本上就是这四大类，因为咫尺其实数据照旧很不够，很缺数据的一个状态，咱们其实但愿越多的数据越好，这些数据齐聚集上来，它的和会应用会有gap吗？

隋伟：我认为谈数据如何使用的话，领先咱们要看具身智能它可能的模子的锻真金不怕火范式是什么样的，那其已毕在在东说念主工智能鸿沟有三个大的应用主见：第一个是大模子，第二个是智能驾驶，第三个是具身智能，底层齐是深度学习技巧。

其已毕在像自动驾驶也好，具身智能也好，齐在模仿大模子发展的模子锻真金不怕火范式。

那大模子的锻真金不怕火范式，它领先是有预锻真金不怕火，预锻真金不怕火阶段需要大齐的数据，可是这个数据的质地要求不错毋庸极度高，在预锻真金不怕火阶段主要在干一个事情，就是next token prediction这个任务。这个token它不错是言语，不错是图像，也不错是动作。

第二个阶段叫SFT，就是有监督锻真金不怕火，学蕴蓄集一些高质地的样本去作念锻真金不怕火，来把这个通用的模子去往专用性去提示。

第三个阶段是在这个基础之上会有强化学习，强化学习不错通晓为十分于是向下教一个学生，这个学生还是经过前边的预锻真金不怕火和SFT到了一个优等生的阶段，比如说考试到能到80分了，那通过强化学习的话，再给他擢升到95分或者是100分，这个是三个锻真金不怕火的才略。

自动驾驶其实咱们看咫尺也在走这个蹊径，尤其到VLA之后，也在走这个蹊径。实具身亦然在走这三条蹊径，如果说是往通用性走的话。

那咱们看这三个阶段需要的数据，预锻真金不怕火阶段的话，其实它需要大齐的低成本的数据，它精度要求没那么高，在SFT它就需要相等高质地的数据，然后再到强化学习阶段的话，它需如若如何样去给它一个反馈和交互。

是以咱们再回极度来看这几种数据的聚集神情，仿真咱们其实不错先抛开不谈，因为仿确切这个gap的问题，我认为很难在短时刻内进行处治的，还有一些数据财富的问题，剩下的就是UMI、遥操。

像UMI的话，咱们认为它比较合乎作念这种预锻真金不怕火的，那比拟较于互联网的视频数据，它会更高效。

另外就是在得到预锻真金不怕火的基础之上，然后再通过遥操取得的高质地数据，因为遥操其实聚集的是机器东说念主的模态数据去作念微调，然后让机器东说念主在某些特定任务上达到比较好的成果，终末通过强化学习来最终再作念一个擢升，这是咱们认为的范式。

05 具身机器东说念主进工场，为什么会“砍掉”双足

Q：具身机器东说念主还是初始有一定的拘谨趋势了吗？

隋伟：其实能看到这个拘谨的迹象，比如说从机器东说念主的外皮，咱们也能看到一些拘谨。

咫尺许多在工业或其它生意场景下，用的齐是轮式底盘，再加上反弓式的腰部，以及双臂，双臂解放度一般也齐是七个解放度的仿生臂，这个咱们是能看到一些拘谨的态势的。

然后从算法上来讲的话，基本上齐是拘谨到VA或者是VLA。

Q：然后具体到咱们在作念的芯片这块，它也有这么的一个趋势吗？

隋伟：关于芯片来说的话，它更像的是拘谨到一个大脑。

比如说像自动驾驶的话，蓝本每个传感器齐有一个孤独的计较单位，但到背面的话，它会渐渐齐集到一个大脑上。

那关于机器东说念主来说的话，一定是这么的一个趋势，把千般数据的传输和计较齐齐集到一个域控芯片上。

Q：咫尺有针对具身机器东说念主的专用芯片吗？

隋伟：其实是有专诚针对具身的芯片的，像地瓜，咱们推出的旭日S600芯片，其实就是专诚面向具身行业的。

国际的话，英伟达也有专诚面向具身的Jetson系列芯片。

咫尺有大限制量产的其实主要就是这两家。

然后具身的芯片其实和智驾的芯片，除了一些工规和商规的要求除外，在许多底层模块上，其实许多齐是一致的，因为自身齐是作念这个AI加快算法的，那区别就在于它的一些外围接口。

比如说像车辆的传感器的种类和数目和具身里面的种类和数目齐是不一样的，这方面会有一些区别，但底层架构其实齐是一致的，像这种AI加快器，还有像这种MCU，其实咫尺齐是共用的。

是以芯片来说，并不是说需要拘谨，主如若如何用好这个芯片，因为具身机器东说念主还莫得大限制的量产，是以在这一块其实可能需要作念的劳动更多一些。

Q：具身机器东说念主在工业场景，轮式+双臂成为一个共鸣，这有什么原因？

隋伟：轮式和全东说念主形主要区别在于下肢。

轮式的话，十分于它不错用比较熟识的移动计谋作念一些简便的移动，可是它的问题是需要纠正场景，比如说作念不了越障，然后对一些陡坡这些也有要求。

全东说念主形的话，双足的优点是它具备越障的可能性，比如上楼梯，千般各样的辩认物，表面上只消东说念主能过的处所它齐能过，可是问题是在于它咫尺的技巧难度相等大，就是双足的通用行走智力咫尺其实还莫得绝对处治。

咱们看到的这些许多齐是瞎眼的瓦解，可是如果要跟真实的宇宙去作念交互的时候，这个其实咫尺还莫得到绝对能够落地的进程。

在工业场景下，其实很厚情况下它是不错进行场景纠正的，比如这种移动，我不错去掉一些楼梯，调动成一些平面或者斜面，一些简便的斜面、陡坡，能让这个机器东说念主的轮式能自主移动，其实它能兴奋需求的，那底层的逻辑其实照旧通用和专用的一个区别。

像双臂或者双足的全东说念主形的话，它是通用东说念主工智能的最好的载体，因为它的瓦解上限、智力上限相等高。

在工场里，轮式的通用性要弱于全东说念主形，但关于这个场景来说是富有用的。

是以技巧来说，并不是越复杂或者越高档第越好，而是能兴奋场景需求的阿谁技巧才是最好的。

在工场里面它需要的是一个老成的、高的下限，这是咫尺全东说念主形不具备的。

06 机器东说念主跳舞，是不是一个好的生意模式

Q：26年的央视春晚上的机器东说念主，弘扬出的哪些智力是您料思除外的？

隋伟：其实我认为印象比较潜入的照旧宇树的技击扮演，相等悠扬。

其实悠扬主重心在于，我会发现它的硬件上限其实相等高，咱们其实也在用宇树G1作念一些开发，咱们能作念一些跳摆动作，但稍稍狠恶少许的跳摆动作，它不是极度老成。

可是至少从春晚的这个成果来看的话，它的硬件上限其实相等高，你不错看到它不错作念千般各样的翻跟头、很高的起跳和降落的这种动作，是以我认为这个体现出了它的这个硬件的上限。

这个上限我认为是机器东说念主往通用性、智能化走的一个相等迫切的基础。

Q：然后您是如何看机器东说念主跳舞这件事儿，它会成为当下一个比较好的机器东说念主量产落地的生意模式吗？

隋伟：它是一种生意模式，况兼是有价值的生意模式。

其实咱们不错对比阿谁无东说念主机集群扮演，其实咱们看到咫尺的大齐的这种东说念主形机器东说念主阵列式的扮演，其实它成果口舌常悠扬的，和无东说念主机的阿谁扮演它的需求是雷同的。是以我认为从无东说念主机的这种扮演看的话，其实它是确切存在这么的需求的，那机器东说念主其实也会存在，天然机器东说念主它的这个阵列扮演，我认为它仅仅一种载体，领先它讲授了这个硬件具备这么的智力，但它这个需求能不成延续，还要看它这个载体承载的内容，比如说它扮演的时势或者扮演的内容能不成延续诱惑大家，那我认为这个可能是一个比较迫切的点。是以我认为这个扮演顺服是有需求的，况兼是一个比较好的咫尺这个阶段技巧能够刚刚兴奋的一个需求。

Q：参照自动驾驶汽车的生意化旅途，具身机器东说念主的生意化不错分手为几个阶段，以及各个阶段会有哪些重要技巧熟识行为象征？

隋伟：参考智能驾驶的话，领先咱们要看硬件的熟识度，硬件的上限要富有高，这个上限不光是性能的上限，还有它的老成性的上限。

举例相同是机器东说念主，第一你要兴奋步骤化分娩，第二你在工场里或其它场景里劳动，你能老成劳动多久，这些底层的硬件一定要富有熟识，上限高，然后也极其老成，我认为这个是第一步。

那如何看第一步的熟识度呢？

就是先通过东说念主在环的神情或者遥操神情，你看它能完成若干任务，以及完成任务的着力是若干。

我认为比较合理的目的应该是在有遥操的情况下，它的劳动着力能达到东说念主的80%，致使到100%，这是第少许，这个是锻真金不怕火硬件的熟识度。

第二个阶段是这些硬件渐渐兴奋需求后在场景中得到应用，比如说从情谊价值，再到有一些危境场景，或者是劳能源成本相等高的场景，增多机器东说念主的产量。

在这种场景下，咱们机器东说念主的数目到了50万台或者100万台，那我认为可能是一个临界点。

就是有50万台或者100万台机器东说念主在场景里面劳动，哪怕是通过遥操的神情，它聚集的数据是径直灵验的数据，这种数据它对具身机器东说念主带来的智能化增长会相等快，是以我认为是第二个节点。

第三个节点是有这些技巧智力或者是这个范式考证收效之后，就不错推到更多更通用的场景里，举例C端场景、家庭场景。

我认为具身智能是有这么的一个技巧发展的蹊径尊龙app下载。

开云app官方在线入口

尊龙app下载 机器东说念主新纪元x地瓜机器东说念主隋伟：从自动驾驶汽车到机器东说念主，具身智能的技巧演变之路

尊龙app下载 机器东说念主新纪元x地瓜机器东说念主隋伟：从自动驾驶汽车到机器东说念主，具身智能的技巧演变之路

尊龙app下载机器东说念主新纪元x地瓜机器东说念主隋伟：从自动驾驶汽车到机器东说念主，具身智能的技巧演变之路

尊龙app下载机器东说念主新纪元x地瓜机器东说念主隋伟：从自动驾驶汽车到机器东说念主，具身智能的技巧演变之路