特斯拉吹哨自动驾驶端到端重写具身智能
发布日期:2025-02-20
再次带领自动驾驶行业向前进化,而另一个领域也在特斯拉的带动下,开始进入公众视野,而且热度颇有追赶自动驾驶的趋势,它就是具身智能。
具身智能(Embodied Intelligence)指的是机器通过与物理环境的交互来实现智能行为的能力。
其核心在于「具身」,即机器必须具备物理形态,而且对于物理形态的类型没有严格限制,因此工业机器人、机器狗甚至自动驾驶汽车都可以视为具身智能的一种形式。
据不完全统计,截至2024年11月,国内具身智能领域的投融资事件已超过60起,总金额突破50亿元,其中最大单笔融资金额超过10亿元
随着资本热情的高涨,国内的具身智能初创企业也开始加速涌现,技术大咖和天才少年纷纷加入具身智能这一浪潮。
前华为天才少年稚晖君创立的智元机器人,至今已完成7轮融资,估值超过70亿元;而北大教授王鹤创立的银河通用机器人,天使轮融资高达7亿元,创下了行业新纪录。
此外,许多科技公司也纷纷跨界布局。小米集团在2022年推出了首款人形机器人——CyberOne铁大;而
例如,Figure AI今年完成了6.75亿美元的融资,背后支持者包括微软、英伟达、OpenAI和亚马逊等科技巨头,估值已达到26亿美元。
资本的热情让人仿佛回到了2017年,那是自动驾驶行业梦想起步的时刻。全球对AI的想象从自动驾驶延伸到了具身智能。
把纯视觉的AI算法、自研的芯片和数据中心视为特斯拉的核心产品,而将汽车和机器人视为承载这些技术的载体
自动驾驶汽车和具身智能都依赖传感器来感知环境并理解物理世界,从而做出相应的动作决策。自动驾驶汽车的算法需要输出驾驶路径,而具身智能算法则需指导机器人在三维空间中完成各种任务。
在规则算法时代,自动驾驶的驾驶策略依赖于工程师编写的代码,系统根据不同场景做出响应。然而,由于应用场景的不同,这些代码很难直接用于具身智能。
通过不同的数据输入,系统可以完成相应任务,二者之间不再存在明显壁垒,自动驾驶领域对大模型的优化经验也能够顺利迁移到具身智能中。
同时,多个自动驾驶领域的技术专家也纷纷加入了具身智能的创业队伍,其中包括前小米自动驾驶技术产品负责人刘方、前地平线软件副总裁余轶南,以及前华为车BU自动驾驶系统CTO陈亦伦等技术大拿。
因为我们周围的一切都围绕人类的形态发展和演化,只有机器人以人类形态出现,才能像人类一样行动,应对更广泛的任务。
中世纪和文艺复兴时期的欧洲,工匠们借助钟表机械和弹簧动力制作出会敲钟、打鼓或挥手的人偶,为早期人形机器人概念奠定了基础,但这些机械装置仍然不算真正的机器人,因为它们不具备感知和自主决策能力。
第二次世界大战后,随着计算机、电子技术和控制理论的进步,人们开始尝试制造能够模仿人类行为特征的机械装置。
1973年,早稻田大学研发出「WABOT-1」,这是世界上第一台具备腿部运动功能、以及视觉和听觉传感系统的完整人形机器人原型。
公司自1986年起便开始开发系列人形机器人(E系列),并最终于2000年推出了著名的ASIMO机器人,具备平稳行走、跑步、上下楼梯、识别人脸和与人互动等能力。
进入21世纪,随着机器学习、传感技术和材料科学的飞速发展,人形机器人朝着特定应用方向演进,特别是在动态平衡和稳定控制方面取得了显著进展。
其中,波士顿动力的代表性人形机器人Atlas,不仅能够奔跑、跳跃,还能做出空翻等动作。在一段时间内,波士顿动力几乎成为人形机器人技术的代名词。
尽管这一时期的机器人能够完成许多人类的动作,但它们并不具备像人类一样的思考能力,只能根据预设程序完成特定任务,适用场景十分有限,同时成本高昂。因此,人形机器人长时间以来仅限于科研和特种领域,缺乏可持续的商业模式,距离进入普通消费市场仍遥不可及。
过去的几十年,尽管技术上实现了让机器人动起来像人,但却未能解决如何让它们像人类一样思考的问题。
ChatGPT的出现让业界看到了大模型的潜力,使得机器能够像人类一样思考并作出回应成为可能。而端到端的概念则激发了科技界的热情,端到端+大模型的技术路线为人形机器人的未来发展指明了方向。
端到端和大模型的出现,让科技界对具身智能充满了信心。然而,算法和硬件的研发都需要巨额资金,虽然资本看到了潜力,但由于迄今为止没有一家机器人公司真正取得成功,因此不敢轻易入局。
Tesla Bot采用人形结构,身高约5英尺8英寸,体重大约125磅,具备接近人类的灵活性,能够行走、奔跑、弯腰以及搬运物体。其目标是开发能够执行重复性、高风险或枯燥任务的人形机器人,旨在帮助人类减轻体力劳动,并提供更智能的服务。
他设想中的特斯拉机器人能够适应各种任务类型,并通过可控的成本最终实现替代部分人类劳动的目标。然而,尽管如此,这次发布的信息仍然相对有限,算法和硬件的细节并未披露,连原型机都是由真人代替,这让许多人当时对该项目持怀疑态度。
到了2022年AI Day,特斯拉不仅公布了大量新信息,首次展示了原型机,还为机器人正式命名为Optimus。
从这次展示的原型机来看,Optimus的整体结构包括一个中间的计算单元和电池,配备1颗FSD芯片,电池容量为2.3KWh,整机有28个执行器,手部设计模仿人类手的结构,拥有11个自由度。
在传感器方面,Optimus采用了3颗摄像头组成的纯视觉系统,算法与Autopilot系统共享,使用深度神经网络为机器人进行重新训练。
发布会上,特斯拉重点介绍了自研驱动器,工程师通过建模和仿真分析机器人的使用场景,评估各个关节驱动器的能量效率,并在成本、效率和性能上找到最优组合,简化驱动器种类,最终设计了6种不同的驱动器,分别应用于机器人的不同部位。
马斯克强调,Optimus是按照汽车设计的原则进行设计的,目标是打造一种可量产、低成本、高可靠性的机器人。
过去,人形机器人仍停留在实验室或小规模制造阶段,而特斯拉亲自下场,从工程角度展示了如何设计一款可大规模量产、成本可控的人形机器人。
特斯拉的示范作用激发了大量资本进入机器人领域,推动了国内机器人产业的蓬勃发展,现如今,国内机器人市场百花齐放。
虽然现在机器人行业一片火热,许多初创公司在成立几个月内就能展示样机视频,看起来机器人似乎变得很简单。
各个关键部件并未标准化,也没有统一的行业标准,这导致当前的机器人生产依赖大量手工操作,产量和质量都无法得到保障。
要解决这一问题,需要从设计阶段就开始思考,采用模块化的设计思路,确保零件符合工业质量标准,并从装配角度优化生产线。
特斯拉在这方面已做出示范,按照汽车设计的原则和标准来设计机器人。特斯拉在汽车行业积累的经验对机器人制造有很大帮助,但对于缺乏量产经验的初创公司来说,仍然是一个巨大的挑战。
目前购买机器人主要的客户仍然是科研机构和政府,实际商业场景中的应用相对较少,而价格是一个重要原因。
虽然像宇树G1这样的机器人价格仅为9.9万元,但其尺寸和功能有限,大部分人形机器人的价格仍需数十万元。
在传感器方案上,Optimus放弃了昂贵的激光雷达,改用3个摄像头,传感器成本比其他机器人使用激光雷达和前后摄像头的方案低了一半,当然,这需要强大的算法支持。在关键部件驱动器和灵巧手方面,特斯拉选择自研,满足性能要求的同时,通过优化设计来降低成本。
如何让机器人像人类一样思考,适应人类的环境,完类的任务,是每一家机器人公司当前必须面对的难题。
自动驾驶行业从2017年开始爆发,经历过那段时间的人一定还有印象,大家谈论的是在2022年实现L4级别的无人驾驶,对未来充满希望。
人形机器人的热潮才刚开始,也许距离赛博朋克的场景还有一段距离,但是能做家务的机器人也许不久就会出现在你的购物车里。