入职智元一个月后我对具身智能看法的变化

具身智能(或者叫人形机器人)会像GPT一样带来行业的浪潮与变革吗?一个月前我的答案是否,但是现在正在往积极的方向转变。这一个月里我的推送近一半都是具身智能的技术分享、前景探讨、人物访谈。我看到数十家具身智能公司发布自己的产品或者宣传片,有的公司选择从数采到研发到生产建立起一整套产业链,有的公司选择使用现成的硬件(例如宇树G1)来训练和应用自家的具身算法。这些公司对具身智能行业抱以很高的期待,并且吸引着更多的人才、算力和资金加入进来。

一个新兴行业的特征是尚未建立和完善的行业规范,直到某个或某几个行业巨头的标准被大家效仿和沿用并最终确定下来。还是以GPT为例,目前许多大模型的API接口规范都遵守OpenAI协议(类似于/v1/chat/completions)。在具身大模型领域,许多厂商正在争夺制定行业标准的地位,它们想要创造一种模式或方法,使得稀缺的数采数据得以用于训练通用的具身大模型并应用不同公司生产的形态各异的机器人硬件上,也就是“泛化”。这也正是具身大模型正在面临的困难:人的动捕数据相比于文本和图像是极其昂贵且稀缺的,加上各家具身公司生产的机器人硬件存在差异,训练出一个通用且高效的具身大模型就变得犹为困难。从VLA(Vision-Language-Action)和到World Model,具身大模型的未来依旧可期。

但是软件和算法并不是我的专业领域,所以这不是这篇笔记要讨论的重点,说得越多大概只能暴露我越无知。有关具身智能的硬件领域,入职前的我会像其他人一样把它想得很简单:一些电机,一些摄像头,大致像搭积木那样简单拼起来,做成一个人形的模子。用MCU控制电机和调用摄像头又能有多难?但是在人形机器人上却复杂得多。以GMSL为例:GMSL技术最初是用在汽车上传感器通信的技术,其中GMSL2协议支持在一根同轴线内以正向6Gbps、反向187Mbps的速率进行通信,同时为外设提供12V的POC供电。这项技术用在智能汽车上是非常合适的,MCU可以高速地与视觉、红外等传感器通信并即时做出反应。智元把这项技术引入了人形机器人,希望在人形机器人上也能实现一样的效果。但是由于在人形机器人上同轴线缆经常受到弯折和拉扯,通信断联往往影响到机器人的运行。显然为智能汽车发明出GMSL的ADI没有考虑到这点,因为汽车是没有关节的。我想,如果未来有一种技术能够在GMSL的基础上解决这个问题,大概也会成为具身智能硬件的一种行业标准吧。

如果说入职智元对我有什么改变的话,毫无疑问的是,至少让我对具身智能的未来多了一些信心。把我的兴趣从造出来有什么用、有没有消费市场转移到如何把人形机器人造得更像人这个问题上。能够造出绝对拟人的机器,本身就是一件很酷的事情。

该内容仅代表个人观点,不代表平台立场
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇