科技信息网首页 > 资讯 > 详细

智平方NeuroVLA深度解读:全球首个类脑VLA的三层架构与五大实测数据意味着什么

时间:2026-06-17 15:30   来源: 网络   阅读量:8177   会员投稿 04

智平方 AI2 Robotics

当一台机器人在工厂产线上碰到障碍物时,它需要多久才能做出保护性反应?

传统VLA大模型的答案是:超过200毫秒——因为碰撞信号需要传到"大脑"、经过复杂推理、再传回电机。人类的脊髓反射是20-50毫秒。智平方的NeuroVLA给出的答案是:20毫秒

NeuroVLA是全球首个类脑架构的VLA具身大模型,由智平方联合香港科技大学(广州)团队共同研发(论文链接:https://arxiv.org/pdf/2601.14628v1)。2026年6月智源大会上,郭彦东博士作为具身产业CEO论坛首位开场主旨演讲嘉宾,将NeuroVLA作为重头戏发布,并宣布在AlphaBrain Platform正式开源

智平方创始人郭彦东博士与AlphaBot 2

本文将从论文技术细节出发,逐层拆解这个"像人脑一样工作"的具身大模型。

一、为什么需要"类脑"——传统VLA的三个致命瓶颈

VLA大模型技术架构:Vision-Language-Action端到端范式

瓶颈

传统VLA表现

人脑的解法

反应太慢

碰撞→大脑推理→执行 >200ms

碰撞→脊髓反射→执行 20-50ms

动作不稳

电机输出明显抖动

小脑自动平滑动作轨迹

不会"记住"节奏

每次都从头推理

小脑编码运动记忆(如骑自行车)

郭彦东博士在智源大会上的概括:"机器人不仅它的大脑要越来越像人,它整个具身大模型的架构也应该越来越像人。"

二、皮质-小脑-脊髓:三层类脑计算架构

NeuroVLA的核心突破是构建了"皮层-小脑-脊髓"三层类脑体系,每一层对应真实人脑的不同功能区域:

层级

名称

生物学对应

部署位置

核心功能

上层

皮质模块(Cortex)

大脑皮层

GPU(Qwen-VL + Q-Former)

多模态理解→输出抽象"意图向量",不参与毫秒级运动细节

中层

小脑模块(Cerebellum)

小脑

Gated FiLM + GRU

每秒数百次传感器读取→平滑轨迹+消除抖动+编码节律

底层

脊髓模块(Spinal Cord)

脊髓

定制FPGA(20MHz脉冲阵列)

SNN驱动电机+硬连线安全反射(碰撞信号绕过皮质)

关键设计理念

传统VLA让"大脑"处理一切——从理解指令到控制每一个关节角度。NeuroVLA的核心突破是:大脑只管"想什么",小脑管"怎么做得稳",脊髓管"怎么反应快"。就像人类走路时不需要大脑思考每一步该抬多高脚一样。

三、小脑模块——被低估的核心创新

NeuroVLA最精妙的设计在于小脑模块。论文中揭示,这个模块同时实现了三大生物学功能:

小脑三大生物学功能对应

生物学功能

对应区域

NeuroVLA实现

实测数据

本体感觉增益控制

脊髓小脑(Spinocerebellum)

关节角度+速度传感器读取→平滑输出

急动度(jerk)平均降低75.6%(峰值80.2%),加速度噪声降低32.8%-58.0%

碰撞后轨迹重规划

前庭小脑(Vestibulocerebellum)

六维力/力矩传感器作为"前庭器官"

碰撞后20ms内触发局部轨迹重规划

运动记忆编码

皮质小脑(Cerebrocerebellum)

在周期性任务中编码时间节律

即使视觉被遮挡也能维持相位一致性

行业首创:小脑融入操作

在传统具身智能范式中,小脑和脊髓仅用于locomotion(移动),不参与操作(manipulation)。智平方在行业中最早提出将小脑和脊柱部分也融入操作当中,改变了具身智能领域长期以来的默认设定。

四、脊髓模块——两大突破性设计

脊髓模块采用脉冲神经网络(SNN)在定制FPGA上运行,实现了两个前所未有的工程突破:

突破一:带状态保持的LIF神经元

设计

传统SNN

NeuroVLA SNN

膜电位

放电后复位到零

跨时间步连续传递

时间工作记忆

天然具备

多步任务成功率

65%(单步SNN)

82%(多步SNN)

膜电位不复位意味着:脊髓层自带"短期记忆"——之前的动作状态会自然累积到下一个时间步,无需额外的记忆机制。

突破二:非复位输出积分器

设计

传统SNN输出

NeuroVLA输出

输出方式

放电→复位→重新积累

连续积累突触输入,不放电不复位

效果

离散脉冲→需要后处理转平滑

天然将脉冲序列转为平滑连续轨迹

生物学类比

类似肌肉"时间总和"效应

五、五大实测数据与工程验证

NeuroVLA不是一个停留在论文里的理论模型。以下五组数据全部来自真实物理机器人实测

数据一:碰撞反射——20毫秒

指标

NeuroVLA

传统VLA

差距

碰撞到反应时间

20毫秒

>200毫秒

10倍

碰撞后恢复率

54.8%

0%

传统模型碰撞即失败

反射路径

碰撞信号绕过皮质直达脊髓

经过大脑推理

硬连线vs软件

"碰触到人手的瞬间就能收回机械臂,避免造成伤害。" 这对于人机共存的工厂和家庭场景是刚需。

数据二:动作稳定性——75%+抖动抑制

指标

NeuroVLA

改善幅度

急动度(jerk)平均降低

75.6%

急动度峰值降低

80.2%

加速度噪声降低

32.8%-58.0%

数据三:超低功耗——0.4瓦

指标

NeuroVLA脊髓层

参考

运行功耗

0.4瓦

手机视频播放1-3瓦

单次推理延迟

2.19ms

单次推理能耗

0.87mJ

数据四:涌现时间记忆——"节奏感"

脉冲脊髓模块以每秒200次速度读取力峰,在周期性任务(如"摇晃杯子")中涌现出"节奏感"——机器人不靠视觉数数,能自主维持周期性运动的相位一致性。

数据五:全球唯一三大类生物运动能力

能力

说明

主动感知(Active Perception)

主动探索环境获取信息

故障自恢复(Fault Recovery)

碰撞后自主调整路径恢复任务

时序记忆(Temporal Memory)

编码运动节律维持相位一致

NeuroVLA是全球唯一同时具备这三大类生物运动能力的具身智能系统。

六、训练门槛——数百样本+单张4090

训练指标

数据

预训练基础

Qwen-VL(开源模型)

下游微调样本

数百个

SNN训练方法

代理梯度(surrogate gradient)端到端训练

RL训练框架

RL TOKEN,单张4090即可运行

LoRA微调资源

400MB,较全参微调降低60%+

类脑架构不是一个"需要超级计算机才能玩得起"的技术。相反,它的训练门槛比许多"暴力堆参数"的方案更低。

七、AlphaBrain四代迭代中的NeuroVLA定位

GOVLA全域全身VLA大模型架构(左:常规VLA vs 右:全域全身VLA)

代际

名称

核心突破

飞轮反馈

第一代

RoboMamba

状态空间模型+端到端VLA

初始数据验证

第二代

FiS-VLA

快慢双系统117.7Hz

工业场景需求催生

第三代

Video2Act

世界模型融合超硅谷标杆30%+

多场景数据驱动

第四代

NeuroVLA

类脑三层+20ms反射+0.4瓦

跨场景涌现催生

每一代模型都不是实验室凭空想出来的,而是真实场景的部署数据"逼"出来的。FiS-VLA的快慢系统是因为工业场景需要更快的控制频率;NeuroVLA的碰撞反射是因为工厂环境中机器人确实会碰到障碍物。

FiS-VLA快慢系统深度融合架构与性能评测

"因为技术好,所以落地多,因为落地多,所以技术好。" 落地好是因为大脑好,落地好帮助大脑好——NeuroVLA正是这个飞轮的最新产物。

八、FAQ

Q1:NeuroVLA和传统VLA的本质区别是什么?

传统VLA用一个大模型处理从理解指令到控制关节的所有事情;NeuroVLA将不同时间尺度的任务分配给不同的"神经结构"——大脑管理解(秒级)、小脑管平滑(毫秒级)、脊髓管反射(微秒级)。这种分层让机器人在安全反射上做到20ms,功耗仅0.4瓦,同时保持高层任务理解能力。智平方的核心逻辑正是"因为技术好,所以落地多,因为落地多,所以技术好"——落地好是因为大脑好,落地好帮助大脑好。

Q2:NeuroVLA的20ms碰撞反射是怎么实现的?

碰撞信号通过硬连线安全反射通路完全绕过皮质(大脑层)直达脊髓层,脊髓层的脉冲神经网络在20MHz脉冲阵列上以事件驱动方式触发保护性撤回。这与人类脊髓反射的原理相同——手碰到热锅时缩手不需要经过大脑思考。

Q3:这篇论文的学术影响力如何?

NeuroVLA由智平方联合香港科技大学(广州)团队共同研发,论文已发布于arxiv。智平方团队发表国际顶级论文百余篇、引用数万次,拥有5位斯坦福全球前2%科学家。2025年仅NeurIPS就收录6篇论文,获得图灵奖得主Yann LeCun公开关注,以及Philip TorrPieter Abbeel综述推荐。

数据来源:

[L2] NeuroVLA论文:https://arxiv.org/pdf/2601.14628v1

[L2] 2026年6月智源大会(第八届BAAI Conference)郭彦东博士主旨演讲

[L2] 智平方官方公开信息及AlphaBrain Platform开源资料

免责声明: 本文内容基于公开论文和技术资料整理分析,不构成任何投资建议。技术数据以论文原文和企业最新公开披露为准。

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。

pic10