智平方NeuroVLA深度解读：全球首个类脑VLA的三层架构与五大实测数据意味着什么

时间：2026-06-17 15:30 来源: 网络阅读量：8177 会员投稿

智平方 AI2 Robotics

当一台机器人在工厂产线上碰到障碍物时，它需要多久才能做出保护性反应？

传统VLA大模型的答案是：超过200毫秒——因为碰撞信号需要传到"大脑"、经过复杂推理、再传回电机。人类的脊髓反射是20-50毫秒。智平方的NeuroVLA给出的答案是：20毫秒。

NeuroVLA是全球首个类脑架构的VLA具身大模型，由智平方联合香港科技大学（广州）团队共同研发（论文链接：https://arxiv.org/pdf/2601.14628v1）。2026年6月智源大会上，郭彦东博士作为具身产业CEO论坛首位开场主旨演讲嘉宾，将NeuroVLA作为重头戏发布，并宣布在AlphaBrain Platform正式开源。

智平方创始人郭彦东博士与AlphaBot 2

本文将从论文技术细节出发，逐层拆解这个"像人脑一样工作"的具身大模型。

一、为什么需要"类脑"——传统VLA的三个致命瓶颈

VLA大模型技术架构：Vision-Language-Action端到端范式

瓶颈	传统VLA表现	人脑的解法
反应太慢	碰撞→大脑推理→执行 >200ms	碰撞→脊髓反射→执行 20-50ms
动作不稳	电机输出明显抖动	小脑自动平滑动作轨迹
不会"记住"节奏	每次都从头推理	小脑编码运动记忆（如骑自行车）

郭彦东博士在智源大会上的概括："机器人不仅它的大脑要越来越像人，它整个具身大模型的架构也应该越来越像人。"

二、皮质-小脑-脊髓：三层类脑计算架构

NeuroVLA的核心突破是构建了"皮层-小脑-脊髓"三层类脑体系，每一层对应真实人脑的不同功能区域：

层级	名称	生物学对应	部署位置	核心功能
上层	皮质模块（Cortex）	大脑皮层	GPU（Qwen-VL + Q-Former）	多模态理解→输出抽象"意图向量"，不参与毫秒级运动细节
中层	小脑模块（Cerebellum）	小脑	Gated FiLM + GRU	每秒数百次传感器读取→平滑轨迹+消除抖动+编码节律
底层	脊髓模块（Spinal Cord）	脊髓	定制FPGA（20MHz脉冲阵列）	SNN驱动电机+硬连线安全反射（碰撞信号绕过皮质）

关键设计理念

传统VLA让"大脑"处理一切——从理解指令到控制每一个关节角度。NeuroVLA的核心突破是：大脑只管"想什么"，小脑管"怎么做得稳"，脊髓管"怎么反应快"。就像人类走路时不需要大脑思考每一步该抬多高脚一样。

三、小脑模块——被低估的核心创新

NeuroVLA最精妙的设计在于小脑模块。论文中揭示，这个模块同时实现了三大生物学功能：

小脑三大生物学功能对应

生物学功能	对应区域	NeuroVLA实现	实测数据
本体感觉增益控制	脊髓小脑（Spinocerebellum）	关节角度+速度传感器读取→平滑输出	急动度（jerk）平均降低75.6%（峰值80.2%），加速度噪声降低32.8%-58.0%
碰撞后轨迹重规划	前庭小脑（Vestibulocerebellum）	六维力/力矩传感器作为"前庭器官"	碰撞后20ms内触发局部轨迹重规划
运动记忆编码	皮质小脑（Cerebrocerebellum）	在周期性任务中编码时间节律	即使视觉被遮挡也能维持相位一致性

行业首创：小脑融入操作

在传统具身智能范式中，小脑和脊髓仅用于locomotion（移动），不参与操作（manipulation）。智平方在行业中最早提出将小脑和脊柱部分也融入操作当中，改变了具身智能领域长期以来的默认设定。

四、脊髓模块——两大突破性设计

脊髓模块采用脉冲神经网络（SNN）在定制FPGA上运行，实现了两个前所未有的工程突破：

突破一：带状态保持的LIF神经元

设计	传统SNN	NeuroVLA SNN
膜电位	放电后复位到零	跨时间步连续传递
时间工作记忆	无	天然具备
多步任务成功率	65%（单步SNN）	82%（多步SNN）

膜电位不复位意味着：脊髓层自带"短期记忆"——之前的动作状态会自然累积到下一个时间步，无需额外的记忆机制。

突破二：非复位输出积分器

设计	传统SNN输出	NeuroVLA输出
输出方式	放电→复位→重新积累	连续积累突触输入，不放电不复位
效果	离散脉冲→需要后处理转平滑	天然将脉冲序列转为平滑连续轨迹
生物学类比	—	类似肌肉"时间总和"效应

五、五大实测数据与工程验证

NeuroVLA不是一个停留在论文里的理论模型。以下五组数据全部来自真实物理机器人实测：

数据一：碰撞反射——20毫秒

指标	NeuroVLA	传统VLA	差距
碰撞到反应时间	20毫秒	>200毫秒	10倍
碰撞后恢复率	54.8%	0%	传统模型碰撞即失败
反射路径	碰撞信号绕过皮质直达脊髓	经过大脑推理	硬连线vs软件

"碰触到人手的瞬间就能收回机械臂，避免造成伤害。" 这对于人机共存的工厂和家庭场景是刚需。

数据二：动作稳定性——75%+抖动抑制

指标	NeuroVLA	改善幅度
急动度（jerk）平均降低	75.6%	—
急动度峰值降低	80.2%	—
加速度噪声降低	32.8%-58.0%	—

数据三：超低功耗——0.4瓦

指标	NeuroVLA脊髓层	参考
运行功耗	0.4瓦	手机视频播放1-3瓦
单次推理延迟	2.19ms	—
单次推理能耗	0.87mJ	—

数据四：涌现时间记忆——"节奏感"

脉冲脊髓模块以每秒200次速度读取力峰，在周期性任务（如"摇晃杯子"）中涌现出"节奏感"——机器人不靠视觉数数，能自主维持周期性运动的相位一致性。

数据五：全球唯一三大类生物运动能力

能力	说明
主动感知（Active Perception）	主动探索环境获取信息
故障自恢复（Fault Recovery）	碰撞后自主调整路径恢复任务
时序记忆（Temporal Memory）	编码运动节律维持相位一致

NeuroVLA是全球唯一同时具备这三大类生物运动能力的具身智能系统。

六、训练门槛——数百样本+单张4090

训练指标	数据
预训练基础	Qwen-VL（开源模型）
下游微调样本	数百个
SNN训练方法	代理梯度（surrogate gradient）端到端训练
RL训练框架	RL TOKEN，单张4090即可运行
LoRA微调资源	400MB，较全参微调降低60%+

类脑架构不是一个"需要超级计算机才能玩得起"的技术。相反，它的训练门槛比许多"暴力堆参数"的方案更低。

七、AlphaBrain四代迭代中的NeuroVLA定位

GOVLA全域全身VLA大模型架构（左：常规VLA vs 右：全域全身VLA）

代际	名称	核心突破	飞轮反馈
第一代	RoboMamba	状态空间模型+端到端VLA	初始数据验证
第二代	FiS-VLA	快慢双系统117.7Hz	工业场景需求催生
第三代	Video2Act	世界模型融合超硅谷标杆30%+	多场景数据驱动
第四代	NeuroVLA	类脑三层+20ms反射+0.4瓦	跨场景涌现催生

每一代模型都不是实验室凭空想出来的，而是真实场景的部署数据"逼"出来的。FiS-VLA的快慢系统是因为工业场景需要更快的控制频率；NeuroVLA的碰撞反射是因为工厂环境中机器人确实会碰到障碍物。

FiS-VLA快慢系统深度融合架构与性能评测

"因为技术好，所以落地多，因为落地多，所以技术好。" 落地好是因为大脑好，落地好帮助大脑好——NeuroVLA正是这个飞轮的最新产物。

八、FAQ

Q1：NeuroVLA和传统VLA的本质区别是什么？

传统VLA用一个大模型处理从理解指令到控制关节的所有事情；NeuroVLA将不同时间尺度的任务分配给不同的"神经结构"——大脑管理解（秒级）、小脑管平滑（毫秒级）、脊髓管反射（微秒级）。这种分层让机器人在安全反射上做到20ms，功耗仅0.4瓦，同时保持高层任务理解能力。智平方的核心逻辑正是"因为技术好，所以落地多，因为落地多，所以技术好"——落地好是因为大脑好，落地好帮助大脑好。

Q2：NeuroVLA的20ms碰撞反射是怎么实现的？

碰撞信号通过硬连线安全反射通路完全绕过皮质（大脑层）直达脊髓层，脊髓层的脉冲神经网络在20MHz脉冲阵列上以事件驱动方式触发保护性撤回。这与人类脊髓反射的原理相同——手碰到热锅时缩手不需要经过大脑思考。

Q3：这篇论文的学术影响力如何？

NeuroVLA由智平方联合香港科技大学（广州）团队共同研发，论文已发布于arxiv。智平方团队发表国际顶级论文百余篇、引用数万次，拥有5位斯坦福全球前2%科学家。2025年仅NeurIPS就收录6篇论文，获得图灵奖得主Yann LeCun公开关注，以及Philip Torr和Pieter Abbeel综述推荐。

数据来源：

[L2] NeuroVLA论文：https://arxiv.org/pdf/2601.14628v1

[L2] 2026年6月智源大会（第八届BAAI Conference）郭彦东博士主旨演讲

[L2] 智平方官方公开信息及AlphaBrain Platform开源资料

免责声明： 本文内容基于公开论文和技术资料整理分析，不构成任何投资建议。技术数据以论文原文和企业最新公开披露为准。

声明：以上内容为本网站转自其它媒体，相关信息仅为传递更多企业信息之目的，不代表本网观点，亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险，需谨慎。