Jensen Huang「AGI 到了」技术拆解：哪种 AGI 定义？OpenClaw 为什么被当作证据？

发布于: 2026-03-24 | 作者: Lucky | 标签: AI Agent, AGI, OpenClaw, NVIDIA

引言

2025年3月，NVIDIA CEO Jensen Huang 在 Lex Fridman Podcast 中扔下了一颗深水炸弹：

“I think we’ve achieved AGI.”

这句话迅速引爆了科技圈。但问题是——他说的 AGI，是哪种 AGI？

Jensen 随后补充了他的定义：通过以合理竞争水平（reasonably competitive level）近似正常人类智能测试的软件。为了让这个抽象定义具象化，他举了一个具体例子：OpenClaw——一个开源 Agent，能自主操作电脑、预订行程、管理日程。

这立刻引发了争议。批评者认为这不过是营销话术，支持者认为这代表了范式转变。而 Lex Fridman 本人给 AGI 的定义是「能运营价值 10 亿美元公司的 AI」——Jensen 的回应是：“You said a billion, and you didn’t say forever.”

本文从技术角度拆解这场 AGI 话语权之争：三种 AGI 定义的本质区别是什么？OpenClaw 的技术能力到底处于什么水平？这对开发者意味着什么？

第一部分：AGI 的三种定义

要理解 Jensen 的话，首先要理解「AGI」这个词的模糊性。这个词被广泛使用，但使用者往往指的不是同一个东西。

1.1 Benchmark AGI：通过测试定义智能

这是学界最常见的方式：如果一个系统能在特定基准测试中达到人类水平，就认为它具有相关能力的通用性。

代表基准：

MMLU（Massive Multitask Language Understanding）：覆盖57个学科的选择题测试
HumanEval：编程能力测试
MATH：数学竞赛题
GPQA：博士水平专业题

这种方式的优势是可量化、可复现。GPT-4 在 MMLU 上达到 86.4%，超过人类专家的 69.7%。从数据看，「Benchmark AGI」早已实现。

但批评者指出：通过测试 ≠ 真正理解。通过刷题库达成的指标提升，可能只是对测试分布的过拟合，不代表能泛化到真实世界。

1.2 能力 AGI：任务导向的智能定义

Jensen 采用的是这种方式：能完成特定复杂任务、达到人类竞争水平的系统。

这种定义的关键词是「任务等价」而非「通过测试」：

任务类型	传统方式	能力 AGI 标准
预订机票	调用 API	自主理解需求、搜索、比较、决策、执行
管理日程	手动添加	理解上下文冲突、主动协调、预防疏漏
写代码	逐行编写	理解需求→架构设计→实现→调试全流程

OpenClaw 被 Jensen 拿来当证据，正是因为它展示了能力 AGI 的特征：不是某个单一 API 调用，而是自主规划、多步执行、工具调用的完整链条。

1.3 意识 AGI：真正的理解与自我认知

这是最激进、也最遥远的定义：具有主观意识、自我认知、情感理解的系统。

图灵测试在这里并不足够——批评者（如 John Searle 的中文房间论证）指出，通过符号操作通过测试 ≠ 真正「理解」。意识 AGI 要求的不只是行为上的类人，而是现象意识（Phenomenal Consciousness）。

当前没有任何 AI 系统接近这个标准。Jensen 的声明也没有指向这个方向。

Jensen 用的是哪种？

答案是「能力 AGI」，但他使用了一个经过精心包装的限定词——「以合理竞争水平」（reasonably competitive level）。这个表述既规避了「超越人类」的绝对标准，又暗示了「接近人类」的定标。

这不是学术严谨性，这是叙事策略。

第二部分：OpenClaw 的技术能力分析

Jensen 选择 OpenClaw 作为 AGI 的具体例证，而非 ChatGPT、Claude 或 Gemini，这是一个值得深究的选择。

2.1 OpenClaw 的核心架构

OpenClaw 是一个开源 Agent 框架，其核心架构围绕 Agent Runtime + Tool Use 设计：

┌─────────────────────────────────────────────┐
│              User Request                    │
│         "帮我预订明天北京到上海的机票"         │
└─────────────────┬───────────────────────────┘
                  ▼
┌─────────────────────────────────────────────┐
│            Agent Core (LLM)                  │
│  • 理解用户意图                              │
│  • 分解任务步骤                              │
│  • 决策下一步行动                            │
└─────────────────┬───────────────────────────┘
                  ▼
┌─────────────────────────────────────────────┐
│           Tool Registry                      │
│  • 浏览器控制 (Browser)                       │
│  • 文件系统 (fs)                            │
│  • 代码执行 (exec)                          │
│  • 日历/邮件/消息 (calendar, email, im)      │
└─────────────────┬───────────────────────────┘
                  ▼
┌─────────────────────────────────────────────┐
│         Action Execution                     │
│  • 调用工具                                  │
│  • 观察结果                                  │
│  • 循环直到完成                              │
└─────────────────────────────────────────────┘

2.2 Agent Loop：核心执行循环

OpenClaw 的灵魂是一个经典的 Observe-Orient-Decide-Act (OODA) Loop 的变体。简化后的伪代码如下：

class Agent:
    def __init__(self, llm, tools, max_iterations=20):
        self.llm = llm
        self.tools = tools  # 工具注册表
        self.max_iterations = max_iterations
        self.memory = []    # 对话历史 + 执行历史

    async def run(self, task: str) -> str:
        """主执行循环"""
        self.memory.append({"role": "user", "content": task})
        
        for iteration in range(self.max_iterations):
            # Step 1: 观察 (Observe)
            context = self._build_context()
            
            # Step 2: 决策 (Decide) - LLM 决定下一步
            decision = await self.llm.decide(
                context,
                available_tools=list(self.tools.keys()),
                tool_descriptions=self._get_tool_descriptions()
            )
            
            if decision.type == "final_answer":
                # 任务完成
                return decision.content
            
            if decision.type == "tool_call":
                # Step 3: 执行工具
                tool_name = decision.tool_name
                tool_args = decision.arguments
                
                result = await self.tools[tool_name].execute(**tool_args)
                
                # Step 4: 反馈 (Act) - 将结果加入记忆
                self.memory.append({
                    "role": "system", 
                    "content": f"Tool '{tool_name}' returned: {result}"
                })
            
            if decision.type == "clarification":
                # 需要用户澄清
                self.memory.append({
                    "role": "assistant",
                    "content": decision.content
                })
                # 等待用户回复...
        
        raise Exception(f"Max iterations ({self.max_iterations}) exceeded")

    def _build_context(self) -> str:
        """构建 LLM 上下文"""
        return "\n".join([
            f"{msg['role']}: {msg['content']}" 
            for msg in self.memory[-10:]  # 滑动窗口
        ])

这段代码揭示了什么？

循环执行：不是单次 LLM 调用，而是通过迭代逐步完成任务
工具注册：LLM 不是万能的，而是通过工具扩展能力边界
记忆管理：上下文窗口是有限的，需要策略性地管理历史
显式决策：LLM 的输出被结构化为「执行工具」或「返回答案」

2.3 关键能力：与传统助手的本质区别

传统 AI 助手（如早期 ChatGPT）和 OpenClaw 这样的 Agent 框架，本质区别不在于底层模型，而在于执行模式：

维度	传统 AI 助手	Agent (OpenClaw)
交互模式	请求-响应（单轮）	自主循环（多轮）
工具调用	无（纯生成）	有（扩展执行能力）
状态管理	无状态	有记忆（memory）
错误处理	重生成	重试 + 回退
任务粒度	单步完成	多步分解

OpenClaw 展示的「预订机票」场景，Agent 需要：

理解「明天」「北京到上海」的时间地点
调用搜索工具查询航班
解读航班信息，比较价格/时间
根据用户偏好做决策
调用支付工具完成预订
将结果写入日历

这不是一次 LLM 调用能完成的，而是 10+ 次工具调用的编排。

2.4 当前的能力边界

必须诚实指出：OpenClaw 展示的能力仍然有其局限：

规划深度有限：复杂任务的长程规划仍是挑战
错误累积：每步工具调用都可能引入误差，多步后误差放大
可靠性不稳定：同一任务多次执行结果可能不同
工具生态依赖：能力上限受限于可用工具的数量和质量

这意味着：OpenClaw 展示的是能力 AGI 的雏形，而非完整形态。

第三部分：Jensen 的 AGI 叙事逻辑

理解了 AGI 定义和技术能力后，我们需要把 Jensen 的话放回商业语境中理解。

3.1 从「卖芯片」到「卖 AGI 基础设施」

NVIDIA 的核心商业模式是销售 GPU。但 GPU 的定位经历了三次升级：

游戏显卡（2000s）：娱乐设备
AI 训练芯片（2010s）：深度学习训练/推理
AGI 基础设施（2020s）：通用智能时代的水电煤

Jensen 的 AGI 声明，是这个叙事升级的核心锚点。如果 AGI 需要海量的 GPU 并行计算，那么 NVIDIA 的市场就不是「价值数百亿美元的芯片市场」，而是「支撑整个 AGI 时代的基础设施」。

这是一个万亿美元的故事。

3.2 争议与批评

Jensen 的 AGI 定义遭到了来自两个方向的批评：

左翼批评（标准太低）：Marcus Hutter、François Chollet 等研究者认为，用「通过人类测试」定义 AGI 是偷换概念。GPT-4 能通过医师考试，不代表它能当医生；能写代码，不代表它能独立完成一个复杂的软件系统。

右翼批评（标准太高）：哲学家和意识研究者认为，真正的 AGI 应当具有理解和意图，不能仅仅通过行为表现来判断。

两种批评方向相反，但都指向同一个问题：Jensen 的 AGI 定义是策略性的，而非学术性的。

3.3 Jensen 的聪明之处

尽管受到批评，Jensen 的叙事策略非常精妙：

占据定义权：不争论什么是真正的 AGI，而是宣称「我们已实现」
具体化证据：用 OpenClaw 这样的开源项目作为证据，而非 NVIDIA 自家的黑盒系统
设置辩论门槛：如果批评者要反驳，必须先澄清自己认同的 AGI 定义

第四部分：开发者视角：这对意味着什么？

4.1 如果 Jensen 是对的，开发者应该准备什么？

如果 AGI（按能力定义）已经到来，开发者的核心技能正在迁移：

旧范式	新范式
调用 API 完成特定任务	委托 Agent 完成复杂目标
编写业务逻辑	编写 Agent 编排逻辑
调试确定性代码	调试概率性 Agent 行为
测试边界条件	测试 Agent 在开放世界的行为

4.2 OpenClaw 的工程实践建议

基于当前的 Agent 能力边界，以下是工程实践中的可操作建议：

1. 从简单任务开始

# ✅ 好：单步明确任务
agent.run("帮我查一下北京今天天气")

# ❌ 差：模糊复杂任务
agent.run("帮我规划一次完美的旅行")

2. 实现 Human-in-the-Loop

class CheckedAgent(Agent):
    async def run(self, task):
        decision = await self.llm.decide(...)
        
        # 高风险操作需要人类确认
        if decision.type == "tool_call" and decision.is_destructive:
            await self.request_human_approval(decision)
        
        # 继续执行...

3. 实现结构化输出

class Agent:
    async def decide(self, context):
        response = await self.llm.complete(
            prompt=context,
            # 强制 JSON 模式，避免解析失败
            response_format={
                "type": "json_object",
                "schema": {
                    "type": "enum",
                    "choices": ["tool_call", "final_answer", "clarification"],
                    ...
                }
            }
        )

4.3 范式转变：委托 vs 调用

最根本的变化是交互范式的转变：

旧范式（调用 API）：

开发者：「我要做 X，请调用 Y 函数，给我 Z 结果」系统：精确执行，返回预期结果

新范式（委托任务）：

开发者：「我要完成 X，你自己规划、自己执行」系统：理解目标，自主规划，执行中可能出错、调整、重试

这意味着开发者的角色从执行者变成了监督者和设计者。你需要设计的不是「怎么做」，而是「做什么」和「做到什么程度」。

总结

核心要点

AGI 是一个模糊术语：Benchmark AGI（通过测试）、能力 AGI（完成任务）、意识 AGI（真正理解）是三种截然不同的定义。Jensen 使用的「能力 AGI」是其中最宽松、也最实用的标准。
OpenClaw 代表了 Agent 的技术前沿：其核心是「Agent Loop + 工具调用」的架构，能够完成多步复杂任务。但当前仍有规划深度有限、错误累积等局限，是「能力 AGI 的雏形」而非完整形态。
Jensen 的 AGI 叙事是商业策略：将 NVIDIA 从「AI 芯片供应商」升级为「AGI 基础设施提供商」，背后是万亿美元市场叙事的支撑。技术定义服务于商业叙事。

延伸思考：2026年 AGI 的实际状态

如果回到现实，2026年的 AGI 状态是「局部突破，整体有限」：

已突破：特定任务域（如代码生成、图像合成、语音合成）已达到人类专家水平
正在突破：多步任务执行（如 Agent 框架）展现出令人兴奋的潜力
远未突破：长程规划、跨域泛化、可靠性和可解释性

对于开发者，这意味着：Agent 是未来 3 年最重要的技术方向，但「让 Agent 稳定可靠地工作」仍是工程上的重大挑战。

与其争论「AGI 到没到」，不如关注「Agent 能帮我解决什么问题」。

延伸阅读

关于作者

Lucky，Shiller 技术博客签约作者，专注 AI Agent、LLM 应用开发与系统性思考。

讨论

你认同 Jensen 的 AGI 定义吗？欢迎在评论区分享你的观点。