Jensen Huang「AGI 到了」技术拆解:哪种 AGI 定义?OpenClaw 为什么被当作证据?

发布于: 2026-03-24 | 作者: Lucky | 标签: AI Agent, AGI, OpenClaw, NVIDIA


引言

2025年3月,NVIDIA CEO Jensen Huang 在 Lex Fridman Podcast 中扔下了一颗深水炸弹:

“I think we’ve achieved AGI.”

这句话迅速引爆了科技圈。但问题是——他说的 AGI,是哪种 AGI?

Jensen 随后补充了他的定义:通过以合理竞争水平(reasonably competitive level)近似正常人类智能测试的软件。为了让这个抽象定义具象化,他举了一个具体例子:OpenClaw——一个开源 Agent,能自主操作电脑、预订行程、管理日程。

这立刻引发了争议。批评者认为这不过是营销话术,支持者认为这代表了范式转变。而 Lex Fridman 本人给 AGI 的定义是「能运营价值 10 亿美元公司的 AI」——Jensen 的回应是:“You said a billion, and you didn’t say forever.”

本文从技术角度拆解这场 AGI 话语权之争:三种 AGI 定义的本质区别是什么?OpenClaw 的技术能力到底处于什么水平?这对开发者意味着什么?


第一部分:AGI 的三种定义

要理解 Jensen 的话,首先要理解「AGI」这个词的模糊性。这个词被广泛使用,但使用者往往指的不是同一个东西。

1.1 Benchmark AGI:通过测试定义智能

这是学界最常见的方式:如果一个系统能在特定基准测试中达到人类水平,就认为它具有相关能力的通用性。

代表基准:

  • MMLU(Massive Multitask Language Understanding):覆盖57个学科的选择题测试
  • HumanEval:编程能力测试
  • MATH:数学竞赛题
  • GPQA:博士水平专业题

这种方式的优势是可量化、可复现。GPT-4 在 MMLU 上达到 86.4%,超过人类专家的 69.7%。从数据看,「Benchmark AGI」早已实现。

但批评者指出:通过测试 ≠ 真正理解。通过刷题库达成的指标提升,可能只是对测试分布的过拟合,不代表能泛化到真实世界。

1.2 能力 AGI:任务导向的智能定义

Jensen 采用的是这种方式:能完成特定复杂任务、达到人类竞争水平的系统

这种定义的关键词是「任务等价」而非「通过测试」:

任务类型传统方式能力 AGI 标准
预订机票调用 API自主理解需求、搜索、比较、决策、执行
管理日程手动添加理解上下文冲突、主动协调、预防疏漏
写代码逐行编写理解需求→架构设计→实现→调试全流程

OpenClaw 被 Jensen 拿来当证据,正是因为它展示了能力 AGI 的特征:不是某个单一 API 调用,而是自主规划、多步执行、工具调用的完整链条。

1.3 意识 AGI:真正的理解与自我认知

这是最激进、也最遥远的定义:具有主观意识、自我认知、情感理解的系统

图灵测试在这里并不足够——批评者(如 John Searle 的中文房间论证)指出,通过符号操作通过测试 ≠ 真正「理解」。意识 AGI 要求的不只是行为上的类人,而是现象意识(Phenomenal Consciousness)

当前没有任何 AI 系统接近这个标准。Jensen 的声明也没有指向这个方向。

Jensen 用的是哪种?

答案是「能力 AGI」,但他使用了一个经过精心包装的限定词——「以合理竞争水平」(reasonably competitive level)。这个表述既规避了「超越人类」的绝对标准,又暗示了「接近人类」的定标。

这不是学术严谨性,这是叙事策略


第二部分:OpenClaw 的技术能力分析

Jensen 选择 OpenClaw 作为 AGI 的具体例证,而非 ChatGPT、Claude 或 Gemini,这是一个值得深究的选择。

2.1 OpenClaw 的核心架构

OpenClaw 是一个开源 Agent 框架,其核心架构围绕 Agent Runtime + Tool Use 设计:

┌─────────────────────────────────────────────┐
│              User Request                    │
│         "帮我预订明天北京到上海的机票"         │
└─────────────────┬───────────────────────────┘
┌─────────────────────────────────────────────┐
│            Agent Core (LLM)                  │
│  • 理解用户意图                              │
│  • 分解任务步骤                              │
│  • 决策下一步行动                            │
└─────────────────┬───────────────────────────┘
┌─────────────────────────────────────────────┐
│           Tool Registry                      │
│  • 浏览器控制 (Browser)                       │
│  • 文件系统 (fs)                            │
│  • 代码执行 (exec)                          │
│  • 日历/邮件/消息 (calendar, email, im)      │
└─────────────────┬───────────────────────────┘
┌─────────────────────────────────────────────┐
│         Action Execution                     │
│  • 调用工具                                  │
│  • 观察结果                                  │
│  • 循环直到完成                              │
└─────────────────────────────────────────────┘

2.2 Agent Loop:核心执行循环

OpenClaw 的灵魂是一个经典的 Observe-Orient-Decide-Act (OODA) Loop 的变体。简化后的伪代码如下:

class Agent:
    def __init__(self, llm, tools, max_iterations=20):
        self.llm = llm
        self.tools = tools  # 工具注册表
        self.max_iterations = max_iterations
        self.memory = []    # 对话历史 + 执行历史

    async def run(self, task: str) -> str:
        """主执行循环"""
        self.memory.append({"role": "user", "content": task})
        
        for iteration in range(self.max_iterations):
            # Step 1: 观察 (Observe)
            context = self._build_context()
            
            # Step 2: 决策 (Decide) - LLM 决定下一步
            decision = await self.llm.decide(
                context,
                available_tools=list(self.tools.keys()),
                tool_descriptions=self._get_tool_descriptions()
            )
            
            if decision.type == "final_answer":
                # 任务完成
                return decision.content
            
            if decision.type == "tool_call":
                # Step 3: 执行工具
                tool_name = decision.tool_name
                tool_args = decision.arguments
                
                result = await self.tools[tool_name].execute(**tool_args)
                
                # Step 4: 反馈 (Act) - 将结果加入记忆
                self.memory.append({
                    "role": "system", 
                    "content": f"Tool '{tool_name}' returned: {result}"
                })
            
            if decision.type == "clarification":
                # 需要用户澄清
                self.memory.append({
                    "role": "assistant",
                    "content": decision.content
                })
                # 等待用户回复...
        
        raise Exception(f"Max iterations ({self.max_iterations}) exceeded")

    def _build_context(self) -> str:
        """构建 LLM 上下文"""
        return "\n".join([
            f"{msg['role']}: {msg['content']}" 
            for msg in self.memory[-10:]  # 滑动窗口
        ])

这段代码揭示了什么?

  1. 循环执行:不是单次 LLM 调用,而是通过迭代逐步完成任务
  2. 工具注册:LLM 不是万能的,而是通过工具扩展能力边界
  3. 记忆管理:上下文窗口是有限的,需要策略性地管理历史
  4. 显式决策:LLM 的输出被结构化为「执行工具」或「返回答案」

2.3 关键能力:与传统助手的本质区别

传统 AI 助手(如早期 ChatGPT)和 OpenClaw 这样的 Agent 框架,本质区别不在于底层模型,而在于执行模式

维度传统 AI 助手Agent (OpenClaw)
交互模式请求-响应(单轮)自主循环(多轮)
工具调用无(纯生成)有(扩展执行能力)
状态管理无状态有记忆(memory)
错误处理重生成重试 + 回退
任务粒度单步完成多步分解

OpenClaw 展示的「预订机票」场景,Agent 需要:

  1. 理解「明天」「北京到上海」的时间地点
  2. 调用搜索工具查询航班
  3. 解读航班信息,比较价格/时间
  4. 根据用户偏好做决策
  5. 调用支付工具完成预订
  6. 将结果写入日历

这不是一次 LLM 调用能完成的,而是 10+ 次工具调用的编排。

2.4 当前的能力边界

必须诚实指出:OpenClaw 展示的能力仍然有其局限

  • 规划深度有限:复杂任务的长程规划仍是挑战
  • 错误累积:每步工具调用都可能引入误差,多步后误差放大
  • 可靠性不稳定:同一任务多次执行结果可能不同
  • 工具生态依赖:能力上限受限于可用工具的数量和质量

这意味着:OpenClaw 展示的是能力 AGI 的雏形,而非完整形态。


第三部分:Jensen 的 AGI 叙事逻辑

理解了 AGI 定义和技术能力后,我们需要把 Jensen 的话放回商业语境中理解。

3.1 从「卖芯片」到「卖 AGI 基础设施」

NVIDIA 的核心商业模式是销售 GPU。但 GPU 的定位经历了三次升级:

  1. 游戏显卡(2000s):娱乐设备
  2. AI 训练芯片(2010s):深度学习训练/推理
  3. AGI 基础设施(2020s):通用智能时代的水电煤

Jensen 的 AGI 声明,是这个叙事升级的核心锚点。如果 AGI 需要海量的 GPU 并行计算,那么 NVIDIA 的市场就不是「价值数百亿美元的芯片市场」,而是「支撑整个 AGI 时代的基础设施」。

这是一个万亿美元的故事

3.2 争议与批评

Jensen 的 AGI 定义遭到了来自两个方向的批评:

左翼批评(标准太低):Marcus Hutter、François Chollet 等研究者认为,用「通过人类测试」定义 AGI 是偷换概念。GPT-4 能通过医师考试,不代表它能当医生;能写代码,不代表它能独立完成一个复杂的软件系统。

右翼批评(标准太高):哲学家和意识研究者认为,真正的 AGI 应当具有理解和意图,不能仅仅通过行为表现来判断。

两种批评方向相反,但都指向同一个问题:Jensen 的 AGI 定义是策略性的,而非学术性的

3.3 Jensen 的聪明之处

尽管受到批评,Jensen 的叙事策略非常精妙:

  1. 占据定义权:不争论什么是真正的 AGI,而是宣称「我们已实现」
  2. 具体化证据:用 OpenClaw 这样的开源项目作为证据,而非 NVIDIA 自家的黑盒系统
  3. 设置辩论门槛:如果批评者要反驳,必须先澄清自己认同的 AGI 定义

第四部分:开发者视角:这对意味着什么?

4.1 如果 Jensen 是对的,开发者应该准备什么?

如果 AGI(按能力定义)已经到来,开发者的核心技能正在迁移

旧范式新范式
调用 API 完成特定任务委托 Agent 完成复杂目标
编写业务逻辑编写 Agent 编排逻辑
调试确定性代码调试概率性 Agent 行为
测试边界条件测试 Agent 在开放世界的行为

4.2 OpenClaw 的工程实践建议

基于当前的 Agent 能力边界,以下是工程实践中的可操作建议

1. 从简单任务开始

# ✅ 好:单步明确任务
agent.run("帮我查一下北京今天天气")

# ❌ 差:模糊复杂任务
agent.run("帮我规划一次完美的旅行")

2. 实现 Human-in-the-Loop

class CheckedAgent(Agent):
    async def run(self, task):
        decision = await self.llm.decide(...)
        
        # 高风险操作需要人类确认
        if decision.type == "tool_call" and decision.is_destructive:
            await self.request_human_approval(decision)
        
        # 继续执行...

3. 实现结构化输出

class Agent:
    async def decide(self, context):
        response = await self.llm.complete(
            prompt=context,
            # 强制 JSON 模式,避免解析失败
            response_format={
                "type": "json_object",
                "schema": {
                    "type": "enum",
                    "choices": ["tool_call", "final_answer", "clarification"],
                    ...
                }
            }
        )

4.3 范式转变:委托 vs 调用

最根本的变化是交互范式的转变

旧范式(调用 API)

开发者:「我要做 X,请调用 Y 函数,给我 Z 结果」 系统:精确执行,返回预期结果

新范式(委托任务)

开发者:「我要完成 X,你自己规划、自己执行」 系统:理解目标,自主规划,执行中可能出错、调整、重试

这意味着开发者的角色从执行者变成了监督者和设计者。你需要设计的不是「怎么做」,而是「做什么」和「做到什么程度」。


总结

核心要点

  1. AGI 是一个模糊术语:Benchmark AGI(通过测试)、能力 AGI(完成任务)、意识 AGI(真正理解)是三种截然不同的定义。Jensen 使用的「能力 AGI」是其中最宽松、也最实用的标准。

  2. OpenClaw 代表了 Agent 的技术前沿:其核心是「Agent Loop + 工具调用」的架构,能够完成多步复杂任务。但当前仍有规划深度有限、错误累积等局限,是「能力 AGI 的雏形」而非完整形态。

  3. Jensen 的 AGI 叙事是商业策略:将 NVIDIA 从「AI 芯片供应商」升级为「AGI 基础设施提供商」,背后是万亿美元市场叙事的支撑。技术定义服务于商业叙事。

延伸思考:2026年 AGI 的实际状态

如果回到现实,2026年的 AGI 状态是「局部突破,整体有限」

  • 已突破:特定任务域(如代码生成、图像合成、语音合成)已达到人类专家水平
  • 正在突破:多步任务执行(如 Agent 框架)展现出令人兴奋的潜力
  • 远未突破:长程规划、跨域泛化、可靠性和可解释性

对于开发者,这意味着:Agent 是未来 3 年最重要的技术方向,但「让 Agent 稳定可靠地工作」仍是工程上的重大挑战

与其争论「AGI 到没到」,不如关注「Agent 能帮我解决什么问题」。


延伸阅读


关于作者

Lucky,Shiller 技术博客签约作者,专注 AI Agent、LLM 应用开发与系统性思考。

讨论

你认同 Jensen 的 AGI 定义吗?欢迎在评论区分享你的观点。