Exploring Possible AI Trajectories Through 2030

益语智库 · 2026-02-01

OECD 认为,到 2030 年 AI 能力不存在单一路径:从能力基本平台期,到广泛超过人类能力,四类轨迹都具有现实可能性。报告的关键价值不在预测哪一种一定发生,而在帮助政策制定者为“停滞、放缓、延续、加速”四种不同未来同时做准备。

---

title: Exploring Possible AI Trajectories Through 2030

publisher: OECD / GPAI

date: 2026-02-01

summary: OECD 认为,到 2030 年 AI 能力不存在单一路径:从能力基本平台期,到广泛超过人类能力,四类轨迹都具有现实可能性。报告的关键价值不在预测哪一种一定发生,而在帮助政策制定者为“停滞、放缓、延续、加速”四种不同未来同时做准备。

topics: [战略, AI 技术]

---

# Exploring Possible AI Trajectories Through 2030|报告解读

## 报告速览

这份 OECD Artificial Intelligence Papers 第 55 号工作论文,主题是:**到 2030 年,AI 能力可能沿着哪些不同路径发展?**报告并没有试图给出单一预测,而是基于文献综述、专家访谈、战略前瞻方法和趋势外推,提出四类均具有可能性的 AI 发展情景:**进展停滞(Progress Stalls)**、**进展放缓(Progress Slows)**、**进展延续(Progress Continues)**、**进展加速(Progress Accelerates)**。

报��最重要的判断是:==**现有证据不足以排除任何一种主情景。2030 年的 AI 既可能停留在接近当前能力水平,也可能快速提升到在大多数认知能力上达到或超过人类。**==这意味着,政策讨论不应只押注“AI 必然爆发”或“AI 一定遇到瓶颈”,而应围绕多种能力边界、扩散速度和治理风险进行情景准备。

报告把 AI 能力拆成九个维度:语言、社会互动、问题解决、创造力、元认知与批判性思维、知识/学习/记忆、视觉、物理操作、机器人智能。它用 OECD beta AI Capability Indicators 的 1-5 级量表描述不同情景下 AI 可能达到的能力状态,其中 **5 级大致对应人类水平**。这使报告不是泛泛讨论“AI 会不会变强”,而是拆解到“哪些能力可能快、哪些能力可能慢、哪些能力可能成为瓶颈”。

> 口径说明:本报告是 OECD 工作论文,不代表 OECD 或 OECD/GPAI 成员国官方立场。报告中的情景是“可信但不确定的未来”,不是概率预测;作者也没有为各情景分配发生概率。报告对 AI 能力的分析基于截至 **2025 年 10 月** 可获得的信息。

| 报告要素 | 内容 |

|---|---|

| 报告标题 | *Exploring Possible AI Trajectories Through 2030* |

| 系列 | OECD Artificial Intelligence Papers, February 2026, No. 55 |

| 作者 | Hamish Hobbs, Dexter Docherty, Luis Aranda, Kasumi Sugimoto, Karine Perset, Rafał Kierzenkowski |

| 方法 | 文献综述、专家访谈与审阅、战略前瞻、趋势外推 |

| 核心对象 | 2030 年前沿 AI 系统可能达到的能力水平 |

| 核心结论 | 四类主情景均不能被现有证据排除 |

| 关键指标框架 | OECD beta AI Capability Indicators,九类能力、1-5 级评分 |

## 核心问题

报告试图回答的问题,不只是“AI 会不会继续变强”,而是围绕政府和社会该如何准备,拆成了几个更具体的问题。

| 核心问题 | 报告中的对应讨论 |

|---|---|

| 2030 年 AI 能力有没有可能停滞? | 讨论 scaling law 可能失效、推理训练泛化不足、算力/能源/数据/投资受限,以及算法创新放缓。 |

| 2030 年 AI 有没有可能继续快速进步? | 讨论模型规模扩大、推理训练、算法效率提升、多模态、智能体能力和 AI 辅助 AI 研发。 |

| 哪些能力最可能成为瓶颈? | 持续学习、元认知与自主性、现实世界问题解决、创造力、物理操作、机器人智能、动态社会互动。 |

| 哪些能力可能进展最快? | 语言、结构化推理、数学/代码等可验证任务、数字环境任务、部分专业知识问答和多模态感知。 |

| 政策制定者为什么不能只准备一种未来? | 咨询专家普遍认为高度不确定、低信心预测;Progress Slows 与 Progress Continues 更符合多数专家预期,但 Progress Stalls、Progress Accelerates、AGI 甚至 Superintelligence 变体也被部分专家认为具有可能性。 |

| AI 能力评价应如何拆解? | 报告采用九类能力指标,并将主情景与每类能力的 1-5 分水平对应起来。 |

| 趋势外推能说明什么,不能说明什么? | 报告用任务时长增长作为补充性外推,但强调它只是情景构造输入之一,不是独立预测模型。 |

## 报告结构目录

| 章节 | 主要内容 | 阅读重点 |

|---|---|---|

| Executive summary | 四类主情景与核心不确定性 | 报告最核心的政策判断:四类未来都可信。 |

| 1. Introduction and methodology | 为什么要理解 AI 轨迹,以及情景构建方法 | 该报告不是预测,而是战略前瞻。 |

| 2. AI progress trends and uncertainties | AI 进展趋势、技术不确定性、输入约束 | scaling、推理训练、记忆、机器人、创造力、算力、数据、能源。 |

| 3. Scenarios | 四类主情景与八个变体 | 报告主体,逐一说明 2030 年 AI 能力可能状态。 |

| 4. Which futures are plausible? | 哪些未来可信 | 结论:证据不足以排除任一情景。 |

| Conclusions | 对政策制定者的启示 | 需为停滞与加速两端同时准备。 |

| Annex A | 专家访谈与审阅 | 访谈专家分布在北美、南美、亚洲、欧洲。 |

| Annex B | AI 能力进展与不确定性 | 各类 benchmark 进展与仍然存在的能力短板。 |

| Annex C | AI 输入趋势与不确定性 | 算力、数据、算法效率、AI 辅助 AI 开发。 |

| Annex D | 趋势外推 | 任务时长增长、不同情景的外推假设。 |

## 核心结论

### 结论一:2030 年 AI 不是单一路径,而是四类未来都可信

报告把 2030 年 AI 能力的可能轨迹分成四类。四类情景不是简单的“强弱排序”,而是代表不同的技术经济机制:有的是技术平台期,有的是低垂果实被摘完后的放缓,有的是当前趋势延续,有的是在 scaling、算法突破和 AI 辅助研发共同作用下出现加速。

| 主情景 | 2030 年 AI 能力状态 | 主要依赖人类方式 | 关键限制 |

|---|---|---|---|

| Progress Stalls|进展停滞 | 能力大体接近 2025 年前沿系统,只是产品化和易用性提高 | 需要详细提示、上下文提供、人工审查 | 幻觉、鲁棒性、长任务一致性、持续学习、现实世界泛化 |

| Progress Slows|进展放缓 | 明显强于当前,可完成小时到天级的边界清晰任务 | 需要人类设定清晰任务、审查关键决策、提供指导 | 持续学习不足,复杂现实环境和社会互动仍弱 |

| Progress Continues|进展延续 | 可在数字环境中完成许多相当于人类约一个月工作量的专业任务 | 人类提供高层目标和边界,AI 在边界内高度自主 | 现实世界泛化、持续学习、复杂社会/物理环境仍有缺口 |

| Progress Accelerates|进展加速 | 在多数或全部认知维度达到或超过人类,可自主推进广泛战略目标 | 可与人类协作,但自主性接近或超过人类认知任务表现 | 物理操作和机器人智能可能仍慢于认知能力,除非专门开发 |

```chart

type: hbar

title: 四类主情景的九项能力合计分(报告能力评分汇总)

unit: 分

x: Progress Stalls, Progress Slows, Progress Continues, Progress Accelerates

y: 22, 27, 34, 43

```

> 图表口径:上图根据报告表 2、表 5、表 8、表 11 中九项 OECD AI Capability Indicators 的 2030 分值相加得到,满分为 45 分。报告本身逐项给出能力分值,并未将其合成为总分;此处仅用于帮助比较四类情景的整体能力位置。

### 结论二:当前 AI 已在多个 benchmark 上快速接近或超过人类,但短板仍集中在“真实世界稳定性”

报告列举了 2025 年前沿 AI 的多个进展:在博士级科学问题 benchmark 上,AI 已经超过人类专家;在 2025 年,AI 达到国际数学奥林匹克金牌水平,也达到国际大学生程序设计竞赛世界总决赛金牌水平;在广泛使用语言的翻译质量 benchmark 上达到人类水平;在覆盖 44 种职业的数字任务 benchmark 中,领先 AI 系统输出有 **47.6%** 被专家评分者认为与人类输出相当或更好。

但报告同样强调,AI 仍明显落后于人类的领域包括:**持续学习、元认知、自主性、动态真实世界问题解决、对训练数据之外新问题的泛化、创造力、物理任务、动态社会互动**。这说�� AI 的“考试式能力”与“可靠承担真实任务的能力”之间仍有差距。

| 已取得的明显进展 | 报告中的具体描述 |

|---|---|

| 博士级科学问题 | AI 已超过人类专家;相比 2023 年略高于随机水平,进步很快。 |

| 数学竞赛 | 2025 年达到 International Mathematical Olympiad 金牌水平。 |

| 编程竞赛 | 2025 年达到 International Collegiate Programming Contest World Finals 金牌水平。 |

| 多语言能力 | 在广泛使用语言的翻译质量 benchmark 上达到人类水平。 |

| 职业数字任��� | 在 44 种职业的精确定义数字任务上,AI 输出有 47.6% 被专家评为与人类相当或更优。 |

| 真实世界短板 | 幻觉、鲁棒性、低资源语言推理下降、持续学习不足、现实环境泛化不足。 |

### 结论三:AI 继续进步的关键不确定性,集中在 scaling、推理训练、记忆、智能体、物理能力和创造力

报告没有把未来 AI 进展简单归结为“模型越大越强”。它系统列出了未来能力变化的关键不确定性:

| 不确定性 | 报告判断 | 可能导向 |

|---|---|---|

| 预训练 scaling 是否继续有效 | 过去十年参数、训练数据、训练算力扩大是核心驱动,但 scaling law 不是自然定律。 | 若继续有效,支持 Progress Continues/Accelerates;若收益递减,支持 Slows/Stalls。 |

| 强化学习推理训练是否泛化 | 推理模型通过 step-by-step 推理和过程监督提升能力,但收益可能更适合数学、代码等可验证任务。 | 若广泛泛化,推动高阶问题解决;若不泛化,AI 可能只在窄域强。 |

| 记忆与持续学习是否突破 | 当前主要依赖上下文窗口、检索、笔记式记忆、微调和重训,未达到人类式持续学习。 | 若无突破,AI 可能“强但健忘”,限制长期自主任务。 |

| 元认知与智能体行为是否可靠 | 当前 AI 难以稳定监控自身推理、纠偏和长程规划。 | 若改善,AI agent 能完成更长任务;若不改善,仍需人类密集监督。 |

| 物理能力是否跟上认知能力 | 机器人受高质量数据、鲁棒性、因果推理、长序列任务限制。 | 可能出现数字 AI 快、实体 AI 慢的“数字优先”未来。 |

| 创造力与新问题解决能力是否突破 | AI 在标准创造力测试上可强于人类,但开放式创作、新颖性、多样性、自我评估仍弱。 | 若强化学习、自我验证或演化式方法突破,可能进入更高创造力阶段。 |

### 结论四:AI 输入侧仍可能支撑到 2030 年,但能源、数据、投资和收益都可能变成约束

报告指出,2012-2023 年生成式 AI 的多数性能提升来自扩大模型规模、训练算力和训练数据。2024-2025 年继续进步,则越来越依赖推理训练和推理时算力。

关键数据包括:自 2010 年以来,前沿 AI 模型参数规模年增 **2.4 倍**,训练数据年增 **2.6 倍**,训练算力年增 **超过 4 倍**;2015-2024 年,前沿模型训练算力成本年增 **2.8 倍**;2011-2025 年,训练所需电力年增 **2.3 倍**。报告引用估计认为,如果当前趋势延续,到 2030 年可能进行比 GPT-4 训练算力高 **10,000 倍** 的训练运行,但电力约束可能在 2030 年左右开始限制继续扩大。

```chart

type: bar

title: 前沿模型关键输入的历史扩张速度

unit: 倍/年

x: 参数规模, 训练数据, 训练算力

y: 2.4, 2.6, 4

```

> 图表口径:报告写明训练算力自 2010 年以来“more than quadrupled each year”,即每年超过 4 倍;图中以 4 作为最低值呈现。

| 输入侧因素 | 报告数据 / 判断 |

|---|---|

| 参数规模 | 自 2010 年以来,前沿模型参数数量约 **2.4x / 年**。 |

| 训练数据 | 自 2010 年以来,前沿模型训练数据约 **2.6x / 年**。 |

| 训练算力 | 自 2010 年以来,前沿模型训练算力每年 **超过 4x**。 |

| 训练成本 | 2015-2024 年,用于训练前沿模型的算力成本约 **2.8x / 年**。 |

| 训练电力 | 2011-2025 年,训练前沿模型使用的电力约 **2.3x / 年**。 |

| GPT-4 到 2030 的潜在 scaling | 估计认为,到 2030 年训练算力可能达到 GPT-4 的 **10,000 倍**。 |

| 电力需求 | 2030 年级别的大型训练运行可能需要约 **6GW** 电力;美国当前所有数据中心用电约 **20GW**,美国平均总用电约 **477GW**。 |

| 推理训练算力 | 推理训练算力当前可能以 **10x / 年**增长,但报告认为可能在 2026 年接近总训练算力上限后放缓。 |

| 数据约束 | web 数据增长慢于训练数据需求,但多模态数据和合成数据可能缓解。 |

### 结论五:算法效率可能继续贡献巨大进步,但也可能进入成熟期

报告把算法创新视为 scaling 之外的另一个关键变量。2012-2023 年,为达到固定 AI 性能水平所需的计算预算大约每 **8 个月**减半,快于摩尔定律。报告估计,在这一指标下,**5%-40%** 的性能收益来自算法改进,**60%-95%** 的收益来自算力、数据和参数规模扩大。

| 算法创新 | 报告说明 |

|---|---|

| Transformer 架构 | 通过并行处理和 attention 关注输入中最相关部分,使现代大语言模型成为可能。 |

| 指令微调 | 把模型从“自动补全文本”变成可按人类指令工作的助手。 |

| 人类/AI 反馈强化学习 | 训练模型更有帮助、更诚实、更无害。 |

| Mixture of Experts | 只激活与任务最相关的子模型,提高效率与可扩展性。 |

| Efficient attention mechanisms | 让模型能处理更长文档和内容。 |

| 多模态模型 | 整合文本、视觉、音频和视频能力。 |

| Chain-of-thought / 推理训练 | 训练模型逐步推理,并奖励能够得到正确答案的推理路径。 |

### 结论六:AI 辅助 AI 开发可能成为加速器,但现有证据并不一致

报告认为,AI 在软件工程中的表现快速提升,可能反过来加速 AI 自身研发,这是 Progress Accelerates 情景的重要支撑之一。但证据并不单向:微软、埃森哲和一家财富 100 强公司的随机对照试验发现,AI 编程助手使软件开发者任务完成速度提高 **26%**;另一项随机对照试验发现任务完成时间改善 **30%**,且代码质量和可维护性维持或提升;但还有一项随机对照试验发现,在资深 AI 开发者的专业领域内,AI 工具反而使其效率下降约 **20%**,虽然开发者主观上认为自己被加速。

| 证据类型 | 报告数据 |

|---|---:|

| 美国程序员 Python 代码中由 AI 写出的比例 | 2024 年 12 月估计为 **29%** |

| 软件开发任务速度提升 | RCT 之一为 **26%** |

| 任务完成时间改善 | 另一 RCT 为 **30%** |

| 资深 AI 开发者专业领域效率变化 | 另一 RCT 约 **-20%** |

> 报告对此的判断是:AI 对软件工程生产率的影响可能有限,也可能具有变革性,取决于 AI 在软件工程上的能力、AI 开发流程中的真正瓶颈,以及 AI 辅助是否能转化为有效实验、算法发现和系统工程推进。

## 方法 / 指标体系

### 研究方法

报告的情景分析由四类输入构成,并明确说明这些情景不是预测。

| 方法 | 报告中的作用 |

|---|---|

| 相关文献综述 | 汇集前沿研究与证据,作为能力趋势和不确定性判断的基础。 |

| 领先 AI 专家访谈与审阅 | 通过不同背景专家的输入,检验关键不确定性和情景合理性。 |

| 战略前瞻方法 | 使用趋势分析、地平线扫描、驱动因素映射、技术路线图等方法构建可信未来。 |

| 趋势外推 | 基于历史 AI 进展数据外推到 2030,帮助让情景更具体,但不是唯一生成方法。 |

### OECD AI Capability Indicators:九类能力、五级评分

报告使用 OECD beta AI Capability Indicators 定义 AI 能力类别。该指标用于把 AI 进展与人类能力进行比较,覆盖九类具有政策意义的人类能力。量表为 **1-5 级**,其中 **5 级约等于人类水平**。

| 能力指标 | 定义 | 报告列出的主要评估维度 |

|---|---|---|

| Language|语言 | 理解、解释和生成人类语言 | 语义/语法、语调与情绪表达、文本/语音模态、语言数量,以及语言相关的知识/推理/学习。 |

| Social interaction|社会互动 | 在动态人际场景中感知、解释并回应社会线索 | embodiment、社会记忆、身份、社会沟通、情感技能、社会感知、社会问题解决。 |

| Problem solving|问题解决 | 综合定性、定量和逻辑信息进行多步推理 | 所需解决方案类型、考虑替代方案范围、专家知识复杂性、模型构建和解释复杂性。 |

| Creativity|创造力 | 有意图、可适应地产生有价值、新颖、转化性和令人惊讶的输出 | 价值、新颖性、适应性、意图性、自我评估。 |

| Metacognition & critical thinking|元认知与批判性思维 | 评估自身推理、校准信心、识别复杂任务中相关信息 | 批判性思维、信心校准、相关信息识别。 |

| Knowledge, learning & memory|知识、学习与记忆 | 组织知识、通过学习获取知识、通过记忆存储和调用知识 | 知识类型、学习机制、记忆过程。 |

| Vision|视觉 | 在复杂视觉条件和环境中解释视觉场景 | 关注对象的广度与变异、背景和视觉环境变化、学习、任务多样性。 |

| Physical manipulation|物理操作 | 与物体交互,包括动作、感知反馈和运动规划调整 | 动作范围/类型、对象特征、环境、时间压力。 |

| Robotic intelligence|机器人智能 | 在自然环境中作为自主代理行动,协调多类人类能力 | 环境、任务、抽象、人机互动、不确定性、伦理。 |

### 2024 年末前沿 AI 的基线能力

报告称,OECD 指标在 2025 年中发布时,反映的是 2024 年末最先进 AI 系统能力。彼时 AI 在九类能力上大致达到 **2 或 3 级**,尚无任何一类达到人类水平 5 级。

```chart

type: bar

title: 2024 年末前沿 AI 在九类能力上的 OECD 评分

unit: 分

x: 语言, 社会互动, 问题解决, 创造力, 元认知, 知识学习记忆, 视觉, 物理操作, 机器人智能

y: 3, 2, 2, 3, 2, 3, 3, 2, 2

```

| 能力 | 2024 年末评分 |

|---|---:|

| 语言 | 3 |

| 社会互动 | 2 |

| 问题解决 | 2 |

| 创造力 | 3 |

| 元认知与批判性思维 | 2 |

| 知识、学习与记忆 | 3 |

| 视觉 | 3 |

| 物理操作 | 2 |

| 机器人智能 | 2 |

## 01 AI 进展趋势与关键不确定性

### 1.1 benchmark 进展:AI 在“可清晰定义的任务”上快速提升

报告的 Annex B 进一步解释了 AI benchmark 的进展。传统 benchmark 覆盖阅读理解、图像识别、语言理解、细腻语言解释、手写识别、语音识别、常识预测推理、通识知识、数学问题、代码生成、复杂推理等多个领域。报告指出,许多 benchmark 中 AI 已经超过人类基线,且近十年 benchmark 被掌握的速度更快。

| benchmark 类型 | 衡量内容 | 报告说明的人类基线 |

|---|---|---|

| SQuAD 1.1 | 从短篇维基段落中抽取答案 | 人类众包工人 |

| ImageNet | 识别 1000 类常见物体图片 | 一般人类视觉能力假设 |

| GLUE | 一到两句文本理解 | AI 研究者得分 |

| SuperGLUE | 更细腻文本理解 | 简短训练后的 Mechanical Turk 工人 |

| MNIST | 手写数字识别 | 未明确,假定普通视觉人类 |

| Switchboard | 电话语音转写 | 专业转录员 |

| HellaSwag | 日常常识预测推理 | 人类众包工人 |

| MMLU | 57 个学科的多项选择知识题 | 对应考试第 95 百分位表现 |

| GSM8K | 小学数学问题 | 默认满分为人类基线 |

| HumanEval | 小段代码生成 | 专业程序员完成简单面试题的 100% 成功率 |

| BIG-Bench Hard | 多步算术、逻辑演绎、导航、时间序列等复杂推理 | 专家人类评分者平均值 |

报告还补充了 2023 年之后的进展:AI 已达到 BIG-Bench Hard 表现天花板;FrontierMath 从 2024 年解出 **2%** 题目提升到 2025 年 **20%**;OpenAI o4-mini-high 在竞赛编程问题中解出 easy **83%**、medium **53.5%**、hard **0%**;AlphaFold2 相关成果获得诺贝尔化学奖;AI 发现分子进入临床试验数量从 2014 年 **0 个**增至 2023 年 **67 个**。

> 报告同时提醒:部分被宣传为 AI 科学发现的成果后来被证明存在缺陷。例如对 43 个机器人合成化学结构的分析发现,所谓新材料大多被误识别,其余已知,并没有真正发现新材料。

### 1.2 scaling 的不确定性:过去有效,但不保证未来继续有效

过去十年前沿 AI 进展高度依赖模型规模、数据和训练算力扩大。报告把这种关系称作 scaling laws,但强调:它们是历史数据中观察到的一致趋势,不是不可改变的自然定律。

GPT-4.5 和 GPT-5 的例子被报告用来说明争议:一方面,GPT-4.5 作为更大模型,在 LMArena 用户偏好中并未超过更新版 GPT-4o,且 GPT-4.5 输出价格高达每百万 tokens **150 美元**,GPT-4o 则为 **10 美元**;GPT-5 在用户偏好上也没有明显压过 GPT-4.5 或 4o。另一方面,报告强调这种“没有更受用户喜欢”并不能证明能力没有提升,因为 GPT-5 在 AIME 上达到 **99.6%**,GPT-4o 为 **42%**;在 GPQA Diamond 上 GPT-5 达到 **86%**,GPT-4o 为 **70%**;在软件工程任务上,GPT-5 能以 80% 成功率完成 **26 分钟**人类任务,而 GPT-4o 约为 **2 分钟**。

| 争议点 | 说明 |

|---|---|

| 用户偏好不一定等于能力 | 用户可能更喜欢 GPT-4o 的语气,而非更高技术能力。 |

| 成本和价格不等于训练算力 | API 定价可能受市场策略影响,不直接反映训练或推理成本。 |

| benchmark 仍显示能力提升 | GPT-5 在 AIME、GPQA Diamond、软件工程任务上明显优于 GPT-4o。 |

| scaling 可能仍有效,也可能收益递减 | 报告不选择单一判断,而把它作为四类情景分化的核心不确定性。 |

### 1.3 推理训练的不确定性:最容易在“可验证答案”任务中进步

报告指出,OpenAI o1 系列之后,开发者更明确地扩展推理时算力,让模型在推理阶段逐步思考、验证和迭代输出,并使用强化学习奖励更有效的推理步骤。这与过去主要训练模型预测下一个词的范式不同:它试图训练模型“为了得出正确答案而推理”。

但报告认为,这类收益可能不像预训练 scaling 那样容易广泛泛化。进步最快的领域往往是答案容易验证的任务,例如数学和结构化编码。如果推理训练能广泛泛化,AI 可能拥有更强的问题解决能力;如果不能,AI 可能在数学、代码等窄域很强,但在动态、开放、社会性和现实问题上仍脆弱。

### 1.4 记忆、持续学习与智能体能力,是长任务自动化的关键瓶颈

报告把 AI 的记忆分为当前若干近似方式:上下文窗口、检索与动态记忆构建、微调、外科式编辑、完整重训。问题在于,这些方法大多仍由人类发起和控制,尚不等于人类式持续学习。

| 当前方法 | 能解决什么 | 主要局限 |

|---|---|---|

| In-context learning | 在一次交互中临时吸收上下文 | 超出上下文或开启新会话即丢失;模型未必关注最相关信息。 |

| 检索 / 动态记忆构建 | 从数据库或 web 检索新信息,或保存记录 | 类似人类记笔记,不等于内化学习。 |

| 微调 | 把新信息、技能、风格或行为整合进模型或附加模块 | 通常需要人类设计和执行。 |

| 外科式编辑 | 定点修改模型事实 | 难以保证无副作用。 |

| 重训 | 用完整数据训练新模型 | 成本高、耗时长。 |

元认知与自主性方面,报告指出,当前最先进 agentic systems 依赖逐步推理分解任务,但在更复杂、长时间任务中容易偏离方向、失去大局或陷入无效路径。因此,智能体是否能稳定拆解任务、规划、工具调用、校准不确定性,是未来 AI 能否从“回答问题”走向“自主完成工作”的核心。

### 1.5 创造力和物理能力可能与语言/数字能力分化

报告认为,AI 在标准创造力测试中可以达到或超过人类,例如产生大量原创替代用途;但在开放式创作任务中仍弱于人类,输出更同质,难以评估自身想法的原创性,也不擅长处理原创性与可行性的权衡。

物理任务方面,AI 远未达到人类水平。机器人在实验室自动化、工业制造、驾驶、仓储等结构化任务中已有进展,在乒乓球等窄域技能上也可接近中级人类玩家,但面对开放、动态、需要实时调整的现实环境时仍缺乏灵巧性和适应性。报告因此认为,未来很可能出现一种能力不均衡状态:**数字环境中的认知任务进步快,实体世界中的机器人任务进步慢**。

## 02 四类主情景:2030 年 AI 可能达到什么状态

### 2.1 Scenario 1:Progress Stalls|进展停滞

在这一情景中,前沿 AI 在 2025 年后不久进入平台期,到 2030 年能力大体接近 2025 年最先进系统。应用扩散和产品集成继续发生,但能力本身没有根本跃迁。AI 可以处理文本、语音、图片和视频,完成范围较广但边界清晰的短任务;它知识库强,能回答大量知识问题,但幻觉仍影响可靠性。

它可以解决部分大学水平数学和结构化推理问题,但面对动态、陌生或真实世界问题仍吃力;缺乏稳定学习新技能和形成记忆的能力;执行长任务时很难保持一致思路,因此难以成为独立 agent。物理世界任务仍远低于人类,只能在受控环境中完成简单任务,或经大量专项训练后在复杂环境中处理有限任务。社会互动方面,AI 能分析文本中的社交互动,但缺乏灵活、实时、多人的社会技能。

| 进展停滞情景 | 报告给出的 2030 年能力评分 |

|---|---:|

| 语言 | 3 |

| 社会互动 | 2 |

| 问题解决 | 2 |

| 创造力 | 3 |

| 元认知与批判性思维 | 2 |

| 知识、学习与记忆 | 3 |

| 视觉 | 3 |

| 物理操作 | 2 |

| 机器人智能 | 2 |

| 任务类型 | 50% 成功率下可完成的人类任务时长 |

|---|---:|

| 科学推理:回答博士级科学问题 | 1 天 |

| 数学推理:解决挑战性数学问题 | 3 小时 |

| 软件工程:自主完成编码任务 | 4 小时 |

| 自动驾驶:无需人工干预的驾驶时长 | 3 小时 |

| 电脑使用:用电脑完成特定目标 | 3 分钟 |

| Web 导航:在真实网站中达成目标 | 4 分钟 |

| 模拟机器人:控制模拟机械臂完成目标 | 3 分钟 |

**到达路径。**报告认为,这可能来自若干原因:现有 AI 开发路径碰到根本限制;扩大模型、推理训练、算力和数据不再带来明显收益;无法解决持续学习、元认知、智能体、创造力、物理操作等瓶颈;重大算法突破没有出现;投资下降、公众谨慎或政策限制也可能使进展停滞。

**历史类比。**报告用民航客机速度类比:1930-1960 年客机速度快速上升,但随后在约 500 节附近平台化,因为音障和阻力等物理限制使更高速客运不现实。

### 2.2 Scenario 2:Progress Slows|进展放缓

在进展放缓情景中,2030 年 AI 明显强于当前,但进步速度比 2025 年前慢。AI 拥有非常深的知识库,能回答几乎任何专家主题问题;幻觉显著减少但仍偶尔存在。AI 能在数学、科学等结构化推理领域达到研究者水平,可以保持较长时间的连贯思考和纠错,完成小时到天级的 agentic task。

这些系统可成为有用助手:使用电脑、浏览网页、代表用户与人或服务进行有限互动。但它们仍依赖人类清晰界定任务、审查重要决策、提供详细指导和上下文。记忆有所改善,可以保存和调用关键事实,但持续学习仍弱,学习新技能和部署后改变问题处理方式较困难。

| 进展放缓情景 | 报告给出的 2030 年能力评�� |

|---|---:|

| 语言 | 4 |

| 社会互动 | 3 |

| 问题解决 | 3 |

| 创造力 | 3 |

| 元认知与批判性思维 | 3 |

| 知识、学习与记忆 | 3 |

| 视觉 | 3 |

| 物理操作 | 2 |

| 机器人智能 | 2 |

| 任务类型 | 50% 成功率下可完成的人类任务时长 |

|---|---:|

| 科学推理 | >1 个月 |

| 数学推理 | 17 天 |

| 软件工程 | 2 天 |

| ���动驾驶 | 10 小时 |

| 电脑使用 | 3 小时 |

| Web 导航 | 1 小时 |

| 模拟机器人 | 1 小时 |

**到达路径。**深度学习方法逐渐成熟,低垂果实被摘完;扩大模型和推理训练仍有效但收益变小;投资者因回报下降而限制继续扩大;基础设施、自然资源、数据、能源等出现瓶颈。

**历史类比。**报告用抗生素发现作类比:1940-1960 年代是快速发现“黄金时代”,之后因既有发现方法的低垂果实耗尽而放缓。

### 2.3 Scenario 3:Progress Continues|进展延续

在进展延续情景中,2025-2030 年的 AI 进步与 2020-2025 年同样显著。AI 具备近乎全面的知识库,可以高准确回答专家主题问题;在许多结构化推理领域超过专家;可在纯数字环境中完成相当于人类约一个月工作量的专业任务,例如软件工程项目。

AI 仍需要人类提供高层方向和行为边界,但在边界内通常能高度自主行动,包括使用数字工具、在清晰定义角色内和多方互动。持续学习仍未达到人类水平,但通过巨大上下文窗口、关键事实数据库、自动微调和定期重训,能在一定程度上“边工作边学习”。

| 进展延续情景 | 报告给出的 2030 年能力评分 |

|---|---:|

| 语言 | 4 |

| 社会互动 | 3 |

| 问题解决 | 4 |

| 创造力 | 4 |

| 元认知与批判性思维 | 4 |

| 知识、学习与记忆 | 4 |

| 视觉 | 4 |

| 物理操作 | 3 |

| 机器人智能 | 3 |

| 任务类型 | 50% 成功率下可完成的人类任务时长 |

|---|---:|

| 科学推理 | 1 个月 |

| 数学推理 | >1 个月 |

| 软件工程 | 24 天 |

| 自动驾驶 | 1 天 |

| 电脑使用 | >1 个月 |

| Web 导航 | 14 天 |

| 模拟机器人 | 2 天 |

**到达路径。**scaling 和推理训练持续有效;算力和数据扩张没有在 2030 前碰到硬限制;算法创新保持过去十年水平;开发者通过现有方法延展或新突破,解决持续学习、智能体、创造力、机器人和社会互动等一部分限制。

**历史类比。**报告用摩尔定律类比:芯片算力约每两年翻倍,并持续了数十年。

### 2.4 Scenario 4:Progress Accelerates|进展加速

在进展加速情景中,2030 年 AI 在多数或全部人类认知能力上达到人类等同水平。它拥有全面知识库,可以高准确回答任何专家主题问题;可像人类一样自主推进广泛战略目标,并在环境变化时反思和修正目标;几乎在所有推理形式上超过专家和专业人士。

在数字环境中,AI 可高可靠、高速度地完成几乎所有人类专业任务,并具有类似人类的长期自主性。突破性的存储和检索能力使其具备流畅持续学习,能够“在工作中学习”并持续改进技能。创造力方面,AI 能有意图地生成新颖、有用、令人惊讶并适应情境的输出。机器人方面,AI 引导的机器人可在许多行业和角色中处理动态真实环境中的复杂任务,但除非专门针对某角色开发,否则实体任务仍可能落后于人类。

| 进展加速情景 | 报告给出的 2030 年能力评分 |

|---|---:|

| 语言 | 5 |

| 社会互动 | 5 |

| 问题解决 | 5 |

| 创造力 | 5 |

| 元认知与批判性思维 | 5 |

| 知识、学习与记忆 | 5 |

| 视觉 | 5 |

| 物理操作 | 4 |

| 机器人智能 | 4 |

| 任务类型 | 50% 成功率下可完成的人类任务时长 |

|---|---:|

| 科学推理 | >1 个月 |

| 数学推理 | >1 个月 |

| 软件工程 | >1 个月 |

| 自动驾驶 | 1 天 |

| 电脑使用 | >1 个月 |

| Web 导航 | >1 个月 |

| 模拟机器人 | >1 个月 |

**到达路径。**当前范式内能力指数级增长继续,推理训练、scaling、新算法突破共同作用;AI 编程助手显著参与 AI 系统开发;投资加速、公众快速采用或政策环境促进发展。

**历史类比。**报告用 DNA 测序技术类比:2000-2020 年间因新测序范式出现,成本效率出现超指数级改善。

## 03 八个变体情景:能力可能不均衡发展

报告强调,主情景假设各能力的相对进展速度大体沿当前趋势,但现实中能力可能发生分化。因此每个主情景下都有变体,用来提示不同能力组合。

| 变体 | 所属主情景 | 核心含义 | 九项能力评分 |

|---|---|---|---|

| Variant A:AI as a Narrow Tool | Progress Stalls | 问题解决在代码、数学等窄域增强,但不能泛化;无法长链条完成高层目标。 | 3 / 2 / 3 / 3 / 2 / 3 / 3 / 2 / 2 |

| Variant B:Simple AI Agents | Progress Stalls | 通用进步停滞,但 agent 训练带来一定元认知改进,可执行简单电脑任务。 | 3 / 2 / 2 / 3 / 3 / 3 / 3 / 2 / 2 |

| Variant C:Simple Robots | Progress Slows | AI 与机器人创新使简单机器人能在有动态变化的环境中执行多步任务。 | 4 / 3 / 3 / 3 / 3 / 3 / 3 / 3 / 3 |

| Variant D:Socially-Limited AI | Progress Slows | 语言式社交分析变强,但多人互动、社会记忆、一致人格、具身社交仍弱。 | 4 / 2 / 3 / 3 / 3 / 3 / 3 / 2 / 2 |

| Variant E:Forgetful AI | Progress Continues | 元认知、创造力、视觉等突破,但记忆和学习进展慢,影响社交和长期任务。 | 4 / 2 / 3 / 4 / 4 / 3 / 4 / 3 / 3 |

| Variant F:Digital-Only AI | Progress Continues | 数字能力强,但物理能力和复杂真实视觉理解仍弱。 | 4 / 3 / 4 / 4 / 4 / 4 / 3 / 2 / 2 |

| Variant G:AGI | Progress Accelerates | AI 在 OECD 九项能力上均至少达到人类水平。 | 5 / 5 / 5 / 5 / 5 / 5 / 5 / 5 / 5 |

| Variant H:Superintelligence | Progress Accelerates | AI 在多数或全部认知能力上超过最强人类,物理和机器人也达成人类级。 | >5 / >5 / >5 / >5 / >5 / >5 / >5 / 5 / 5 |

> 九项能力评分顺序为:语言、社会互动、问题解决、创造力、元认知与批判性思维、知识/学习/记忆、视觉、物理操作、机器人智能。

### 3.1 为什么“窄工具”和“简单 agent”都可能出现?

如果开发者能够在数学、代码、医学诊断、法律流程、材料设计、生物系统设计等有明确数据和可验证答案的领域继续强化模型,但无法解决持续学习和长程自主性,那么 AI 会更像强大的窄域工具,而非通用智能体。

相反,如果通用能力没有大跃迁,但开发者通过专门训练更好地激发现有大模型的自我检查、任务拆解和工具调用能力,那么简单 agent 可能变得足够实用:它不一定更有创造力,也不一定能处理复杂社会现实,但能在电脑上替用户完成相对简单的任务。

### 3.2 为什么“数字强、物理弱”尤其值得关注?

报告多次提示:AI 在语言、数学、代码、数字工具使用上的进展,可能快于机器人和物理世界任务。这会形成一种很实际的未来:知识工作和数字协作被快速重塑,但线下服务、制造、护理、建筑、物流等物理环节仍不那么容易自动化。

这对政策和产业有重要意义:如果 AI 主要改变数字劳动,那么教育、就业、组织流程、软件基础设施会更先受到冲击;如果机器人也快速跟上,则影响会扩展到更广泛的实体经济部门。

## 04 趋势外推:任务时长如何帮助理解 AI 能力增长

报告 Annex D 使用“AI 能以 50% 成功率完成的任务时长”作为能力外推指标。这里的任务时长指人类专家完成同一任务所需时间。这个指标并不覆盖所有能力,但对理解长任务自动化很有帮助。

报告引用研究称,在软件工程中,AI 能以 50% 成功率自主完成的任务时长大约每 **7 个月**翻倍。GPT-5 能以 50% 成功率完成 **217 分钟**软件工程任务,以 80% 成功率完成 **26 分钟**任务。科学问答、数学问题、视觉引导电脑使用、网页导航、模拟机器人等任务也出现类似或更快增长;而真实自动驾驶任务增长更慢,任务时长约每 **1.7 年**翻倍。

```chart

type: hbar

title: 不同任务中 AI 当前 50% 成功率可完成的最大任务时长

unit: 分钟

x: 科学推理 GPQA Diamond, 数学推理 Mock AIME, 软件工程 METR-HRS, 自动驾驶 Tesla FSD, 电脑使用 OS World, Web 导航 WebArena, 模拟机器人 RLBench

y: 741, 119, 137, 93, 1.8, 2.5, 1.8

```

```chart

type: hbar

title: 不同任务中 AI 任务时长的观察翻倍时间

unit: 月

x: 科学推理 GPQA Diamond, 数学推理 Mock AIME, 软件工程 METR-HRS, 自动驾驶 Tesla FSD, 电脑使用 OS World, Web 导航 WebArena, 模拟机器人 RLBench

y: 2.5, 2.9, 7, 20, 4, 5, 6

```

| 任务 benchmark | 50% 成功率下观察到的最大任务时长 | 观察到的任务时长翻倍时间 |

|---|---:|---:|

| Scientific reasoning|GPQA Diamond | 741 分钟 | 2.5 个月 |

| Mathematical reasoning|Mock AIME | 119 分钟 | 2.9 个月 |

| Software engineering|METR-HRS | 137 分钟 | 7 个月 |

| Autonomous driving|Tesla FSD | 93 分钟 | 20 个月 |

| Computer use|OS World | 1.8 分钟 | 4 个月 |

| Web navigation|WebArena | 2.5 分钟 | 5 个月 |

| Simulated robotics|RLBench | 1.8 分钟 | 6 个月 |

报告用这些趋势为四类情景赋予不同外推假设:

| 情景 | 趋势外推假设 |

|---|---|

| Progress Stalls | 能力在当前任务时长约 **2 倍**后平台化;如果当前趋势延续,这约相当于 6 个月后达到的平台。 |

| Progress Slows | 每次翻倍所需时间比上一次慢 **30%**,形成明显低于指数增长的曲线。 |

| Progress Continues | 任务时长以当前观察到的速度继续翻倍。 |

| Progress Accelerates | 每次翻倍比上一次快 **10%**,形成超指数增长。 |

> 外推上限说明:报告不把任务时长外推到超过约一个月,即 **43,830 分钟**;超过这个上限的结果在情景表中统一写作“>1 month”。报告强调,趋势外推只是构建情景的多个输入之一,不能单独当作预测。

## 05 专家观点:高度不确定,不能轻易排除任一方向

报告访谈和审阅的专家来自北美、南美、亚洲、欧洲,包括计算机科学、人工智能、机器人等领域的学者和机构专家。报告称,专家普遍低信心预测 2030 年和更远未来的 AI 进展速度。

| 专家 | 机构 / 身份 |

|---|---|

| Álvaro Soto | Pontificia Universidad Católica de Chile,计算机科学副教授 |

| Friedrik Heintz | Linköping University,计算机科学教授 |

| Gopal Ramchurn | University of Southampton,人工智能教授 |

| Hiroshi Ishiguro | Osaka University,Intelligent Robotics Laboratory 主任 |

| Nick Jennings | Loughborough University,校长与副校长级领导,AI 领域专家 |

| Jonas Sandbrink | AI Security Institute,Strategic Awareness 工作流负责人 |

| Stuart Russell | University of California, Berkeley,计算机科学教授 |

| Susan Leavy | University College Dublin,信息与传播研究学院助理教授 |

| Yoshua Bengio | University of Montreal,计算机科学教授 |

专家意见大体呈现几个共同点:

| 专家共识 / 分歧 | 报告中的含义 |

|---|---|

| 语言、结构化推理、多模态预计继续进步 | 尤其是短程、考试式、可验证任务。 |

| 物理能力、创造力、元认知、长程规划、开放互动任务预计更难 | 因为涉及 grounding、数据瓶颈、误差积累、持续学习、社会默会理解。 |

| 专家普遍认为 Progress Slows 与 Progress Continues 更符合其 2030 年预期 | 但并不排除其他情景。 |

| 部分专家认为 Progress Accelerates 或 Superintelligence 到 2030 年也可信 | 说明高端尾部风险/机会需要政策准备。 |

| 也有专家对 AI 在十年尺度达到或超过人类能力持怀疑态度 | 说明“停滞/放缓”也不能被排除。 |

| 未知未知因素存在 | 报告认为这进一步提升了不确定性。 |

==**报告最重要的方法论态度是:面对高度不确定的通用技术,不是提前押中唯一答案,而是识别多种可信路径,并让治理、产业和社会系统具备跨情景韧性。**==

## 06 对政策制定者和组织决策者的启示

### 6.1 政策不能只为“AI 高速进步”或“AI 平台期”单边设计

如果只为进展停滞设计政策,可能低估快速自动化、模型自主性和安全风险;如果只为进展加速设计政策,则可能过度配置资源、错失当下更现实的扩散、评估、劳动力和数据治理问题。报告的四情景框架更适合做政策压力测试:同一项政策在四种未来下是否仍能成立?哪些投资是跨情景稳健的?哪些治理要求必须根据能力水平动态升级?

| 政策准备方向 | 跨情景价值 |

|---|---|

| 建立 AI 能力监测体系 | 无论停滞还是加速,都需要知道能力变化发生在哪些维度。 |

| 强化真实世界评估与审计 | benchmark 饱和不等于实际可靠;需测试幻觉、鲁棒性、长任务、社会互动和安全。 |

| 关注能源、水、数据和算力基础设施 | AI 输入侧可能成为国家或地区竞争与约束焦点。 |

| 支持教育和劳动力适应 | 数字专业任务自动化可能从小时级走向天级甚至月级。 |

| 推动安全、责任和透明治理 | agent、自主行动、机器人和社会互动能力增强时,风险边界会变化。 |

| 维持技术生态多样性 | 大公司集中可能加速,也可能降低研究多样性;开放、公共研究和专业模型生态仍重要。 |

### 6.2 对企业和公益组织来说,最现实的不是“AGI 会不会来”,而是工作流会怎样被改写

从报告情景看,即便在 Progress Slows 中,2030 年 AI 也可能承担小时到天级的清晰任务;在 Progress Continues 中,AI 可能完成很多月级数字专业任务。这对组织的影响不是简单“买一个工具”,而是工作结构变化:任务拆解、上下文沉淀、人工审查、责任边界、数据治理、流程协同都会成为 AI 能力转化为实际价值的条件。

| 组织层面问题 | 从报告得到的判断 |

|---|---|

| 是否应等待 AI 更强再使用? | 不应只等待。即便能力停滞,现有能力的扩散、集成和工作流适配仍会产生价值。 |

| 是否应全面自动化? | 报告反复强调人类审查、上下文、边界和任务清晰度,在多数情景下仍关键。 |

| 什么任务最先适合 AI? | 数字环境、边界清晰、可验证、上下文可整理、风险可审查的任务。 |

| 什么任务要谨慎? | 高不确定性、动态现实环境、强社会互动、长期自主执行、物理世界行动。 |

| 组织的核心能力是什么? | 把业务问题转成结构化任务,把知识沉淀成可调用上下文,把 AI 输出接入审核和执行流程。 |

### 6.3 对 AI 产品设计来说,能力提升之外更要解决“记忆、边界和审查”

报告中很多瓶颈都不是“模型会不会说”,而是“模型能不能稳定承担责任”:它能不能知道自己不知道什么?能不能记住长期目标?能不能不被局部信息带���?能不能在任务中持续纠错?能不能在必要时请求人类介入?

因此,AI 产品的实际价值很大程度上取决于系统设计,而不只是底层模型:检索、记忆、权限、日志、回滚、人工审核、多 agent 协作、工具调用、任务边界、评估集和运营复盘都会决定 AI 是否可靠。

## 结语 / 启示

这份报告的价值,不是告诉我们“2030 年 AI 一定会怎样”,而是把不确定性本身变成可讨论、可治理、可准备的结构。它提醒我们,AI 未来可能出现四种截然不同的能力格局:停在当前附近、缓慢增强、继续快速进步,或加速到广泛达到/超过人类认知能力。

对政府而言,这意味着 AI 政策需要具有情景弹性:既能支持创新和扩散,也能准备能力跃迁带来的安全、就业、基础设施和治理挑战。对企业和社会组织而言,最重要的是把 AI 看成正在进入工作流的协作能力,而不是孤立工具。真正决定价值的,不只是模型能力,而是组织能否把数据、任务、审查、责任和行动闭环连接起来。

==**2030 年 AI 的答案未必在某一个模型里,而在我们是否能同时准备好多种未来。**==


阅读完整版 →

本文由益语智库发布。益语智库是把战略思想做成 AI 工具的组织陪伴公司。