AI 智能体从演示走向可持续工作

今天是 2026-06-25，00:00 Los Angeles time。下面是过去 12-24 小时里值得关注的全球 AI 大事件，按影响力和可行动性整理。

快速结论

当前窗口里最热的 AI 构建者信号是：智能体正在成为持久执行系统。OpenAI 正在发布 Codex 采用数据，Vercel 正在把编码 harness 变成沙箱化基础设施，小米正在推出廉价的全模态智能体 API，开源终端智能体也在获得动能。第二个主要主题是推理经济学：OpenAI 正在下探到自研芯片，而中国的 MiMo 栈正在围绕长上下文、多模态和价格展开竞争。近期给运营者的启示是：围绕长时间运行状态、隔离执行、可审查输出、模型/供应商可替换性和成本感知路由来设计 AI 产品。

1. OpenAI 将 Codex 使用数据变成长周期智能体的证明点

智能体市场正在从“它会不会写代码？”转向“它能否安全接手数小时的跨职能工作？”构建开发工具、运维工具、财务自动化、法律流程或内部 copilots 的团队，都应把持久性、权限、可观测性和交接设计视为核心产品原语。

关键信息

OpenAI 发布了一篇新的 Economic Research 论文，使用 Codex 遥测数据证明，智能体使用正在从短对话转向被委派的工作。核心数字很醒目：到 2026 年 5 月，在抽样的 Codex 个人用户中，80.6% 至少发起过一次预计超过 30 分钟人类工作量的请求，70.2% 跨过了一小时门槛，25.6% 跨过了八小时门槛。
据称，在 OpenAI 内部，Codex 已经成为所有部门的主要 AI 工具，而不只是工程团队。OpenAI 表示，自 2025 年 8 月以来，个人非开发者用户增长了 137 倍，组织内非开发者用户增长了 189 倍；对于 OpenAI 员工平均而言，Codex 占其输出 token 的 85% 以上。
为什么现在值得关注：这是迄今最清晰的第一方数据集之一，显示智能体产品正在从 IDE 附属工具变成工作系统。对创始人来说，实际启示是：产品设计要围绕长时间运行的任务状态、审查检查点、可审计性和跨职能工作流展开，而不只是聊天 UX。

来源

OpenAI - How agents are transforming work（2026-06-25）

2. OpenAI 的 Jalapeño 芯片将前沿推理推向垂直整合

这不只是一个硬件故事。它表明模型实验室正在围绕完整推理供应链竞争。正在谈判多年期模型/平台承诺的 AI 产品团队，应预期算力效率、延迟保证和供应商锁定会成为厂商选择中更重要的部分。

关键信息

OpenAI 和 Broadcom 发布了 Jalapeño，这是 OpenAI 首款面向 LLM 推理的自研“Intelligence Processor”。OpenAI 表示，工程样片已经在实验室以目标频率和功耗运行 ML 工作负载，包括 GPT-5.3-Codex-Spark。
该芯片由 OpenAI 与 Broadcom、Celestica 共同开发：Broadcom 负责硅片和网络，Celestica 负责板卡/机架集成，并计划到 2026 年底在一个多代平台上部署。OpenAI 表示，早期测试显示其每瓦性能显著优于当前最先进水平，但详细技术报告仍待发布。
为什么现在值得关注：推理成本正在变成产品战略。如果 Jalapeño 能兑现，OpenAI 就能把模型架构、kernel、内存搬运、网络、调度以及 API/产品延迟作为一个整体栈来调优。构建者应关注这是否会转化为更低的 API 价格、更高的可用性，或针对 Codex/智能体工作负载的优先经济性。

来源

OpenAI - OpenAI and Broadcom unveil LLM-optimized inference chip（2026-06-24）

3. Vercel 展示如何让编码智能体安全处理不可信仓库

对 AI 开发工具创始人而言，沙箱化正在成为基本门槛。胜出的工作流不只是模型质量，还包括可复现执行、隔离文件系统、通过网关路由的凭据、可流式传输的诊断，以及人类在合并前可审查的报告。

关键信息

Vercel 发布了一篇新的构建者指南，介绍如何使用 AI SDK 7 HarnessAgent、Vercel Sandbox 和 AI Gateway，构建一个沙箱化的 GitHub issue 分诊智能体。该模式会在隔离的 microVM 中，针对不可信仓库代码运行真实的编码 harness——示例包括 Claude Code 和 Codex。
指南展示了一个具体的 Next.js 流程：验证公开 GitHub issue URL，获取 issue 上下文，启动所选 harness adapter，在 Vercel Sandbox 中 clone/检查仓库，运行一个会失败的命令，并以换行分隔 JSON 的形式流式输出结构化维护者报告。
为什么现在值得关注：这是从“AI 在我的笔记本上写代码”走向“AI 在生产工作流中安全执行不可信软件”的实用模式。它也指向一个近期抽象层：Claude Code、Codex、OpenCode、Pi 以及未来的编码智能体都将成为可替换的执行后端。

来源

Vercel - Investigate GitHub issues with HarnessAgent and Sandbox（2026-06-25）

4. 小米 MiMo V2.5 让低成本全模态智能体成为值得关注的中国信号

如果这些价格和吞吐量宣称能在真实工作负载中成立，中国以外的初创公司将获得另一个参照点，理解智能体式多模态推理可能会变得多便宜。即使可用性受地区限制，它也会在价格、上下文长度和 API 兼容性上给全球实验室施压。

关键信息

小米 MiMo 页面现在显示 V2.5 系列已经可用，MiMo-V2-Pro/Omni/Flash 自动路由到 V2.5 定价，V2 系列计划于 6 月 30 日完全弃用。页面还重点介绍了 MiMo Claw 作为官方智能体平台发布，原生集成 OpenClaw，并支持 WPS 生态。
技术/经济信号非常激进：MiMo-V2.5 宣称原生支持图像、视频、音频和文本的全模态理解，具备 1M 上下文，以及用于浏览、推理和行动的智能体执行能力。MiMo-V2.5 的 API 标价为每百万 cache-miss 输入 token 0.14 美元、每百万输出 token 0.28 美元；MiMo-V2.5-Pro 标示为 1T 总参数、42B 激活参数、1M 上下文，输入/输出分别为每百万 token 0.435 / 0.87 美元。
为什么现在值得关注：这是一个很强的中国/亚洲构建者经济性信号。该模型平台把兼容 OpenAI 和 Anthropic 的 API、智能体 IDE 集成、长上下文、多模态和极低 token 价格打包到了一起。

来源

Xiaomi MiMo - Xiaomi MiMo-V2.5 Series — Now Available / MiMo Claw Official Launch（2026-06-25）

5. oh-my-pi 显示开源编码智能体正在下沉到更底层

构建者应关注终端智能体，因为它们会成为模型、本地仓库、shell、浏览器、LSP 和 CI 之间的集成层。真正的机会不是再做一个聊天面板，而是在开发者已经信任的环境中，实现可靠的工具编排和补丁应用。

关键信息

oh-my-pi 目前是一个势头很强的开源终端编码智能体，拥有 14.6k GitHub stars，最新 release 显示为 2026 年 6 月 25 日的 v16.1.19。该项目将自己描述为面向终端的 AI 编码智能体，具备基于哈希锚定的编辑、优化工具 harness、LSP 集成、Python、浏览器支持、子智能体等能力。
README 将其定位为一个接入了 IDE 能力的编码智能体，可通过 shell 脚本、Homebrew、Bun、Windows PowerShell 安装，也可作为 Node/TypeScript SDK 嵌入。其包结构包括多供应商 LLM 支持、智能体运行时、终端 UI、原生 grep/shell/image/text 绑定、本地记忆、上下文压缩和 swarm 编排。
为什么现在值得关注：开源智能体栈正在围绕终端优先工作流整合，把快速编辑、更丰富的本地工具、多模型供应商、记忆和子智能体结合起来。这与商业 IDE 智能体的发展方向一致，但提供的是可 hack 的基础设施。

来源

GitHub - can1357/oh-my-pi（2026-06-25）

6. OpenAI Daybreak 将 AI 安全重新聚焦到合入补丁，而不只是发现漏洞

安全团队应根据闭环修复质量来评估 AI 工具：可达性分析、证据、可复现测试、人类批准、SARIF/CodeQL 导出和补丁审查。只有漏洞生成、没有维护者承接能力，会制造比安全更多的噪音。

关键信息

OpenAI 的 Daybreak 扩展已经发布数日，但仍在获得构建者关注，因为它把前沿网络安全模型直接连接到补丁生成工作流。OpenAI 表示，更新后的 Codex Security 插件支持防御性安全扫描、验证证据、攻击路径追踪、威胁建模以及面向特定代码库的补丁生成。
完整的 GPT-5.5-Cyber 限量发布面向可信防御者。OpenAI 报告称，在 CyberGym 上其得分为 85.6%，GPT-5.5 为 81.8%；在 ExploitGym 上为 39.5%，对比 25.95%；在 SEC-bench Pro 上为 69.8%，对比 63.1%。Patch the Planet 由 OpenAI 与 Trail of Bits 共同创立，并与 HackerOne、Calif、研究人员和维护者合作，目前已有 30 多个开源项目承诺参与，包括 cURL、Go、Python、Sigstore 和 pyca/cryptography。
为什么现在值得关注：有用的经验不是“AI 能找到更多漏洞”，而是稀缺的工作流在于验证、去重、打补丁、测试并合入修复，同时不压垮维护者。这对任何正在把 AI 加入 AppSec 或依赖维护流水线的团队都具有直接相关性。

来源

OpenAI - Daybreak: Tools for securing every organization in the world（2026-06-22）

接下来值得盯的信号

OpenAI 承诺发布的 Jalapeño 技术报告：最终每瓦性能、支持的工作负载，以及节省是否会传导给 API 客户。
Vercel 的 HarnessAgent 抽象是否会获得 Claude Code 和 Codex 之外的一等 adapter，尤其是 OpenCode/Pi/本地智能体。
MiMo V2.5 在中国以外的真实可用性、延迟、速率限制和兼容性；基准宣称需要独立确认。
开源智能体可靠性指标：补丁成功率、回滚行为、测试复现和默认安全执行设置。
Daybreak/Patch the Planet 是否能在不压垮维护者的情况下，大规模产出公开合并的补丁。

本文由自动化流程基于联网搜索生成，发布前建议抽查关键来源。