今天是 2026-06-02,00:00 Los Angeles time。下面是过去 12-24 小时里值得关注的全球 AI 大事件,按影响力和可行动性整理。
快速结论
AI 构建者简报:前沿模型进入工作流、云和物理系统
6 月 2 日前后,最值得构建者关注的 AI 动态并不是某个单一聊天机器人发布,而是一组平台层面的迁移:OpenAI 将 Codex 更深入地推入企业工作流和 AWS;MiniMax 发布了一个长上下文、开放权重的编码/多模态模型;NVIDIA 打开了新的物理 AI 基础栈;Anthropic 扩大了对强大网络安全模型的受控访问;Perplexity 为智能体提出了可编程搜索;阿里巴巴推进了 Qwen 的多模态智能体产品线。共同主题是:前沿能力正在从聊天界面迁移到真实运行环境——IDE、云治理层、搜索栈、安全管线、GUI 智能体和机器人仿真。
1. 1. OpenAI 将 Codex 从开发者代理扩展为企业工作台
对创始人和运营者来说,Codex 正在成为内部工具、分析、GTM、设计和财务工作流的产品界面,而不只是用于修改代码仓库。如果你的团队已经使用 AWS 治理体系,通过 Bedrock 接入可能会缩短安全审查和部署周期。
关键信息
- OpenAI 让 Codex 变得远不止“只会写代码”:六个面向具体角色的插件覆盖数据分析、创意制作、产品设计、销售、公开股票投资和投资银行,把 62 个应用和 110 项技能打包进预配置工作流。
- Codex Sites 正在面向 Business 和 Enterprise 工作区推出预览版,让团队可以生成交互式托管页面/应用,并通过工作区内的 URL 共享;批注功能现在也从代码和网站的迭代优化扩展到文档、电子表格和幻灯片。
- 就在前一天,OpenAI 表示其前沿模型和 Codex 已在 Amazon Bedrock 上正式可用,包括 AWS 原生的安全与治理控制,并支持 Commercial 和 GovCloud。实际变化是:OpenAI 正在把 Codex 变成跨职能工作台,同时借助 AWS 降低企业采购和落地阻力。
来源
- OpenAI - Codex for every role, tool, and workflow(2026-06-02)
- OpenAI - OpenAI frontier models and Codex are now available on AWS(2026-06-01)
2. 2. MiniMax M3 抬高了编码智能体的开放权重门槛
这是本轮扫描中最强的亚洲/中国构建者信号。如果独立结果能够支撑这些表现,M3 将为团队提供一个可信的开放权重选项,用于长上下文编码、多模态智能体循环和桌面自动化——这些领域此前主要由闭源 API 主导。
关键信息
- MiniMax 以开放权重模型的形式发布 M3,具备三类通常与闭源前沿系统相关的能力:编码/智能体表现、最高 100 万 token 上下文,以及包括图像/视频和桌面操作在内的原生多模态输入。
- 此次发布引入了 MiniMax Sparse Attention,这是一种稀疏注意力架构,目标是让长上下文在经济性上真正可用,而不只是技术参数上的宣传。
- MiniMax 声称 M3 在 SWE-Bench Pro 上超过 GPT-5.5 和 Gemini 3.1 Pro,接近 Claude Opus 4.7,并在自主智能体评测 Claw-Eval 中领先;在独立排行榜和社区测试跟上之前,这些说法应被视为厂商报告结果。
来源
- MiniMax - MiniMax M3: Frontier Coding, 1M Context, Native Multimodality — All in One Model(2026-06-01)
3. 3. NVIDIA Cosmos 3 让物理 AI 模型开发更开放,并与技术栈更深度集成
机器人、自动驾驶、智能空间和工业 AI 团队需要合成数据、仿真、策略评估和部署钩子。Cosmos 3 的重要性在于,它把这些能力打包进一个开放模型家族,并接入 NVIDIA 的服务与工具生态,可能缩短物理 AI 的训练闭环。
关键信息
- NVIDIA 发布了 Cosmos 3,这是一款面向物理 AI 的开放世界基础模型,采用混合 Transformer 设计,把视觉推理、世界生成和动作预测结合在一起。
- NVIDIA 表示,Cosmos 3 可以理解并生成文本、图像、视频、环境声音和动作;Cosmos 3 Super 和 Nano 现已可用,Edge 版本将在之后推出。
- 此次发布还配套推出 Cosmos Coalition,成员包括 Black Forest Labs、Runway、Skild AI、Agile Robots、Generalist 和 LTX 等。NVIDIA 表示,模型可通过 build.nvidia.com、Hugging Face、GitHub 资源以及 NIM 微服务获取。
来源
4. 4. Anthropic 扩大 Claude Mythos 在防御性安全领域的受控访问
这一动态高度偏安全,但对构建者有直接影响:前沿模型可能会以快于现有分流管线承受能力的速度,让团队面对大量漏洞发现。产品团队应在这些能力广泛可用之前,准备好补丁审查工作流、披露流程和模型辅助安全代码审查。
关键信息
- Anthropic 将 Project Glasswing 从最初约 50 个合作伙伴扩展到 15 个以上国家的约 150 个新组织,重点覆盖电力、水务、医疗、通信和硬件等关键基础设施领域。
- 这一受控项目让经过审核的团队能够访问 Claude Mythos Preview,用于防御性漏洞发现、修补、发布前检查、渗透测试、威胁检测和遗留代码现代化。
- Anthropic 表示,早期 Project Glasswing 合作伙伴发现了超过 10,000 个高危或严重级别漏洞;现在公司正在强调 AI 辅助发现之后的瓶颈:验证、披露和补丁部署。
来源
- Anthropic - Expanding Project Glasswing(2026-06-02)
5. 5. Perplexity 为自主智能体重新定义搜索基础设施
智能体可靠性经常败在检索环节:查询不对、来源组合不对、上下文过期,或者验证过浅。Search as Code 的重要性在于,它把检索策略视为生成出来、可检查的程序逻辑——更接近严肃研究型智能体和运营型智能体未来需要的工作方式。
关键信息
- Perplexity 推出 Search as Code,将其作为智能体式检索的参考架构。它不再把搜索视为一次黑盒调用,而是把搜索栈组件暴露为 SDK 原语,让智能体可以组合成面向具体任务的检索管线。
- Perplexity 认为,智能体工作负载可能在几分钟内触发数百乃至数千次检索操作,使固定的人类导向搜索管线变得低效。
- 该文章将 Search as Code 定位为对函数调用和 MCP 式封装局限性的回应:当智能体需要动态规划、路由和优化检索策略时,这类封装并不够用。
来源
6. 6. 阿里巴巴 Qwen3.7-Plus 将多模态智能体推进到 GUI 和编码工作流
对于构建浏览器/桌面智能体、视觉 QA 或应用构建工作流的团队来说,Qwen3.7-Plus 是一个值得基准测试的模型,但不一定需要立刻采用。更大的战略意义在于,中国实验室正在智能体式多模态上直接竞争,而不只是聊天或编码基准。
关键信息
- 阿里巴巴 Qwen/通义实验室宣布推出 Qwen3.7-Plus,将其定位为多模态交互式混合智能体,支持文本、图像和视频输入,工作流覆盖 GUI 操作、基于视觉输入生成代码,以及结合网页知识的视觉问答。
- 相关报道称,该模型可通过阿里云百炼/Model Studio 平台和 API 访问;据报道,其定价相较许多西方前沿模型更激进,但构建者在生产使用前应在阿里巴巴自有控制台中确认当前费率和模型 ID。
- 这不是一次开放权重发布。真正的热点信号在于多模态智能体定位、GUI/CLI 工作流演示,以及中国实验室持续向前沿智能体模型推进。
来源
- Gigazine, citing Qwen/Tongyi Lab materials - Alibaba announces Qwen3.7-Plus, an AI model comparable to Claude Opus 4.6(2026-06-02)
- TechFlow - Alibaba Releases Qwen3.7-Plus Multimodal Large Language Model(2026-06-02)
接下来值得盯的信号
- GitHub Copilot 经济性:GitHub 6 月 1 日的按用量计费和自动模型变更正在引发明显的开发者反弹;关注团队是否会转向直接 API、Cursor/Claude Code,或开放权重编码栈。
- MiniMax M3 和 Qwen3.7-Plus 的独立验证:厂商基准很有吸引力,但生产决策应等待社区在长周期编码、仓库级编辑、延迟和工具使用可靠性方面的评测。
- 网络安全分流瓶颈:Anthropic 的 Glasswing 更新表明,漏洞发现可能会变得比验证和修补更便宜。安全团队应投入去重、严重性评分、维护者工作流和补丁验证。
- 物理 AI 工具成熟度:Cosmos 3 看起来很重要,但真正的实践检验在于机器人团队能否用自己的数据、仿真器和部署约束复现 NVIDIA 的基准优势。
本文由自动化流程基于联网搜索生成,发布前建议抽查关键来源。