凯发·K8国际- (中国)登录首页_凯发k8国际首页登录_凯发k8国际首页|白石瞳|ChatGPT Agent 发布：全整理

凯发k8国际首页|白石瞳|ChatGPT Agent 发布：全整理

　　凯发k8k8凯发★ღღ，人工智慧★ღღ，云端计算★ღღ，凯发天生赢家一触即发★ღღ，凯发国际K8官网★ღღ。AG凯发k8真人娱乐他回顾了之前发布的 Deep Research 和 Operator★ღღ，指出用户真正的需求是希望将这些强大的能力整合起来★ღღ，形成一个统一的★ღღ、能使用电脑完成复杂凯发k8国际首页★ღღ、长周期真实世界任务的 AI 智能体白石瞳★ღღ。

　　浏览器（Browser）包含文本和视觉两种模式★ღღ。文本模式（类似 Deep Research）可以高效抓取信息★ღღ，而视觉模式（类似 Operator）能像人一样点击★ღღ、拖拽白石瞳★ღღ，与复杂的网页 UI 交互

　　终端（Terminal）允许 Agent 运行代码白石瞳★ღღ、生成和分析文件（如 Excel 表格★ღღ、PPT 幻灯片）★ღღ，甚至调用外部 API

　　API 连接Agent 可以连接到公共 API★ღღ，也可以通过连接器安全地访问用户的私有数据源★ღღ，如 Google Drive白石瞳★ღღ、GitHub 等

　　任务下达用户提供了一个婚礼网站链接★ღღ，要求 Agent 推荐符合着装要求的服装★ღღ、寻找酒店并挑选礼物★ღღ。

　　执行过程Agent 首先访问婚礼网站★ღღ，提取关键信息（日期★ღღ、地点★ღღ、着装要求）凯发k8国际首页★ღღ。接着★ღღ，它搜索天气信息★ღღ，并根据温暖气候推荐了合适的服装选项★ღღ。然后白石瞳★ღღ，它在上搜索并比较了附近的酒店★ღღ。最后★ღღ，它还搜索了合适的结婚礼物建议★ღღ。

　　结果交付Agent 生成了一份详细的《婚礼准备报告》★ღღ，清晰地列出了活动概览★ღღ、服装推荐★ღღ、酒店选项和礼物建议★ღღ，所有信息都有来源链接和截图作为佐证★ღღ。

　　在生成的过程中★ღღ，可以追加任务★ღღ，如“为我们团队的启动仪式制作一些 swag 贴纸★ღღ，并从 StickerMule 订购 500-575 张★ღღ。”

　　Agent 立即理解了新指令★ღღ，开始利用图像生成工具设计贴纸★ღღ，并访问 StickerMule 网站准备下单★ღღ。

　　为了展示 Agent 处理数据和生成文件的能力★ღღ，团队进行了一个“元任务”（meta-task）★ღღ：让 Agent 评估自己的性能★ღღ。

　　任务“从 Google Drive 连接器中拉取 ChatGPT Agent 的评测数据★ღღ，并制作成带图表的幻灯片凯发k8国际首页★ღღ。不需要引言和结论★ღღ，只呈现带图表的结果★ღღ。”

　　执行Agent 通过 API 连接到 Google Drive★ღღ，找到了评测数据文件★ღღ。接着★ღღ，它使用终端（Terminal）编写并运行代码★ღღ，处理数据★ღღ、生成图表白石瞳★ღღ，并最终将所有内容整合到一个 PowerPoint（.pptx）文件中★ღღ。

　　ChatGPT Agent 在基准测试中得到了验证★ღღ，超越了以往模型★ღღ。其在多个领域接近甚至超越了人类专家的水平★ღღ。

　　Humanity’s Last Exam (HLE)是一个衡量 AI 在各学科专家级问题上表现的综合性测试凯发k8国际首页★ღღ。Agent 模式凭借其动态规划和自主选择工具的能力★ღღ，取得了41.6%的新 SOTA 成绩凯发k8国际首页★ღღ。

　　更有趣的是★ღღ，当采用“学习小组”策略（并行运行 8 次★ღღ，选择置信度最高的答案）时★ღღ，分数进一步提升至44.4%★ღღ。

　　FrontierMath是在目前已知的最难数学基准测试★ღღ，包含了人类专家都需要数小时甚至数天才能解决的新问题★ღღ，ChatGPT Agent 利用代码执行等工具★ღღ，取得了27.4%的准确率★ღღ，远超之前的模型白石瞳★ღღ。

　　在DSBench数据科学基准测试中★ღღ，Agent 的表现更是惊人★ღღ，在数据分析和数据建模两个子任务上均大幅超越了人类专家的表现★ღღ。

　　在其他具有经济价值的复杂知识工作中★ღღ，Agent 的产出在约一半的情况下与人类专家相当或更优★ღღ。

　　团队强调★ღღ，Agent 是一项强大的新技术★ღღ，但也带来了新的安全挑战★ღღ，例如“提示词注入”（Prompt Injection）攻击★ღღ。为此凯发k8国际首页★ღღ，OpenAI 采取了多层安全措施★ღღ：