凯发k8国际首页登录科技
微信号:UnionScience
扫描关注,更多最新动态
凯发k8k8凯发★ღღ,人工智慧★ღღ,云端计算★ღღ,凯发天生赢家一触即发★ღღ,凯发国际K8官网★ღღ。AG凯发k8真人娱乐他回顾了之前发布的 Deep Research 和 Operator★ღღ,指出用户真正的需求是希望将这些强大的能力整合起来★ღღ,形成一个统一的★ღღ、能使用电脑完成复杂凯发k8国际首页★ღღ、长周期真实世界任务的 AI 智能体白石瞳★ღღ。
浏览器(Browser)包含文本和视觉两种模式★ღღ。文本模式(类似 Deep Research)可以高效抓取信息★ღღ,而视觉模式(类似 Operator)能像人一样点击★ღღ、拖拽白石瞳★ღღ,与复杂的网页 UI 交互
终端(Terminal)允许 Agent 运行代码白石瞳★ღღ、生成和分析文件(如 Excel 表格★ღღ、PPT 幻灯片)★ღღ,甚至调用外部 API
API 连接Agent 可以连接到公共 API★ღღ,也可以通过连接器安全地访问用户的私有数据源★ღღ,如 Google Drive白石瞳★ღღ、GitHub 等
任务下达用户提供了一个婚礼网站链接★ღღ,要求 Agent 推荐符合着装要求的服装★ღღ、寻找酒店并挑选礼物★ღღ。
执行过程Agent 首先访问婚礼网站★ღღ,提取关键信息(日期★ღღ、地点★ღღ、着装要求)凯发k8国际首页★ღღ。接着★ღღ,它搜索天气信息★ღღ,并根据温暖气候推荐了合适的服装选项★ღღ。然后白石瞳★ღღ,它在上搜索并比较了附近的酒店★ღღ。最后★ღღ,它还搜索了合适的结婚礼物建议★ღღ。
结果交付Agent 生成了一份详细的《婚礼准备报告》★ღღ,清晰地列出了活动概览★ღღ、服装推荐★ღღ、酒店选项和礼物建议★ღღ,所有信息都有来源链接和截图作为佐证★ღღ。
在生成的过程中★ღღ,可以追加任务★ღღ,如“为我们团队的启动仪式制作一些 swag 贴纸★ღღ,并从 StickerMule 订购 500-575 张★ღღ。”
Agent 立即理解了新指令★ღღ,开始利用图像生成工具设计贴纸★ღღ,并访问 StickerMule 网站准备下单★ღღ。
为了展示 Agent 处理数据和生成文件的能力★ღღ,团队进行了一个“元任务”(meta-task)★ღღ:让 Agent 评估自己的性能★ღღ。
任务“从 Google Drive 连接器中拉取 ChatGPT Agent 的评测数据★ღღ,并制作成带图表的幻灯片凯发k8国际首页★ღღ。不需要引言和结论★ღღ,只呈现带图表的结果★ღღ。”
执行Agent 通过 API 连接到 Google Drive★ღღ,找到了评测数据文件★ღღ。接着★ღღ,它使用终端(Terminal)编写并运行代码★ღღ,处理数据★ღღ、生成图表白石瞳★ღღ,并最终将所有内容整合到一个 PowerPoint(.pptx)文件中★ღღ。
ChatGPT Agent 在基准测试中得到了验证★ღღ,超越了以往模型★ღღ。其在多个领域接近甚至超越了人类专家的水平★ღღ。
Humanity’s Last Exam (HLE)是一个衡量 AI 在各学科专家级问题上表现的综合性测试凯发k8国际首页★ღღ。Agent 模式凭借其动态规划和自主选择工具的能力★ღღ,取得了41.6%的新 SOTA 成绩凯发k8国际首页★ღღ。
更有趣的是★ღღ,当采用“学习小组”策略(并行运行 8 次★ღღ,选择置信度最高的答案)时★ღღ,分数进一步提升至44.4%★ღღ。
FrontierMath是在目前已知的最难数学基准测试★ღღ,包含了人类专家都需要数小时甚至数天才能解决的新问题★ღღ,ChatGPT Agent 利用代码执行等工具★ღღ,取得了27.4%的准确率★ღღ,远超之前的模型白石瞳★ღღ。
在DSBench数据科学基准测试中★ღღ,Agent 的表现更是惊人★ღღ,在数据分析和数据建模两个子任务上均大幅超越了人类专家的表现★ღღ。
在其他具有经济价值的复杂知识工作中★ღღ,Agent 的产出在约一半的情况下与人类专家相当或更优★ღღ。
团队强调★ღღ,Agent 是一项强大的新技术★ღღ,但也带来了新的安全挑战★ღღ,例如“提示词注入”(Prompt Injection)攻击★ღღ。为此凯发k8国际首页★ღღ,OpenAI 采取了多层安全措施★ღღ:
0871-63302133 63302233
昆明市盘龙区新兴路霖岚国际凯发k8国际首页登录
http://www.jinfupenquan.com