找回密码
 立即注册

BTC: 加载中...

ETH: 加载中...

USDT: 加载中...

BNB: 加载中...

XRP: 加载中...

ADA: 加载中...

SOL: 加载中...

DOGE: 加载中...

DOT: 加载中...

SHIB: 加载中...

TRX: 加载中...

搜索
查看: 370|回复: 0

OpenAI 刚刚开源了 PaperBench,用于评估 Agent 复现顶尖论文能力!

[复制链接]

1

主题

0

回帖

3

积分

新手上路

积分
3
发表于 前天 07:59 | 显示全部楼层 |阅读模式
1.webp

论文地址:https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf
开源地址:https://github.com/openai/preparednessPaperBench 是一个由 OpenAI 开发的基准测试,旨在评估 AI Agent 复现尖端 AI 研究的能 力。它专注于测试 AI 是否能理解研究论文、独立开发代码并执行实验以复现研究结果。
Agent 必须从头开始复制 20 篇 ICML 2024 Spotlight 和 Oral 论文,包括了解论文贡献、开发代码库以及成功执行实验。为了进行客观评估,OpenAI 开发了评分标准,将每个复制任务分层分解为具有明确评分标准的较小子任务。PaperBench 总共包含 8,316 个可单独评分的任务。评分标准是与每篇 ICML 论文的作者共同开发的,以确保准确性和真实性。
为了实现可扩展的评估,OpenAI 还开发了一个基于评分标准的评判者,可以自动根据评分标准对复制尝试进行评分,并通过为评判者创建单独的基准来评估评判者的表现。
2.webp

在 PaperBench 上评估了几个前沿模型,发现性能最佳的测试 Agent 是 Claude 3.5 Sonnet(新)并采用开源脚手架,平均复现得分为 21.0%。
3.webp

最后,OpenAI 招募了顶尖的 ML 博士也来尝试 PaperBench,发现模型的表现尚未超越人类基线。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|币圈社区

GMT+8, 2025-4-5 06:27 , Processed in 0.098755 second(s), 24 queries .

Powered by forum.gao.gs

© 2021-2024 币圈社区

快速回复 返回顶部 返回列表