autoresearch – Karpathy 开源的 AI 自主科研实验框架

Al项目 2026-05-22 12:01:00 AI导航网

autoresearch是什么

autoresearch 是 Andrej Karpathy 开源的 AI 自主科研实验框架。框架让 AI Agent 在单张 GPU 上自动运行 nanochat 训练实验,自主调参、执行训练、分析验证指标、决策下一步优化方向,将传统调参-跑实验-看日志-再调参的人工循环完全自动化。autoresearch使用门槛极低,单卡可运行,让 AI 不再只是被研究的对象,是成为独立做研究的执行者。

autoresearch的主要功能

  • 自主代码迭代:AI Agent 直接编辑 train.py 文件,修改模型架构、优化器、超参数等训练全流程配置。

  • 固定时间预算实验:每次训练严格限定 5 分钟 wall-clock 时间,确保实验结果跨平台可比。

  • 自动改进筛选:用 val_bpb(验证 bits per byte)为统一指标,自动保留降低指标的有效修改,丢弃无效尝试。

  • 人类可控的研究组织:通过 program.md 定义代理行为和研究策略,人类迭代优化”研究组织代码”而非直接改代码。

  • 单文件聚焦设计:Agent 仅修改 train.py 单一文件,保持实验范围可控、diff 可审查。

autoresearch的技术原理

  • 简化 nanochat 训练:基于单 GPU 实现的轻量级 GPT 模型,集成 Muon 优化器与 AdamW,支持完整的训练循环。

  • BPE 分词与数据流prepare.py 负责一次性数据准备和 BPE 分词器训练,提供标准化数据加载与评估工具。

  • 统一评估指标:采用 vocab-size-independent 的 val_bpb 指标,使架构变更前后的实验结果公平可比。

  • 代理-环境闭环program.md 作为代理的”技能文件”,代理读取指令 → 修改代码 → 运行训练 → 评估指标 → 决策保留/丢弃 → 循环迭代。

  • 时间标准化机制:无论模型大小或 batch size 如何变化,训练始终运行固定时长,消除硬件差异对实验可比性的影响。

如何使用autoresearch

  • 安装 uv:执行 curl -LsSf https://astral.sh/uv/install.sh | sh 安装 uv 项目管理器。

  • 安装依赖:进入仓库目录后运行 uv sync 完成项目依赖安装。

  • 数据准备:执行 uv run prepare.py 下载训练数据并训练 BPE 分词器(一次性,约 2 分钟)。

  • 验证环境:手动运行 uv run train.py 确认单条训练流程正常执行(约 5 分钟)。

  • 启动代理:在 IDE 中加载 Claude/Codex 等 AI 代理,指向 program.md 文件。

  • 开始研究:输入提示词如 “Hi have a look at program.md and let’s kick off a new experiment” 启动自动迭代。

  • 查看结果:次日查看实验日志和 train.py 的修改历史,获取优化后的模型与改进路径。

autoresearch的核心优势

  • 极简设计:仅三个核心文件(prepare.pytrain.pyprogram.md),零外部依赖,单 GPU 可运行。

  • 公平比较:固定 5 分钟时间预算和 vocab-independent 指标,确保任何架构修改都能在同一基准下评估。

  • 人机协同:人类通过 program.md 设定研究策略,Agent负责执行代码实验,实现人类定方向、AI 做实验的分工。

  • 高吞吐量:约每小时 12 次实验,一夜可完成近 100 次自动迭代,远超人类手动实验效率。

  • 可审查性:单文件修改模式使每次实验的 diff 清晰可追溯,便于理解代理的改进路径。

autoresearch的项目地址

  • GitHub仓库:https://github.com/karpathy/autoresearch

autoresearch的同类竞品对比

对比维度autoresearchSciClaw
产品定位LLM 训练专用自主研究代理通用科研领域 AI 同事 / 全周期研究编排系统
核心任务自动修改训练代码、调超参、跑实验、筛选改进文献调研、实验设计、计算模拟、论文生成、审稿回复
研究对象nanochat 模型训练(单 GPU 深度学习)生命科学、化学、物理、材料等多学科科研任务
实验执行直接修改 Python 代码并运行训练循环自主拆解任务、调用科学工具、运行计算模拟、对接实验设备
评估机制固定 5 分钟训练 + val_bpb 指标自动筛选保留/丢弃实验结果分析、论文质量评估、假说验证
知识库无,每次实验独立基于代码和指标决策长期记忆项目数据、实验记录、文献、邮件历史
硬件要求单张 NVIDIA GPU云端运行或本地部署,支持 AI 眼镜和自动化实验设备
交互方式通过 program.md 指令文件 + AI 代理自动执行对话式交互(Web/飞书/钉钉/Telegram/Discord)
开源性MIT 完全开源闭源产品(内测需邀请码)
目标用户AI 研究者、LLM 训练工程师科研人员、博士生、企业研发
输出成果优化后的模型权重 + 实验日志论文草稿、PPT、海报、审稿回复、实验报告
自主性深度代码级自动迭代,但限于单一训练任务项目级全周期编排,支持耗时数天的后台实验与自我修复

autoresearch的应用场景

  • LLM 训练超参自动搜索:自动探索学习率、batch size、模型深度等组合,寻找最优配置。

  • 架构创新验证:快速验证新型注意力机制、位置编码或优化器变体的实际效果。

  • 低成本模型调优:在单 GPU 环境下自动优化小模型性能,适合个人研究者或资源有限团队。

  • AI 研究方法论探索:作为自主 AI 研究代理的概念验证平台,探索”AI 科学家”的可行性边界。

© 版权声明

相关文章