autoresearch – Karpathy 开源的 AI 自主科研实验框架

Al项目 2026-05-22 12:01:00 AI导航网

autoresearch是什么

autoresearch 是 Andrej Karpathy 开源的 AI 自主科研实验框架。框架让 AI Agent 在单张 GPU 上自动运行 nanochat 训练实验，自主调参、执行训练、分析验证指标、决策下一步优化方向，将传统调参-跑实验-看日志-再调参的人工循环完全自动化。autoresearch使用门槛极低，单卡可运行，让 AI 不再只是被研究的对象，是成为独立做研究的执行者。

autoresearch的主要功能

自主代码迭代：AI Agent 直接编辑 train.py 文件，修改模型架构、优化器、超参数等训练全流程配置。
固定时间预算实验：每次训练严格限定 5 分钟 wall-clock 时间，确保实验结果跨平台可比。
自动改进筛选：用 val_bpb（验证 bits per byte）为统一指标，自动保留降低指标的有效修改，丢弃无效尝试。
人类可控的研究组织：通过 program.md 定义代理行为和研究策略，人类迭代优化”研究组织代码”而非直接改代码。
单文件聚焦设计：Agent 仅修改 train.py 单一文件，保持实验范围可控、diff 可审查。

autoresearch的技术原理

简化 nanochat 训练：基于单 GPU 实现的轻量级 GPT 模型，集成 Muon 优化器与 AdamW，支持完整的训练循环。
BPE 分词与数据流：prepare.py 负责一次性数据准备和 BPE 分词器训练，提供标准化数据加载与评估工具。
统一评估指标：采用 vocab-size-independent 的 val_bpb 指标，使架构变更前后的实验结果公平可比。
代理-环境闭环：program.md 作为代理的”技能文件”，代理读取指令 → 修改代码 → 运行训练 → 评估指标 → 决策保留/丢弃 → 循环迭代。
时间标准化机制：无论模型大小或 batch size 如何变化，训练始终运行固定时长，消除硬件差异对实验可比性的影响。

如何使用autoresearch

安装 uv：执行 curl -LsSf https://astral.sh/uv/install.sh | sh 安装 uv 项目管理器。
安装依赖：进入仓库目录后运行 uv sync 完成项目依赖安装。
数据准备：执行 uv run prepare.py 下载训练数据并训练 BPE 分词器（一次性，约 2 分钟）。
验证环境：手动运行 uv run train.py 确认单条训练流程正常执行（约 5 分钟）。
启动代理：在 IDE 中加载 Claude/Codex 等 AI 代理，指向 program.md 文件。
开始研究：输入提示词如 “Hi have a look at program.md and let’s kick off a new experiment” 启动自动迭代。
查看结果：次日查看实验日志和 train.py 的修改历史，获取优化后的模型与改进路径。

autoresearch的核心优势

极简设计：仅三个核心文件（prepare.py、train.py、program.md），零外部依赖，单 GPU 可运行。
公平比较：固定 5 分钟时间预算和 vocab-independent 指标，确保任何架构修改都能在同一基准下评估。
人机协同：人类通过 program.md 设定研究策略，Agent负责执行代码实验，实现人类定方向、AI 做实验的分工。
高吞吐量：约每小时 12 次实验，一夜可完成近 100 次自动迭代，远超人类手动实验效率。
可审查性：单文件修改模式使每次实验的 diff 清晰可追溯，便于理解代理的改进路径。

autoresearch的项目地址

GitHub仓库：https://github.com/karpathy/autoresearch

autoresearch的同类竞品对比

对比维度	autoresearch	SciClaw
产品定位	LLM 训练专用自主研究代理	通用科研领域 AI 同事 / 全周期研究编排系统
核心任务	自动修改训练代码、调超参、跑实验、筛选改进	文献调研、实验设计、计算模拟、论文生成、审稿回复
研究对象	nanochat 模型训练（单 GPU 深度学习）	生命科学、化学、物理、材料等多学科科研任务
实验执行	直接修改 Python 代码并运行训练循环	自主拆解任务、调用科学工具、运行计算模拟、对接实验设备
评估机制	固定 5 分钟训练 + `val_bpb` 指标自动筛选保留/丢弃	实验结果分析、论文质量评估、假说验证
知识库	无，每次实验独立基于代码和指标决策	长期记忆项目数据、实验记录、文献、邮件历史
硬件要求	单张 NVIDIA GPU	云端运行或本地部署，支持 AI 眼镜和自动化实验设备
交互方式	通过 `program.md` 指令文件 + AI 代理自动执行	对话式交互（Web/飞书/钉钉/Telegram/Discord）
开源性	MIT 完全开源	闭源产品（内测需邀请码）
目标用户	AI 研究者、LLM 训练工程师	科研人员、博士生、企业研发
输出成果	优化后的模型权重 + 实验日志	论文草稿、PPT、海报、审稿回复、实验报告
自主性深度	代码级自动迭代，但限于单一训练任务	项目级全周期编排，支持耗时数天的后台实验与自我修复

autoresearch的应用场景

LLM 训练超参自动搜索：自动探索学习率、batch size、模型深度等组合，寻找最优配置。
架构创新验证：快速验证新型注意力机制、位置编码或优化器变体的实际效果。
低成本模型调优：在单 GPU 环境下自动优化小模型性能，适合个人研究者或资源有限团队。
AI 研究方法论探索：作为自主 AI 研究代理的概念验证平台，探索”AI 科学家”的可行性边界。

# 文章博客 # Al项目

© 版权声明

本站文章版权归AI导航网所有，未经允许禁止任何形式的转载。

相关文章

Stable Audio 3 – Stability AI 开源的音频生成模型系列

Al项目

414

autoresearch – Karpathy 开源的 AI 自主科研实验框架

Al项目

853

LongCat-Video-Avatar 1.5 – 美团开源的数字人视频生成模型

Al项目

997

GLM-5.1-highspeed – 智谱AI推出的 GLM-5.1 高速版 API

Al项目

942

Hy-MT2 – 腾讯混元开源的新一代翻译大模型

Al项目

318

Hy 翻译 – 腾讯混元团队推出的 AI 翻译小程序

Al项目

193

AI工具集导航收录了国内外数百个不同类型的AI工具，每日更新和添加最新AI工具，AI工具集还推荐了AI学习开发的常用网站、框架和模型，帮助你加入人工智能浪潮，自动化高效完成任务！ Ctrl + D 或 ⌘ + D 收藏本站到浏览器书签栏。

AI工具集导航广告投放关于我们免责声明 AI工具集影视解说网

Copyright © 2026 AI导航网鄂ICP备15001166号-12