SearchClaw是什么
SearchClaw 是 RUC-NLPIR(中国人民大学信息检索实验室)推出的自托管式 AI 深度研究智能体,配备 Web 交互界面。用户提交问题后,系统自动执行多轮网络搜索、页面抓取、论文检索与内容综合,最终生成带引用链接的详实报告。项目基于 FastAPI 构建,通过”工具 + 钩子”的架构设计保障研究质量,支持多种 LLM 提供商与持久化记忆,适合科研人员、分析师进行可溯源的自动化调研。

SearchClaw的主要功能
自主多轮研究循环:自动迭代执行搜索、抓取、阅读、引用,直至答案达标。
多源信息检索:集成网页(Google/Serper)、学术(Semantic Scholar/DBLP/arXiv)、新闻(NewsAPI/Google News RSS)及微信公众号文章搜索。
浏览器深度集成:通过 Playwright/CDP 渲染 JavaScript 页面并支持登录态抓取。
智能追问澄清:研究过程中可向用户提出跟进问题以明确需求。
研究计划分解:自动将复杂查询拆解为可追踪的子任务并逐步执行。
质量门禁系统:内置钩子检查引用数量、来源多样性及答案完整性,不达标则继续研究。
上下文压缩管理:双阶段压缩机制确保长会话不超出上下文窗口限制。
跨会话持久记忆:自动保存并复用过往研究中的高质量来源、用户偏好与关键事实。
如何使用SearchClaw
克隆仓库并安装依赖:
git clone https://github.com/RUC-NLPIR/SearchClaw.git && pip install -e .配置 API 密钥(LLM 与搜索源):设置
ANTHROPIC_API_KEY或OPENAI_API_KEY,推荐配置SERPER_API_KEY与JINA_API_KEY提升搜索质量。启动服务:
python -m src.main,浏览器访问http://localhost:8000。返回结果:输入研究问题,系统在 WebSocket 中实时流式返回带引用的综合报告。
SearchClaw的关键信息和使用要求
环境要求:Python 3.11+,支持 Linux/macOS/Windows。
LLM 支持:通过 litellm 路由,兼容 Anthropic、OpenAI、Google Gemini、xAI、阿里通义、字节豆包、智谱 GLM、月之暗面等主流模型及本地 vLLM/Ollama 端点。
搜索依赖:无 Serper 时自动降级至 DuckDuckGo 抓取,无 Jina 时回退到直接 HTTP 请求。
可选浏览器:执行
pip install -e '.[browser]' && playwright install chromium启用 JS 渲染支持。安全配置:远程部署时通过
SEARCH_CLAW_API_KEY设置访问密码,防止未授权使用。持久存储:记忆与会话数据默认以 JSON 格式存储于本地文件系统。
SearchClaw的核心优势
可验证的引用质量:强制要求多源引用并通过门禁检查,降低幻觉风险,优于单轮 RAG 的碎片信息拼接。
自主规划与纠错:自动拆解复杂任务并在质量不达标时自驱补充研究,无需人工干预迭代过程。
多源异构整合:唯一同时覆盖英文学术库、中文微信公众号及实时新闻的开源研究工具,适应跨境调研场景。
完全自托管:数据不出本地,支持本地 LLM 端点,满足敏感研究数据的隐私合规要求。
SearchClaw的项目地址
- GitHub仓库:https://github.com/RUC-NLPIR/SearchClaw
SearchClaw的同类竞品对比
| 对比维度 | SearchClaw | Perplexity | PaperClaw |
|---|---|---|---|
| 部署方式 | 完全自托管,本地 FastAPI 服务器 | 云端 SaaS 服务,闭源商业产品 | 自托管,面向科研自动化 |
| 研究深度 | 多轮自主循环,支持计划分解与质量门禁 | 单轮或浅层多轮搜索,直接生成答案 | 端到端论文复现与实验自动化 |
| 来源覆盖 | 网页+学术+新闻+微信公众号,支持 CDP 登录抓取 | 网页+学术+新闻,无中文社媒深度覆盖 | 专注学术文献与代码仓库 |
| 引用机制 | 强制多源引用,钩子检查数量与多样性 | 自动生成引用,但无强制校验机制 | 生成实验报告与代码引用 |
| 隐私控制 | 数据完全本地,支持本地 LLM | 数据上传至云端,企业版提供增强隐私 | 数据本地处理,专注研究复现 |
| 交互模式 | WebSocket 实时流式,支持中途追问 | 对话式实时搜索,无中途确认环节 | 自动化执行,人工干预点较少 |
SearchClaw的应用场景
学术文献综述:工具能自动检索 Semantic Scholar 与 arXiv 论文,生成带引用的领域进展摘要。
市场竞品监测:自动追踪新闻源与微信公众号,分析竞品动态并输出带时间戳的参考依据。
政策与法规研究:工具能抓取政府网站与智库报告,整合多语言来源形成合规分析报告。
技术选型评估:可以搜索技术博客、GitHub 讨论与学术论文,对比不同框架的社区评价与性能数据。
