SearchClaw – 中国人民大学推出的 AI 深度研究智能体

Al项目 2026-04-15 18:00:13 AI导航网

SearchClaw是什么

SearchClaw 是 RUC-NLPIR(中国人民大学信息检索实验室)推出的自托管式 AI 深度研究智能体,配备 Web 交互界面。用户提交问题后,系统自动执行多轮网络搜索、页面抓取、论文检索与内容综合,最终生成带引用链接的详实报告。项目基于 FastAPI 构建,通过”工具 + 钩子”的架构设计保障研究质量,支持多种 LLM 提供商与持久化记忆,适合科研人员、分析师进行可溯源的自动化调研。

SearchClaw的主要功能

  • 自主多轮研究循环:自动迭代执行搜索、抓取、阅读、引用,直至答案达标。

  • 多源信息检索:集成网页(Google/Serper)、学术(Semantic Scholar/DBLP/arXiv)、新闻(NewsAPI/Google News RSS)及微信公众号文章搜索。

  • 浏览器深度集成:通过 Playwright/CDP 渲染 JavaScript 页面并支持登录态抓取。

  • 智能追问澄清:研究过程中可向用户提出跟进问题以明确需求。

  • 研究计划分解:自动将复杂查询拆解为可追踪的子任务并逐步执行。

  • 质量门禁系统:内置钩子检查引用数量、来源多样性及答案完整性,不达标则继续研究。

  • 上下文压缩管理:双阶段压缩机制确保长会话不超出上下文窗口限制。

  • 跨会话持久记忆:自动保存并复用过往研究中的高质量来源、用户偏好与关键事实。

如何使用SearchClaw

  • 克隆仓库并安装依赖git clone https://github.com/RUC-NLPIR/SearchClaw.git && pip install -e .

  • 配置 API 密钥(LLM 与搜索源):设置 ANTHROPIC_API_KEYOPENAI_API_KEY,推荐配置 SERPER_API_KEYJINA_API_KEY 提升搜索质量。

  • 启动服务python -m src.main,浏览器访问 http://localhost:8000

  • 返回结果:输入研究问题,系统在 WebSocket 中实时流式返回带引用的综合报告。

SearchClaw的关键信息和使用要求

  • 环境要求:Python 3.11+,支持 Linux/macOS/Windows。

  • LLM 支持:通过 litellm 路由,兼容 Anthropic、OpenAI、Google Gemini、xAI、阿里通义、字节豆包、智谱 GLM、月之暗面等主流模型及本地 vLLM/Ollama 端点。

  • 搜索依赖:无 Serper 时自动降级至 DuckDuckGo 抓取,无 Jina 时回退到直接 HTTP 请求。

  • 可选浏览器:执行 pip install -e '.[browser]' && playwright install chromium 启用 JS 渲染支持。

  • 安全配置:远程部署时通过 SEARCH_CLAW_API_KEY 设置访问密码,防止未授权使用。

  • 持久存储:记忆与会话数据默认以 JSON 格式存储于本地文件系统。

SearchClaw的核心优势

  • 可验证的引用质量:强制要求多源引用并通过门禁检查,降低幻觉风险,优于单轮 RAG 的碎片信息拼接。

  • 自主规划与纠错:自动拆解复杂任务并在质量不达标时自驱补充研究,无需人工干预迭代过程。

  • 多源异构整合:唯一同时覆盖英文学术库、中文微信公众号及实时新闻的开源研究工具,适应跨境调研场景。

  • 完全自托管:数据不出本地,支持本地 LLM 端点,满足敏感研究数据的隐私合规要求。

SearchClaw的项目地址

  • GitHub仓库:https://github.com/RUC-NLPIR/SearchClaw

SearchClaw的同类竞品对比

对比维度SearchClawPerplexityPaperClaw
部署方式完全自托管,本地 FastAPI 服务器云端 SaaS 服务,闭源商业产品自托管,面向科研自动化
研究深度多轮自主循环,支持计划分解与质量门禁单轮或浅层多轮搜索,直接生成答案端到端论文复现与实验自动化
来源覆盖网页+学术+新闻+微信公众号,支持 CDP 登录抓取网页+学术+新闻,无中文社媒深度覆盖专注学术文献与代码仓库
引用机制强制多源引用,钩子检查数量与多样性自动生成引用,但无强制校验机制生成实验报告与代码引用
隐私控制数据完全本地,支持本地 LLM数据上传至云端,企业版提供增强隐私数据本地处理,专注研究复现
交互模式WebSocket 实时流式,支持中途追问对话式实时搜索,无中途确认环节自动化执行,人工干预点较少

SearchClaw的应用场景

  • 学术文献综述:工具能自动检索 Semantic Scholar 与 arXiv 论文,生成带引用的领域进展摘要。

  • 市场竞品监测:自动追踪新闻源与微信公众号,分析竞品动态并输出带时间戳的参考依据。

  • 政策与法规研究:工具能抓取政府网站与智库报告,整合多语言来源形成合规分析报告。

  • 技术选型评估:可以搜索技术博客、GitHub 讨论与学术论文,对比不同框架的社区评价与性能数据。

© 版权声明

相关文章