Al项目

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

112℃Voicebox – 开源本地语音合成工具,ElevenLabs 开源平替

Voicebox是什么Voicebox 是开源的本地语音合成工具,基于 Tauri (Rust) 与 React 构建的跨平台桌面应用。工具提供声音克隆、文本转语音、音频后期处理及多轨叙事编辑功能,所有模型与语音数据均本地运行不上云,主打...

578℃Claude Design – Anthropic Labs 推出的 AI 协作式设计工具

Claude Design是什么Claude Design 是 Anthropic Labs 推出的 AI 协作式设计工具,搭载 Anthropic 最先进的视觉模型 Claude Opus 4.7。定位为对话式设计工作室,用户通过自然语...

742℃LingBot-Map – 蚂蚁灵波开源的流式 3D 重建模型

LingBot-Map是什么LingBot-Map 是蚂蚁灵波科技开源的流式三维重建模型,普通 RGB 摄像头可在视频采集过程中实时完成相机位姿估计与场景三维结构重建。模型以纯自回归式建模为核心,基于几何上下文 Transformer 架...

321℃GPT-Rosalind – OpenAI 推出的生命科学专用推理模型

GPT-Rosalind是什么GPT-Rosalind是OpenAI推出的生命科学专用推理模型,用DNA双螺旋结构发现者罗莎琳德·富兰克林命名。模型针对50种生物学工作流深度调优,具备假设生成、实验设计和证据合成能力,可整合50余个科学数...

488℃Claude Opus 4.7 – Anthropic 推出的最新旗舰大模型

Claude Opus 4.7是什么Claude Opus 4.7 是 Anthropic 推出的最新旗舰大模型,为 Claude Opus 4.6 的直接升级版。模型在高级软件工程任务上表现突出,SWE-bench Pro 得分提升至 ...

85℃Qwen3.6-35B-A3B – 阿里通义开源的混合专家 MoE 模型

Qwen3.6-35B-A3B是什么Qwen3.6-35B-A3B是阿里通义千问团队推出的开源混合专家(MoE)模型,总参数量350亿,激活参数30亿。模型主打极致推理效率与智能体编程能力,在多项编程基准测试中超越参数规模更大的稠密模型Q...

905℃GPT-image-2 – OpenAI推出的下一代原生图像生成模型

GPT-image-2是什么GPT-image-2 是OpenAI推出的下一代原生图像生成模型,据传内部代号为「Spud」,目前已在ChatGPT进行灰度测试。模型于2026年4月初以maskingtape-alpha等代号短暂现身Cha...

899℃HappyOyster – 阿里推出的开放式世界模型产品

HappyOyster是什么HappyOyster是阿里ATH创新事业部推出的开放式世界模型产品,定位为可实时构建与交互的AI生成式体验平台。产品基于世界模型技术,支持无限延展的实时内容生成,官网开放了两种玩法Directing与Wand...

51℃StepAudio 2.5 TTS – 阶跃星辰推出的语境感知语音生成模型

StepAudio 2.5 TTS是什么StepAudio 2.5 TTS是阶跃星辰推出的Contextual TTS(语境感知语音合成模型),首次将语境理解能力引入语音生成全流程。模型通过Global Context(全局语境)定调整段...

920℃Relax – 小红书开源的大模型强化学习训练引擎

Relax是什么Relax 是小红书AI平台团队开源的面向全模态与 Agentic 场景设计的大模型强化学习训练引擎。基于 Megatron-LM 与 SGLang 构建,采用服务化容错架构(Ray Serve)与 TransferQue...

214℃有道宝库 – 网易有道推出的 AI 知识库工具

有道宝库是什么有道宝库是网易有道推出的首个AI知识库工具,定位为用户的外接超级知识库和AI研究助手。不同于传统聊天机器人或笔记工具,支持用户上传各类文档建立个人知识库,基于这些资料进行对话问答,能一键生成PPT、思

865℃Gemini 3.1 Flash TTS – 谷歌推出的文本转语音模型

Gemini 3.1 Flash TTS是什么Gemini 3.1 Flash TTS是Google推出的新一代文本转语音模型,提供更强的可控性、表现力和音质。模型支持70多种语言,引入音频标签技术,可通过自然语言指令精确控制声音风格、语...

924℃混元3D世界模型 2.0 – 腾讯混元开源的多模态世界模型

混元3D世界模型 2.0是什么混元3D世界模型 2.0(HY-World 2.0)是腾讯混元推出的开源多模态世界模型,支持从文本、单图、多视图或视频生成可漫游的3D高斯溅射(3DGS)场景。模型采用四阶段架构,全景生成→轨迹规划→世界扩展...

94℃Marble 1.1 – 李飞飞 World Labs 推出的新一代生成式世界模型

Marble 1.1是什么Marble 1.1 是李飞飞 World Labs 推出的新一代生成式世界模型,主打画质优化。模型能将单张图片、视频或全景图转化为可自由探索的沉浸式 3D 场景,显著改善光照效果与对比度,大幅减少过曝、泛白等视...

368℃MAI-Image-2-Efficient – 微软推出的轻量版文生图模型

MAI-Image-2-Efficient是什么MAI-Image-2-Efficient是微软推出的自研文生图模型,为MAI-Image-2的轻量高效版本,主打高性价比商业量产,在保持照片级真实图像质量的同时,实现成本降低41%、生成速...

820℃SearchClaw – 中国人民大学推出的 AI 深度研究智能体

SearchClaw是什么SearchClaw 是 RUC-NLPIR(中国人民大学信息检索实验室)推出的自托管式 AI 深度研究智能体,配备 Web 交互界面。用户提交问题后,系统自动执行多轮网络搜索、页面抓取、论文检索与内容综合,最终...

247℃OmniShow – 字节联合港中文、港大等开源的视频生成模型

OmniShow是什么OmniShow是字节跳动联合港中文、莫纳什、港大开源的多模态人-物交互视频生成模型。作为首个支持RAP2V(参考图+音频+姿势)的端到端框架,模型统一处理文本、图像、音频、姿势四种输入,单一12.3B参数模型即可

974℃Spark 2.0 – World Labs 开源的Web端 3D 高斯溅射渲染引擎

Spark 2.0是什么Spark 2.0是World Labs(李飞飞创立)开源的Web端3D高斯溅射渲染引擎,基于Three.js和WebGL2构建。Spark 2.0首创LoD细节层次系统、渐进式流式传输与虚拟内存技术,可在桌面、手...

500℃ERNIE-Image – 百度文心开源的文生图模型

ERNIE-Image是什么ERNIE-Image是百度文心团队开源的8B参数文生图模型,基于Diffusion Transformer架构,主打高可控性与精准长文本渲染。模型能准确生成中英双语海报、漫画、信息图等复杂视觉内容,解决文字模...

982℃GenieAI – 腾讯云 CodeBuddy 推出的 AI 应用生成平台

GenieAI 是什么GenieAI 是腾讯云 CodeBuddy 推出的 AI 编程平台,只需用自然语言描述需求,可自动生成网页应用、微信小程序、游戏、PPT 等完整产品。平台覆盖从构思、设计、开发到部署的全流程,生成包含前后端和数据库...

566℃Acrobat Student Spaces – Adobe 推出的 AI 学习平台

Acrobat Student Spaces是什么Acrobat Student Spaces 是 Adobe 推出的 AI 学习平台,专为帮助学生高效备考设计。平台能将课件、笔记等资料一键转化为闪卡、测验题、思维导图,生成播客和视频摘要...

457℃Mano-P 1.0 – 明略科技开源的 GUI-VLA 智能体模型

Mano-P 1.0是什么Mano-P 1.0是明略科技开源的GUI-VLA智能体模型,采用纯视觉驱动,无需API可直接操控桌面软件与网页界面。模型提供72B完整版与4B量化版,支持Apple M4芯片本地部署,实现数据零上云与物理隔离级...

18℃HeyGen CLI – HeyGen 推出的命令行工具

HeyGen CLI是什么HeyGen CLI是HeyGen官方推出的命令行工具与MCP服务器,基于Model Context Protocol协议构建。工具支持开发者及AI助手(如Claude、Cursor)通过自然语言直接调用HeyG...

786℃QinyanClaw – 沁言学术推出的云端学术科研智能体

QinyanClaw是什么QinyanClaw是沁言学术推出的全球首个为学术科研场景深度优化的云端智能体。基于OpenClaw架构,智能体具备长期记忆和自主执行能力,可7×24小时在云端独立运行,无需保持电脑在线。QinyanClaw能理...

721℃PokeClaw – 开源的全本地离线运行手机 AI Agent 应用

PokeClaw是什么PokeClaw(全称 PocketClaw)是开源 Android AI 自动化应用,由开发者 Nicole 独立打造。是首个实现完全本地离线运行的手机 AI 代理,基于 Google Gemma 4 模型通过 L...