Al项目
AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。
732℃Magenta RealTime 2 – 谷歌Magenta开源的实时音乐生成模型
Magenta RealTime 2是什么Magenta RealTime 2(MRT2)是谷歌 Magenta 团队推出的第二代开源本地实时音乐生成模型。MRT2 基于逐帧生成架构,每帧 40 毫秒,实现约 200 毫秒的实际控制延迟,...
254℃WorkBuddy企业版 – 腾讯推出的企业级 AI 智能工作台
WorkBuddy企业版是什么WorkBuddy企业版是腾讯推出的企业级AI智能工作台,面向AI原生组织转型提供7×24小时数字员工、人机协同项目模式及企业管理后台,原生接入腾讯文档、网盘与乐享,支持公有云、VPC专享及私有化部署。工
441℃html-video – Open Design 团队开源的 HTML 版剪映
html-video是什么html-video 是 Open Design 团队(nexu.io)开源的HTML版剪映,基于 hyperframes 框架构建。工具让 Agent 通过写 HTML 可生成世界级水准的产品宣传、知识解说等视...
7℃GitNexus – 开源代码知识图谱引擎,构建完整依赖关系图
GitNexus是什么GitNexus 是开源的代码知识图谱引擎,通过 Tree-sitter 解析将代码仓库构建为完整的依赖关系图,用 MCP 协议向 Cursor、Claude Code、Codex 等 AI 工具暴露结构化上下文。工...
761℃Gemma 4 12B – 谷歌开源的多模态大模型
Gemma 4 12B是什么Gemma 4 12B是谷歌开源的多模态大模型,采用业界首个无编码器统一架构,视觉和音频数据直接输入LLM主干,彻底砍掉独立编码器。模型12B参数即在16GB显存笔记本本地运行,性能却反杀上一代27B模型:AI...
466℃BrowserAct Skills – 开源的 AI Agent 浏览器自动化 CLI 工具
BrowserAct Skills是什么BrowserAct Skills 是面向 AI Agent 的浏览器自动化 CLI 工具,能解决 Agent 操控浏览器时的核心痛点,无 Cookie 环境、反爬拦截、验证码阻断、人机协作断层等。...
510℃AhaCreator – AI 原生海外达人营销平台,全流程 AI 托管
AhaCreator是什么AhaCreator(原名 Aha)是 AI 原生的海外达人营销平台,用 AI Agent 接管达人营销的全流程执行,让品牌方只需在关键节点做决策。平台覆盖 140+ 国家,拥有 500 万+ 预筛选达人池,对接...
956℃GreenConvert – AI 音视频转录平台,双引擎转录模式
GreenConvert是什么GreenConvert 是 AI 音视频转录平台,通过神经引擎将音视频转为文字,支持 98 种以上语言,准确率达 98%。平台内置说话人识别、音频修复与多语言翻译,可处理长达 10 小时的文件。平台采用动态...
344℃Microsoft Scout – 微软推出的 AI 个人助手
Microsoft Scout是什么Microsoft Scout 是微软推出的 AI 个人助手,基于 OpenClaw 开源技术构建。工具拥有独立 Entra 身份,可在后台持续自主运行,无需用户逐次触发。深度整合 Outlook、Te...
703℃Ideogram 4 – Ideogram 开源的文本到图像生成模型
Ideogram 4是什么Ideogram 4 是 Ideogram 推出的首个开源文本到图像生成模型,拥有 93 亿参数,从头训练非基于现有模型微调。模型专为高质量图像生成而设计,尤其在设计、营销图形、Logo、海报、广告和社交媒体视觉...
573℃Toonflow – 开源的一站式 AI 短剧创作工具
Toonflow是什么Toonflow 是开源的一站式 AI 短剧创作工具,将小说、剧本通过多 Agent 协作自动转化为结构化剧本、智能分镜、角色视觉和动画视频,实现小说→剧本→分镜→视频,全流程 AI 自动化生产。工具支持 Windo...
699℃Kimi Work – 月之暗面推出的通用型本地 Agent
Kimi Work是什么Kimi Work 是月之暗面推出的面向知识工作者的通用型本地 Agent,随 Kimi 最新测试版 Mac 和 Windows 客户端推出。工具基于 Kimi Code 内核,支持自然语言驱动,可在用户电脑上自主...
883℃JoyAI-Echo – 京东开源的长音视频生成框架
JoyAI-Echo是什么JoyAI-Echo 是京东推出的开源长音视频生成框架,专为分钟级多镜头故事生成设计。框架通过跨模态记忆库、记忆驱动后训练、Director Agent 对话式编辑和轻量化实时超分四大技术创新,解决长视频生成中角..
708℃Odysseus – 开源的本地自托管 AI 工作空间
Odysseus是什么Odysseus 是开源自托管的 AI 工作空间,提供类似 ChatGPT / Claude 的聊天界面,工具完全本地化运行,数据不出本机、隐私零泄露。工具集成聊天、Agent、深度研究、笔记、任务、日历、邮件、模型...
269℃Hermes Desktop – Nous Research 推出的 Hermes 桌面端
Hermes Desktop是什么Hermes Desktop 是 Nous Research 推出的官方 Hermes 桌面客户端,支持 macOS、Windows 和 Linux 三端。工具具备持久记忆、任务调度、子代理委派、网页浏览...
771℃MAI Transcribe-1.5 – 微软 MAI 推出的语音转文本模型
MAI Transcribe-1.5是什么MAI-Transcribe-1.5 是 微软 AI 团队自研的语音转文本模型,支持 43 种语言,具备上下文感知的关键词偏置能力,模型在 FLEURS 基准测试中取得行业最低的词错误率(WER ...
225℃MAI-Voice-2 – 微软推出的新一代文本转语音模型
MAI-Voice-2是什么MAI-Voice-2 是微软推出的新一代文本转语音(TTS)模型,是微软迄今最具表现力和自然感的语音合成模型。相比前代在保真度、语言覆盖、说话人一致性和情感范围上全面提升,支持 15+ 种语言,具备细粒度情感...
813℃MAI-Code-1-Flash – 微软推出的轻量级代码生成模型
MAI-Code-1-Flash是什么MAI-Code-1-Flash 是微软专为开发者工作流推出的轻量级代码生成模型,深度集成 GitHub Copilot。模型采用自适应输出长度控制技术,在保持高准确率的同时最高可减少 60% 的 t...
710℃Bernini – 字节跳动开源的统一视频生成与编辑框架
Bernini是什么Bernini 是字节跳动开源的统一视频生成与编辑框架,采用MLLM 语义规划 + DiT 视觉渲染的两阶段解耦架构。多模态大模型理解指令并规划语义草图,由 Diffusion Transformer 完成高质量视频生...
248℃Science Skills – 谷歌 DeepMind 开源的科研技能工具包
Science Skills是什么Science Skills 是谷歌 DeepMind 推出的开源科研技能集合,专为加速 AI Agent 驱动的科学研究工作流设计。工具整合 AlphaGenome、AlphaFold Database...
970℃MAI-Thinking-1 – 微软推出的首款自研高级推理模型
MAI-Thinking-1是什么MAI-Thinking-1 是微软推出的首款自研高级推理模型。模型采用 35B 活跃参数 / 约 1T 总参数的稀疏 MoE 架构,完全基于干净、商业授权数据从头训练,未使用任何第三方模型蒸馏。在 SW...
115℃OpenClacky – 李亚飞团队开源的低成本 AI Agent
OpenClacky是什么OpenClacky 是李亚飞团队开源的 AI Agent,支持一键安装与跨平台运行。工具通过精简工具集、智能上下文压缩和模型路由大幅降低使用成本,让专业人士能全天开着 AI 助手干活。OpenClacky 内置...
651℃Mellum2 – JetBrains 开源的混合专家模型
Mellum2是什么Mellum2 是 JetBrains 开源的面向软件工程系统的新机器学习模型。模型每 token 仅激活 2.5B 参数,专为软件工程 AI 工作流优化,支持代码生成、智能路由、子 Agent 调用及私有化部署。凭借...
137℃ECC – 开源的跨平台 AI Agent 性能优化系统
ECC是什么ECC(Everything Claude Code)是跨平台 AI Agent 性能优化系统。系统为 Claude Code、Codex、Cursor 等 7+ 个 AI 编程工具提供 63 个专业 Agent、249 个按...
228℃Polar – 英伟达开源的智能体强化学习训练框架
Polar是什么Polar 是英伟达推出的开源智能体强化学习(Agentic RL)训练框架,核心创新在于无需修改现有智能体框架内部代码,可将其接入 GRPO 等 RL 算法进行训练。框架通过在 LLM API 调用边界放置代理,捕获 t...
