Al项目

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

800℃Qwen3.7-Max – 阿里通义推出的新一代旗舰大模型

Qwen3.7-Max是什么Qwen3.7-Max 是阿里通义千问团队推出的面向智能体时代的新一代旗舰大模型,定位为全能智能体基座。模型具备前沿编程、办公自动化、长周期自主执行与跨框架泛化四大核心能力,在 SWE-Pro、MCP-Atla...

174℃Qwen3.5-LiveTranslate – 阿里通义推出的实时同声传译模型

Qwen3.5-LiveTranslate是什么Qwen3.5-LiveTranslate 是阿里通义团队推出的实时同声传译大模型,支持60语种输入、29语种输出与3500+翻译组合,通过可读单元流式技术将端到端字均延迟压缩至2.8秒,模...

630℃HiDream-O1-Image-Pro – 智象未来推出的旗舰级图像模型

HiDream-O1-Image-Pro是什么HiDream-O1-Image-Pro是智象未来推出的基于原生全模态架构UiT的图像大模型,超200B参数,在文生图、文字渲染、指令编辑等任务刷新SOTA。模型将图像像素、文本标记与任务条件...

840℃Lance – 字节跳动开源的轻量级原生统一多模态模型

Lance是什么Lance 是字节跳动智能创作团队开源的轻量级原生统一多模态模型,仅 3B 激活参数,在单一框架内同时支持图像与视频的理解、生成与编辑全链路任务。模型采用分阶段多任务方案从零训练,整个训练周期仅消耗 128 张

13℃ESP-Claw – 乐鑫开源的物联网设备 AI Agent 框架

ESP-Claw是什么ESP-Claw 是乐鑫推出的物联网设备 AI Agent 框架,采用Chat Coding理念,让用户通过自然语言对话可定义和修改硬件设备行为。框架基于 OpenClaw 概念用 C 语言重新实现,专为资源受限的 ...

9℃Qwen3.7 Preview – 阿里通义推出的下一代旗舰大模型预览版

Qwen3.7 Preview是什么Qwen3.7 Preview 是阿里通义千问团队推出的下一代旗舰大模型预览版,包含Qwen3.7-Max-Preview和Qwen3.7-Plus-Preview两个版本。模型在智能体编程、世界知识和...

307℃Chronicles-OCR – 腾讯联合高校等推出的视觉感知评测基准

Chronicles-OCR是什么Chronicles-OCR 是腾讯混元联合中国科学院信息工程研究所、安阳师范学院、南开大学及故宫博物院共同推出的业界首个覆盖中国汉字七体之变完整演化轨迹的跨时间视觉感知评测基准,基准包含 2,800 张

653℃Composer 2.5 – Cursor 推出的自研 Agentic 编程模型

Composer 2.5是什么Composer 2.5 是 Cursor 推出的自研 Agentic 编程模型。在智能水平和行为表现上较 Composer 2 有大幅提升,在 SWE-Bench Multilingual(79.8%) 和...

721℃腾讯Marvis – 腾讯应用宝推出的操作系统层个人 AI 助手

腾讯Marvis是什么腾讯Marvis是腾讯应用宝团队推出的操作系统层个人 AI 助手。工具通过 1 个主 Agent 与 5 个副 Agent 的协作架构,实现电脑系统操作、文件管理、App 操控、网页交互与信息搜索等复杂任务,24 小...

678℃Marvis – 腾讯应用宝推出的操作系统层个人 AI 助手

Marvis是什么Marvis是腾讯应用宝团队推出的操作系统层个人 AI 助手。工具通过 1 个主 Agent 与 5 个副 Agent 的协作架构,实现电脑系统操作、文件管理、App 操控、网页交互与信息搜索等复杂任务,24 小时在线并...

181℃Higgs Avatar v1 – 面向语音智能体的实时 AI 数字人模型

Higgs Avatar v1 是什么Higgs Avatar v1 是BosonAI推出的面向语音智能体的实时 AI 数字人模型。模型仅需一张静态照片,可生成具备口型同步、面部表情与头部动作的实时交互数字人。模型单帧渲染仅 16 毫秒,...

694℃MemPrivacy – 记忆张量联合荣耀 AI 开源的隐私保护框架

MemPrivacy是什么MemPrivacy 是记忆张量(MemTensor)团队联合荣耀 AI 团队及同济大学共同开源的端云协同 Agent 隐私保护框架。针对云端 Agent 长期记忆场景中的隐私泄露风险,提出本地可逆伪匿名化方案:...

962℃PPT Master – 开源 AI PPT 生成标准化工作流

PPT Master是什么PPT Master 是开源的AI驱动PPT生成标准化工作流(Skill),可在具备Agent智能体能力的AI IDE中运行,实现PDF、DOCX、XLSX、网址、Markdown、PPTX等任意格式文档到原生可...

395℃LibTV团队版 – LibTV 推出的专业级 AI 视频协作工作台

LibTV团队版是什么LibTV 团队版是 LibTV 推出的专业级 AI 视频协作工作台,专为 AI 短剧、电影、TVC 制作团队设计。平台提供团队空间、实时画布协作、资产库沉淀、权限管理、成本管控等功能,解决 AI 视频创作中资产散落

259℃Violin – 牛津大学 Kevin Lin 开源的端到端 AI 视频翻译工具

Violin是什么Violin 是牛津大学博士后 Kevin Lin 开源的端到端 AI 视频翻译工具,打破高质量视频内容的语言壁垒。集成 Whisper 语音识别、大语言模型翻译与 TTS 语音合成三大能力,可将任意语言视频自动翻译并配...

724℃Grok Build – xAI 推出的终端原生 AI 编程智能体

Grok Build是什么Grok Build 是 xAI 推出的终端原生 AI 编程智能体(Agentic CLI),面向专业软件工程与复杂编码任务。基于 Grok 4.3 beta 的 200 万 token 超长上下文,支持 Pla...

573℃OpenHuman – 开源桌面端 AI 助手,能主动感知工作上下文

OpenHuman是什么OpenHuman 是 tinyhumansai 团队推出的开源个人 AI 超级智能助手,定位为Your Personal AI super intelligence,主打私有、简单且极其强大。非传统聊天机器人,是...

441℃Intern-S2-Preview – 上海 AI Lab 开源的科学多模态大模型

Intern-S2-Preview是什么Intern-S2-Preview 是上海人工智能实验室开源的新一代书生科学多模态大模型预览版,以35B参数规模实现比肩万亿参数模型的科学能力。模型通过通专融合全链路训练与强化学习驱动,首次在开源通...

491℃Pixal3D – 腾讯联合清华等开源的单图像 3D 生成项目

Pixal3D是什么Pixal3D 是腾讯 ARC 实验室联合清华大学、惠灵顿维多利亚大学推出的单图像 3D 生成项目。Pixal3D通过反向投影将像素特征显式提升到三维空间,建立直接的像素到 3D 对应关系,能生成接近重建级保真度的 3...

548℃HiCAD – 开源的 AI 参数化 3D CAD 建模平台

HiCAD是什么HiCAD 是开源的 AI 参数化 3D CAD 建模平台,专为 3D 打印爱好者设计。用户用自然语言描述需求,AI 可秒级生成可编辑的 JSCAD 参数化代码,配合实时 3D 预览、Monaco 代码编辑器与参数化滑块面...

320℃TencentDB Agent Memory – 腾讯开源的智能体记忆管理工具

TencentDB Agent Memory是什么TencentDB Agent Memory是腾讯云数据库团队开源的AI Agent分层记忆管理工具,采用MIT协议。工具通过独创的L0-L3四层渐进式记忆架构与上下文卸载+Mermaid...

979℃General365 – 美团 LongCat 团队开源的通用推理评测基准

General365是什么General365 是美团 LongCat 团队开源的通用推理评测基准,包含 365 道原创种子题及 1095 个扩展变体,覆盖八大推理挑战维度。基准将知识范围严格限定在 K-12 水平,解耦大模型的推理能力与...

498℃Kimi WebBridge – 月之暗面推出的浏览器扩展插件

Kimi WebBridge是什么Kimi WebBridge 是月之暗面推出的浏览器扩展插件,面向 Kimi Code、Claude Code、Cursor、Codex 等本地 AI Agent。Kimi WebBridge 通过本地桥...

819℃Lumen Flow – AI 漫剧自动生成平台,AI 剧本一键成片

Lumen Flow什么Lumen Flow 是基于 Seedance 2.0 的端到端 AI 漫剧自动生产线,由字节系背景的 AI Native 团队推出。用户上传剧本,Agent 可自动完成分镜拆解、角色设计、场景生成、动态视频合成与...

733℃如何用 AI 多智能体打造精品视频内容 – 附精选提示词

在 AI 内容创作工具百花齐放,创作者面临的最大痛点不是有没有工具,而是工具太多、流程太碎。剧本要写、分镜要画、资产要生成、视频要渲染。每一步都在不同平台间跳转,风格难以统一,协作效率低下。VibePaper 深度基于原生