Al项目
AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。
95℃Qwen3.6-35B-A3B – 阿里通义开源的混合专家 MoE 模型
Qwen3.6-35B-A3B是什么Qwen3.6-35B-A3B是阿里通义千问团队推出的开源混合专家(MoE)模型,总参数量350亿,激活参数30亿。模型主打极致推理效率与智能体编程能力,在多项编程基准测试中超越参数规模更大的稠密模型Q...
909℃GPT-image-2 – OpenAI推出的下一代原生图像生成模型
GPT-image-2是什么GPT-image-2 是OpenAI推出的下一代原生图像生成模型,据传内部代号为「Spud」,目前已在ChatGPT进行灰度测试。模型于2026年4月初以maskingtape-alpha等代号短暂现身Cha...
899℃HappyOyster – 阿里推出的开放式世界模型产品
HappyOyster是什么HappyOyster是阿里ATH创新事业部推出的开放式世界模型产品,定位为可实时构建与交互的AI生成式体验平台。产品基于世界模型技术,支持无限延展的实时内容生成,官网开放了两种玩法Directing与Wand...
52℃StepAudio 2.5 TTS – 阶跃星辰推出的语境感知语音生成模型
StepAudio 2.5 TTS是什么StepAudio 2.5 TTS是阶跃星辰推出的Contextual TTS(语境感知语音合成模型),首次将语境理解能力引入语音生成全流程。模型通过Global Context(全局语境)定调整段...
927℃Relax – 小红书开源的大模型强化学习训练引擎
Relax是什么Relax 是小红书AI平台团队开源的面向全模态与 Agentic 场景设计的大模型强化学习训练引擎。基于 Megatron-LM 与 SGLang 构建,采用服务化容错架构(Ray Serve)与 TransferQue...
670℃有道宝库 – 网易有道推出的 AI 知识库工具
有道宝库是什么有道宝库是网易有道推出的首个AI知识库工具,定位为用户的外接超级知识库和AI研究助手。不同于传统聊天机器人或笔记工具,支持用户上传各类文档建立个人知识库,基于这些资料进行对话问答,能一键生成PPT、思
865℃Gemini 3.1 Flash TTS – 谷歌推出的文本转语音模型
Gemini 3.1 Flash TTS是什么Gemini 3.1 Flash TTS是Google推出的新一代文本转语音模型,提供更强的可控性、表现力和音质。模型支持70多种语言,引入音频标签技术,可通过自然语言指令精确控制声音风格、语...
924℃混元3D世界模型 2.0 – 腾讯混元开源的多模态世界模型
混元3D世界模型 2.0是什么混元3D世界模型 2.0(HY-World 2.0)是腾讯混元推出的开源多模态世界模型,支持从文本、单图、多视图或视频生成可漫游的3D高斯溅射(3DGS)场景。模型采用四阶段架构,全景生成→轨迹规划→世界扩展...
96℃Marble 1.1 – 李飞飞 World Labs 推出的新一代生成式世界模型
Marble 1.1是什么Marble 1.1 是李飞飞 World Labs 推出的新一代生成式世界模型,主打画质优化。模型能将单张图片、视频或全景图转化为可自由探索的沉浸式 3D 场景,显著改善光照效果与对比度,大幅减少过曝、泛白等视...
368℃MAI-Image-2-Efficient – 微软推出的轻量版文生图模型
MAI-Image-2-Efficient是什么MAI-Image-2-Efficient是微软推出的自研文生图模型,为MAI-Image-2的轻量高效版本,主打高性价比商业量产,在保持照片级真实图像质量的同时,实现成本降低41%、生成速...
822℃SearchClaw – 中国人民大学推出的 AI 深度研究智能体
SearchClaw是什么SearchClaw 是 RUC-NLPIR(中国人民大学信息检索实验室)推出的自托管式 AI 深度研究智能体,配备 Web 交互界面。用户提交问题后,系统自动执行多轮网络搜索、页面抓取、论文检索与内容综合,最终...
249℃OmniShow – 字节联合港中文、港大等开源的视频生成模型
OmniShow是什么OmniShow是字节跳动联合港中文、莫纳什、港大开源的多模态人-物交互视频生成模型。作为首个支持RAP2V(参考图+音频+姿势)的端到端框架,模型统一处理文本、图像、音频、姿势四种输入,单一12.3B参数模型即可
975℃Spark 2.0 – World Labs 开源的Web端 3D 高斯溅射渲染引擎
Spark 2.0是什么Spark 2.0是World Labs(李飞飞创立)开源的Web端3D高斯溅射渲染引擎,基于Three.js和WebGL2构建。Spark 2.0首创LoD细节层次系统、渐进式流式传输与虚拟内存技术,可在桌面、手...
505℃ERNIE-Image – 百度文心开源的文生图模型
ERNIE-Image是什么ERNIE-Image是百度文心团队开源的8B参数文生图模型,基于Diffusion Transformer架构,主打高可控性与精准长文本渲染。模型能准确生成中英双语海报、漫画、信息图等复杂视觉内容,解决文字模...
984℃GenieAI – 腾讯云 CodeBuddy 推出的 AI 应用生成平台
GenieAI 是什么GenieAI 是腾讯云 CodeBuddy 推出的 AI 编程平台,只需用自然语言描述需求,可自动生成网页应用、微信小程序、游戏、PPT 等完整产品。平台覆盖从构思、设计、开发到部署的全流程,生成包含前后端和数据库...
568℃Acrobat Student Spaces – Adobe 推出的 AI 学习平台
Acrobat Student Spaces是什么Acrobat Student Spaces 是 Adobe 推出的 AI 学习平台,专为帮助学生高效备考设计。平台能将课件、笔记等资料一键转化为闪卡、测验题、思维导图,生成播客和视频摘要...
459℃Mano-P 1.0 – 明略科技开源的 GUI-VLA 智能体模型
Mano-P 1.0是什么Mano-P 1.0是明略科技开源的GUI-VLA智能体模型,采用纯视觉驱动,无需API可直接操控桌面软件与网页界面。模型提供72B完整版与4B量化版,支持Apple M4芯片本地部署,实现数据零上云与物理隔离级...
20℃HeyGen CLI – HeyGen 推出的命令行工具
HeyGen CLI是什么HeyGen CLI是HeyGen官方推出的命令行工具与MCP服务器,基于Model Context Protocol协议构建。工具支持开发者及AI助手(如Claude、Cursor)通过自然语言直接调用HeyG...
788℃QinyanClaw – 沁言学术推出的云端学术科研智能体
QinyanClaw是什么QinyanClaw是沁言学术推出的全球首个为学术科研场景深度优化的云端智能体。基于OpenClaw架构,智能体具备长期记忆和自主执行能力,可7×24小时在云端独立运行,无需保持电脑在线。QinyanClaw能理...
724℃PokeClaw – 开源的全本地离线运行手机 AI Agent 应用
PokeClaw是什么PokeClaw(全称 PocketClaw)是开源 Android AI 自动化应用,由开发者 Nicole 独立打造。是首个实现完全本地离线运行的手机 AI 代理,基于 Google Gemma 4 模型通过 L...
770℃LPM 1.0 – 米哈游蔡浩宇推出的 AI 视频生成模型
LPM 1.0是什么LPM 1.0(Large Performance Model)是Anuttacon(蔡浩宇AI公司)推出的17B参数视频角色表演生成模型,支持实时全双工音视频对话。模型可将单图转化为能说话、倾听、反应且带细腻微表情的...
880℃Trooly – AI Native用户研究平台,实时检测受访者情绪信号
Trooly是什么Trooly(元生万物)是AI-Native用户研究平台,通过多模态Voice Agent技术提供AI主导的深度访谈服务。平台能以12倍于传统调研机构的速度,在24小时内完成从方案设计、精准用户招募到深度访谈执行的全流程...
495℃TripStar – 开源 AI 旅行规划工具,多智能体协作规划旅行
TripStar是什么TripStar(旅途星辰)是基于HelloAgents框架的AI文旅智能体应用,通过LLM与多智能体协作解决旅行规划中的信息过载问题。工具深度集成小红书真实游记数据,智能提取景点、避坑指南与预约提醒,结合天气、酒店...
894℃MiniMax Music 2.6 – MiniMax 推出的全新 AI 音乐生成模型
MiniMax Music 2.6是什么MiniMax Music 2.6是MiniMax推出的全新AI音乐生成模型,实现从底层架构到创作体验的全维进化。该版本将首包延迟压缩至20秒内,突破性解决开盲盒痛点,实现精准的BPM锁定、精细的段...
627℃FIPO – 阿里通义推出的强化学习算法
FIPO是什么FIPO(Future-KL Influenced Policy Optimization)是阿里通义实验室推出的强化学习算法,通过Future-KL机制量化每个token对后续推理轨迹的影响力,实现token级精准信用分配...
