Al项目
AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。
737℃Pada – AI角色聊天平台,支持多模态互动体验
Pada是什么Pada 是原问小白App 升级后的 AI 角色聊天平台。定位「AI 角色聊天与共创宇宙」,提供丰富的虚拟角色、沉浸式对话及多模态互动体验,主打与 AI 角色的情感陪伴与故事共创。平台支持创作者投稿角色并设有激励计
306℃小精龙 – 学而思推出的学生私人 AI 学伴 Agent
小精龙是什么小精龙是学而思推出的面向学生的AI智能学伴(Agent),基于OpenClaw架构打造。工具通过大脑映射持续理解学生的知识漏洞与思维习惯,将学习轨迹沉淀为私有财产(越用越懂学生),用学习伴侣身份提供个性化辅导与情感陪
919℃Wan2.7-Image – 阿里通义推出的 AI 图像生成与编辑模型
Wan2.7-Image是什么Wan2.7-Image是通义实验室推出的AI图像生成与编辑模型,支持深度自定义人物形象(脸型、眼型、骨相等),告别千篇一律的「AI标准脸」,可精准生成4000+字符及中文简繁体、英日韩德法等多种语言内容,告...
29℃updream – B 站推出的 AI 视频创作助手
updream是什么updream是B站官方推出的专业级AI视频创作助手,专为资深UP主打造。核心功能包括AI智能Agent、个性化技能库与自由创作画布,具备长期深度记忆能力,可持续学习创作者风格并沉淀为可复用技能。平台采用先内容后
160℃wecom-cli – 企业微信官方开源的命令行工具
wecom-cli 是什么wecom-cli(企业微信 CLI) 是企业微信官方团队开源的命令行工具,让人类和 AI Agent 能在终端中操作企业微信。工具覆盖通讯录、待办、会议、消息、日程、文档、智能表格 7 大核心能力,提供 12 ...
907℃harrier-oss-v1 – 微软开源的多语言文本嵌入模型
harrier-oss-v1是什么harrier-oss-v1 是微软开源的多语言文本嵌入模型,在 Multilingual MTEB v2 基准测试中取得 SOTA 成绩。模型采用仅解码器架构,通过最后 token 池化和 L2 归一化...
217℃ColaMD – 开源 Markdown 编辑器,实时同步修改内容
ColaMD是什么ColaMD 是开源的 Markdown 编辑器。工具解决了传统编辑器在 AI 修改文件后需手动刷新才能看到更新的痛点,实现 Agent 后台修改与前台内容的实时同步,如同观看 AI 现场写作。工具采用真 WYSIWYG...
425℃Lightpanda – 开源的 AI 浏览器,兼容主流自动化框架
Lightpanda是什么Lightpanda 是专为 AI Agent 和自动化设计的开源无头浏览器,用 Zig 语言从零编写,不依赖 Chromium 或 WebKit。工具内存占用仅为 Chrome 的 1/16,执行速度快 9 倍...
824℃天工短剧工作台 – 昆仑万维推出的 AI 短剧创作平台
天工短剧工作台是什么天工短剧工作台是昆仑万维推出的AI短剧创作平台,基于多Agent协同,整合Seedance、可灵等全球顶尖视频模型。平台支持传统与智能分镜双模式,通过资产提取Agent、导演Agent自动拆解剧本生成导演级视频,
340℃Veo 3.1 Lite – 谷歌推出的 AI 视频生成模型
Veo 3.1 Lite是什么Veo 3.1 Lite 是 Google 最新推出的AI视频生成模型,成本比 Veo 3.1 Fast 降低 50% 以上,同时保持同等生成速度。模型支持文本/图像生成视频,可灵活切换横竖屏(16:9/9:...
889℃LongCat-AudioDiT – 美团开源的文本转语音模型
LongCat-AudioDiT是什么LongCat-AudioDiT 是美团开源的高保真扩散式文本转语音(TTS)模型,核心创新在于直接在波形潜空间进行扩散生成,非传统梅尔频谱等中间表示,有效避免误差累积并大幅简化流程。模型引入自适应投...
233℃Vision2Web – 清华联合智谱AI推出的视觉网站开发评估基准
Vision2Web是什么Vision2Web是清华大学和智谱AI联合推出的视觉网站开发评估基准,用于评估多模态AI Agent的端到端建站能力。Vision2Web包含193个真实网站任务,分为三层递进难度:静态网页生成、交互式前端开发...
389℃GigaWorld-1 – 极佳视界开源的具身世界模型
GigaWorld-1是什么GigaWorld-1 是极佳视界推出的具身世界模型,在 WorldArena 评测中登顶全球第一。模型采用 AC-WM(动作控制世界模型)架构,结合显式动作建模与可微分物理引擎,实现几何一致、物理准确的视频生...
467℃Multi-Shot – Runway 推出的 AI 视频生成应用
Multi-Shot是什么Multi-Shot 是 Runway 推出的 AI 视频生成应用,支持实现一键成片。用户只需输入场景描述,系统自动拆解为最多5个连贯镜头,同步完成构图、运镜、对话、音效和剪辑,直接输出电影感短片。应用支持图像起...
159℃Pascal Editor – 开源 3D 建筑编辑工具,在浏览器直接运行
Pascal Editor是什么Pascal Editor 是基于 Web 的开源 3D 建筑编辑器,由 Claude 辅助开发。工具无需安装,浏览器可运行,采用 WebGPU 技术实现高性能渲染。Pascal Editor 支持墙体绘制...
346℃Mureka V9 – 昆仑万维推出的最新AI音乐模型
Mureka V9是什么Mureka V9 是昆仑万维推出的最新AI音乐大模型。模型在音乐旋律性、表现力、编配编曲等核心指标上全面超越Suno V5等竞品,登顶Artificial Analysis人声和乐器双榜单全球第一。Mureka ...
1000℃MicroCoder – 微软联合剑桥等推出的大模型训练优化框架
MicroCoder是什么MicroCoder是微软亚洲研究院联合剑桥大学、普林斯顿大学推出的代码大模型训练优化项目,针对Qwen3等新一代模型训练瓶颈,从算法、数据、评估、经验四维度全面升级。框架核心包括:MicroCoder-GRPO...
470℃Qwen3.5-Omni – 阿里通义推出的全模态大模型
Qwen3.5-Omni 是什么Qwen3.5-Omni 是阿里通义实验室推出的全模态大模型,可同时理解文本、图像、音频及音视频输入。模型采用Thinker-Talker分工架构与Hybrid-MoE技术,在215项音频/音视频任务中取得...
275℃PixVerse V6 – 爱诗科技推出的最新 AI 视频生成模型
PixVerse V6是什么PixVerse V6 是爱诗科技推出的最新 AI 视频生成模型。模型在镜头控制、角色表现和多镜头音视频生成方面实现突破,运镜更精准,角色情绪跨帧连贯,物理交互更真实,生成时长最长可达 15s;支持单提示词生成..
786℃Pretext – 开源 AI 前端开发工具,解决中文字布局性能瓶颈
Pretext是什么Pretext 是前 React 核心成员 Cheng Lou 开源的,纯 JavaScript/TypeScript 的多行文本测量与布局库,用于纯算术方式精确测量多行文本尺寸,完全绕过 DOM 重排。Pretext...
7℃ComfyUI-MochiEdit – 开源的AI视频编辑工具,支持视频转视频和局部编辑
ComfyUI-MochiEdit是什么ComfyUI-MochiEdit是基于ComfyUI和Genmo Mochi的开源视频编辑工具,基于将视频转换为噪声、重新采样实现视频编辑,支持局部编辑和视频转视频功能。用户能调整噪声校正强度、对...
7℃VideoTuna – AI视频生成应用代码库,支持多模型和全面的视频生成流程
VideoTuna是什么VideoTuna是集成多种AI视频生成模型的代码库,支持文本到视频、图像到视频和文本到图像的转换。VideoTuna提供预训练、持续训练、后训练对齐和微调等全面视频生成流程,支持U-Net和DiT架构,并计划推出...
8℃Stagehand – AI网页浏览框架,提供简单和可扩展的网页自动化解决方案
Stagehand是什么Stagehand是简单和可扩展的AI网页浏览框架,是Playwright的继承者,提供act、extract和observe三个简单的API,支持自然语言驱动的网页操作。Stagehand提供一个轻量级、可配置、...
7℃Ferret-UI 2 – 苹果推出的跨平台UI理解多模态大语言模型
Ferret-UI 2是什么Ferret-UI 2是苹果公司推出的多模态大型语言模型,用在理解和交互移动用户界面。Ferret-UI 2能识别和理解各种移动设备屏幕上的UI元素,执行复杂的用户指令,实时观察用户在移动设备屏幕上的操作,随时...
7℃HiCo – 360 AI研究院推出的布局可控AI绘画模型
HiCo是什么HiCo是360 AI研究院推出的基于扩散模型的层次化可控布局到图像生成模型,HiCo基于多分支结构设计,实现对对象位置和文本描述的精确控制。HiCo的关键特点在于进行空间解耦,有效地处理复杂布局,减少对象缺失和视角
