761℃Gemma 4 12B – 谷歌开源的多模态大模型

Gemma 4 12B是什么Gemma 4 12B是谷歌开源的多模态大模型,采用业界首个无编码器统一架构,视觉和音频数据直接输入LLM主干,彻底砍掉独立编码器。模型12B参数即在16GB显存笔记本本地运行,性能却反杀上一代27B模型:AI...

466℃BrowserAct Skills – 开源的 AI Agent 浏览器自动化 CLI 工具

BrowserAct Skills是什么BrowserAct Skills 是面向 AI Agent 的浏览器自动化 CLI 工具,能解决 Agent 操控浏览器时的核心痛点,无 Cookie 环境、反爬拦截、验证码阻断、人机协作断层等。...

510℃AhaCreator – AI 原生海外达人营销平台,全流程 AI 托管

AhaCreator是什么AhaCreator(原名 Aha)是 AI 原生的海外达人营销平台,用 AI Agent 接管达人营销的全流程执行,让品牌方只需在关键节点做决策。平台覆盖 140+ 国家,拥有 500 万+ 预筛选达人池,对接...

956℃GreenConvert – AI 音视频转录平台,双引擎转录模式

GreenConvert是什么GreenConvert 是 AI 音视频转录平台,通过神经引擎将音视频转为文字,支持 98 种以上语言,准确率达 98%。平台内置说话人识别、音频修复与多语言翻译,可处理长达 10 小时的文件。平台采用动态...

344℃Microsoft Scout – 微软推出的 AI 个人助手

Microsoft Scout是什么Microsoft Scout 是微软推出的 AI 个人助手,基于 OpenClaw 开源技术构建。工具拥有独立 Entra 身份,可在后台持续自主运行,无需用户逐次触发。深度整合 Outlook、Te...

703℃Ideogram 4 – Ideogram 开源的文本到图像生成模型

Ideogram 4是什么Ideogram 4 是 Ideogram 推出的首个开源文本到图像生成模型,拥有 93 亿参数,从头训练非基于现有模型微调。模型专为高质量图像生成而设计,尤其在设计、营销图形、Logo、海报、广告和社交媒体视觉...

875℃Step 3.7 Flash开源模型实测 – 多模态 Agent 大脑更省Token

很难想象,企业使用 AI 的成本已经远远超过了雇佣员工的成本。上周,Axios 报道里提到,一位 AI 顾问透露,他的某家企业客户因为没有给员工的 Claude 许可证设置使用上限,在短短一个月内花掉了惊人的 5 亿美元。米哈游员工在测试...

573℃Toonflow – 开源的一站式 AI 短剧创作工具

Toonflow是什么Toonflow 是开源的一站式 AI 短剧创作工具,将小说、剧本通过多 Agent 协作自动转化为结构化剧本、智能分镜、角色视觉和动画视频,实现小说→剧本→分镜→视频,全流程 AI 自动化生产。工具支持 Windo...

699℃Kimi Work – 月之暗面推出的通用型本地 Agent

Kimi Work是什么Kimi Work 是月之暗面推出的面向知识工作者的通用型本地 Agent,随 Kimi 最新测试版 Mac 和 Windows 客户端推出。工具基于 Kimi Code 内核,支持自然语言驱动,可在用户电脑上自主...

883℃JoyAI-Echo – 京东开源的长音视频生成框架

JoyAI-Echo是什么JoyAI-Echo 是京东推出的开源长音视频生成框架,专为分钟级多镜头故事生成设计。框架通过跨模态记忆库、记忆驱动后训练、Director Agent 对话式编辑和轻量化实时超分四大技术创新,解决长视频生成中角...

708℃Odysseus – 开源的本地自托管 AI 工作空间

Odysseus是什么Odysseus 是开源自托管的 AI 工作空间,提供类似 ChatGPT / Claude 的聊天界面,工具完全本地化运行,数据不出本机、隐私零泄露。工具集成聊天、Agent、深度研究、笔记、任务、日历、邮件、模型...

269℃Hermes Desktop – Nous Research 推出的 Hermes 桌面端

Hermes Desktop是什么Hermes Desktop 是 Nous Research 推出的官方 Hermes 桌面客户端,支持 macOS、Windows 和 Linux 三端。工具具备持久记忆、任务调度、子代理委派、网页浏览...

928℃阿里JVS Claw实测 – 集成OpenClaw+Hermes双引擎 

Hermes Agent 这波直接把 Agent 天花板给掀了!在 OpenRouter 最新公布的最受欢迎生产力工具排行榜中,Hermes Agent 已经超越了 OpenClaw 稳居第一,“虾”和“马”这两个 Agent 引擎在追求...

771℃MAI Transcribe-1.5 – 微软 MAI 推出的语音转文本模型

MAI Transcribe-1.5是什么MAI-Transcribe-1.5 是 微软 AI 团队自研的语音转文本模型,支持 43 种语言,具备上下文感知的关键词偏置能力,模型在 FLEURS 基准测试中取得行业最低的词错误率(WER ...

225℃MAI-Voice-2 – 微软推出的新一代文本转语音模型

MAI-Voice-2是什么MAI-Voice-2 是微软推出的新一代文本转语音(TTS)模型,是微软迄今最具表现力和自然感的语音合成模型。相比前代在保真度、语言覆盖、说话人一致性和情感范围上全面提升,支持 15+ 种语言,具备细粒度情感...

813℃MAI-Code-1-Flash – 微软推出的轻量级代码生成模型

MAI-Code-1-Flash是什么MAI-Code-1-Flash 是微软专为开发者工作流推出的轻量级代码生成模型,深度集成 GitHub Copilot。模型采用自适应输出长度控制技术,在保持高准确率的同时最高可减少 60% 的 t...

710℃Bernini – 字节跳动开源的统一视频生成与编辑框架

Bernini是什么Bernini 是字节跳动开源的统一视频生成与编辑框架,采用MLLM 语义规划 + DiT 视觉渲染的两阶段解耦架构。多模态大模型理解指令并规划语义草图,由 Diffusion Transformer 完成高质量视频生...

248℃Science Skills – 谷歌 DeepMind 开源的科研技能工具包

Science Skills是什么Science Skills 是谷歌 DeepMind 推出的开源科研技能集合,专为加速 AI Agent 驱动的科学研究工作流设计。工具整合 AlphaGenome、AlphaFold Database...

970℃MAI-Thinking-1 – 微软推出的首款自研高级推理模型

MAI-Thinking-1是什么MAI-Thinking-1 是微软推出的首款自研高级推理模型。模型采用 35B 活跃参数 / 约 1T 总参数的稀疏 MoE 架构,完全基于干净、商业授权数据从头训练,未使用任何第三方模型蒸馏。在 SW...

687℃7大真实任务实测 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max

最近大模型更新真的有点密,更了好多但是却不知道到底谁好用。有说 Qwen3.7-Max 已经力压 GPT-5.5,仅次于Claude 系列。也有说 GPT-5.5 已经登顶。普通人看排行榜估计越看越疑惑,写文章该用哪个?数据分析该用哪个?...

115℃OpenClacky – 李亚飞团队开源的低成本 AI Agent

OpenClacky是什么OpenClacky 是李亚飞团队开源的 AI Agent,支持一键安装与跨平台运行。工具通过精简工具集、智能上下文压缩和模型路由大幅降低使用成本,让专业人士能全天开着 AI 助手干活。OpenClacky 内置...

651℃Mellum2 – JetBrains 开源的混合专家模型

Mellum2是什么Mellum2 是 JetBrains 开源的面向软件工程系统的新机器学习模型。模型每 token 仅激活 2.5B 参数,专为软件工程 AI 工作流优化,支持代码生成、智能路由、子 Agent 调用及私有化部署。凭借...

137℃ECC – 开源的跨平台 AI Agent 性能优化系统

ECC是什么ECC(Everything Claude Code)是跨平台 AI Agent 性能优化系统。系统为 Claude Code、Codex、Cursor 等 7+ 个 AI 编程工具提供 63 个专业 Agent、249 个按...

228℃Polar – 英伟达开源的智能体强化学习训练框架

Polar是什么Polar 是英伟达推出的开源智能体强化学习(Agentic RL)训练框架,核心创新在于无需修改现有智能体框架内部代码,可将其接入 GRPO 等 RL 算法进行训练。框架通过在 LLM API 调用边界放置代理,捕获 t...

325℃Qwen3.7-Plus – 阿里通义推出的智能体多模态大模型

Qwen3.7-Plus是什么Qwen3.7-Plus 是通义千问推出的新一代多模态大模型,将视觉与语言统一为一体化智能体基座。模型能感知真实世界场景、读取屏幕并操作 GUI、基于视觉参考生成代码,支持端到端导航移动应用、结合网络知识回答...