多模态AI:文字图片视频音频的融合

AI百科 2026-06-11 10:01:46 AI导航网

GPT-4o能理解文字和图片,Gemini能处理视频。

主流模型

  • GPT-4o:文字+图片+音频
  • Gemini:100万Token上下文
  • Claude:文字+图片

应用场景

  • 图片理解
  • 视频分析
  • 语音交互
© 版权声明

相关文章