被高估的Pika，被低估的多模态AI

2023-12-13 16:32| 发布者: mtwork| 查看: 18546| 评论: 0

最近，多模态 AI 成为了大模型圈的关键词之一，在最近一些产品如 Pika 1.0、谷歌 Gemini 的表现中可以看到，多模态 AI 正在为 AI 应用带来更多可能性。怎么理解多模态 AI 给我们带来的想象力？产品如Pika 1.0 的表现又如何？一起来看看本文的解读。

多模态 AI 正处于爆发前夜。

从 GPT-4V 的“惊艳亮相”，到 AI 视频生成工具 Pika 1.0 的“火爆出圈”，再到谷歌 Gemini 的“全面领先”，多模态 AI 都是其中的关键词。

尽管 Pika 1.0 的宣传视频被一些用户认为是“炒作”，亦或谷歌承认 Gemini 的演示视频“经过剪辑”，但不能否认，它们丰富了人们对多模态 AI 的想象力。

“之前很多公司都在卷文本大模型，GPT-4V 的出现代表多模态大模型可落地，毫无疑问明年大家都会卷多模态AI，原因很简单，因为 OpenAI 说明这条路是能够走得通。”

在行业主语为“落地”的当下，多模态 AI 正走向场景化、实用化、商业化。例如，在医疗领域可以通过结合图像、录音和病历文本，提供更准确的诊断和治疗方案；在交通领域，结合图像和传感器数据，带来更智能、更安全的自动驾驶体验；在教育领域，将文本、声音、视频相结合，呈现更具互动性的教育内容。

但是业界一直在提多模态的概念，远没有近期几个现象级产品的演示那么直观：多模态不仅可以为 AI 应用带来更多可能性，还是实现通用人工智能的重要路径。

免责声明：本文为企业宣传商业资讯，仅供用户参考，如用户将之作为消费行为参考，快商业敬告用户需审慎决定。

收藏分享邀请

上一篇：大厂系统崩溃上演“连续剧” 技术的错还是制度的锅？ 下一篇：妙鸭相机推出AI修图，修图软件们慌了吗？

商业关注更多

国内首个聚焦中小微生意人的「新商业短资讯 + 轻决策服务」平台

专题推荐更多

15:41 卖家实战干货