最近,多模态 AI 成为了大模型圈的关键词之一,在最近一些产品如 Pika 1.0、谷歌 Gemini 的表现中可以看到,多模态 AI 正在为 AI 应用带来更多可能性。怎么理解多模态 AI 给我们带来的想象力?产品如Pika 1.0 的表现又如何?一起来看看本文的解读。 多模态 AI 正处于爆发前夜。 从 GPT-4V 的“惊艳亮相”,到 AI 视频生成工具 Pika 1.0 的“火爆出圈”,再到谷歌 Gemini 的“全面领先”,多模态 AI 都是其中的关键词。 尽管 Pika 1.0 的宣传视频被一些用户认为是“炒作”,亦或谷歌承认 Gemini 的演示视频“经过剪辑”,但不能否认,它们丰富了人们对多模态 AI 的想象力。 “之前很多公司都在卷文本大模型,GPT-4V 的出现代表多模态大模型可落地,毫无疑问明年大家都会卷多模态AI,原因很简单,因为 OpenAI 说明这条路是能够走得通。” 在行业主语为“落地”的当下,多模态 AI 正走向场景化、实用化、商业化。例如,在医疗领域可以通过结合图像、录音和病历文本,提供更准确的诊断和治疗方案;在交通领域,结合图像和传感器数据,带来更智能、更安全的自动驾驶体验;在教育领域,将文本、声音、视频相结合,呈现更具互动性的教育内容。 但是业界一直在提多模态的概念,远没有近期几个现象级产品的演示那么直观:多模态不仅可以为 AI 应用带来更多可能性,还是实现通用人工智能的重要路径。
|
新华丝路:良渚与罗马文明对话:五千载东方
蔡司三维光学条纹投影扫描:能源与航空制造