研究人员最近发现大型语言模型 (LLM) 指令调整方面取得了显着改进。 ChatGPT 和 GPT-4 是通用说话系统,在语言和视觉上服从人类命令。然而,由于闭源限制,它们仍然无法复制。 Alpaca、LLaMAAdapter 和相关工作提出使用自行生成的数据将可公开访问的 LLaMA 修改为语言指令模型,以应对这一问题。 LLaVA、LLaMA-Adapter 等将视觉理解功能集成到 LLM 中,用于图像调节生成,以完成图片指令剪裁。
尽管当前的指令调整技术取得了成功,但为广泛的多模态指令(例如文本、图片、音频、3D 点云和视频)创建法学硕士还需要更多的努力。本研究来自上海人工智能实验室、香港中文大学MMLab和vivo AI实验室的作者介绍了ImageBind-LLM多模态指令跟随模型,该模型在预训练的ImageBind中的联合嵌入空间的方向下有效地微调LLaMA。如图 1 所示,他们的 ImageBind-LLM (b) 可以响应除图片之外的多种形式的输入指令,这与早期的视觉指令模型 (a) 不同,展示了有希望的可扩展性和泛化能力。
由于 ImageBind 的图像对齐多模态嵌入空间,他们特别建议仅使用视觉语言数据来调整多模态指令。对于图片-标题对,他们首先使用 ImageBind 的冻结图像编码器提取全局图像特征,然后使用可学习的绑定网络进行嵌入转换。转换后的图片特征随后应用于 LLaMA 中的所有转换器层单词标记,创建用于生成适当文本标题的视觉上下文。与 LLaMA-Adapter 系列中的零初始化注意力相比,它们的视觉注入机制很简单,并通过可训练的零初始化门控因子进行加权。
通过这种有效的方式,随着训练的进行,ImageBind 的多模态嵌入的指令线索可以逐渐引入 LLaMA 中,而不会干扰原始语言的理解。他们的 ImageBind-LLM 使用 ImageBind 进行特定模态的编码,例如文本、图片、音频和视频,在经过基本的视觉语言训练后,他们的 ImageBind-LLM 获得了遵守各种模态指令的能力。他们使用 Point-Bind 中预先训练的 3D 编码器对输入 3D 点云进行编码,以获取 3D 域中的指令。它们还提供了一种免训练的视觉缓存方法,用于在推理过程中嵌入增强,以解决图像训练与文本、音频、3D 或视频调节生产之间的模态差距。
缓存模型包含 ImageBind 检索的训练数据集中的数百万个图片特征,它通过获得可比较的视觉特征(Tip-Adapter)来增强文本/音频/3D/视频嵌入。因此,对多模式指令的口头答复质量更高。他们在各种情况下测试了 ImageBind-LLM 的多模态指令跟踪功能,并始终发现其性能更好。
总体而言,他们的 ImageBind-LLM 展示了下面列出的四个品质。
• 具有多种模式的指令。 ImageBind-LLM 经过优化,可响应一般多模态输入,例如图像、文本、音频、3D 点云和视频,以及由 ImageBind 和 Point-Bind 表示的嵌入空间算法。这与早期的语言和图像教学模型不同。
• 效率调整。在训练期间,他们冻结 ImageBind 的图像编码器,并使用 LoRA 和偏差范数调整等参数高效方法调整 LLaMA 中的部分权重。他们还训练零初始化的门控因子和额外的绑定网络。
• 无注意的零初始化注入。他们采用可学习的门控方法进行渐进式知识注入,这种方法更加直接和高效,并将多模态要求直接与 LLaMA 的所有单词标记结合起来,而不是通过注意层引入额外的指令信号。
• 从跨模式缓存中检索。他们从 ImageBind 提取的图像特征中提供了一个视觉缓存模型,该模型执行嵌入增强的跨模态检索,以解决训练(单张图片)和推理(多种模态)之间的模态差异。
查看 纸 和 吉图布. 这项研究的所有功劳都归功于该项目的研究人员。另外,别忘了加入 我们的 30k+ ML SubReddit, 40k+ Facebook 社区, 不和谐频道, 和 电子邮件通讯,我们在这里分享最新的人工智能研究新闻、酷炫的人工智能项目等等。
Aneesh Tickoo 是 MarktechPost 的咨询实习生。他目前正在比莱印度理工学院 (IIT) 攻读数据科学和人工智能学士学位。他大部分时间都花在致力于利用机器学习力量的项目上。他的研究兴趣是图像处理,并热衷于围绕图像处理构建解决方案。他喜欢与人交流并合作开展有趣的项目。
发表评论