微软发布Visual ChatGPT，AI对话可生成图像！

走在 AI 生成系统前端的领头羊 Microsoft 微软再次发布重磅模型，这次是 Visual ChatGPT！

这几个月大火的大型语言模型（LLM）和 AI 绘图两大 AI 领域偶读取得了令人难以置信的进展，不过这两个系统到目前为止交集点不多。

即使是强大的ChatGPT，也存在短板。由于它只是用单一语言模式进行训练，所以它对视觉信息的处理能力非常有限。

相比之下，视觉基础模型（VFM，Visual Foundation Models）在计算机视觉方面具有巨大的潜力，因此能够理解和生成复杂的图像。

例如，BLIP 模型是理解和提供图像描述的专家；而备受瞩目的Stable Diffusion则可以根据文本提示生成图像。

然而，由于VFM模型对输入 – 输出格式的严格要求和固定限制，使得它在人机交互方面不如会话语言模型灵活。

对此，Visual ChatGPT 应运而生。

image is not available

Visual ChatGPT 是一个由微软亚洲研究院的研究者提出的系统，它能够在对话系统中生成和理解图片，并回答相关问题。

他们将 ChatGPT 和多个 SOTA 视觉基础模型结合起来，实现了这一目标。为了让其他人能够复现他们的研究，他们已经把代码全部开源了。

他们没有重新训练一个全新的多模态 ChatGPT，而是在 ChatGPT 的基础上构建了 Visual ChatGPT，并利用了各种 VFM。

image is not available

为了让 ChatGPT 和这些 VFM 能够协调工作，该研究设计了一个 Prompt Manager，它具有以下功能：

在 Prompt Manager 的协助下，ChatGPT 可以使用这些 VFM，并根据它们的反馈进行迭代调整，直到满足用户的需求或达到结束条件。

image is not available

想要了解更多关于 Visual ChatGPT ，可以参考以下连接：

更多消息请守住 Mdroid。

关注Mdroid中文科技网：

Related News & Content