Meta宣布开发多模态模型CM3Leon

7月19日消息,日前 Facebook 母公司 Meta 方面宣布,已开发出一款名为 CM3Leon 的多模态语言模型。

据了解,该模型是史上首个单一多模态模型,可以根据文本生成高质量的图像,也可以为图像生成文本描述,以及回答有关图像内容的问题、根据文本指令编辑图像。简而言之,也就是 CM3leon 可以在理解、编辑、生成图像、文本的不同任务间自由切换。

此外,Meta 方面还演示了 CM3Leon 模型的部分能力,并称其在文生图和图像理解领域的表现,已超越谷歌、微软等厂商的一众同类产品,并达到了业界最高水平。但同时 Meta 方面也承认,现阶段的 CM3Leon 模型可能存在数据偏见的问题,仍然需要行业监管。截至目前,Meta 方面尚未透露是否会公开发布 CM3Leon 模型。

值得一提的是,与既有的、较为知名的 Stable Diffusion,DALL-E、Midjourney 等文生图模型依赖于扩散(diffusion)模型技术不同,CM3Leon 采用了基于 token 的自回归模型方法。

Meta 方面表示,测试结果表明,基于 token 的自回归模型不仅比基于扩散模型的方法更有效,在文生图领域实现了 SOTA,而且训练的计算量还比此前基于 Transformer 的方法少了五倍。

而在预训练阶段,为了训练这一模型,Meta 使用了数百万张来自 Shutterstock 的授权图片,有着高达 70 亿个参数,这也达到了 OpenAI EALL-E2 模型的两倍以上。

热门相关:冉冉心动   裙上之臣   闺范   上神来了   上神来了