Meta宣布开发多模态模型CM3Leon

2023-07-19 00:04 由吴丽发表于 #商业

7月19日消息，日前 Facebook 母公司 Meta 方面宣布，已开发出一款名为 CM3Leon 的多模态语言模型。

据了解，该模型是史上首个单一多模态模型，可以根据文本生成高质量的图像，也可以为图像生成文本描述，以及回答有关图像内容的问题、根据文本指令编辑图像。简而言之，也就是 CM3leon 可以在理解、编辑、生成图像、文本的不同任务间自由切换。

此外，Meta 方面还演示了 CM3Leon 模型的部分能力，并称其在文生图和图像理解领域的表现，已超越谷歌、微软等厂商的一众同类产品，并达到了业界最高水平。但同时 Meta 方面也承认，现阶段的 CM3Leon 模型可能存在数据偏见的问题，仍然需要行业监管。截至目前，Meta 方面尚未透露是否会公开发布 CM3Leon 模型。

值得一提的是，与既有的、较为知名的 Stable Diffusion，DALL-E、Midjourney 等文生图模型依赖于扩散（diffusion）模型技术不同，CM3Leon 采用了基于 token 的自回归模型方法。

Meta 方面表示，测试结果表明，基于 token 的自回归模型不仅比基于扩散模型的方法更有效，在文生图领域实现了 SOTA，而且训练的计算量还比此前基于 Transformer 的方法少了五倍。

而在预训练阶段，为了训练这一模型，Meta 使用了数百万张来自 Shutterstock 的授权图片，有着高达 70 亿个参数，这也达到了 OpenAI EALL-E2 模型的两倍以上。

热门相关：冉冉心动裙上之臣闺范上神来了上神来了