跳转到内容

Imagen

维基百科,自由的百科全书
Imagen
由 Imagen 3 所生成的图像。部分提示语:柔和光照的午后山谷与蜿蜒的河流。
由 Imagen 3 所生成的图像。部分提示语:柔和光照的午後山谷與蜿蜒的河流。
开发者Google DeepMind
当前版本Imagen 3(2024年8月13日,​19个月前​(2024-08-13
类型文字转图像模型
网站deepmind.google/technologies/imagen-3/

ImagenImagen 2Imagen 3是由Google DeepMind开发的文字转图像模型。在2023年4月Google BrainGoogle DeepMind合并前,该模型由Google Brain 负责开发。[1]Imagen主要用于从文字提示生成图像,类似于Stability AIStable DiffusionOpenAIDALL-EMidjourney

该模型的初代版本最早于2022年5月的一篇论文中介绍。[2]它能产生高品质图像,目前任何拥有Google帐号的使用者皆可透过Gemini、ImageFX和Vertex AI等服务使用此工具[3]

历史

[编辑]

Imagen的初代版本于2022年5月首次在一篇论文中发表,具备从自然语言生成高保真图像的能力。[2]第二代Imagen 2发布于2023年12月,[4]其突出特点是能生成文字与标志图像。[5] Imagen 3则于2024年8月推出,[6]Google表示此新版在细节与光影呈现方面有明显提升。[7]

技术

[编辑]

Imagen 运用了两项关键技术:

第一,采用了基于Transformer架构大型语言模型,尤其是T5,用以理解文字并对其进行编码,供图像生成之用;

第二,使用阶层式扩散模型进行高保真图像生成。其生成流程分为三个阶段:先产生64x64的基础图像,接著依序升级至256x256与1024x1024。[2]

功能

[编辑]

Imagen可依文字提示生成写实风格图像。[3]它也支援多种风格,包括电影感、35毫米胶片风、插画风和超现实风。该模型可输出五种画面比例:9:16、3:4、1:1、4:3、16:9。此外,Imagen还可透过修改文字提示来编辑已生成的图像。[7]

参见

[编辑]

参考资料

[编辑]
  1. ^ Roth, Emma; Peters, Jay. Google's big AI push will combine Brain and DeepMind into one team. The Verge. April 20, 2023 [March 18, 2025]. (原始内容存档于April 20, 2023). 
  2. ^ 2.0 2.1 2.2 Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Seyed Kamyar Seyed Ghasemipour; Burcu Karagol Ayan; Sara Mahdavi, S.; Rapha Gontijo Lopes; Salimans, Tim; Ho, Jonathan; David J Fleet; Norouzi, Mohammad. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. 2022. arXiv:2205.11487可免费查阅 [cs.CV]. 
  3. ^ 3.0 3.1 Peterson, Jake. Anyone With a Google Account Can Try Google's Latest AI Image Generator Right Now. Lifehacker. 2024-08-16 [2025-03-18] (英语). 
  4. ^ Imagen 2 - our most advanced text-to-image technology. Google DeepMind. 2025-03-12 [2025-03-18] (英语). 
  5. ^ Wiggers, Kyle. Google debuts Imagen 2 with text and logo generation. TechCrunch. 2023-12-13 [2025-03-18] (美国英语). 
  6. ^ Schoon, Ben. Google opens access to Imagen 3, its latest model for AI image generation. 9to5Google. 2024-08-16 [2025-03-18]. (原始内容存档于2024-08-18) (美国英语). 
  7. ^ 7.0 7.1 Christian Rowlands. Some of the most realistic AI images you'll see were created with this free tool. TechRadar. 2025-02-26 [2025-03-18] (英语). 

外部链接

[编辑]