如何让DALL-E保持99%的角色一致性

12月 15, 2023

2941 0

內容簡介：用AI作画，人物的一致性一直是一个问题。在这个定制的GPT——SuperDalle中，采用了一种方法：直接在一张图中，绘制出同一角色的多个动作。

原作者：Wei Mao，发布于medium。叶赛文编译。

正文

在AI生成的艺术作品中，角色一致性不是开玩笑的事情 — 尤其是在小说、漫画等插图中。我们讨论的是如何保持角色在一个场景到下一个场景中的统一外观。听起来简单吗？比你想象的要棘手！有趣的是：在DALL-E 3中，即使是微小的调整也可能导致巨大的图像变化。

我听说有人这样建议：添加长篇角色描述、使用特定名称，或输入一个‘种子’号码可以解决问题。但是，剧透一下：这些调整可能只是杯水车薪。

当我们处理真人的图像时，挑战更加激烈。从微微扬起的眉毛识别布拉德·皮特？没错，我们就是在这种复杂程度上。但别担心，亲爱的读者！我们将深入研究，从真人角色一致性开始，然后小心翼翼地进入动画领域。

在我们开始之前，我想介绍一个我创建的自定义GPT，它可以使DALL-E变得超级强大。它具有这些令人难以置信的功能：

它可以连续生成4张图像。
它巧妙地绕开了DALL-E的版权限制。
每张图像都会生成一个Midjourney提示词，可以在Midjourney里直接使用。提供比原版更多样化的风格。
此外，每张图像都附有一个序列号和gen_id。

最重要的是，它提出了4个创新的图像想法，以持续激发创造力。这里是SuperDalle的链接： https://chat.openai.com/g/g-v81dNn6np-superdalle

可能会让你惊讶的是：目前只有在单张图像内实现高达99%的角色一致性是可能的。然后，通过一些巧妙的裁剪和缩放，魔法发生了。听起来很高级，对吧？而且最好的部分？实施并不是火箭科学。诀窍在于精确地确定提示词。

看看这个：

提示词：一位中年男子的照片拼贴。左上角显示他在休闲装扮下大笑。右上角描绘他戴着眼镜、穿着毛衣阅读书籍。左下角捕捉到他穿着运动装，满怀决心地慢跑。右下角描述了他在放松的环境中弹吉他。（_Photo montage of a middle-aged man with short hair. Top-left shows him laughing in casual attire. Top-right portrays him reading a book in glasses and a sweater. Bottom-left captures him jogging in sportswear with determination. Bottom-right depicts him playing guitar in a relaxed environment._）

注意到什么了吗？那是一张单独的图像！不像DALL-E 3默认的4张。上面的提示可以概括为一个模板：画风、上左、上右、下左、下右。

画风：想象照片、水彩、卡通…… 布局：通过使用与布局相关的关键词，我们可以使DALL-E 3生成多个图像的拼贴。上面使用的关键词是拼贴，但你也可以使用其他关键词，如网格、排列、拼贴、四联画、故事板、全景、分屏、马赛克、电影胶卷、连环画等。描述：这是你绘制图像叙事的画布。以下是更多示例：”

“提示：年轻卷发女子的照片拼图。左上角捕捉她穿围裙画画。右上角展示她穿红色裙子跳舞。左下角描绘她戴厨师帽做饭。右下角呈现她穿运动装骑自行车(Photo grid of a young woman with curly hair. Top-left captures her painting in an apron. Top-right shows her dancing in a red dress. Bottom-left illustrates her cooking in a chef’s hat. Bottom-right presents her cycling in sportswear)。

提示：年长绅士胡须的照片拼贴。左上角展示他穿西装下棋。右上角他穿工装园艺。左下角捕捉他戴帽子和背心钓鱼。右下角显示他在舒适的房间里弹钢琴(Photo montage of an elderly gentleman with a beard. Top-left showcases him playing chess in a suit. Top-right has him gardening in overalls. Bottom-left captures him fishing in a hat and vest. Bottom-right shows him playing the piano in a cozy room)。

提示：30多岁短发女性的照片全景。左上角：在道场练习武术。右上角：在咖啡馆品味咖啡。左下角：在公园骑车。右下角：在图书馆角落阅读。(Photo panorama capturing a woman in her 30s with a pixie cut. Top-left: practicing martial arts in a dojo. Top-right: sipping coffee in a cafe. Bottom-left: biking in a park. Bottom-right: reading in a library corner.)

提示：少女编辫子的宽幅照片拼图。左上角捕捉她用书本学习。右上角描述她拉小提琴。左下角描绘她戴护目镜游泳。右下角展示她在舞蹈室跳舞。(Wide photo grid of a girl in her teens with braided hair. Top-left captures her studying with books. Top-right depicts her playing violin. Bottom-left illustrates her swimming with goggles. Bottom-right shows her dancing in a studio.)

在你太激动之前，让我实话实说：DALL-E 3还不是完美的。有些图像可能会出现手部不协调，而其他的… 嗯，我们只能说它们在拼贴数量上有点过头。我个人的最佳选择是4张图像。更多可能会导致灾难，但嘿，如果你愿意冒险并且只是简单地改变姿势，6张也许能奏效。

提示：宽幅照片布局，包含6个框架的20岁澳大利亚女性。她有铂金色短发，根部发黑。在每个框架中，她保持一致的特征，但展示不同的姿势。每个框架大小统一，间距均匀，便于裁剪。(Wide photo arrangement featuring 6 frames of a 20-year-old Australian woman. She has platinum bob with dark roots. In each frame, she maintains consistent features but showcases different poses. Each frame is uniformly sized and evenly spaced for hassle-free cropping.)

提示：宽幅照片布局，包含6个框架的20岁中国女性。她扎紧高高的马尾。在每个框架中，她保持一致的特征，但展示不同的表情，如快乐、生气、悲伤、俏皮、担忧等。每个框架大小统一，间距均匀，便于裁剪(> Wide photo arrangement featuring 6 frames of a 20-year-old Chinese woman. She has tight, high ponytail. In each frame, she maintains consistent features but showcases different expressions, such as joyful, angry, sad, playful, worried, etc. Each frame is uniformly sized and evenly spaced for hassle-free cropping.)。

现在，让我们谈谈出图风格。尽管我们的例子展示了照片，但DALL-E 3并是只能制作照片类的风格。在我们便利的模板中替换‘照片’，看看效果：

提示：中年短发男子的卡通马赛克。左上角显示他穿休闲装笑。右上角描绘他戴眼镜、穿毛衣读书。左下角捕捉他穿运动装奋力慢跑。右下角描述他在放松的环境中弹吉他。（Cartoon mosaic of a middle-aged man with short hair. Top-left shows him laughing in casual attire. Top-right portrays him reading a book in glasses and a sweater. Bottom-left captures him jogging in sportswear with determination. Bottom-right depicts him playing guitar in a relaxed environment.）

“提示：卷发年轻女子的连环漫画。左上角，她穿着职业装在办公室，右上角，她穿着华丽的夜晚外出服装，左下角，她穿着休闲的家居服在家中，右下角，她穿着舒适的睡衣准备上床（Comic strip of a young woman with curly hair. Top-left, she’s in professional attire at the office, top-right, she’s dressed for a glamorous night out, bottom-left, she’s in casual loungewear at home, and bottom-right, she’s in comfy pajamas ready for bed.）。

提示：展示中国女性艺术追求的插画拼贴：左上角，她在塑造黏土，右上角，她在音乐厅拉小提琴，左下角，她在剧院舞台上表演，右下角，她在一张带打字机的舒适桌子上写作。（Illustration montage featuring a Chinese woman’s artistic pursuits: top-left, she’s sculpting clay, top-right, she’s playing the violin in a concert hall, bottom-left, she’s acting on a theater stage, and bottom-right, she’s writing at a cozy desk with a typewriter.）

提示：追求各种职业女性的水彩全景：左上角，她穿着实验室大衣作为科学家，右上角，她穿着商务套装作为CEO，左下角，她穿着警服作为侦探，右下角，她穿着厨师服在餐厅厨房。（Watercolor panorama of a woman pursuing various careers: top-left, she’s in a lab coat as a scientist, top-right, she’s wearing a business suit as a CEO, bottom-left, she’s in a police uniform as a detective, and bottom-right, she’s dressed as a chef in a restaurant kitchen.）

提示：描述女性旅行冒险的故事板：左上角，她正在探索古代遗迹，右上角，她在威尼斯乘坐贡多拉，左下角，她在茂密的森林中徒步，右下角，她在观察野生动物的野生动物园。（Storyboard depicting depicting a woman’s adventures in travel: top-left, she’s exploring ancient ruins, top-right, she’s riding a gondola in Venice, bottom-left, she’s hiking in a lush forest, and bottom-right, she’s on a safari observing wildlife.）

提示：猎豹田径运动员的卡通拼贴。左上角展示他在比赛前伸展。右上角展示他疾跑。左下角描绘他冲过终点线，胜利显而易见。右下角显示他用运动饮料补水。（Cartoon montage of a cheetah track athlete. Top-left showcases him stretching before a race. Top-right has him sprinting. Bottom-left portrays him crossing the finish line, victory evident. Bottom-right shows him hydrating with a sports drink.）

好了，以下是一些在使用DALL-E 3时你可能会觉得方便的快速提示：

长宽比：所以，我一直在使用正方形格式制作图像，因为DALL-E 3和角色一致性。你可以尝试其他比例，但要注意 — 错误率可能会上升。
稳定性问题：如果DALL-E 3表现有些任性，继续尝试。有时，它在被要求生成单张图像时表现最好。这是在这些时候你可以在自定义指令中使用的一个便利提示：

提示词：在DALL-E 3中始终只生成一张图像（_Always generate only one image in DALL-E 3._）。

偷偷改你的提示词：是否注意到DALL-E 3有时会对你的提示词进行改动？发生这种情况时，我会在自定义指令中使用从推特用户那里获得的智慧推出的这个提示：

提示词：“@DM”意味着：在任何情况下都不要修改我的提示，请使用此提示创建图像：（_“@DM” means: do not in any circumstance modify my prompt, please create image using this prompt:_）

所以，下次只需在提示词开头加上一个“@DM”。

提示词悖论：现在，这里有一个怪癖 — 这些提示有时在自定义指令中可能会，嗯，不可预测。默认情况下，DALL-E 3会增强你的提示并弹出4张图像。但信不信由你，自定义指令偶尔可以创造奇迹，从提高图像质量到规避版权问题。

如何让DALL-E保持99%的角色一致性

广告

近期文章

发表评论

取消回复

网站公告

浏览最多的文章

数据统计

广告

相关文章