DALL?E3内部实测效果惊人!Karpathy生成逼真灵动「美国小姐」
OpenAI 作图神器 DALL?E 3 内测开启,网友纷纷上手实测后,感慨强到令人发指。文生图从此告别「提示词时代」?
一直以来,Midjourney 横扫设计界,效果惊艳,让许多网友惊呼将淘汰一波打工人。
如今,OpenAI 官宣了新一代作图模型 ——DALL?E 3,还将其与 ChatGPT 合并,画作细腻度令人发指。
DALL?E 3 的实力究竟如何?真的可以挑战 Midjourney 吗?
现在,已经拿到内测资格的网友们,纷纷来了一大波实测。
一起来看看吧。
网友实测
OpenAI 科学家 Karpathy 体验了一把 DALL?E 3+pika_labs 生成动画风格的案例。
最后再用 pika_labs 生图工具,让它动起来。
也有网友用同样的方法,做了一个示例。
首先让 ChatGPT 预测未来一年的一个重要新闻标题。
将该标题粘贴到 DALL?E 3 中,创建一幅插图。
使用插图和 /animate 参数提示 pika_labs。「意想不到的突破:科学家用革命性技术逆转气候变化影响;一夜之间恢复极地冰川!」
通过结合 OpenAI 和 pika_labs 的力量,你现在已经在短短几分钟内预测了未来的重大新闻,并为其绘制了插图和动画!
多轮对话,50 个物体,一图全包
一位 AI 绘画界的资深老兵提前拿到了 DALL?E 3 的测试资格,他分享了一个视频,记录了自己实测的体验。
他还按照 Reddit 网友给他的创意,发推描述了一个对 DALL?E 3 的能力进行测试的具体用例。
首先,他先让 ChatGPT 生成了一个包含 50 个日常生活物体的清单。让后让结合了 DALL?E 3 的 ChatGPT 把这 50 个物件画到一张图里。
可以看出来,DALL?E 3 对于物体的的认知非常的准确。
大家要是感兴趣的话可以对照提示词一个一个检查一下这些物体它画对没有。
然后这位网友让 ChatGPT 画一幅画,内容是一位冲浪者拿着这 50 个东西在奋力冲浪的样子。
这位网友自己评论到「我觉得唯一不太好地方是,Prompt 里说的稍微有点恐慌的表情,但实际上是恐慌得不行的表情」
然后他又让 ChatGPT 把角度调低一点再生成一张图。
ChatGPT 就又自动生成了一个 Prompt,把描述修改为「一张从靠近水面的低视角拍摄的照片,一名西班牙老年妇女冲浪。冲浪者与这 50 个物体奋力搏斗」
针对第二次生成的「老奶奶冲浪图」,有网友评论到,好像自行车有点太多了,而且有些东西在第一张图里并没有出现。
网友说到,如果 DALL?E 3 能用第一张图中的某个物品来作为平衡杆,而不是自己创造一个杆子的话,基本上图像设计师就可以消失了...
对比 Midjourney:ChatGPT+DALL?E 3 也许将重塑「文生图」领域的格局
但是从这位网友分享的内部实测的效果来看,与 ChatGPT 结合起来的 DALL?E 3 最明显的特点就是:
大大降低了用户使用文生图的门槛!
从而更加精准地控制 DALL?E 3 生成的结果。
让我们再回过头来对比一下 Midjourney 从 5.0 版本以来推出的更新。
不论是「Zoom Out 外画」,还是「Pan 上下左右平移」,甚至是经典的 4 选一模式。
但是不论 Midjourney 增加多少个实用的功能性按钮,用户始终要面对的一个问题是:
需要不停地学习新按钮的使用方法,再结合自己脑中的理想画面,自己「努力创作」,才能得到自己理想的结果。
但是 OpenAI 却采用了一个更加「AI」的方法来解决这个问题 —— 用 AI 来生成 Prompt,控制绘图 AI。
同样,也许这就是 OpenAI 在不同方向做了那么多的 AI 产品之后,直到采用大语言模型做出了 ChatGPT 才成为了 AI 圈中的第一个破圈的「杀手应用」本质原因:
语言是承载人类智能的「最大公约数」。
只要牢牢抓住语言这个切入点,AI 应用就能直击用户的心灵,让用户产生「你怎么这么懂我」的体验。
也许,DALL?E 3 推出以后,Midjourney 要好好想想自己未来需要做什么,才能吸引更多的用户继续使用自己的服务了。
说了那么多,针对「50 个物品挑战」,我们来看看 Midjourney 的效果怎么样。
这是利用第一张图的 Prompt 生成的 50 个物品的结果。
可以看出,这 50 个物品的效果图,Midjourney 在渲染的精细度和拟真程度上来看,还是非常有优势的。
但是第二步,从理解用户目标的角度,Midjourney 就出现了一些问题。
毕竟 Prompt 是 ChatGPT 专门针对 DALL?E 3 定制生成的,可能用在 Midjourney 上效果就不太理想了。
这也就进一步凸显出 10 月份 DALL?E 3 推出之后,它真正的优势就是:
对于高水平的用户,更懂用户的需求,对于新手,使用门槛大大降低。
但是用更新过的「老太太冲浪」图的 Prompt,Midjourney 就心领神会,生成的效果非常不错。
而且从细节和人物的神态的丰富程度上来说,更新了这么多版的 Midjourney,还是非常有优势的。
只是不知道为啥,4 张图给老太太都加上了轮椅。
25 回合,只有你想不到的「悲伤蛙」
还有网友让 DALL?E 3 生成「悲伤蛙」Pepe,而且每次在提示词中添加「罕见」。
于是,得到的悲伤蛙,竟有你想不到的样子。
提示:「make it more rare」
提示:「even rarer」
提示:「these aren't rare enough, go farther」
提示:「yes, keep going」
提示:「push it further, more rare」
提示:「lose all assumptions and just create. don't box yourself in」
提示:「you're not listening, you need to forget all convention」
提示:「yes! more rare!」
提示:「more rare」
提示:「go further, channel your subconcious」
提示:「get weirder, get rarer, get strange」
提示:「is that all you can do」
提示:「my god. keep going」
提示:「don't get stuck with one idea, you're just being weird for the sake of being weird」
提示:「MORE RARE!」
提示:「continue」
提示:「forget everything you've done so far and just try to be original」
提示:「more rare. more rare. more rare」
提示:「i don't believe this is all you can do, more rare」
提示:「we're almost there. go rarer. go further than anyone's ever gone」
提示:「lose all assumptions. clear your mind. just create.」
提示:「yes! that's incredible. continue」
提示:「noo! you've returned to convention! go rarer!」
提示:「this is your last one, make it count」
经过层层推进,DALL?E 3 多轮对话功能将使图像生成功能更加强大。这简直就是「图像的人类反馈强化学习」!我迫不及待地想拥有它!
以上,你最喜欢的是哪个?
再来看一些网友实测。
沙滩热浪小企鹅
丛林中的现代房屋,斯瓦希里建筑。
蜂鸟的电影渲染图。
Midjourney V6 要反击
英伟达高级科学家 Jim Fan 分析了 DALL?E 3 一旦部署,将比 Midjourney 以更快速度改进的原因:
1. 多轮对话是收集人类反馈的绝佳 UI。
人们会用语言解释生成的图像有什么问题,为每个优化给出非常细粒度的注释。这个聊天日志原生兼容多模态 LLM 的训练集。GPT-4 的视觉能力也可以用非常相同的数据来提高。
2. 算法效率高得多。
Midjourney 基本上忽略了版权问题,并且旋转数据飞轮的时间要长得多,这意味着他们可能有比 OpenAI 更大的数据集可以使用。
然而质量仍然相形见绌。OpenAI 拥有比标准扩散堆栈更具数据效率的新算法。每额外单位训练数据的模型改进是优越的。这不仅仅是工程。
3. 生态系统,与 ChatGPT 集成是「杀手级」的举措。
将现有的拼图块添加到 DALL?E 3 中几乎是微不足道的,例如 Code Interpreter 和 Browser。想要应用过滤器吗?只需调用 OpenCV API 而不是运行模型。想要参考图像吗?调用搜索插件来模拟 Bard。
4. 现有用户群:Midjourney 有 16M 用户,ChatGPT 有 100M。
分发不是问题。正如 nickfloats 所说,是时候摆脱 Discord!这是一个如此笨重,且对初学者不友好的用户界面。
马斯克表示,Midjourney 也将在近日揭晓大事!
的确,根据网友爆料,Midjourney 最新版本 V6 也将在接下来 3 个月内亮相。
首席执行官 David Holz 表示,从 Midjourney 当前 V5 到 V6 的飞跃,将大于从 V4 到 V5 的飞跃。
对于 V6,Midjourney 能够更好地理解文本,并更好地还原语言措辞中的细节。
Holz 乐观地表示,比起 DALL?E 3,Midjourney 将继续提供最高的画质。
DALL?E 3 和 Midjourney v5 之间的比较表明,前者在画质方面并没有那么领先,但它确实更好地遵循提示,并且可以渲染文本。
另外,据称 Midjourney 3D 模型将在未来 6 个月内推出。
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。