开源AI图画生成器之王的头衔有一个新的竞争者:Auraflow。上周由生成媒体公司Fal AI发布的Auraflow凭仗其标准Apache 2.0答应证获得了越来越多的关注,与Stability AI用于发布Stable Diffusion 3(SD3)的限制性答应相比,这感觉就像一股新鲜空气。

支持者以为,开源项目能够快速加速竞争职业的开发周期,由于它使开发人员摆脱了答应和其他法令限制。在没有答应费的情况下,社区经常环绕有能力的开源项目构成,开发人员能够调整、修改、培训乃至从他们的作业中获利。

FAL AI在一篇博客文章中表明:“咱们很快乐向您展示咱们Auraflow模型系列的第一个版本,这是最大但彻底开源的基于流的生成模型,能够生成文本到图画。”。这家总部位于旧金山的公司于2021年由分别在Coinbase和亚马逊作业的Burkay Gur和Gorkem Yurtsevenginers一起创建,该公司正告称,开源人工智能正处于风险之中。”他们说:“有些人乃至斗胆地宣布开源人工智能现已死了。”别那么快!”

在四周多的密集核算时间里,Auraflow接受了严格的练习,包含对不同巨细、分辨率(256x256、512x512和1024x1024)和纵横比(方形图画、景色、肖像等)的图画进行预练习。成果如何?GenEval得分为0.64,使用类似于DALL-E 3的快速增强管道后,得分提高到0.703。

用Auraflow发明的世代。图片由Fal AI分享

换句话说,当使用合成基准测试时,该模型供给了高质量的成果。但是,虽然Auraflow很好,但它仍然仅仅一个测试版,由于Fal以为它是0.1版,而不是稳定版。

不过,该模型是VRAM吞噬者。它需求一个具有大约12GB VRAM的强壮GPU来运转其fp16版本——Stable Diffusion 3仅在6GB VRAM上运转杰出,仅供参考。但是,该公司声称正在开发一种更易于管理的模型。Fal AI表明:“对于核算能力有限的消费级GPU卡来说,较小的类型或MoE或许更高效,因此请亲近关注这款类型的迷你版,它仍然强壮,但运转速度要快得多。”。

Auraflow能够在Huggingface上下载,也能够在ComfyUI中运转,ComfyUI管理器中也有一个自定义节点。

Auraflow代表了SD3的强壮替代品,但它足够好吗?咱们比较了两种基本模型,并测试了它们在各种艺术风格和提示下的体现。当咱们分享咱们的观察成果时,你能够判别谁最有或许赢得世界各地人工智能艺术家的心。

艺术风格和发明力

提示:“一幅安静湖面上日落的具体画作,天空充满了橙色、粉色和紫色的色彩,一个延伸到水中的木码头,一个人坐在码头尽头,手里拿着鱼竿,周围是巨大的草和野花,全体风格是印象派的,笔触斗胆,颜色艳丽。”

听觉流:

    长处:斗胆的笔触和艳丽的颜色很好地捕捉了印象派风格。天空的色彩体现得很好,营造出安静的气氛。缺陷:人和周围自然的细节或许更准确。木制码头和钓鱼或许缺少明晰的定义。钓竿没有处于自然位置。

SD3介质:

    长处:体现出对细节的高度关注,尤其是在人物和码头的刻画方面。整个场景更有条理,元素明晰,概括精美。缺陷:印象派风格不太显着,笔触看起来比预期的更平滑、更传神。

胜者:平局。Auraflow更接近印象派风格,但SD3更为具体和结构化。

现实主义

提示:“一张高分辨率的夜间富贵城市大街照片,霓虹灯照亮了现场,人们沿着人行道行走,轿车驶过,一个卖热狗的街头小贩,湿漉漉的人行道上的灯火反射,全体风格十分传神,注重细节和照明,霓虹灯上写着‘解密’。”

听觉流:

    优势:用霓虹灯和湿路面上的倒影捕捉充满活力的夜生活。现场热闹非凡,灯火作用也做得很好。缺陷:一些细节,比如街头小贩和行人,不行明晰,看起来很卡通,影响了超现实的质量。霓虹灯的标志不行明晰。它具有必定程度的文本了解能力,但不足以令人信任。(热狗标志旁边写着“解密”,但简直看不清。)

SD3介质:

    长处:供给高水平的细节和明晰度,特别是在人物和物体的描绘方面。经过准确的照明和反射,能够很好地完成超现实主义风格。霓虹灯标志明晰,文字易读。缺陷:场景或许看起来太乏味,缺少富贵城市大街的自然紊乱。没有街头小贩,只要热狗摊

获胜者:SD3 Medium供给了一个更具体、更传神的图画,使其成为这个提示的更好模型。

插图

提示:“一只巨大的蜘蛛在丛林中追逐一个女性的手绘插图,极其可怕、苦楚、漆黑和令人毛骨悚然的景色,恐怖,模仿拍摄影响的暗示,素描。”

听觉流:

    长处:成功营造出一种漆黑而令人毛骨悚然的气氛。带有草图元素的手绘风格很显着。缺陷:蜘蛛和女性的细节或许不足,使场景不那么可怕和激烈。

SD3介质:

    长处:对蜘蛛和女性进行了十分具体和可怕的描绘。苦楚和恐怖元素更为显着。缺陷:模仿拍摄的影响不太显着,草图风格或许会被高水平的细节所掩盖。蜘蛛的一些肢体是不自然的

获胜者:SD3 Medium供给了一个更可怕、更具体的插图,使其成为这个提示的更好模型。

迅速遵守

提示:“一个超现实的数字艺术作品,描绘了一个漂浮在天空中的岛屿,岛上覆盖着郁郁葱葱的植被,瀑布倾泻到下面的云层中,岛中心有一座小城堡,连接其他漂浮岛屿的光桥,天空中满是五颜六色的热气球和神话般的生物,全体风格梦境般,有梦境元素和发光作用。”

听觉流:

    优势:经过发光作用和艳丽的颜色,很好地捕捉到奇幻和梦境的元素。浮岛和瀑布被描绘得很美丽。这些桥是由光组成的,神话生物在场景中得到了体现。缺陷:一些元素,如光之桥和神话生物,或许缺少细节和明晰度。

SD3介质:

    长处:供给了一个十分具体和复杂的场景,具有更卡通的外观。缺陷:这一代人的即时坚持较弱,它没有发明出光之桥,这些桥没有连接到其他岛屿,也没有神话生物。

获胜者:Auraflow捕获了提示中的一切元素,使其成为该提示的更好模型。

空间意识

提示:“一只狗站在电视上,屏幕上显现着‘解密’这个词。左边是一个穿戴西装的女性,手里拿着一枚硬币,右边是一个机器人站在急救箱上。全体景色超现实。”

听觉流:

    长处:发明超现实和赋有想象力的场景。构图和空间布局很有趣。缺陷:狗、机器人和女性的细节或许不行精密,影响全体作用。急救箱的十字架漏进了第二个盒子和机器人自身。文本生成很差。

SD3介质:

    长处:对一切元素进行了十分具体和明晰的描述。经过准确的空间布局,超现实的气氛得到了很好的坚持。全体场景不太现实。缺陷:这个场景或许看起来不那么赋有想象力,更直白。

获胜者:平局。SD3 Medium供给了更好的明晰度,使其成为此提示的更好模型。Auraflow也供给了这一代人的一切元素,并在空间了解方面体现出了杰出的了解水平。

动漫和漫画

提示:“一位女忍者在日本古代与一位强壮的武士作战,动漫、漫画,十分具体、五光十色、充满活力。”

听觉流:

    优势:很好地捕捉到动漫和漫画的动态和五光十色的元素。动作场面充满活力,引人入胜。它的风格十分具体,更像是封面插图。缺陷:它缺少附着力,只发生女忍者,而不注意武士对手。

ai 币界网 AI 币界

此时快讯

【美国特勤局局长承认未能阻止枪手,将承担特朗普遇刺事件的全部责任】金色财经报道,美国特勤局局长金伯利·切特尔表示,她将为与特朗普未遂暗杀有关的安全漏洞负全部责任。“特勤局的庄严使命是保护我们国家的领导人,”切特尔将于周一对议员们说。“在7月13日,我们没有做到。”周一,切特尔将在国会听证会上发表上述言论,届时她将面临枪击事件以来最严厉的质询。听证会将持续数小时,数十名议员将提出质询,其中包括一些要求她辞职的议员。特朗普竞选集会上的枪击事件给美国特勤局造成了危机,该机构在周末承认,它拒绝了之前一些加强保护的请求。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注