
机器之心剪辑部
上周,谷歌推出了 Nano Banana 2,主打一个又快又低廉,速即在酬酢平台刷屏。
网友们在 X 上晒出各式效果图,有像素级收复的家具渲染、细节拉满的东谈主物写照、格调互异的插画……
这股热浪还未消退,国外 AI 初创公司 Luma 也发布了一款最新图像生成模子 Uni-1。
这是 Luma 首个将「和会」与「生成」合股在褪色套架构里的模子,试图让 AI 不单会画,还简直会想。
伸开剩余94%比如,它生成的极具视觉冲击力的先锋杂志大片:
Prompt:Figure seen from behind wearing a flowing white cloak and wide-brimmed black hat standing in a vast field of tall vivid red grass, rolling hill stretching to the horizon, deep saturated blue sky with no clouds, strong color contrast between red field white fabric and blue sky, shot on medium format film, infrared photography aesthetic, high fashion editorial feel, sharp shadows, portrait orientation
生成褪色棵樱花树的四季知足更替:
Prompt:The four seasons of a single cherry blossom tree shown simultaneously in one image, divided into four vertical strips left to right: spring with pink blossoms and rain, summer with full green canopy and butterflies, autumn with red and gold leaves falling, winter with bare branches and fresh snow. Same tree, same angle, seamless transitions between seasons.
该模子选定 decoder-only 自追思 Transformer 架构,在 RISEBench 推理式生成基准上取得最优收货,并在 ODinW-13 敞开词汇密集检测等理免除务上展现出刚烈竞争力。
这款模子效果咋样,还得拉出来遛遛。
这款模子成色几何?
接下来,咱们将通过多组任务,望望 Uni-1 在不同场景下的具体推崇。所有对比均在疏浚 prompt 条目下与 GPT Image 1.5 和 Google Nano Banana Pro 进行。
华文翰墨渲染:马年新春贺卡
Prompt:生成一张包含「新春兴奋」、「马年大吉・万事如意」、「马年 二〇二六」等华文翰墨的马年新春贺卡。
华文翰墨渲染始终以来是图像生成模子的薄弱顺次,波及字符级别的精确扫尾和排版语义和会。
Uni-1 生成的贺卡在翰墨圆善性、排版合感性和视觉格调一致性上均优于对比模子。GPT Image 1.5 出现了翰墨摆设零散的问题,而 Nano Banana Pro 的翰墨渲染存在明显的笔画很是。
信息图和会与生成
海报索求为信息图
Prompt:将一张「THE BEES NEED YOU」公益海报索求为可用于分娩的信息图,胜利生成圆善图片,不带任何占位框,明晰刻画信息图中所有可见翰墨。
该任务同期进修模子的视觉和会能力(准确索求海报中的翰墨和版式信息)和生成能力(再行组织为清楚的信息图)。Uni-1 准确收复了翰墨本体、保合手了正确的层级结构。而 GPT Image 1.5 污染了翰墨层级,部分翰墨难以鉴识;Nano Banana Pro 则未能圆善呈现信息图的本体。
密集翰墨信息图
Prompt:生成一张对于{水钟(Clepsydra)与古代计时}的密集翰墨信息图,包含多个知识板块和淡雅插图。
该任务要求模子在单张图像中同期惩处大宗翰墨、图表和插图元素。Uni-1 在布局野心、翰墨清楚度和图文配合方面的推崇优于其他模子。其生成的信息图在多个知识板块之间保合手了视觉层级和逻辑连贯性。
平铺式信息图
Prompt:生成「种子到植物人命周期」(Seed-to-Plant Life Cycle)的平铺式信息图。
Uni-1 准确呈现了圆善的人命周期阶段,每个阶段的插图和标注翰墨清楚可辨。值得防卫的是,Uni-1 在惩处「Young Plant」到「Mature Plant」的过渡阶段时,正确呈现了植物神情的渐变关系,展现了对生物学学问的和会。
参考图指引生成
多参考图场景合成(对比)
Prompt:给定 4 张参考图(两只猫的形象、一位真东谈主像片、Luma AI 的 logo),合成一个会议磋商场景 —— 一只猫在展示对于 Luma AI 的幻灯片,另一只猫在旁听,同期融入真东谈主像片和品牌 logo。
这一任务要求模子同期和会多张参考图的语义身份,太阳城app注册下载官网并将它们合理地组织在一个新场景中。Uni-1 准确保留了每个参考对象的身份特征,并结束了合理的场景构图。比拟之下,GPT Image 1.5 将参考图的原始图片胜利镶嵌了幻灯片区域,缺少语义层面的交融;Nano Banana Pro 则未能有用诈欺一谈参考信息。
{jz:field.toptypename/}5 张参考图场景合成
Prompt:将 5 张参考图 ——3 只动物、一个 logo 和学术毕业弁冕 —— 交融为一个连贯场景。
Uni-1 在惩处 5 个不同参考源时,准确保留了每只动物各自的身份特征(毛色斑纹、品种、头部抽象),同期将学术氛围元素和品牌 logo 有机地融入了褪色画面,展现了对多源参考信息的精确扫尾能力。
漫画脚色参考(对比)
Prompt:交融脚色想象图和配色决议生成一个漫画脚色,同期将品牌 logo 天然地融入脚色身上。
Uni-1 准确地将配色决议应用于二维漫画脚色,保合手了脚色想象和 logo 的圆善性。GPT Image 1.5 则未能分辨 2D 和 3D 格调,生成了偏写实的 3D 东谈主偶;Nano Banana Pro 未能准确识别脚色想象图的意图。
草稿 + 材质→家具渲染
Prompt:将外衣想象草稿与面料材质参考承接,生成写实的家具办法图。
Uni-1 准确地将面料的纹理质感 —— 灯炷绒的条纹、高等面料的光泽和垂坠感 —— 映射到了草稿的抽象上,生成了具有营业可费用的家具渲染图。这类任务在时装想象和工业想象界限具有胜利的应用价值。
草稿指引剪辑与转变
草稿指引的像片剪辑
Prompt:将手绘草稿重叠转变为写实剪辑 —— 在一张猫的像片旁,以草稿为参考添加一只彩色蝴蝶。
Uni-1 将草稿的重叠转变为写实的像片剪辑,保合手了原始像片的细节圆善性:猫的身份信息(毛色斑纹、耳部神情)、环境(简洁和布景)均未受影响,新增的蝴蝶天然融入了场景。
草稿转漫画
Prompt:将一张粗造草稿(猫站在书架上的多格漫画分镜)转变为淡雅漫画插图。
Uni-1 将草稿的分镜结构、东谈主物动态和对话气泡位置圆善地转变为专科漫画画面。所有细部信息均被保留并淡雅化:猫耳朵的弧度、卷烟缸的位置、书架上的册本摆设,以及手机屏幕上潜入的「911」翰墨,体现了模子对草稿语义的深层和会。
格调迁徙与脚色一致性
发型迁徙至名画
Prompt:将一位当代女性的棕金色档次发型迁徙至蒙娜丽莎的画像上,同期保留文艺回报油画的艺术格调。
该任务要求模子精确分辨「需要迁徙的元素」(发型的神情和颜色)和「需要保留的元素」(达・芬奇的晕涂法画风、布景、穿着、面部情态)。Uni-1 在两个维度上均推崇出邃密的扫尾力,生成罢了在格调一致性和迁徙准确性之间取得了均衡。
脚色姿态迁徙
Prompt:将真正东谈主物的姿态迁徙到造谣脚色上,同期保留脚色身份和环境设定。
参考图中又名须眉在电梯间的半蹲姿势被迁徙至一个穿宇航服的拟东谈主化老鼠脚色上,场景被重构为工业格调布景。Uni-1 在保合手脚色圆善身份的同期 —— 鳞片状外衣、宇航服细节、耳机和口袋想象 —— 准确收复了参考姿态的要津角度和要点散播,体现了对东谈主体能源学和脚色想象语义的双重和会。
故事板生成:钢琴前的一世
Prompt:生成 6 帧故事板,展示褪色脚色从童年到老年在钢琴前的一世。
6 帧画面中脚色的身份特征保合手一致 —— 面部结构、肤色在不同庚事阶段平滑演变,同期钢琴、透视和画面格调保合手褂讪。从第 1 帧的小男孩到第 6 帧的寰球庭合照,全程看护了叙事连贯性和期间逻辑。这种跨帧的长程脚色一致性和期间推理能力,是现时图像模子濒临的中枢挑战之一。
多轮交互剪辑
多轮剪辑
Prompt:对一张泰迪熊像片进行都集三轮剪辑 —— 第 1 轮「去掉眼前这只熊」,第 2 轮 「布景上加一个玄色布帘」,第 3 轮「让它形成横蛮像片的格调」。
多轮剪辑是查考合股模子上风的典型场景。每一轮剪辑都需要模子在实施新请示的同期,凤凰彩票官方网站保合手此前所有剪辑罢了的一致性和空间布局的褂讪性。Uni-1 在三轮剪辑中均精确凿施了请示,且主体身份和空间关系在各轮之间保合手了连贯。这恰是合股架构的上风地点 —— 和会和生成在褪色个模子内完成,不需要在不同模块间传递和对都信息。
专科视觉任务
UV 贴图生成(对比)
Prompt:给定一东谈主从不同角度拍摄的三张像片(正面、左侧、右侧),生成一张轨范面部拓扑 / SMPL 体和布局的伸开 UV 贴图。
UV 贴图生成是 3D 建模责任流中的要害顺次。Uni-1 生成的 UV 贴图在面部特征对都、摆布对称性和肤色一致性方面均优于对比模子。GPT Image 1.5 碰到了正脸和侧面贴图的不一致问题,而 Nano Banana Pro 则未能生成相宜轨范 UV 布局范例的罢了。
期间阶梯:从「分治」到「合股」在现时的视觉 AI 界限,图像和会(如视觉问答、物体检测、图像分割)和图像生成(如文生图、图像剪辑、格调迁徙)始终以来是两条安靖的期间阶梯,各自使用不同的模子架构和西宾范式。
这种「分治」计谋诚然在各自界限取得了权贵进展,但也带来了明显的局限:和会模子缺少视觉想象力,生成模子缺少深层语义和会,而需要两者协同的复杂任务(如多轮指引剪辑、基于推理的图像合成)则通常需要拼接多个模子的复杂 pipeline。
Uni-1 的中枢想象想路是将这两种能力合股在单一模子中,即在一个具备推理能力的模子基础上,同期赋予它视觉生成的能力。
具体而言,Uni-1 选定 decoder-only 自追思 Transformer 架构,将文本 token 和图像 token 示意在褪色个交错序列(interleaved sequence)中。在这一框架下,文本和图像既不错四肢输入条目,也不错四肢生成输出,结束了对期间、空间和逻辑的合股建模。
这种架构聘用带来了一个值得防卫的发现:生成西宾能够权贵提高模子的细粒度和会能力。
换言之,当模子通过生成任务学会了「怎样画出」一个场景后,它对场景的和会 —— 包括物体关系、空间布局、语义档次 —— 也随之增强。这与领略科学中对于「生成式心智模子」的假说殊途同归。
Uni-1 的一个要害期间特征是推理式生成(reasoning-informed generation)。在罗致到复杂的图像合成请示后,模子并非胜利参加像素生成阶段,而是领先进行结构化的里面推理:理会请示语义、野心画面构图、笃定元素间的逻辑关系,然后再实施渲染。
在评估这一能力的 RISEBench 基准测试中,Uni-1 取得了现时最优收货。RISEBench 隐私四个推理维度:期间推理、因果推理、空间推理和逻辑推理,是当今评估生成模子推理能力最全面的基准之一。
和会能力方面,在 ODinW-13 敞开词汇密集检测基准上取得有竞争力的收货。该基准传统上由挑升的和会模子主导,Uni-1 四肢合股模子在此基准上的推崇,考证了「生成西宾提高和会能力」这一期间假说的有用性。
起底背后团队
Uni-1 的中枢筹划团队不到 15 东谈主,由两位华东谈主学者领衔。
公司首席科学家宋佳铭,本科毕业于清华大学,博士就读于斯坦福大学,师从 Stefano Ermon。
他最广为东谈主知的责任是发明了 DDIM—— 一种大幅加快扩散模子采样速率的算法,如今已被 Stable Diffusion、DALL・E 等主流图像生成系统平庸选定。
他在 ICLR 2022 上凭借这项责任拿到了 Outstanding Paper Award,援用量越过万次。
随后在 NVIDIA Research 责任了一段期间,再加入 Luma,先后主导了视频生成模子 Dream Machine 和文生 3D 模子 Genie 的西宾责任,Uni-1 是他带队鼓动的最新后果。
另一位中枢筹划雅致东谈主 William Shen(沈博魁) 不异是斯坦福规划机科学博士,师从 Silvio Savarese 和 Leonidas Guibas,本科也在斯坦福完成,毕业时取得系里荣誉和全校了得毕业生称呼。
他的筹划横跨规划机视觉、机器东谈主、图形学和生成模子,曾获 CVPR Best Paper Award 和 RSS Best Student Paper Award 提名。
此外,沈博魁还曾四肢 CEO 与合股创举东谈主创建 Apparate Labs,并主导推出一款让鲁迅说急口令、赫本玩嘻哈的低蔓延基础模子 Proteus,此后被Luma AI收购。
这两个东谈主的经历,放在职何一家顶级现实室里都不会显得突兀。但他们聘用了一家初创公司,聘用了在资源有限的条目下作念一件他们合计正确的事。
结语
AI 界限从来不缺纵情出古迹的故事。
谷歌、OpenAI、Meta,每一家都在用巨量资源堆砌模子的上限,这是小公司难以复制的旅途。
关系词 Luma 有另一套顶住。在正确的方进取,用更灵敏的架构想象,作念出越过限度上风的罢了。
天然,一张基准测试榜单仅仅开始。Uni-1 当今还在向合营伙伴定向敞开,距离大限度营业化还有距离。谷歌和 OpenAI 的迭代速率也从未延缓,Nano Banana 2 之后,下一个版块大要一经在路上了。
Uni-1 也仅仅 Luma 迈向合股多模态智能的第一步,后续合股框架将从静态图像推广到视频、语音和交互式天下模拟等模态,最终构建能够在一个都集流中完成「看、说、推理、想象」的多模态系统。
在这个从来不缺大玩家的赛场上,Uni-1 阐明注解了以小博大的可能性,小限度精英团队在前沿 AI 筹划中仍具有竞争力。
发布于:北京市
备案号: