联合华为!国产大模型登顶全球,0.1元一张图
电子发烧友网报道(文/莫婷婷)1月16日,智谱宣布联合华为开源最新图像生成模型GLM-Image登顶Hugging Face Trending。
这一事件之所以引发广泛关注,核心在于三个关键词:开源、SOTA性能、全栈国产。尤其值得注意的是,GLM-Image从数据预处理到大规模预训练全程运行在华为昇腾Atlas 800T A2芯片与昇思Min dSpore框架之上,这意味着,在高性能算力长期被海外巨头垄断的背景下,中国团队首次用纯国产算力底座,训练出达到世界领先水平的多模态SOTA模型。
GLM-Image创新架构引领新纪元,知识密集型场景成新战场
智谱此次GLM-Image的破局点,在于并非简单复刻Stable Diffusion或Flux的技术路径,而是面向新一代“认知型生成”范式,提出创新的 “自回归 + 扩散解码器”混合架构。
根据官方介绍,“自回归 + 扩散解码器”混合架构具备以下亮点,兼顾全局指令理解与局部细节刻画,其中9B大小的自回归模型可以负责理解语义、画面的全局构图,7B大小的扩散解码器专注高频细节还原与文字笔画精准生成。
这种架构让GLM-Image在权威评测中脱颖而出:
在 CVTG-2K(复杂视觉文字生成)榜单上,以 0.9116 的文字准确率 和 0.9557 的归一化编辑距离(NED) 双项第一;在 Long Text-Bench(长文本渲染)中,中文得分高达 0.979,英文 0.952,稳居开源榜首。
从智谱给出的GLM-Image生成图片示例可以看到,GLM-Image擅长画出包含逻辑流程的 科普插画、小红书等社交媒体风格较为明显的图文,以及商业海报、人像等。
图:GLM-Image生成图片示例
笔者实测发现,GLM-Image在整体画风上保持了较高的一致性,尤其在科普插画的逻辑表达方面表现较好,但在文字生成的准确性上仍存在个别偏差。
当前,图像生成领域竞争激烈。谷歌凭借其Gemini生态推出的 Nano Banana Pro,以“企业级”画质和强大的语言-图像协同能力,成为闭源图像生成模型的标杆产品;国内如阿里通义万相、字节即梦等也纷纷推出多模态生图产品。
笔者用同样的提示词对比谷歌Nano Banana、ChatGPT、即梦等3款常见模型,看到,不同的大模型有各自的风格。
提示词:赤壁之战,三国演义经典场景,熊熊大火燃烧曹军连环战船,火光冲天映红长江夜空,周瑜指挥若定羽扇指挥,诸葛亮祭东风法坛作法,火攻场面震撼,古代中国水战,千帆竞渡,箭矢如雨,烟雾弥漫,史诗级战争画面,传统中国画风与电影感结合,极致细节,电影级光影,8k,超震撼。
生成的图片如下图所示:
图:GLM-Image生成的图片
GLM-Image具有漫画或游戏原画风格,色彩饱和度高,线条分明。
图:NanoBanana生成的图片
Nano Banana 以“高质量、高分辨率、强氛围渲染”著称,对动态火焰、水波反射、衣袍飘动等细节绘制精准。
图:ChatGPT生成的图片
ChatGPT具备复杂场景构建、多物体协调,细节较为丰富,带有战争史诗感。
图:即梦生成的图片
即梦在中文语境中则注重历史文化准确性和中国美学表达,还原古代战船结构、旗帜样式等细节。
依旧可以期待的是,随着技术的迭代,这些多模态图像生成大模型生成的图片不仅画面精美,而且汉字准确率也大幅提升,拓展了海报、PPT、科普图等更多知识密集型场景。
文字渲染达开源SOTA,昇腾A2+MindSpore的硬核协同
智谱认为以Nano Banana Pro为代表的闭源图像生成模型正在推动图像生成与大语言模型的深度融合。技术范式正从单一的图像生成,进化为兼具世界知识与推理能力的认知型生成。
GLM-Image通过架构创新探索多模态大模型的技术路径。如果说架构创新是GLM-Image的“灵魂”,那么华为昇腾与昇思MindSpore提供的全栈国产算力底座,则是其得以落地的“基石”。
在当前高性能 GPU受限的背景下,训练一个数十亿参数、支持2048×2048分辨率的多模态SOTA模型,对算力稳定性、 通信带宽和训练效率提出极高要求。传统观点认为,只有 英伟达的芯片集群才能胜任。但智谱与华为的合作证明:国产芯片不仅能跑推理,更能支撑最前沿的端到端训练。
资料显示,GLM-Image的整个训练生命周期——包括海量图文数据预处理、大规模预训练、监督微调(SFT)及强化学习后训练(RL)均在华为Ascend A2芯片集群上完成。
为充分发挥昇腾NPU潜力,智谱与华为深度协同,基于昇思MindSpore框架,实现多项底层优化,包括动态图多级流水下发,将Host侧算子下发的关键阶段流水化并高度重叠,消除下发瓶颈,提升训练能力;多流并行执行,打破文本梯度同步、图像特征广播等操作的通信墙,提升整体效率。使用 AdamW EMA、COC、等昇腾亲和高性能融合算子,提升训练的稳定性和性能。
智谱指出,传统模型生成非正方形图像时需后期裁剪或重绘,易导致内容失真。GLM-Image通过改进Tokenizer策略,原生支持1024×1024至2048×2048任意比例输出,可直接生成小红书封面、电影横幅等图片,无需二次处理,极大提升实用性。
值得一提的是,GLM-Image是首个开源的工业级离散自回归图像生成模型。相比闭源的Nano Banana Pro,它不仅性能对标甚至局部超越,还向全球 开发者开放了完整技术路径,为下一代图像生成模型研究提供了新范本。
结语:国产AI的“分水岭时刻”
智谱表示,A PI调用模式下,生成一张图片仅需一毛钱(0.1元),将高质量AI生图成本降至“白菜价”,让中小企业、独立开发者、内容创作者都能轻松接入SOTA能力。另一方面,通过开源,GLM-Image为学术界和工业界提供了可复现、可改进的研究基线,有望激发更多基于“认知型生成”的创新应用。
