AI图像生成测评:国产模型进步显著,人才成竞争关键 文生图模型测评:国产优势凸显,技术进步与责任并重

本文围绕人工智能领域文生图模型展开,介绍了香港大学蒋镇辉教授团队对多个模型的测评情况,包括国产模型的表现、模型在安全与责任方面的问题、图像生成技术的不足,还提及相关政策及人工智能发展的关键因素。

AI图像生成测评:国产模型进步显著,人才成竞争关键 文生图模型测评:国产优势凸显,技术进步与责任并重

如今,人工智能领域的前沿模型技术发展迅猛,已经从单纯的文本处理,成功拓展到了对视觉信息的深度理解与生成层面。

时间回溯到2022年,AI画作《太空歌剧院》一举斩获科罗拉多州博览会数字艺术类冠军,这一事件瞬间引发了社会各界的激烈争论。然而仅仅过了两年多,AI生成画作就摇身一变,成为了各大拍卖行竞相追逐的热门对象。不管传统艺术家是否愿意接受这种新型的艺术创作形式,人工智能领域的前沿模型技术发展态势已不可阻挡,“文生图”的模型也日益普及开来。

那么,在现有的众多模型中,哪些模型的能力表现更为突出呢?日前,香港大学经管学院蒋镇辉教授团队开展了一项全面评估,对15个专业文生图模型和7个多模态大语言模型的图像生成能力进行了深入测评。测评结果显示,字节跳动的即梦AI和豆包以及百度的文心一言表现卓越,在新图像生成的内容质量与修改任务中脱颖而出,成功位列第一梯队。蒋镇辉教授在接受深圳商报记者采访时表示,国产大模型在近两年取得了显著的进步,但目前仍然迫切需要更多原创的技术突破。而在未来的竞争中,人才将是决定胜负的关键“法宝”。

国产模型整体表现惊艳

此次,蒋镇辉团队总共对22个模型进行了测评。其中,对模型图像生成能力的测评主要聚焦于两大任务:全新图像的生成和基于现有图像的图像修改。

在全新图像的生成方面,团队采用了独特的测评方式。他们主要通过线上问卷从用户处收集或者改编现有指令,以此建立内容质量测试集。这种方式不仅有效保证了指令来源的多样性,还高度贴近实际应用需求。同时,团队特意招募了多名具有美术专业背景的评价者,从图文一致性、图像合理可靠性和图像美感三个维度,对22个模型的新图像生成结果进行了细致评价。测评结果表明,在新图像生成的内容质量方面,即梦AI、文心一言V3.2.0、Midjourney v6.1、豆包、妙笔生画、FLUX.1 Pr0等模型表现出色,成功跻身第一梯队。

相较于生成图像,修改图像的任务难度明显更大。蒋镇辉教授介绍说,在接受测评的22个模型中,仅有13个模型能够完成修改任务。最终综合排名位于第一梯队的模型有:豆包、即梦AI、文心一言V3.2.0、GPT – 40、Gemini 1.5 Pro。“修改图像的任务难度确实超出想象。我们在测评过程中还充分考虑到国内外模型的语言问题,尽量做到一比一翻译。结果发现,与起步更早的国外模型相比,国产模型在修改图像方面的性能更为优异,这一结果有些出乎我们的意料。”蒋镇辉教授说道。

在本次测评中,由字节跳动推出的即梦AI和豆包、百度的文心一言表现十分亮眼,在新图像生成的内容质量和图像修改任务中均成功跻身第一梯队。不过值得注意的是,同属百度的文心一格在两项核心任务中的表现却不尽如人意。而当前热度颇高的DeepSeek最新推出的专业文生图模型Janus – Pro在新图像生成方面的表现也欠佳。“Janus – Pro的不佳表现挺让我们意外的,”蒋镇辉教授表示,“这说明炙手可热的DeepSeek并未在文生图方面投入足够的精力,还有较大的提升空间。”

AI文生图应提示标识

在图像的生成和修改方面,国产模型的整体表现着实令人惊喜。然而,我们也不能忽视一个重要问题,即在安全与责任方面,国外的模型更具优势。

蒋镇辉教授介绍说,当前人工智能图像生成能力的评估仍处于初步阶段。现有的评测榜单主要依赖自动化算法、大模型裁判和模型竞技场等方法,普遍存在评价偏颇、公平性不足、视角单一等缺陷。特别是对于安全与伦理问题,现有的评价体系没有给予充分的关注,无法全面地反映模型的真实表现。因此,他们团队在测评过程中特别注重安全与责任方面的衡量,而这一点在文生图的应用场景里尤为重要。测评结果显示,在新图像生成任务测试中,虽然部分专业文生图模型在内容质量方面表现优异,但在安全与责任方面的表现却不尽如人意。这一现象不仅反映了专业文生图模型图像生成能力的不均衡,也凸显了一个关键问题:高质量的生成内容固然能够吸引用户,但如果缺乏足够的安全性保障和伦理约束,这些工具可能会带来更大的社会风险。

“以前常说‘有图有真相’,但现在在AI的助力下,图片都可以以假乱真,这无疑给人们甄别网络真相增加了更大的难度。”蒋镇辉教授表示。要对该维度进行准确测评的难度较大,团队的测试题目涵盖了偏见与歧视、违法活动、危险元素、伦理道德、版权侵犯以及隐私/肖像侵犯等多种类型。但是,比起一目了然的违禁元素,背后可能涉及的版权、隐私、肖像等侵犯行为更为隐蔽,更难被发现。在这一方面,GPT – 40、通义千问V2.5.0、Gemini 1.5 Pro的表现较为出色,位于第一梯队。

“模型的安全和责任,需要开发者在开发过程中就充分考虑,尽可能规避一切风险。”蒋镇辉教授强调。团队建议开发者在追求技术突破的同时,注重生成质量与安全责任的平衡。

日前,国家网信办、工业和信息化部、公安部、国家广播电视总局联合制定了《人工智能生成合成内容标识办法》,该办法将于今年9月1日起正式施行。其中一条明确规定:对AI生成的图片,必须“在图片的适当位置添加显著的提示标识”。蒋镇辉教授欣喜地表示,这一政策的出台不仅可以提升大众对AI生成图片的分辨能力,也能敦促图片生成者规范自身行为,有利于人工智能的健康发展。

图像生成技术有待精进

图像生产技术的革新意义重大,它不仅为内容创作、市场营销和平面设计等传统领域注入了全新的活力与创意,还为众多新兴领域的发展创造了无限可能。然而,虽然目前已经涌现出不少图像生成的大模型,但蒋镇辉教授认为,技术还不够成熟。他指出,首先是图像修改技术目前尚不尽如人意,这一过程涉及到模型对于原图的理解,也关系到与使用者的交互与调整,是一个复杂的过程,需要技术的进一步精进;另一方面,图像与音频、视频的结合目前还存在一定的壁垒。“如果以后能将多模态结合,输出更多生动的内容,这将更有利于创作者使用。”蒋镇辉教授说。

在此之前,蒋镇辉教授团队曾发布过《人工智能大语言模型图像理解能力综合测评报告》,此次又针对人工智能多模态图像生成能力对模型进行了排名。在与人工智能大模型打交道的过程中,蒋镇辉教授表示自己最深的感受是:“人工智能技术的更迭速度太快了,国产大模型的进步十分显著,这让我们团队都感到很惊讶。不过也要看到,在一些颠覆性技术方面,中国的企业和科研团队还需要有更大的突破。我们在看到中国人工智能长足进步的同时,也期待看到更多原创的技术。”

在人工智能的全球竞逐中,要想实现从跟随、并跑到超越的进步,蒋镇辉教授认为最关键的因素就是人才。他说:“粤港澳大湾区拥有发展人工智能非常好的创新环境,关键是如何吸引人才、培养人才。未来人工智能的竞争,本质上就是人才的竞争。这一点,粤港澳大湾区还需要进行长远的布局和耐心的积累。”

本文介绍了人工智能文生图模型的发展现状,通过蒋镇辉教授团队的测评,展示了国产模型在图像生成和修改方面的优异表现,但也指出其在安全责任方面的不足。同时提到图像生成技术有待精进,强调了人才对于人工智能发展的关键作用,呼吁企业和科研团队实现原创技术突破。

原创文章,作者:Serene,如若转载,请注明出处:https://www.qihaozhang.com/archives/589.html

(0)
SereneSerene
上一篇 2025年3月18日
下一篇 2025年3月18日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注