凭7分钟视频拿百万奖金,他说“审美最重要,AI弱爆了”

来源:南方周末 1777276926000

AI短片《牌子》构想:一块牌子让人类失语,用emoji重建巴别塔,最终踢飞火星上的“?”牌。导演郭帆赞:“太牛逼!”

因为一块牌子,人类丧失了语言能力。为重建巴别塔,人类开始用emoji交流,最终协力飞上太空,一脚踢飞了祸乱的根源——火星上一块写有“?”的牌子。

这是B站UP主“DiDi_OK”在2026年2月发布的AI短片《牌子》中的创想。导演郭帆给短片留言说:“太......牛逼!PS:老勃鲁盖尔和青蛙都出来了,超喜欢!”截至2026年4月23日,《牌子》在B站上的播放量1899万、在YouTube上的播放量123万。

《牌子》讲述了这样的故事:人类世界出现了许多类似路牌的牌子,不论它的内容有多荒诞,都会如实地出现在现实世界里,比如棕熊在桥上骑自行车;成群的奶牛从山坡滚落;地铁禁止乘坐,内部变成了失重环境;“勿视勿言勿听”的三不猴形象出现在天上,人们无法说话,也听不懂他人的语言……

     ▲DiDi_OK创作时的Veo界面图/受访者提供

DiDi_OK凭借《牌子》斩获B站首届“AI创作大赛”的一等奖,拿到了100万元人民币的奖金。DiDi_OK是个广告人。2025年4月Runway Gen-4发布后,他尝试用Runway制作了自己的第一支AI影片,并意识到视频制作不再是人类的天下。然而,他想做的特效和美术风格,有90%都是AI实现不了的。他一度对朋友说:“我这辈子都不想动AI了。”

2025年下半年以来,许多科技公司想方设法地将AI视频工具转化成真正的生产力。Runway、CapCut、TikTok、Adobe都举办了相关活动,鼓励用户通过AI生产视频内容。正如B站在“AI创作大赛”推送中所言,“这不只是个创作比赛,更是一个利用AI技术进军影视制作行业的机会。”

海量创作者正在挤入AI视频的蓝海,仅B站的比赛就收到了超过8300份有效稿件,累计播放量超过7亿,其中播放量超百万的视频有143部。

AI视频生成公司Runway的官网解释了为什么创作者越来越青睐AI工具:“从最初的创意构思到生产阶段,Runway可以帮助您的团队加快速度并销售更雄心勃勃的想法,同时降低您的成本。”概括来说就是“降本增效”。

在增效方面,传统影视行业的效率已难望AI之项背。据中国网络视听协会发布的《中国网络视听发展研究报告(2026)》,2025年由AI生成的视频/音频超20亿条,较2024年增长了14倍以上。

2026年4月5日,在短剧平台红果上,《菩提临世真人AI版》登顶热度榜第一。这是AI短剧首次超越真人短剧。市场的反馈清晰地显示了观众对AI内容的青睐。

AI内容的井喷也给了传统影视行业沉重的一击。北美的特效公司近年开始经历倒闭潮。曾参与制作《哈利波特》、《速度与激情》等影片的头部视觉特效公司MPC于2025年2月正式宣布关停,它曾是好莱坞、迪士尼的重要合作伙伴。

法国战略咨询公司PMP Strategy的报告指出,生成式AI可能导致视听行业多类岗位收入下滑。其中,受影响最严重的是译制和改编,降薪幅度可达56%,而编剧为20%、导演为15%。报告还估计,到2028年,视听创作者年度总收入的下滑幅度可达21%,折合金额约为45亿欧元。

美国咨询公司CVL Economics调查了300位娱乐行业高管和中层员工,75%的受访者认为,生成式AI已经导致了其部门岗位的削减和整合。CVL Economics测算,到2026年,美国的电影、电视和动画岗位中,约21.4%即11.85万个岗位将被整合或消失。

DiDi_OK仍对AI视频时代的“人”抱有信心。他认为人的审美将会前所未有的重要,创意和经验依然无可替代。他打了个比方,厨艺精湛的厨师从传统小灶进入全自动化厨房,炒菜只会比原本更好吃。

AI虽然是高效的工具,但提供不了《牌子》的创意。视频的灵感源自DiDi_OK在土耳其旅游时看不懂路牌的切身经验,这是非常“人类”的难题,而知识广博的大模型,恐怕不会有语言障碍的困惑。

围绕AI短片的创作、AI对内容行业的影响,我们与DiDi_OK进行了讨论。在他所处的欧洲广告公司,小团队是趋势,但AI不是唯一的解法。在他看来,AI在生成真人表演上还非常薄弱,AI视频也还没跨过初始阶段。

      ▲土耳其的牌子图/受访者提供

“AI没有很强大,在我看来它弱爆了”

南方人物周刊:《牌子》的制作周期是23天,在AI出现前,你估计制作它需要多长时间、成本?

DiDi_OK:三年起步吧,我觉得成本至少是1000万元人民币。《牌子》实拍的话,水獭的镜头只有十几秒,但一定要找外国演员,给他们配备专业美国大兵的服装,还要找一个能封路的美国社区,哪个成本也省不了。

之前在英国拍虚拟制片,我只是坐在现场帮他们操控一下那些模型,一天大概是2000英镑。摄影棚一天的租金是10万英镑,操纵设备的工作人员要50人左右,现场需要至少5个3D艺术家实时修改屏幕上的内容……还没有开始拍,现场可能已经站着一百多人,他们都是要发工资的,一天什么都不干就要10万英镑。

应该是两年前,很多虚拟制片项目的制片人非常焦虑,会不断央求每一个人,“求你了,我们能不能今天就拍摄完?”因为到明天又是10万英镑的开销。我们经常会跟片方谈,能不能早上6点开工,拍到23:50可以吗?不超24点。

我们的拍摄签约通常是一口气签五天,要将至少50万英镑打到对方账上才能开始拍,成本非常昂贵,这导致我对几千美元的成本变得不太敏感。创作《牌子》,我大约花了五六万元人民币。2025年制作的短片《绿幕》片长只有两分钟,我花了2000美元。在我的视角里,只需要花2000美元就能自己拍出这个东西,这可太便宜了!

     ▲水獭实验镜头图/受访者提供

南方人物周刊:在内容创作领域,小团队模式是大势所趋吗?

DiDi_OK:它已经开始了,三个人的团队大量出现,甚至一个人也可以。比如我现在负责的世界杯相关项目。这是业内非常大的项目,但我也会跟客户谈,我要一个人做,不想跟任何人合作。AI生产力过于先进,不需要分工,更需要一个人的总体把控。

曾经,方案制定好后,就要去实拍,就要预约拍摄场地、找演员、找导演、租设备,这是非常耗时的过程,更不用说拍摄了。拍摄完还要修片子、做后期。现在这些都可以一口气打包完成。也就是说,AI导致内容创作会更趋向于制作人制,制作人手下不再需要一大群人。

南方人物周刊:你这样的专业内容创作者在AI时代将面临什么?

DiDi_OK:AI其实没有很强大,在我看来它弱爆了,它只是一个工具。现在AI的使用率还是挺低的,我们先不说生成视频的AI,哪怕是ChatGPT和豆包这种,我看了下数据也只有20%左右的人用过。

我觉得,在欧美反对AI算是一种政治正确,网上有大量旗帜鲜明的反对声音。当然,冲击也是有的。2025年11月,欧洲出现了第一波明显的裁员。我们公司2025年年初花了好几亿英镑收购了一家特效公司。但是,因为AI的发展,我们不需要他们了,11月就原地解散。不会用AI的新人,公司可能就不要了,但已有的员工是不受影响的。

DiDi_OK在工作中图/受访者提供

南方人物周刊:AI多大程度上介入了你们的工作流程?在这种情况下,人的优势是什么?

DiDi_OK:现在公司里基本是全AI工作流,这个跟国内会有一些差别。我们与谷歌合作,由它提供大语言模型,组建我们的agent(代理)。在项目前期我们从AI获得基础的灵感和方案,当然还需要大家商量,确定出一个方向,接着开始生成方案图,比如说帮三星做大量的概念设计图、方案。这些曾经会有很多人工参与,但现在基本上是AI在跑图,它们确定之后,我们就可以生产了。总的来说,在制作端基本上没有传统的3D和实拍。

我觉得,我们传统广告人在AI时代最大的优势是对片子修改的耐受力,因为我们在过去的工作经验中已经被甲方充分训练了。在传统的3D制作中——例如我现实中的主要客户,可口可乐、谷歌、三星——一个十几秒的片段修改上千次是非常正常的量。这种经历使我有充分的耐心和经验在AI制作中反复调试镜头,并从中选出我最满意的一个。

《牌子》中有个20秒左右的十字路口镜头(包含爬行的人、飞驰的遛狗老人、骑自行车的狗熊等画面),这个镜头我生成了一千次左右,是四个一组批量生产,最终生成三千多条视频。

十字路口部分测试截图,每个画面其实是四个,因为可灵会四个生成为一组图/受访者提供

审美变得前所未有的重要

南方人物周刊:在《牌子》中,生成一个镜头大概要多久?

DiDi_OK:每个模型都不同,比如“可灵”平均单个镜头的生成时间在5分钟左右,我一口气生成很多镜头的时候,它的时长会更长,这时候我可能会看电影、打游戏。制作《牌子》的时候,我就这么断断续续地看剧,竟然把《长安的荔枝》电视剧版看完了。

南方人物周刊:从最初接触AI视频到现在,你对它的理解发生了什么变化?

DiDi_OK:2025年4月份刚用AI视频工具的时候,我大概适应了两周。那段时间非常崩溃,我很厌恶这种不能控制的感觉,我想做的特效镜头、美学风格,90%都完全无法实现。我跟朋友说,我这辈子都不想动AI了。

现在看到的AI视频是筛选后的结果。我尽可能把满意的镜头发出来,但背后是大量不满意的镜头,有些镜头我会生成上千次。

在大量尝试之后,我发现每一个工具都有自己的优缺点,比如Nano Banana生图最好,尤其能输出4K;Veo的嘴型同步和稳定性最强,只要涉及人物对话就用它,但运镜很呆板,角色老是正对镜头、站在画面正中间说话;可灵的运镜有张力,能做很大的推拉,但画面容易拉伸变形;Runway的物理效果最牛,但不稳定。而且,同一段镜头被几个软件生成,别人会觉得完全一样,但在《牌子》里,我会喜欢带有微弱晃动感的那个镜头。这时候我会发现,我其实是在人为做筛选。我认为,使用AI并不是做控制,而是在做筛选。

贪吃蛇追踪细节展示图/受访者提供

南方人物周刊:同一个镜头生成上千次,你的筛选标准是什么?是基于过往的经验吗?

DiDi_OK:选镜头就是审美,这非常主观。梵高画《向日葵》,他把向日葵往右画3厘米,谁也不会觉得有问题,但他觉得有问题,对我来说也是类似的。很多镜头的运镜、景别都非常完美,但我觉得少点什么,我自己也不知道少点什么。

我不太理解为什么会有很多人认为有了AI之后,人就不需要学习审美了,我觉得它反而变得更重要了。曾经,艺术大部分的价值是在技术层面,比如我会画画,虽然绘画的思维不好,审美也不突出,但我手上功夫非常好,能画得很像,就可以获得社会资源的支持。但现在,单纯“画得像”已经没有意义了,你不可能比AI更像、更精准,那么审美就变得前所未有的重要。

我过去的经验依旧是决定性的。举个例子,在传统厨艺里,厨师还要自己劈柴、切菜,做什么都依靠一把菜刀,但给他配备全自动化的厨房,他只会做得更好吃。

同理,我认为创作是非常考验肌肉记忆的事情。比如我们收到同样的要求,生成一个小猫在窗台上的镜头,我跟你做出来的百分百不同。如何表现这只猫?用什么样的透视来拍摄?该怎么运镜?横拍还是特写?该怎么描述运镜中的光线?

AI视频真正随机的部分只占10%,而人为控制占了90%。用AI生成视频就像游戏抽卡,你不能确切知道自己会抽到什么。在这一系列的设定建立之后,我才会安心地抽3000次。

DiDi_OK图/受访者提供

AI影像创作还未跨过起点

南方人物周刊:如果AI视频要走向中长片甚至电影,你觉得有哪些问题亟待解决?

DiDi_OK:首先是分辨率,第二个就是表演问题。现在AI视频最高的有效分辨率是1080P,普遍还停留在720P,这意味着很多细节都不能表现出来。最终AI视频的目标一定是上大屏幕,这也是它最能获得资本青睐的方式。如果只是走流媒体,分辨率的确没有那么重要。

南方人物周刊:我们现在看AI视频会觉得画面比较油腻,这与低分辨率有关吗?

DiDi_OK:这是一个美术问题。美术是美术,技术是技术。举一个例子,张艺谋导演的《英雄》——一部2002年的作品,那时的拍摄技术绝对落后于现在,但是现在看来《英雄》依然是非常美的。现在技术进步了,但制作者的美术水准并没有提高。

特效之类的都解决得七七八八了,现在的表演依然会让人看出来它是假的。比如在《阿凡达》里,卡梅隆花了特别多时间和经费解决水的特效问题。作为普通观众,很少有人在乎某一个场景的水流是否合理。大家在乎的是潘多拉星球上,每一个阿凡达的面部表情是否合理。

AI现在最擅长、也能有性价比的就是生成一些大场面。欧美国家的观众更喜欢感官化的刺激,特别在YouTube或者Instagram上的爆款短片,通常都不是叙事类的。欧美比国内更在意整活,反而是国内的观众会非常有耐心,愿意看创作者的叙事。

但现在AI生成的表演会让观众很不舒服,就像预制菜一样,我已经知道它是预制菜了,你还要逼我坐在那里看一两个小时,这就有点过分了。我们完全无法接受大年三十和家人吃预制菜,还要细细品味,然后感慨一下,“哎呀!这个做得真好,这道菜火候真好。”这会显得很愚蠢。

朋友家的感叹号图/受访者提供

南方人物周刊:为什么说AI视频的表演是预制菜?

DiDi_OK:因为它是基于系统的算法提前准备好的,不是导演与真人聊天、写人物小传形成的结果。我经常用话剧举例,它是一个很有特点的艺术坐标。它没有特效、没有运镜,全部靠表演,却能让观众坐在这里将近4个小时。不论是国内外,话剧演员的表演张力都非常强。什么时候大模型能达到这样的状态,就意味着AI视频的叙事和内容模式都进入到下一阶段了。

我们现在看一个人录视频,哪怕他没有名气,只要他说话有意思,我们都能盯着看很久。同样的内容,现在哪怕是Seedance2.0生成的一个人,大家看超过3秒钟就已经觉得它不太对。在3到5秒都撑不住的情况下,很多艺术表达是不能实现的。可能也是这个原因,国外会更喜欢奇观式的AI影像。我个人肯定更喜欢各种文戏,因为文戏才是故事的核心,但是目前的AI视频就是有表演方面的限制。

南方人物周刊:能不能理解为,AI与真人在表演精度上的差异,有一点像机器生产与手工艺品?

DiDi_OK:不完全是吧,因为目前AI视频达不到工业生产的水平,也很难有观众买单。比如我非常喜欢山本耀司,我知道它只有不到10%的产品坚持手工制作,其他的都是工业制品,但我还是会买,因为它的工业化程度已经足够高了。所以,我不会在意它是不是手工生产的,而只在意它的设计语言。

按照AI此前的发展速度,我相信到年底,AI就能进入到每个人的生活。而且,到那个时候AI视频绝对不会是主流资金的流动方向,毕竟AI视频只能看,不能吃也不能用,它所追求只是无限接近于实拍效果。

大家再也不聊生成技术的时候,就是AI视频绝对意义上跨过起点的时候。就像传统拍摄中,真正聊摄像机的人其实是行业内的人,行业外的人最多是拉一个片、聊一下,“这一次的这个镜头设计很棒。”这时候就会发现,人们聊的是拍摄的技术,而不再是硬件技术。我觉得到那一刻,AI视频就完全跨过起点了。(完)

责任编辑:卜乐

中新社 东西问客户端

平等对话 文明互鉴

打开