凭7分钟视频拿百万奖金，他说“审美最重要，AI弱爆了”

来源：南方周末 1777276926000

AI短片《牌子》构想：一块牌子让人类失语，用emoji重建巴别塔，最终踢飞火星上的“？”牌。导演郭帆赞：“太牛逼！”

因为一块牌子，人类丧失了语言能力。为重建巴别塔，人类开始用emoji交流，最终协力飞上太空，一脚踢飞了祸乱的根源——火星上一块写有“？”的牌子。

这是B站UP主“DiDi_OK”在2026年2月发布的AI短片《牌子》中的创想。导演郭帆给短片留言说：“太......牛逼！PS:老勃鲁盖尔和青蛙都出来了，超喜欢！”截至2026年4月23日，《牌子》在B站上的播放量1899万、在YouTube上的播放量123万。

《牌子》讲述了这样的故事：人类世界出现了许多类似路牌的牌子，不论它的内容有多荒诞，都会如实地出现在现实世界里，比如棕熊在桥上骑自行车；成群的奶牛从山坡滚落；地铁禁止乘坐，内部变成了失重环境；“勿视勿言勿听”的三不猴形象出现在天上，人们无法说话，也听不懂他人的语言……

▲DiDi_OK创作时的Veo界面图/受访者提供

DiDi_OK凭借《牌子》斩获B站首届“AI创作大赛”的一等奖，拿到了100万元人民币的奖金。DiDi_OK是个广告人。2025年4月Runway Gen-4发布后，他尝试用Runway制作了自己的第一支AI影片，并意识到视频制作不再是人类的天下。然而，他想做的特效和美术风格，有90%都是AI实现不了的。他一度对朋友说：“我这辈子都不想动AI了。”

2025年下半年以来，许多科技公司想方设法地将AI视频工具转化成真正的生产力。Runway、CapCut、TikTok、Adobe都举办了相关活动，鼓励用户通过AI生产视频内容。正如B站在“AI创作大赛”推送中所言，“这不只是个创作比赛，更是一个利用AI技术进军影视制作行业的机会。”

海量创作者正在挤入AI视频的蓝海，仅B站的比赛就收到了超过8300份有效稿件，累计播放量超过7亿，其中播放量超百万的视频有143部。

AI视频生成公司Runway的官网解释了为什么创作者越来越青睐AI工具：“从最初的创意构思到生产阶段，Runway可以帮助您的团队加快速度并销售更雄心勃勃的想法，同时降低您的成本。”概括来说就是“降本增效”。

在增效方面，传统影视行业的效率已难望AI之项背。据中国网络视听协会发布的《中国网络视听发展研究报告（2026）》，2025年由AI生成的视频/音频超20亿条，较2024年增长了14倍以上。

2026年4月5日，在短剧平台红果上，《菩提临世真人AI版》登顶热度榜第一。这是AI短剧首次超越真人短剧。市场的反馈清晰地显示了观众对AI内容的青睐。

AI内容的井喷也给了传统影视行业沉重的一击。北美的特效公司近年开始经历倒闭潮。曾参与制作《哈利波特》、《速度与激情》等影片的头部视觉特效公司MPC于2025年2月正式宣布关停，它曾是好莱坞、迪士尼的重要合作伙伴。

法国战略咨询公司PMP Strategy的报告指出，生成式AI可能导致视听行业多类岗位收入下滑。其中，受影响最严重的是译制和改编，降薪幅度可达56%，而编剧为20%、导演为15%。报告还估计，到2028年，视听创作者年度总收入的下滑幅度可达21%，折合金额约为45亿欧元。

美国咨询公司CVL Economics调查了300位娱乐行业高管和中层员工，75%的受访者认为，生成式AI已经导致了其部门岗位的削减和整合。CVL Economics测算，到2026年，美国的电影、电视和动画岗位中，约21.4%即11.85万个岗位将被整合或消失。

DiDi_OK仍对AI视频时代的“人”抱有信心。他认为人的审美将会前所未有的重要，创意和经验依然无可替代。他打了个比方，厨艺精湛的厨师从传统小灶进入全自动化厨房，炒菜只会比原本更好吃。

AI虽然是高效的工具，但提供不了《牌子》的创意。视频的灵感源自DiDi_OK在土耳其旅游时看不懂路牌的切身经验，这是非常“人类”的难题，而知识广博的大模型，恐怕不会有语言障碍的困惑。

围绕AI短片的创作、AI对内容行业的影响，我们与DiDi_OK进行了讨论。在他所处的欧洲广告公司，小团队是趋势，但AI不是唯一的解法。在他看来，AI在生成真人表演上还非常薄弱，AI视频也还没跨过初始阶段。

▲土耳其的牌子图/受访者提供

“AI没有很强大，在我看来它弱爆了”

南方人物周刊：《牌子》的制作周期是23天，在AI出现前，你估计制作它需要多长时间、成本？

DiDi_OK：三年起步吧，我觉得成本至少是1000万元人民币。《牌子》实拍的话，水獭的镜头只有十几秒，但一定要找外国演员，给他们配备专业美国大兵的服装，还要找一个能封路的美国社区，哪个成本也省不了。

之前在英国拍虚拟制片，我只是坐在现场帮他们操控一下那些模型，一天大概是2000英镑。摄影棚一天的租金是10万英镑，操纵设备的工作人员要50人左右，现场需要至少5个3D艺术家实时修改屏幕上的内容……还没有开始拍，现场可能已经站着一百多人，他们都是要发工资的，一天什么都不干就要10万英镑。

应该是两年前，很多虚拟制片项目的制片人非常焦虑，会不断央求每一个人，“求你了，我们能不能今天就拍摄完？”因为到明天又是10万英镑的开销。我们经常会跟片方谈，能不能早上6点开工，拍到23:50可以吗？不超24点。

我们的拍摄签约通常是一口气签五天，要将至少50万英镑打到对方账上才能开始拍，成本非常昂贵，这导致我对几千美元的成本变得不太敏感。创作《牌子》，我大约花了五六万元人民币。2025年制作的短片《绿幕》片长只有两分钟，我花了2000美元。在我的视角里，只需要花2000美元就能自己拍出这个东西，这可太便宜了！

▲水獭实验镜头图/受访者提供

南方人物周刊：在内容创作领域，小团队模式是大势所趋吗？

DiDi_OK：它已经开始了，三个人的团队大量出现，甚至一个人也可以。比如我现在负责的世界杯相关项目。这是业内非常大的项目，但我也会跟客户谈，我要一个人做，不想跟任何人合作。AI生产力过于先进，不需要分工，更需要一个人的总体把控。

曾经，方案制定好后，就要去实拍，就要预约拍摄场地、找演员、找导演、租设备，这是非常耗时的过程，更不用说拍摄了。拍摄完还要修片子、做后期。现在这些都可以一口气打包完成。也就是说，AI导致内容创作会更趋向于制作人制，制作人手下不再需要一大群人。

南方人物周刊：你这样的专业内容创作者在AI时代将面临什么？

DiDi_OK：AI其实没有很强大，在我看来它弱爆了，它只是一个工具。现在AI的使用率还是挺低的，我们先不说生成视频的AI，哪怕是ChatGPT和豆包这种，我看了下数据也只有20%左右的人用过。

我觉得，在欧美反对AI算是一种政治正确，网上有大量旗帜鲜明的反对声音。当然，冲击也是有的。2025年11月，欧洲出现了第一波明显的裁员。我们公司2025年年初花了好几亿英镑收购了一家特效公司。但是，因为AI的发展，我们不需要他们了，11月就原地解散。不会用AI的新人，公司可能就不要了，但已有的员工是不受影响的。

▲DiDi_OK在工作中图/受访者提供

南方人物周刊：AI多大程度上介入了你们的工作流程？在这种情况下，人的优势是什么？

DiDi_OK：现在公司里基本是全AI工作流，这个跟国内会有一些差别。我们与谷歌合作，由它提供大语言模型，组建我们的agent（代理）。在项目前期我们从AI获得基础的灵感和方案，当然还需要大家商量，确定出一个方向，接着开始生成方案图，比如说帮三星做大量的概念设计图、方案。这些曾经会有很多人工参与，但现在基本上是AI在跑图，它们确定之后，我们就可以生产了。总的来说，在制作端基本上没有传统的3D和实拍。

我觉得，我们传统广告人在AI时代最大的优势是对片子修改的耐受力，因为我们在过去的工作经验中已经被甲方充分训练了。在传统的3D制作中——例如我现实中的主要客户，可口可乐、谷歌、三星——一个十几秒的片段修改上千次是非常正常的量。这种经历使我有充分的耐心和经验在AI制作中反复调试镜头，并从中选出我最满意的一个。

《牌子》中有个20秒左右的十字路口镜头（包含爬行的人、飞驰的遛狗老人、骑自行车的狗熊等画面），这个镜头我生成了一千次左右，是四个一组批量生产，最终生成三千多条视频。

▲十字路口部分测试截图，每个画面其实是四个，因为可灵会四个生成为一组图/受访者提供

审美变得前所未有的重要

南方人物周刊：在《牌子》中，生成一个镜头大概要多久？

DiDi_OK：每个模型都不同，比如“可灵”平均单个镜头的生成时间在5分钟左右，我一口气生成很多镜头的时候，它的时长会更长，这时候我可能会看电影、打游戏。制作《牌子》的时候，我就这么断断续续地看剧，竟然把《长安的荔枝》电视剧版看完了。

南方人物周刊：从最初接触AI视频到现在，你对它的理解发生了什么变化？

DiDi_OK：2025年4月份刚用AI视频工具的时候，我大概适应了两周。那段时间非常崩溃，我很厌恶这种不能控制的感觉，我想做的特效镜头、美学风格，90%都完全无法实现。我跟朋友说，我这辈子都不想动AI了。

现在看到的AI视频是筛选后的结果。我尽可能把满意的镜头发出来，但背后是大量不满意的镜头，有些镜头我会生成上千次。

在大量尝试之后，我发现每一个工具都有自己的优缺点，比如Nano Banana生图最好，尤其能输出4K；Veo的嘴型同步和稳定性最强，只要涉及人物对话就用它，但运镜很呆板，角色老是正对镜头、站在画面正中间说话；可灵的运镜有张力，能做很大的推拉，但画面容易拉伸变形；Runway的物理效果最牛，但不稳定。而且，同一段镜头被几个软件生成，别人会觉得完全一样，但在《牌子》里，我会喜欢带有微弱晃动感的那个镜头。这时候我会发现，我其实是在人为做筛选。我认为，使用AI并不是做控制，而是在做筛选。

▲贪吃蛇追踪细节展示图/受访者提供

南方人物周刊：同一个镜头生成上千次，你的筛选标准是什么？是基于过往的经验吗？

DiDi_OK：选镜头就是审美，这非常主观。梵高画《向日葵》，他把向日葵往右画3厘米，谁也不会觉得有问题，但他觉得有问题，对我来说也是类似的。很多镜头的运镜、景别都非常完美，但我觉得少点什么，我自己也不知道少点什么。

我不太理解为什么会有很多人认为有了AI之后，人就不需要学习审美了，我觉得它反而变得更重要了。曾经，艺术大部分的价值是在技术层面，比如我会画画，虽然绘画的思维不好，审美也不突出，但我手上功夫非常好，能画得很像，就可以获得社会资源的支持。但现在，单纯“画得像”已经没有意义了，你不可能比AI更像、更精准，那么审美就变得前所未有的重要。

我过去的经验依旧是决定性的。举个例子，在传统厨艺里，厨师还要自己劈柴、切菜，做什么都依靠一把菜刀，但给他配备全自动化的厨房，他只会做得更好吃。

同理，我认为创作是非常考验肌肉记忆的事情。比如我们收到同样的要求，生成一个小猫在窗台上的镜头，我跟你做出来的百分百不同。如何表现这只猫？用什么样的透视来拍摄？该怎么运镜？横拍还是特写？该怎么描述运镜中的光线？

AI视频真正随机的部分只占10%，而人为控制占了90%。用AI生成视频就像游戏抽卡，你不能确切知道自己会抽到什么。在这一系列的设定建立之后，我才会安心地抽3000次。

▲DiDi_OK图/受访者提供

AI影像创作还未跨过起点

南方人物周刊：如果AI视频要走向中长片甚至电影，你觉得有哪些问题亟待解决？

DiDi_OK：首先是分辨率，第二个就是表演问题。现在AI视频最高的有效分辨率是1080P，普遍还停留在720P，这意味着很多细节都不能表现出来。最终AI视频的目标一定是上大屏幕，这也是它最能获得资本青睐的方式。如果只是走流媒体，分辨率的确没有那么重要。

南方人物周刊：我们现在看AI视频会觉得画面比较油腻，这与低分辨率有关吗？

DiDi_OK：这是一个美术问题。美术是美术，技术是技术。举一个例子，张艺谋导演的《英雄》——一部2002年的作品，那时的拍摄技术绝对落后于现在，但是现在看来《英雄》依然是非常美的。现在技术进步了，但制作者的美术水准并没有提高。

特效之类的都解决得七七八八了，现在的表演依然会让人看出来它是假的。比如在《阿凡达》里，卡梅隆花了特别多时间和经费解决水的特效问题。作为普通观众，很少有人在乎某一个场景的水流是否合理。大家在乎的是潘多拉星球上，每一个阿凡达的面部表情是否合理。

AI现在最擅长、也能有性价比的就是生成一些大场面。欧美国家的观众更喜欢感官化的刺激，特别在YouTube或者Instagram上的爆款短片，通常都不是叙事类的。欧美比国内更在意整活，反而是国内的观众会非常有耐心，愿意看创作者的叙事。

但现在AI生成的表演会让观众很不舒服，就像预制菜一样，我已经知道它是预制菜了，你还要逼我坐在那里看一两个小时，这就有点过分了。我们完全无法接受大年三十和家人吃预制菜，还要细细品味，然后感慨一下，“哎呀！这个做得真好，这道菜火候真好。”这会显得很愚蠢。

▲朋友家的感叹号图/受访者提供

南方人物周刊：为什么说AI视频的表演是预制菜？

DiDi_OK：因为它是基于系统的算法提前准备好的，不是导演与真人聊天、写人物小传形成的结果。我经常用话剧举例，它是一个很有特点的艺术坐标。它没有特效、没有运镜，全部靠表演，却能让观众坐在这里将近4个小时。不论是国内外，话剧演员的表演张力都非常强。什么时候大模型能达到这样的状态，就意味着AI视频的叙事和内容模式都进入到下一阶段了。

我们现在看一个人录视频，哪怕他没有名气，只要他说话有意思，我们都能盯着看很久。同样的内容，现在哪怕是Seedance2.0生成的一个人，大家看超过3秒钟就已经觉得它不太对。在3到5秒都撑不住的情况下，很多艺术表达是不能实现的。可能也是这个原因，国外会更喜欢奇观式的AI影像。我个人肯定更喜欢各种文戏，因为文戏才是故事的核心，但是目前的AI视频就是有表演方面的限制。

南方人物周刊：能不能理解为，AI与真人在表演精度上的差异，有一点像机器生产与手工艺品？

DiDi_OK：不完全是吧，因为目前AI视频达不到工业生产的水平，也很难有观众买单。比如我非常喜欢山本耀司，我知道它只有不到10%的产品坚持手工制作，其他的都是工业制品，但我还是会买，因为它的工业化程度已经足够高了。所以，我不会在意它是不是手工生产的，而只在意它的设计语言。

按照AI此前的发展速度，我相信到年底，AI就能进入到每个人的生活。而且，到那个时候AI视频绝对不会是主流资金的流动方向，毕竟AI视频只能看，不能吃也不能用，它所追求只是无限接近于实拍效果。

大家再也不聊生成技术的时候，就是AI视频绝对意义上跨过起点的时候。就像传统拍摄中，真正聊摄像机的人其实是行业内的人，行业外的人最多是拉一个片、聊一下，“这一次的这个镜头设计很棒。”这时候就会发现，人们聊的是拍摄的技术，而不再是硬件技术。我觉得到那一刻，AI视频就完全跨过起点了。（完）

责任编辑：卜乐