什么是素材库系统?

从前,制作了电视动画先驱《铁臂阿童木》的手冢治虫,为了每周制作30分钟的节目,发明了一种叫做"素材库系统"(Bank System)的方法。

所谓"Bank"就是"储存"。和现在不同,当时是在纸上画画,描到赛璐璐片上再上色。作品完成后赛璐璐片通常会被丢弃,但手冢想到,把那些可能再次使用的镜头——半身镜头、腰部镜头、特写镜头、行走镜头、飞行镜头、哭泣、笑容、口型镜头等——不丢掉而是整理储存起来。这就是素材库系统。

自然,我在东映制作的第一部电视动画系列《狼少年肯》中也采用了这一系统。

虽然不能说全部,但很多制作公司都采用了这种方式。每当新的分镜完成,素材库负责人就会从库中找出与分镜匹配的镜头,并找到合适的背景进行再利用。

如今,在东京池袋站前的"动画东京站"(2023年创设)展示设施中,手冢制作公司的部分原画和动画被保存展出,普通观众也可以参观。

这一系统在日程和经济方面做出了巨大贡献。数字化的今天,一切都存储在硬盘等设备中,可以随时从"笑"、“哭"等文件夹中调用。


AI与素材库系统

AI的运作机制与素材库系统几乎相同。

一个很大的不同在于,阿童木的动作只能用在《阿童木》作品中,而AI可以将这些动作转移到完全不同的角色上。这正是其革命性之处,也使其更加高效。

然而,这里存在一个弊端:镜头的符号化问题。这与我在前一篇文章中写到的、牛山纯一先生问我"动画为什么镜头那么短"的那个话题相连。


关于符号化

一般所说的符号化,主要指的是表情的符号化。但我认为的符号化,是由镜头长度引起的问题。

举例来说:一个哭泣的镜头之后,是对面人物说台词的镜头,接着又回到哭泣人物的不同表情的镜头——如此,短镜头的组合不断延续下去,每个短镜头就开始像一个个单词一样运作。

具体来说,请想象一下4秒为单位的台词和画面构成一个单元,然后连续重复的状态。

有一个自嘲的说法叫"单镜头动画师”。意思是,在3到4秒的动画中,伴随台词只画出了一个句子分量的动作。也就是说,那个动作只是解释台词的最低限度的动作,并不会自然地衔接到下一个动作。这就是符号化。

短镜头的连续使得镜头之间的衔接像文章一样传达出独特的信息。创作者想要传达的东西确实能传达到。但另一方面,它不给观众感受氛围、思考、判断的余地。说得直白一点,这等同于听一场单方面的说教。

单词是符号,是没有感情的冷冰冰的记号。结果,与创作者本来追求的真实感恰恰相反的现象就发生了。


单镜头动画师

另一个问题是动画师技术能力的下降。持续做一个镜头一个动作的工作,就会丧失制作连续动作(表演)的能力。

连续动作之间的节奏本身,就是表现真实感的重要元素。无法做到这一点的状态被自嘲地称为"单镜头动画师"。

东映动画的前身,是收购了一家叫做日本动画的公司而成立的。日本动画才是日本动画的开创者,其传统扎根于全动画风格。全动画是以自然主义为基础的。

许多动画师都扎实地掌握了这种技术。然而,随着持续制作电视动画,高超的技术得不到发挥。偶尔被要求制作连续的表演时,技术已经跟不上了。这就是所谓的"单镜头动画师"。

如今这个词已经消失了,但用柔道的连续技来比喻就容易理解。一招使出去失败了,到下一招之间会有停顿——这在奥运会上也经常看到。毫不间断地接连使出招数,这才是连续技,如果不是平时坚持练习,关键时刻是使不出来的。

动画也是一样。我说"单镜头动画师"是自嘲的说法,就是这个意思。这是电视动画的功与过之一。


无法用语言表达的东西,如何传达给AI?

“ChatGPT"这个名字起得真好——AI几乎能回答所有能用语言表达的东西。但对于无法用语言表达的东西,目前什么也做不了。

据说,人类的沟通中,无法用语言表达而是通过肢体语言、手势,或者直接通过面部和身体(可以说是"肩膀在说话”)来传达的部分占50%到90%。

如果不找到语言以外的方法来传达那些无法用语言解释的东西,AI是不可能理解的。

AI自己也坦诚地说,现阶段还做不了导演的工作。同时也留有余地,说将来也许可以。肢体语言等如果使用动作捕捉的话或许可以实现,但那就等于回到了CG。

如果所有被捕捉的动作都成为AI的数据,那会提升AI的价值,这并不是坏事。

但我认为,除非AI拥有皮肤,否则永远无法胜任导演的工作。对于拥有皮肤的人类来说,重要的是看清AI做不到的是什么。AI擅长模式化,那就去思考模式化绝对做不到的事情。这才是关键。

如果像当今电视中的晨间剧、午间剧、轻松剧、动画剧那样,以台词为中心,影像越来越趋向符号化,那就等于是AI式的电视剧。既然那是AI的强项,那些工作就会被AI夺走。台词和语音也是AI的强项之一,这也需要注意。

月冈贞夫