素材库系统

什么是素材库系统？

从前，制作了电视动画先驱《铁臂阿童木》的手冢治虫，为了每周制作30分钟的节目，发明了一种叫做"素材库系统"（Bank System）的方法。

所谓"Bank"就是"储存"。和现在不同，当时是在纸上画画，描到赛璐璐片上再上色。作品完成后赛璐璐片通常会被丢弃，但手冢想到，把那些可能再次使用的镜头——半身镜头、腰部镜头、特写镜头、行走镜头、飞行镜头、哭泣、笑容、口型镜头等——不丢掉而是整理储存起来。这就是素材库系统。

自然，我在东映制作的第一部电视动画系列《狼少年肯》中也采用了这一系统。

虽然不能说全部，但很多制作公司都采用了这种方式。每当新的分镜完成，素材库负责人就会从库中找出与分镜匹配的镜头，并找到合适的背景进行再利用。

如今，在东京池袋站前的"动画东京站"（2023年创设）展示设施中，手冢制作公司的部分原画和动画被保存展出，普通观众也可以参观。

这一系统在日程和经济方面做出了巨大贡献。数字化的今天，一切都存储在硬盘等设备中，可以随时从"笑"、“哭"等文件夹中调用。

AI的运作机制与素材库系统几乎相同。

一个很大的不同在于，阿童木的动作只能用在《阿童木》作品中，而AI可以将这些动作转移到完全不同的角色上。这正是其革命性之处，也使其更加高效。

然而，这里存在一个弊端：镜头的符号化问题。这与我在前一篇文章中写到的、牛山纯一先生问我"动画为什么镜头那么短"的那个话题相连。

一般所说的符号化，主要指的是表情的符号化。但我认为的符号化，是由镜头长度引起的问题。

举例来说：一个哭泣的镜头之后，是对面人物说台词的镜头，接着又回到哭泣人物的不同表情的镜头——如此，短镜头的组合不断延续下去，每个短镜头就开始像一个个单词一样运作。

具体来说，请想象一下4秒为单位的台词和画面构成一个单元，然后连续重复的状态。

有一个自嘲的说法叫"单镜头动画师”。意思是，在3到4秒的动画中，伴随台词只画出了一个句子分量的动作。也就是说，那个动作只是解释台词的最低限度的动作，并不会自然地衔接到下一个动作。这就是符号化。

短镜头的连续使得镜头之间的衔接像文章一样传达出独特的信息。创作者想要传达的东西确实能传达到。但另一方面，它不给观众感受氛围、思考、判断的余地。说得直白一点，这等同于听一场单方面的说教。

单词是符号，是没有感情的冷冰冰的记号。结果，与创作者本来追求的真实感恰恰相反的现象就发生了。

另一个问题是动画师技术能力的下降。持续做一个镜头一个动作的工作，就会丧失制作连续动作（表演）的能力。

连续动作之间的节奏本身，就是表现真实感的重要元素。无法做到这一点的状态被自嘲地称为"单镜头动画师"。

东映动画的前身，是收购了一家叫做日本动画的公司而成立的。日本动画才是日本动画的开创者，其传统扎根于全动画风格。全动画是以自然主义为基础的。

许多动画师都扎实地掌握了这种技术。然而，随着持续制作电视动画，高超的技术得不到发挥。偶尔被要求制作连续的表演时，技术已经跟不上了。这就是所谓的"单镜头动画师"。

如今这个词已经消失了，但用柔道的连续技来比喻就容易理解。一招使出去失败了，到下一招之间会有停顿——这在奥运会上也经常看到。毫不间断地接连使出招数，这才是连续技，如果不是平时坚持练习，关键时刻是使不出来的。

动画也是一样。我说"单镜头动画师"是自嘲的说法，就是这个意思。这是电视动画的功与过之一。

“ChatGPT"这个名字起得真好——AI几乎能回答所有能用语言表达的东西。但对于无法用语言表达的东西，目前什么也做不了。

据说，人类的沟通中，无法用语言表达而是通过肢体语言、手势，或者直接通过面部和身体（可以说是"肩膀在说话”）来传达的部分占50%到90%。

如果不找到语言以外的方法来传达那些无法用语言解释的东西，AI是不可能理解的。

AI自己也坦诚地说，现阶段还做不了导演的工作。同时也留有余地，说将来也许可以。肢体语言等如果使用动作捕捉的话或许可以实现，但那就等于回到了CG。

如果所有被捕捉的动作都成为AI的数据，那会提升AI的价值，这并不是坏事。

但我认为，除非AI拥有皮肤，否则永远无法胜任导演的工作。对于拥有皮肤的人类来说，重要的是看清AI做不到的是什么。AI擅长模式化，那就去思考模式化绝对做不到的事情。这才是关键。

如果像当今电视中的晨间剧、午间剧、轻松剧、动画剧那样，以台词为中心，影像越来越趋向符号化，那就等于是AI式的电视剧。既然那是AI的强项，那些工作就会被AI夺走。台词和语音也是AI的强项之一，这也需要注意。

月冈贞夫