第253回セミナー報告「AI技術に基づく絵師の流派推定」2024年5月
2024年 06月 05日第253回セミナー報告「AI技術に基づく絵師の流派推定」
日時:2024年5月25日(土) 14:00~16:45
会場:品川区立総合区民会館(きゅりあん)第1特別講習室 +ZOOMオンライン
参加:37名(会場30名、WEB7名)
演者:(株)分子ロボット総合研究所・代表取締役、東工大・名誉教授、恵泉女学園大・客員教授、
工学博士 小長谷 明彦 氏
【講演要旨】
・始めに、人間とChatGPTに同じ質問を投げかけた時の回答の比較、形式知と暗黙知について、我々は主観的(独創的な)解釈(深読み)する訓練が必要とのお話があった。
・本日の講演は人工知能学会2021年度論文賞「深層学習による「幻の源氏物語絵巻」の流派推定の関する考察の紹介である。受賞者は幻の「源氏物語絵巻」の専門家である稲本万里子氏(恵泉女学園大学教授)、知能情報処理の専門家である小長谷東工大教授、小長谷研究室の加藤卓也氏である。
・源氏絵とは、源氏物語をモチーフにした屏風、画帖、絵巻のこと。メトロポリタン美術館にある幻の「源氏物語絵巻」(以下幻源物絵と略す)は絵師不詳(江戸前期作)で色々な流派が混ざっているようである。流派が不明なので、幻といわれる。
・幻源物絵が作られた頃の流派としては土佐派、京狩野派と江戸狩野派、岩佐派がある。流派の識別に関しては、貴族の引目鉤鼻の目、口、耳などで流派の特徴が出るので、顔検出+深層学習(河野2017)で源氏絵の画像認識をやった。画像認識のノウハウを適用しても思ったほどの分類精度が得られなかった(検出度40%)。
・そこで、物体検出モデル(You Look Once YOLOv2による顔検出(加藤2018)を試みた。目と口の位置関係のような、顔の特徴を使わずに、特徴量を深層学習で学習し、検出したところ検出精度が向上した(検出度85%)
・認識法 You Look Onceは、検出窓をスライドさせずに画像をCNNに通すだけでオブジェクトを検出するアルゴリズムで、オブジェクトの検出と分類を同時に行う。
・学習法はファインチューニングで、別の問題で学習済みのモデルのパラメータを初期値として使うことで、少ないデータでもうまく学習できる。
・学習データはImageNet+源氏絵画像データであり、源氏絵の顔画像に稲本先生がラベル付けしたデータを使用し「貴族の顔」を流派別(土佐派、狩野派、岩佐派、町絵師)に学習した。画像数は115~201枚。
・再学習の仕方については、再学習する層の数でチューニングの効果を比較した。
・各モデルに対しデータを5分割し、4つを学習用、残りをテスト用にして正答率を求めた。
・実行結果(5分割交叉検証)4つの流派別に入力された顔を4つの流派別に出力。入力側と出力側の一致度は100%でなく、別の流派に分類されるものもある。
・判断部位の可視化(Grad-CAM)この方法は、深層学習ニューラルネットワークがどこに着目しているかを判断する手法であるが、顔の輪郭やパーツを捉えていることがわかった。
・検出法が確立されたので、幻源物絵へ適用した。
・2018年3月、幻源物絵の4巻198枚の絵画像について土佐派、狩野派に分類した推定結果が得られた。しかし専門家が納得する結果でなかったので、更に京狩野派の顔画像の収集を図った。2年後、教師用画面像データは1681枚、幻源物絵のテスト用の画像データは199枚が集まり、AI技術を用いた流派推定を行った。
・4流派の推定結果が示されたt-SNE散布図及び3流派(土佐派、狩野派、その他)のt-SNE散布図から幻源物絵の顔画像が(京)狩野派に近いことはわかったが、土佐派、狩野派、岩佐派はオーバーラップが多く、流派というラベリングの信憑性性に疑問が呈された。
・そこで、ラベリングに客観性がある4流派につき作品別に学習し、幻源物絵がどの作品に近いかを判定することにして、作品別散布図を作成した。バリデーションデータによる学習モデルの評価では、専門家の間で、絶対的に正しいとされているラベルでAIモデルの妥当性を判定した。
・幻源物絵は狩野探幽、狩野山楽と土佐光吉の作品との距離が近く、影響を受けている事がわかった。また、流派争いが起きたのは「流派」の概念が専門家ごとに少しずつ異なっていたため。
・AIモデル構築は専門家の暗黙知の形式化であり、結果の解釈が重要。統計的判断でなく、バリデーションデータによる主観的解釈が鍵である。
・当時の貴族たちは屏風絵を灯明の光を用いて鑑賞していたはずと、VR技術を用いて源氏物語図屏風の再現を試みた。時代屏風を購入し実際の灯明を用い、灯明の光と屏風の金箔による反射をVR技術で再現した。蛍光灯下とは全く異なる情景が浮かび上がることを確認した。
【主な質疑応答】
Q1.AI(深層学習)による結果の解釈は難しい。精度を上げるには?
=> 先ずモデルが大事で、条件を絞り込んでゆくと良い。
Q2. AIが進化してくると何が‘本物‘か、分からなくなってくる。どうあるべきか?
=> 自分の考えを持ち共感できることを共有して行くことが必要。
Q3. 平安絵巻は灯明や金箔の効果でその揺らぎ等見えない物を見る者の感覚を高めて見ると言う意味でホログラムと同じように見る者の力量を問われることか?
=> その通り。様々な視点での話し合いの場を作ることが大切。
Q4. AIには創造力が無いとの主張に反論して、SF小説の夢が次々と現実化していることから、AIもSFを学習することで創造することが可能では?例:「鉄腕アトム」「ドラエモン」「ロボット~」
=> 本物と偽物を見極めるには人間が深い洞察力を持たなければならない。
Q5. 人間とAIの本質的な違いは?
=> 人間は意思と欲望(と過去の知識と経験に基づく理性)を持つ。AIは分析、分類、与えられた情報の(大量データ)中で最適解を出す。自然言語を使う事によってもっともらしく表現できるようになった。
Q6. 最後のほうのマッピングは多次元の多変量解析してグルーピングしたもののようだが、その中でAIは具体的に何をしたことになるのか?
=> 図はまさに多変量解析そのもので、AIがしているのはグルーピングです。パラメータとの距離をみている。
Q7. 同じデータを使ってもパラメータの使い方を変えたらグルーピング(相互の距離)が変わって見えたので都合が良いもの選んで使ったりした。AIを使えばこのような恣意的な使い方を回避したことになるのか?
=> クロスバリデーションによる評価はモデルやパラメタを操作すれば正答率は恣意的に改善することができる。この意味で、AIでもパラメータを操作すれば恣意的な結果を作ることができる。むしろ、美術史界で真筆であることが確立している絵画の顔画像をバリデーションデータとして用い、AIモデルがバリデーションデータを正しく判別できるかどうかを重視した。だから重要な事は専門家の深い知識を反映できるモデルの設計である。
【所感】
本講演を通して、AI技術を用いて専門家の暗黙知を形式化する過程を、わかり易く、事例をもってお示し頂き、ほんとうに感謝です。経験や実践で得られ、そして感覚でつかむ暗黙知も、AIモデルを設計・構築して、データをバリデートし、主観的解釈で形式化できると解釈していいのでしょうか。
「源氏物語絵巻」等の屏風があるといつも食い入るように見入ってしまいますが、今後はVR物語図屏風で鑑賞でき、そしてVR灯明で金箔反射の屏風図も鑑賞できれば、楽しみが倍増します。AI技術のおかげでしょう。
それにしてもバリデーションデータとして、作者のわかっている顔画像が1681枚そして作者不明が199枚とのこと、よくぞ集めたことにも驚きです。
【報告者:後藤幸子】