LWのサイゼリヤ

ミラノ風ドリア300円

10/9 ディープラーニングと世界観

・お題箱24

35.ヘボット!が個人的に面白かったのだけれどもLWさんが見るとどう感じるのかなと思ったので注文します。
http://www.heybot.net/movie/
後10日程は21話分見れるのでストーリーは大体掴める。

ストーリーをだいたい掴むのに21話って多くないですか!?
今1話の冒頭だけ見たんですけど、「うんともちんとも言わない」って結構上等なセリフを仕込めるあたりなんか高級感があるアニメですね。数が多すぎるので全部を見るとはあまり思えませんが……

一話すら見終わってないのに最終話の話をすると、最終話の放送後に「わかりやすく面白いアニメを提供することに魅力を感じない」「新しい価値観を創造してほしい」「二次創作を肯定する」というような内容のキャプ(細部は違うかも)が流れてきたことはかなり印象に残っています。
本編を見てないのでわからないんですが、この主張って言葉の綾とかじゃなくてそのままメタ的な自己言及であると解釈していいんですかね?

そうだとすれば、ヘボットってかなり正統派なポストモダンアニメですよね。
ポストモダニズムって一生ニヒリズム的な相対主義を弄っていると思われがちですけど、ポストモダン建築に見るような前向きな本質は「表現者の役割を既存価値の反復から創造的価値の素地を提供することに切り替える」「作品の価値判断を表現者の意図ではなく消費者の創造的営為に委ねる」っていうところにあります。
カオスギャグ作品はボーボボとか色々ありますけど、それをポストモダンの文脈でやっていたのだとすれば、革新的な作品なんじゃないかと思います。

いや、見てないんでわからないですけどね。見てないアニメを語ってしまいました。

36.今敏アニメで、平沢進については何も感じなかったですか?

普段からipod平沢進を聞いているので、逆にいつもの曲がBGMとして流れてくるみたいな感じになってそんなに意識を回さなかったような気がします。
言われてみれば、明確に印象に残っているのはパプリカの発狂パレードくらいですかね。

・ネット動画配信サービス

俺も時代の流れに乗ってビデオレンタルからネット配信サービスに乗り換えることにした。
この前イデオンと妖獣都市と東京ゴッドファーザーズTSUTAYAで借りて郵送返却を付けたらそれだけで1200円になって、「クソたけえ~w」と思ってるタイミングでTSUTAYAプレミアム1000円で借り放題のニュースが来てバカバカしくなってしまった。
今まで映像作品はだいたい全部近所のGEOで借りてたんだけど(旧作108円)、色々不便も多くて限界が来ている感はあった。見たいものが無い場合はTSUTAYAに行く必要があるがそっちが高すぎる(旧作324円)とか、どっちにしても新作レンタル解禁までのタイムラグが長すぎてクールを半分くらい過ぎたくらいのタイミングで評判になったアニメを見る手段がないとか。
なんか映像だけじゃなくゲームとかでも未だに完全に電子化した媒体に慣れてなくて、何かしらの物理媒体の経由が欲しいと思って執念深くレンタルビデオを使い続けてきたけど、俺もそろそろ時代に適合する時期がきたんだろう。

実は昔Dアニメストアと契約してたんだけど、気が散るような情報をたくさん格納しているPCやスマホで動画を見ることに慣れず、結局DVDを借りるという有様になって解約した経験もある。その反省を踏まえてなるべくPS4を使ってテレビモニターで映画を見たいとなると、使えるサービスはPS4にアプリを出しているものに限られる。料金やラインナップを勘案するとNetflixAmazonビデオのどっちかって感じだけど、やっぱりAmazonビデオが板か。
Netflixがウリにしてるオリジナル作品には魅力を感じない一方、今とりあえず見たいのがイデオンだからAmazonプライム契約で見れるのが確定してるし、何より学生特権を使えばAmazonスチューデントで月200円なので他のを契約するにしてもとりあえず契約しといて損しなさそう。

ニコニコでプリンセス・プリンシパル見終わったらAmazonと契約するか。

ディープラーニングと世界観

最近大学でディープラーニングの研究をしている。
最近流行りのディープラーニングだが、日本語で「機械学習」と言ってなんとなく想像できる内容からそう遠くはない。要するに機械に何かを勉強させ、それによって蓄積した知識らしきものによって人間の代わりに仕事をしてもらうわけで、「学習」→「実際の運用」というステップを踏む。新入社員の研修のようなものだ。

補足67:厳密にはディープラーニング機械学習の中の一つだが、今回はあまり区別しない。

今回は画像分析の話しかしないのでその分野で言うと、「実際の運用」とは「画像を見せてその画像に映っているものの名前を正しく答えてもらうこと」だ。

例えば、
DLpD9EkVYAAN7hj[1]
この画像を機械に見せたときに「猫」と答えてほしい。

そんなもん人間がやりゃいいじゃんという思うかもしれないが、「画像を見る→名前を入力する」という仕事は楽なようでなかなかしんどい。1枚2秒でできるとして、1000枚もあれば30分はかかる。30分もの間、1枚2秒ペースで画像を見て名前を打ち続けられるかというとこれは相当きつい。
最近はスマホSNSの普及、情報技術の発展で世に出回るデータ数は爆増しており、データは数万や数億という単位で降ってくる。たった1000枚を捌くのに1時間もかけていれば使い物にならず、これでも機械にやらせるというのはかなり意味のある話だ。

で、運用目的はわかったけど学習はどうするのかというと、大きく分けて「教師あり学習」「教師なし学習」という二つのやり方がある。

教師あり学習」では「画像」&「その画像の名前」を記したデータのセットを一組として機械に与える。例えば、「猫の画像」&「猫」という名前の一組のデータ。
さっきの運用例からすれば、「猫の画像」が機械に処理してほしい問題、「猫」という名前が機械に答えてほしい解答に相当するので、「猫」という名前を指して教師と呼ぶ(正解である「猫」という名前を教える先生のイメージ)。「教師あり」というのは「猫」という名前を付けたデータを渡すことを指す。

データが一つだけだと勉強しにくいので、数千件くらいの猫画像を与えよう。他にも、「人間」という名前付きで「人間の画像」を与えたり、「犬」という名前付きで「犬の画像」を与えたりする(別に「猫」という名前で「人間の画像」を与えることもできるが、そうすると将来的に人間の画像を見て猫と答えてしまう使えないやつになる)。

そうやって色々なデータを与えると機械は猫というものが段々わかってくるので、だいたいわかってきたかな?と思ったら学習を打ち切って運用段階に移すことになる。

この「教師あり学習」は人間の学習と同じなので直感的に理解できると思うが、問題は「教師なし学習」の方だ。
教師なし学習では、名前の通り教師を省いたデータしか与えない。つまり、「猫」という名前は抜きにして、「猫の画像」「人間の画像」「犬の画像」しか与えない。そうなると、機械は画像を貰ってもそれが猫なんだか人間なんだかはわからない。わからないけど、とにかく与えて学習させてみる。

驚くべきことに、それでも機械は「猫」「人間」「犬」を認識できるということがわかっている。もちろん猫だの人間だのという単語は知らないが、それでも「名前は知らんけど違うもののようだ」と判断して「猫画像のグループ」と「人間画像のグループ」を分けることくらいはできる。自ら映っているものを分けるべきだと判断して、大量のデータを区分けしてくれるのだ。

これをGoogleが最初にやったことから「Googleの猫」と呼び、まあどこにでも書いてある話なのだが、「調べてください」では不親切だなと思って惰性でダラダラと概要を書いてしまった。

ここからが本題で、俺は一応理系だから「Googleの猫」という話があることは前から知ってたんだけど、その「自動的に行われる分類」っていうのが世界のルールなのかどうかを気にしていた。
というのは、この教師なし機械学習っていうのは言語学的な世界観で作られる世界の概念集合による領域分割に似ていて……っていう話をするためには、今度は言語学の話をしないといけないのか。

またしばらくどこにでもある話の講義になるけど、今回は「単語は事物の目録ではない」っていう話から始めるのが一番簡単だと思う。
wikipediaからコピペすると、「まず存在があって、その存在の一つ一つにあたかもラベルが貼られるかのように、物の名前、いわば言葉というものが成立している、存在しているのだという考え方」を言語名称目録観という。
「単語は事物の目録ではない」と言った通り、この考え方は既に否定されている。何故かと言うと、世界の個々の事物は時空間的な同一性を厳密には保持していないからだ。ガスキーの家の猫と俺の近所の猫は全く別の存在だし、昨日の猫と今日の猫も違うものであるため、いちいちラベルを貼るという発想で名前を付けるのでは限界がある(猫が常に猫であることを示すためには毎秒ごとに世界中のラベルを更新し続けるのだろうか?)。

では言葉とは何かというと、ソシュールが示したのはその単語が示す事物の集合に対して名前が結び付いているという考え方。猫というのは「猫らしきもの」という個々の事物が属する集合の名前なのである。世界に線を引くイメージがわかりやすいかもしれない。無数の事物が存在する世界の上にスーッと線を引いて「猫ゾーン」を作り、その中にいる猫っぽいものを猫と呼ぶ(ちなみに、言語名称目録観では無数の事物の一つ一つに対して「猫ラベル」を貼り付ける作業が対応する)。

以上で、言語学の話を終わる。

この事物集合という発想は、機械学習で実現される分類手法にかなり似ている。
一見すると機械学習を行った機械は「この画像は何ですか」という質問に対して「猫です」という答え方をするので言語名称目録を保持しているように見えないこともないが、明らかに機械の中には「猫らしきもの」という抽象化されたデータが存在し、それと照らし合わせて判定を行っている。機械の応答の本質は与えられた個々の事物への逐一のラベリングではなく、その根拠らしきものを学習して保持していることにあると言える。
実際、ディープラーニングでは入出力の間の「隠れ層」という部分に抽象化された画像が格納されており、それと照らし合わせて「猫らしさ」を判定する。「隠れ層」にあるデータが言語学でいうところの集合の性質と対応しているかというとそれもちょっと違うのだが、まあ、そこまで大きく違うわけでもないだろう。

補足68:厳密に言えばディープラーニングで隠れ層に格納されるのは「特徴量」、すなわち機械にとっての画像の特徴的なパターンである。
じゃあその「特徴的なパターン」ってなんやねんという話になるのだが、実はこれはよくわかっていない。人間の目で見えるように特徴量を出力すると「ああ、これは確かに特徴的だわ」という感じはあるのだが、厳密にどういうものが特徴的であるかを言い表すことはできない。
これはものすごく雑な言い方をすれば、ディープラーニングは何となく動いている技術だからだ。機械が実際にどう学習するかはよくわかっておらず、猫画像判定機を作ったところである画像が具体的にどういう理由で猫と判定されたのかはよくわからないという滅茶苦茶な性質を持つ。NHKスペシャルでも世界最強の将棋マシーンを作った技術者が「僕がやったのは学習プログラムを書いたところまでで、どうしてこんなに強いのかは全くわからない」などと言っていた。


補足69:些末ではあるが、機械学習では画像情報しか利用していないという違いもある。言語学的に言う事物の性質には見た目以外にも「獣臭い」とか「ニャーと鳴く」とかいう要素もあるだろうが、ディープラーニングで視覚以外の情報を扱うという話はあまり聞いたことがない。
様々なセンサーを使えばそれらを込みにした実装を行うことはあまり難しくないだろうが、単純にデータを集めるのが怠く、最初の「機械に任せて簡単に判定してもらおう」という目的からもズレてくるからだろう。


さて、言語学的には単語は事物集合を統括する概念であったことを思い出してほしい。機械学習によって自動的に習得される分類も何かしらの抽象的集合を示しており、(学習段階で「これは猫ですよ」などと教えていたような)事物と名前が一対一対応する事態とは異なっている。

となると、「世界には人間がそれをする前から既に(事物の無限集合という意味での)言語が存在していたのだろうか」という疑問が浮かんでこないだろうか。
人間を経由しなくても(人間が名前を付けたデータを与えなくても)機械が自動的に事物集合を切り出して言葉を定義できるのであれば、運動方程式と同レベルの根本的な世界のルールとして「ガスキーの家の猫」と「俺の近所の猫」が同一の「猫」として括られることが決まっていたのだろうか?ということが俺は気になっていた。

ディープラーニングの数学的なところをやった結論としては、真相はそうではなかった(そうだったらかなり困るので「そうでないことが確認できた」という方が正しいか)。

まず、補足68でも少し書いたが、ディープラーニングという技術自体が他の技術と比べてやや特異な出自を持つことに触れなければならない。
ディープラーニングの親集合は「パーセプトロン」という人間の神経系を模倣した技術だ。
今度こそ詳細は省くが、要は、最初のスタート地点が数学ではなく生化学なのである。生化学的な人間のニューロンの働きがわかってきたので、これをモデル化して機械にすれば人間と同じように学習できるものが作れるんじゃね!?と思った人がそれを作ったところ、(紆余曲折はあったが現在では)かなりうまくいくものが作れてしまったのだ。

補足70:「人間の脳神経を模倣している」という言葉だけを聞いて過度に神秘的なイメージは持たないでほしい。そんなに大したものではなく、簡単なパーセプトロンであれば方程式が二本もあれば記述できる。
これに限った話でもないが、どうも人工知能絡みの話になるとSFベースの議論があまりにも許されるきらいがある。もちろん技術はコンセプトのあとに付いてくるので夢や理想を語ることは推奨されるべきだが、だからといってそれが遥か遠いコンセプトに過ぎないことを理解せずに「機械が人間を絶滅させる危険」などと大真面目に喋るのは滑稽に思われても仕方ない。
喩えて言えば、鍛冶場で職人を相手に斬魄刀ベースの知識で喋っているようなものだ。打った包丁を手にした客に「これが始解したときの形状はどうなりますか?」「卍解したときの能力はなんですか?」などと真面目な顔で問われても、鍛冶職人は苦笑いをして「それは漫画のお話ですよ」と答えるしかない。


だから、ディープラーニングはどこまでも人間の模倣だ。
人間の模倣が言語を定義できるレベルにまで達したことは驚くべきかもしれないが、まあ、我々人間ができることは機械的に実装できてもおかしくはない。一度作ってしまったものが自律しているように見えたとしても、ちょっと高級なマネキンのようなものだ。

俺が危惧していたのは人間以前の世界vs人間の作った世界という対立の中で言語の定義という営みが前者に吸収されることなのだが、ディープラーニングは後者に属するために世界のルールに影響を及ぼすものではなく、あ~良かった良かったという感じで終わる。