「人工知能」トップランナー松尾豊氏に聞く 【前編】ディープラーニングを理解するための人工知能Sと人工知能D

2015.09.15 11:00

IoTやビッグデータのトレンドを受け、いままた可能性が注目される「人工知能(Artificial Intelligence)」。1956年〜60年代の第1次ブーム、1980年代の第2次ブーム、そして我々が今再び「人工知能」に注目しているのは第3次にあたり、機械学習の新しい手法「ディープラーニング(深層学習)」がその核心にあるという。 改めて、現在の「人工知能」の可能性、来たる未来の社会像、テクノロジーと倫理の関係性を人工知能研究のトップランナーである東大・松尾豊准教授に伺った。(【後編】次の1000年紀のための人工知能を目指して

■「あれもこれもできるのではないか?」60年来"人工知能"のイメージは変わっていない

東京大学 工学系研究科 松尾豊 准教授

オックスフォード大学の研究レポート「未来の雇用:コンピューターの影響を受けやすい職業」では今後の20年間でアメリカにおける雇用の50%がコンピューターによって代替されると予測されている。
人間の雇用がコンピューターによって奪われるといった悲観的な見方に加え、人工知能が自分の能力を超える人工知能を自ら生み出せるようになる時点を指す「シンギュラリティ(技術的特異点)」以降、人類は人工知能によって征服されるのではないかという過激な見方もある。

一見、技術決定論に寄りがちな言説が目立つ中、人工知能にまつわるこうした議論にどれほどのリアリティがあるのだろうか。
日本における人工知能研究のトップランナーである東大の松尾豊准教授に話を伺った。

--我々一般人が「人工知能」を理解する上で、何が一番難しいポイントになっているのでしょうか?

松尾:
"知能"を持ったコンピューターができると思ったときに、 「あれもこれもできるのでは?」と広く思われがちです。実は人工知能の研究は60年以上なされていて、60年前の人も同じように考えていたんです。結局、あるところまでは行っても、それ以上には進めないということが徐々に分かってきました。とはいえ、この60年間で人工知能における地形図というか、マップみたいなものが出来上がってきているので、それを理解していないと、やはり「あれもこれもできるのでは?」となってしまいますね。

1956年、通称"ダートマス会議"と呼ばれるカンファレンスで後に人工知能研究の第一人者となるジョン・マッカーシーが「人工知能(Artificial Intelligence)」という言葉を用いて以来、何度かブームが訪れている。
初めは1956年〜60年代の主に推論と探索を軸とした技術であり、第2次ブームは1980年代のMycinなどに代表されるエキスパートシステム隆盛の時代である。
そして今我々が再度注目している「ディープラーニング(深層学習)」は人工知能の第3次ブームにあたる。

■ディープラーニングとは"基礎工事"である

--先生は著書『人工知能は人間を超えるか』の中で、「ディープラーニングは人工知能研究における50年来のブレークスルーだ」とおっしゃられています。メディアでもよく聞くようになった言葉ですが、これも仕組みの理解がなかなか難しいですよね。

松尾:
まず「モデルって何?」ってところで行き詰まってしまうんですね。理系の人であれば、物理・化学にしても機械や電気にしても必ずモデルがあって、その上でさまざまな方法が議論されますので、理解しやすい。ディープラーニングは、モデルの要素を見つける特徴抽出ができるというところがポイントです。例えるなら、"ディープラーニング"とは、知能という建物を建てる際の「基礎工事」なんです。今までも一生懸命高いビルを建てようとしてきたのですが、基礎工事がうまくできていなかったので脆弱でした。高いように見せても、実は裏で人間が一生懸命動いてたんです。ようは張りぼてですね。
松尾:
ここでモデルの話になるのですが、交通渋滞を例にとってみましょうか。道路における車の動き、信号の存在、渋滞しているか否か、その中から注目すべき要素を発見しますよね。その上で、何もないとき車はどれくらいのスピードで走るかとか、前に車がいればどれくらいスピードを落とすかとか、要素間の関係がありますね、これが"モデル"です。これを使うことによって、どこで渋滞が起こりやすかとか、車がどれくらい増えると渋滞が発生するのかというのが分かります。昔は全部人間がこのモデルを作っていました。ディープラーニングを用いれば、数的処理のみならずモデルを作るところまでコンピューターの方でできるようになるかもしれないというわけです。

--コンピューターが自らモデルを作る実際のメカニズムはどのようになっているのでしょうか?

松尾:
「3」という画像があります。これを「3」と教えるのが普通のニューラルネットワークですが、画像自体を正解にして、「3」という画像から「3」という画像自身を予測するような問題を解かせるようにします。できるだけ少ない情報から精度よく元に戻せと言われると、「3」という画像の重要なところを取り出そうとするんですね。そうすると人間も明示的には意識しない模様のようなものが特徴量として抽出されるようになるんです。これはオートエンコーダというやりかたですが、ディープラーニングの場合はこれを深い層にして行っていくので、二層目、三層目になるにつれ、より複雑な画像が出てくるというふうになっている。なので復元を繰り返すことによる特徴量の抽出を何度も繰り返しているというわけです。

--これって我々の脳が行っている処理と近かったりするんですか?

松尾:
そうそう。視覚における脳神経回路の仕組みとすごく近いですね。

■"Disruptive"と"Sustainable"人工知能の二類型を分けないと理解できない

--このモデルを精緻化していけば、人間の脳と同じようなことができるようになると分かり始めたということですか?

松尾:
そうですね。注目すべき要素を発見できるというディープラーニングの仕組みが直接効いてくるのは画像認識でした。だから、まず視覚なんです。視覚、特に静止画の認識については人工知能で人間並かそれ以上に処理できるようになってきています。でも人間は見るだけじゃなくて、音を聞いたり、触ったり、自分で行動をしてデータを得ることもしますし、人間の成長過程のような順序があるわけです。先ほども話しました"基礎工事"ができるようになったことで、人工知能は0歳児が大人になっていくステップを実現できるようになったんですね。最初は見るだけですが、そこから音が聞こえるようになって、自分で身体を動かせるようになって、そのうち言葉を覚え始め、本が読めるようになるという順番です。これは、人工知能あるいはロボティクスの分野で、昔から「身体性」という言葉で語られてきたことと同じで、外界とのインタラクションが知能の発達にとって重要です。

--以前までは入力装置がキーボードくらいでしたが、今はカメラがあって、さらにセンサーもありますよね。入力デバイスが増えることで、ディープラーニングが発展していくという認識ですか?

松尾:
いま現時点でディープラーニングができるのは、画像や音声が中心ですね。それ以外のセンサー情報も徐々に使われるようになるとは思いますが、技術の進展の中心は画像や音声などのセンサーと、またアクチュエーターの情報になると思います。

人工知能の二類型:DisruptiveとSustainable

--そうなるともう「ディープラーニング」とは言わなくなるんですか?

松尾:
言ってはいいと思いますけどね。使っているニューラルネットワークのレイヤーが深いからそう言ってるだけなんですが、必ずしもディープである必然性はない。基礎工事の技術であって"内部表現"を学習するという意味で、"表現学習"という言い方もします。基礎工事ができるようになったことで超高層ビルの建築が可能になります。ところが、一方で、都市部そのものが広がる、普通の建物がもっと広い領域に立ちますよという話もあるんです。これは、データを取れるようになったことによって、分析ができたり、広告や販売につなげられたりする、いわゆるビッグデータから人工知能という流れです。これがごちゃ混ぜに語られていると思います。例えば、スマホに入っている加速度センサーで自分の行動データが取れて、健康状態が分かるようになったというのは、どちらかというと上の話(上記図の人工知能S)。ただその工法はあくまで人間が設計しているんですね。ディープラーニングの方はそうではなくて、これから人間並みの知的な処理ができるようになっていくという話なんですね。そこは混同しない方がいいと思います。

【後編】次の1000年紀のための人工知能を目指してでは、人工知能の本質に迫れば迫るほど、「人間とは何か?」という問いを突き返されることが明らかになる。

取材・文:長谷川リョー

1990年生まれ。フリーライター。これまで『週刊プレイボーイ』『GQ JAPAN』WEBなどで執筆。「BOSCA」編集長。東京大学大学院学際情報学府在籍。@_ryh

最新記事