2020年のITを考える。

最近やたら、テクノロジーのシフトが目立つ。

OpenCLHTML5WebGL、AR

OpenCL
http://ja.wikipedia.org/wiki/OpenCL

HTML5
http://ja.wikipedia.org/wiki/HTML5

WebGL
http://ja.wikipedia.org/wiki/WebGL

AR
http://ja.wikipedia.org/wiki/%E6%8B%A1%E5%BC%B5%E7%8F%BE%E5%AE%9F

2000年、そう10年前、僕は思った。

21世紀は認識技術の実用化によって世界は変わるんじゃないかと…認識技術は1970年から80年ごろには基本的なことがほとんど出来ていてその後、2000年にいたっても劇的な変化は無かった。

多くの人が認識技術の実用化によって一大ビジネスチャンスになると錯覚しながら企業を立ち上げ、ギリギリ何とか糊塗をしのいでいる状態だった。でもそうは問屋がおろさない。中には「死屍累々たる音声認識の世界へようこそ」なんて悪い冗談さえあった。上手くいかない理由は簡単で、パーソナルコンピュータの速度が十分ではなかったから。

2000年当時、僕はとある研究プロジェクトに参加し音声の研究をやっていた。その時、自分のやった研究成果を持って、とある著名な研究者に会いに行ったことがある。その先生は、僕の研究成果を見るなり、「よくこんだけ調べることが出来たね!!」と真顔で驚いていた。

その反応が最初僕には不思議でならなかった。設備で買ってもらった100万もしないパソコンをぶん回して半年ぐらいかけて調べた成果だったのだが、何も難しいことはしていなかった…すでにある論文や書籍とにらめっこして、出るべくして出た実験結果だったからだ。

しばらくして、その理由に気がついた。僕が使っていたのはPentium III Dual だった。思えばその先生が僕ぐらいの年のころは大型計算機しかも独占できない状況でしか同等の環境を得ることが出来なかったはずだ。僕が出した実験成果を半年程度で出せるわけも無い。驚かれるのも当然かもしれない…と思うとともに、自分の恵まれた環境と技術の進歩の意味の深さを痛感した。

そんな中、当時の比較的高性能な Dual CPU 環境でいくら頑張っても 1ms 単位の音素解析と認識は容易には実現できなかった 200 次元に及ぶベイズ判定を 1ms ごとに数100種類行いその上 HMM や DP もやるとなると当時のPC 30 台で組んだクラスタ(並列処理システム)を使ってもギリギリの状態だった。要するに当時のパソコン一台では実現不可能だったわけだ。

ところがここ最近、前述のようなテクノロジーシフトが目立ってきている。OpenCL は 10 年前のクラスタマシンを一台の PC で実現する勢いだし、それらを Web アプリとして実現できそうな仕組みも容易に実装できそうな気配がある。具体的には WebGL と同様に OpenCLJava Script で実現してしまえば Web ベースのクラスタリングが可能になるということだ。

これが実現されると、一気に認識技術をすべての Web クライアントに普及させることが出来る。基本的には Google IME と同じようなことが認識技術レベルまで波及することを意味する。あと、カメラとマイクの WebAPI も必要だが…でもこれらは、Flash を見る限りそれほど難しいこととは思えない。

これらが実用化された未来を想像すると、普及や開発に10年かかるとして2020年にはそれらが目に見えた形で世の中に浸透し始めるのではないだろうか?そういう意味でARにしても画像認識が必要であることを踏まえると2020年ごろが本当の意味での商業的な事業化が成功しているのかもしれない。

というのも、
 3年後にはPS3がポケットに? PowerVR開発企業が証言
 http://www.gizmodo.jp/2010/03/3ps3powervr.html

ということは携帯電話に GPGPU が乗ってもおかしくないし、2000年当時のクラスタ性能を持ってもおかしくないからだ。

すでにマイクロソフトはPCベースで

 マイクロソフトBing Map+PhotosynthでリアルタイムARデモ
 http://japanese.engadget.com/2010/02/16/bing-map-photosynth-ar/

ここまで実現している。これがグーグルストリートビューと連携したらどうなるだろうか?マイクロソフトは景観映像データベースを整えればいいだけだ。

つまり、これらが組み合わされば、GPGPU で画像認識をして AR する。その端末はもちろん GPGPU で音声の処理もして店舗予約やボイスブログを実施する。それらのプログラムは先ほど述べた WebCL のような形で提供される。このとき勝者となるのは認識エンジンのためのデータベースを握ったものであり、それにあわせて宣伝やコンテンツを提供できるサーバ群を持った企業になるんじゃないだろうか?

そして、その企業は21世紀型放送局として地位を不動のものとしていくような気がする。

一番近いところにいるのはやっぱりグーグルかなぁ…と、夢想中

手始めに、OpenCLSSL アクセラレータ ういず ロードバランサー とか作ればいいのに…需要ないかな??