本文へジャンプ

コラム

[第21回] スマートスピーカーも近日上陸か?人間の声で機械を操作できる音声認識技術

更新日:2017年7月20日

現在大きな注目を集めているテクノロジーのひとつに、AIを用いた音声認識技術がある。それを応用することで、人間の声をコンピュータが認識してさまざまなオペレーションを実現してくれるのだ。

スマートフォンやPCに搭載されたパーソナルアシスタントに始まり、現在ではアマゾンやグーグルの音声認識AIを搭載したスマートスピーカーや、店頭でのAI自動応答サービスも登場。「人の声による機械とのコミュニケーション」は確実に我々の生活を変えつつある。今回は先行するアメリカの事例を参照しながら、音声認識技術が私たちの生活やビジネスシーンにもたらす変化を考察したい。

AIによる音声認識&自然言語処理の精度は、急速に向上している

「ディープラーニング」の実用化でAI技術が急速に進化したことに伴い、この数年、「画像認識」「音声認識」「自然言語処理」といった分野にも大きな発展がみられた。

今回ご紹介したいのは、主にAIの「音声認識」と「自然言語処理」の組み合わせで実現する、「音声での機械操作」だ。アメリカではこうした音声操作は「voice computing(ボイスコンピューティング)」などと呼ばれている。

プログラマーなどの専門家でない一般ユーザーが機械(コンピュータ)とコミュニケーションをとるには、従来はディスプレイ画面上でのクリックやタップ、文字入力といった手段しかなかった。スマートフォンから券売機の操作に至るまで、基本は「手入力」で指示を与え、コンピュータが各種命令を処理していたわけだが、この方法では入力から命令(コマンド)の実行までに時間がかかる。

それに高齢者などの場合、そもそも「ディスプレイの画面操作」や「テキスト入力」自体が大きなハードルとなる。また、歩行中や家事をしながらのデバイス操作、自動車運転中のカーナビ操作など、ハンズフリーな状態で機械とコミュニケーションしたいという潜在的な需要は高かったといえるだろう。

音声入力が普及するきっかけとなったのは、ひとつには2009年から登場したグーグルの「音声検索」がある。おなじみの検索窓にマイクアイコンが追加され、マイクに話しかけることで検索を実行できるようになった。それに続き、音声検索の普及を後押ししたのが、アップルの「Siri」に代表されるパーソナルアシスタントの登場だ。

Siriは2011年のiPhone 4Sに搭載されると、iPhoneの基本機能のいくつかを人間の声で操作できるということで大きな話題となった。その後、ドコモが自社端末のユーザー用に「しゃべってコンシェル」をリリースしたり、グーグルがAndroid OS対応の「Google Now」「Googleアシスタント」を、マイクロソフトがWindows OS対応の「Cortana」を送り出すなど、声で機械とコミュニケーションできるパーソナルアシスタントが身近なものになっていく。

パーソナルアシスタントが登場したばかりの頃は、音声認識や自然言語処理の精度が高いとはいえず、人間との噛み合わないやり取りが愛嬌として楽しまれるような状況もあったが、加速するAI技術の進化とともにサービスの精度は上がっている。

「今日の天気は?」「ビートルズの曲をかけて」「明日6時に起こして」

このように、手入力だと少し面倒なコマンドも、パーソナルアシスタントは一言で実行してくれる。その便利さが徐々に認知され、はじめは抵抗感が強かったであろう「デバイスに話しかける」という入力方法も、少しずつ人々の生活の中に浸透してきたといえる。

パーソナルアシスタントは、主にスマートフォンをはじめとするモバイルデバイスに搭載されていた機能だが、音声でコミュニケーションを行うための技術はPepperなどの「ロボット」や、このあと述べる「家電」といった分野にも次々と応用されつつある。

IoTコマース時代を見据えた、「スマートスピーカー」がついに日本上陸?

家電や自動車など、あらゆるプロダクトをインターネットに接続することでサービスの向上を目指すIoT(モノのインターネット)。特に、ネット対応の家電は「スマート家電」とも呼ばれ、市場に増えてきている。しかし、家電をいちいち手で操作するのは不便な場合も多いため、この分野でもより簡便でスピーディな音声操作の活用が期待されている。

今、音声操作系サービスの代名詞的な存在といえるのが、高度な音声認識能力を持つアマゾンのAI音声アシスタント「Alexa」だ。Alexaを搭載したスマートスピーカー「Amazon Echo」と、姉妹商品の「Echo Dot」は、アメリカでは社会現象的な大ヒット商品となっている。

このEchoシリーズはもちろん単なるスピーカーではない。「Echoの中にいる音声アシスタント」であるAlexaに話しかけることで、手持ちのiTunesライブラリやネットストリーミングでの音楽再生はもちろんのこと、ニュースや天気予報・交通情報の読み上げ、Kindle書籍の読み上げ、Amazonでの買い物、さらに自宅環境によっては他のスマートデバイスの操作、部屋の照明やエアコンのオン・オフなども可能だ。

Alexaはクラウドサービスの側面もあり、新製品に買い換えなくてもどんどんアップデートされていく。AIなので、ユーザーと会話を重ねるほどに成長していく点も特徴だ。従来の音声認識系サービスは「遠くから話しかけても反応しない」「部屋の中が賑やかだと正しく認識しない」といった弱点があったが、Echoシリーズでは高性能なノイズキャンセル機能や、マイク内蔵のリモコンなどにより、これらの弱点をほぼ克服していることも普及の一因となった。

Echoシリーズのヒットを受け、アマゾン以外のサードパーティからも続々とAlexa搭載の家電が発表されつつある。2017年のCES2017(アメリカの家電見本市)では、ここ数年のトレンドを引き継いでIoT機器が大きな目玉となっていたが、その中でAlexa搭載の家電たちも注目を集めていた。

フォード社の自動車、LG社の冷蔵庫をはじめ、CES2017で発表されたAlexa搭載プロダクトの数々は、本格的なIoT時代の到来を示唆している。IoTのメリットのひとつには「欲しいと思った瞬間に、その場で購買行動ができる」という点があり、Eコマースの会社として成長してきたアマゾンは、今度はAlexaによって、家電や自動車に話しかけるだけでモノやサービスを購入する「IoTコマース」の分野をも開拓しようとしているようだ。

現在、Amazon Echoのみならず、アップルの「Apple HomePod」、グーグルの「Google Home」と、世界のトップ企業から音声操作に対応したスマートスピーカーが続々登場。スマートフォンやPCに特化した従来型のパーソナルアシスタントから一歩進み、「生活にまつわるすべて」を音声で操作できる未来を見据えたサービスといえるだろう。

さて、Amazon Echo、Apple HomePod、Google Homeといったスマートスピーカーは、2017年7月時点では日本上陸には至っていない。というのも、これらのサービスはAIによる「音声認識による、声のテキストデータ化」「テキストに対する自然言語処理」という段階を経てコマンドを入力する仕組みだが、そもそも日本語という言語は自然言語処理の難易度が高く、英語版と同等の精度を得るのが難しいというのが大きな理由のようだ。

しかし、グーグルは5月に開催された「Google I/O 2017」で、現在アメリカとイギリスで展開中のGoogle Homeを年内にカナダ、フランス、ドイツ、オーストラリア、日本の5カ国でも発売することを明らかにしている。世界を主導する3社が力を入れ始めている以上、技術的なハードルを乗り越えて、スマートスピーカーが日本市場に上陸するのも時間の問題なのかもしれない。

高齢者や外国人にも優しい! 音声操作のもたらす明るい未来像

もし日本でもスマートスピーカーが普及し、機械に話しかける音声操作が当たり前になると、社会にはどんな変化が起きるのだろうか。

まず家庭内での利用について言えば、「スマートスピーカーが、他のスマート機器のハブとして機能する」というスタイルが考えられる。つまり、家のどこにいてどのスマート家電に話しかけても、高感度のマイクとノイズキャンセル機能を持つスマートスピーカーが音声を拾って、他の家電を操作してくれるということだ。こうした位置づけの機械は、家庭の中でスマート化された家電・機械と人とのコミュニケーションを仲介するという意味で「スマートホームハブ」とも呼ばれている。スマート家電同士がつながることで、自室からキッチンの家電を音声操作したり、浴室から寝室のエアコンを音声操作するといったことも実現していくのではないだろうか。

CES2017では、数百もの企業がAlexa対応の家電製品やIT機器を展示しており、その中には日本の企業であるCerevoの、声で操作できるロボット・デスクライト「Lumigent」にAlexaを導入したコンセプトモデルもあった。このLumigentも「Echoに話しかけるとLumigentが変形する」といった連携を実現しているという。

また、あらゆる企業にとっての課題となるのが、前述の「IoTコマース」だ。ネットワークにつながったスマート家電は、当然Eコマースに接続することも可能だ。例えば冷蔵庫に搭載されたAIは、冷蔵庫内の食材の消費状況を自ら把握して持ち主である人間に情報共有し、必要であればすぐにEコマースで食材を購入できるようになるだろう。

このIoTコマースに欠かせない要素となりそうなのが、音声操作だ。家電に「○○を補充しますか」と聞かれたら、「はい」と答えるだけで消耗品や食材が補充される。あるいは家電に「電池が欲しい」と話しかけるだけで、おすすめの電池を提示され、即座に購入できる。こうした状況が実現されるようになると、「画面を見ながらどの商品が良いか比較検討する」という従来のEコマースとは異なったビジネス設計が必要となるだろう。企業にとっては、「いかにAIによるファーストチョイスに自社製品を登場させられるか」が重要になるかもしれない。

最後に、ここまで紹介してきたサービスは、あくまでも家庭内での個人利用にとどまるが、冒頭に挙げたように「券売機」や「ATM」、「オフィスの出入り口」など、機械操作が必要な幅広いシーンでの活用も期待される。手で行うよりも素早く操作できる上に、声紋認証などによるセキュリティ面の向上や、ユーザー負担の軽減も見込めるからだ。音声で「誰が喋ったか」をAIが判定する個人認証の精度もどんどん高くなっているという。

現状、「機械に話しかけるのが恥ずかしい」という日本人特有の性格も相まってか、海外に比べて日本では音声操作が浸透していないように感じる。しかし、いずれは道端のデジタルサイネージや自動販売機が音声コミュニケーションに対応し、高齢者や外国人観光客に機械が道案内をしたりする世界も、そう遠い未来のことではないかもしれない。テクノロジーの進化がもたらす、より良い社会に期待したい。

ライタープロフィール

ライター:上野 俊一
ゲーム雑誌編集者、音楽制作雑誌編集者、VR雑誌編集者、フリーライターを経験。特にデジタルエンタテインメント分野に詳しい。最近はFinTech関連の記事を多く執筆している。


※お申し込みいただいたお客様の個人情報は、暗号化され保護されます。