HomePodの先にあるスマートスピーカーの将来像

2017年11月29日
TEXT:大谷和利(テクノロジーライター、AssistOnアドバイザー)
Amazon EchoとGoogle Home、それにラインのClova Waveが発売され、日本の消費者もようやくスマートスピーカーを実際に体験できる環境が整った。米国では既に2000万台超が出荷されていると言われ、公共電波に乗った起動ワードが問題になるなど、生活に溶け込んだ感もあるスマートスピーカーだが、今後はどのように進化していくのだろうか。ユーザー心理や実用性などの観点から、次世代スマートスピーカーの機能を予想してみたい。

▷現行スマートスピーカーの弱点とは?

最近では、AIアシスタント機能を備えたスマートフォンやタブレットも登場し、電源がONになっていれば音声のみで起動もできるので、専用製品は必要ないと感じる人もあるかもしれない。しかし、実際にスマートスピーカーを使ってみると、リビングやキッチン、ベッドルームなど様々な場所で、遠くからでも声を拾って機能するスマートスピーカーのマイクは、兼用機器と一線を画す性能を持っている。

もちろん、それが理解できる言い回しや実現可能な処理内容は依然として発展途上だが、ファームウェアやOSのアップデート、あるいはスキルやアクションの追加によって機能が進化する“伸び代”はまだまだあるはずだ。デバイスと音声でやり取りすることの違和感や抵抗感についても、スマートフォンや、もっと遡ればパーソナルコンピューター自体がそうであったように、利用しているうちに徐々に慣れてくるであろうと考えている。

しかし、実際にスマートスピーカーを自宅で使っていて感じるのは、AI機能を起動するために、まず、呼びかけなくてはならないというプロセスの冗長性である。

単純に、照明やテレビの電源のオン/オフ程度ならば、頻度も少なくて済むが、検索機能や楽曲、動画の呼び出しといった多彩な機能を頻繁に行うようになると、最初に呼びかけるというひと手間が繰り返され、余分に感じられてくるのだ。しかも、今後、スキルやアクションの充実に従って、利用頻度は増えこそすれ、決して減ることはないのである。


▷次の戦いは「誰に話しかけているか」の理解にある

現時点でGoogle Homeは6人までの話者を特定することができ、それによって、たとえば声でショッピングリストを作成する場合などには、それぞれのグーグルアカウントに紐付けされたデータとして書き込まれるようになっている。同様の話者識別機能は、他のスマートスピーカーにも実装される予定だ。

これは、スマートスピーカーに対して「誰が話しかけているか」を認識する機能だが、今後必要とされてくるのは、話者が「誰に話しかけているか」を理解する能力ではないかと筆者は考えている。

現状のAIアシスタントは、Hey Siri、OK Google、Alexaなどの、いわゆる起動ワードによって処理を開始する仕様になっているが、これには2つの理由があると思われる。1つ目は、誰(何)に話しかけているかを明確化することで誤動作を防ぐということ。2つ目は、ユーザーが起動ワードを口にするまで処理を開始しないことが、プライバシーに関する懸念を持つユーザーを安心させるということだ。

1つ目に関しては、異なるAIシステムに基づくスマートスピーカーを複数台設置しているような場合を除き、今後、起動ワードなしで、ある程度正確な処理を出来るようになっていくのは、間違いないだろう。たとえば、スマートスピーカーがカメラを搭載し、ユーザーが自分(=スピーカー自身)に向かって話しかけていることを認識できれば、その状態で発せられた言葉が処理すべき内容を含んでいると判断することは、不可能な話ではない。問題は2つ目の“プライバシーに関する懸念”を解決する形でそれが実現できるかどうかという点にある。


▷「起動ワードなし」を実現するための技術とは?
技術的には可能だと思われる「誰に話しかけているか」の認識だが、画像認識をその判断基準とするためには、カメラが常時オンにされている必要があり、先に述べたプライバシーの観点から実現は難しいと言わざるを得ない。実際に、アメリカで販売されているAmazon Echo Lookは、すでにカメラと深度センサーを備えており、理論上は上記のような処理も可能と考えられるが、今のところは他のモデルと同じく、明示的な起動ワードが必須となっている。

理想は、AIによるさらなる意味解析が進むことで、起動ワードなしに、ユーザーの言葉が自分(=スピーカー自身)に向けて発せられたかどうかを人間同士のコミュニケーションと同じように判断し、処理されるという状態である。

そこで注目したいのが、米国での発売予定が2018年に延期されたアップルのHomePodに搭載されているビームフォーミング機能だ。HomePodは、Hey Siriの起動ワードが必要な点では先行するスマートスピーカーと同様だが、室内の音の反射などを解析することにより、ユーザーの位置を把握して最適の音を届ける機能を持っている。

これを応用すれば、ユーザーがどこに向かって発声しているかを解析できるので、意味解析と組み合わせることで、かなり理想に近いインタラクションが可能となりそうだ。同じ技術によって、音声がテレビやラジオからのものかどうかも発声位置などから判定できるため、ニュースのナレーションなどによる誤作動を防ぐこともできるだろう。
もっとも、スマートスピーカーの良さは、料理や掃除、映画鑑賞など、何か他のことをしながら、すなわち、スピーカーのほうを見ずに声で操作や質問ができる点にあるので、そういう場合には、起動ワードを併用するほうが確実である。しかし、部屋の中に1人しかいないなら(それも音の反射の分析などでわかるだろう)、独り言とスマートスピーカーに向けてかけられた言葉の違いを判別できると思われ、指示を正確に捉えて処理することもまた可能なはずである。

▷人間同士のように自然なコミュニケーションを
これらのことを総合的に考えると、近い将来には、ユーザーがスマートスピーカーに向かって発声し、かつ、その内容が処理すべきものであった場合には起動ワードなしでも機能し、それ以外の場合には起動ワードによって応答が始まるという流れが理に適っているのではないだろうか。

それでは操作方法の一貫性が失われると心配する向きもあるかもしれない。しかし考えてみると、面と向かって話せば用件のみを述べ、誰に向かっての指示かがわからないときには最初に名前を呼びかけるというのは、人間同士で頼みごとをするケースと同じであり、今までのコミュニケーション方式をそのまま続ければ良いだけともいえる。

いずれにしても、人は、操作などがより簡便なほうに流れるものである。現に、指示をいちいち起動ワードから始めることにうっとおしさを覚えるユーザーが現れてきている以上、それをなくすことができたメーカーが次世代スマートスピーカーの覇者になるというのは十分にありうる話だ。アップルのようにプライバシーを最大限に尊重することを明言し、ユーザーもそれを信頼するならば、起動ワードなしでスマートスピーカーに指示を出す日が、遠からず訪れるのではないだろうか。


著者の最近の記事
「iPhone」「Apple Watch」成功の先に、先駆者アップルが思い描く未来 ― ARデバイスの可能性 ―
単体でLTE通信が可能となった Apple Watch Series 3 の真の価値
新製品発表を終えて振り返る アップルスペシャルイベントへの賞賛と推測される裏事情
アップルの立場になって考える製品名、新型iPhoneの名称は何が相応しいのか?
アップルが開設したブログ「マシンラーニング・ジャーナル」を始めた真意とは?
[筆者プロフィール]
大谷 和利(おおたに かずとし) ●テクノロジーライター、AssistOnアドバイザー
アップル製品を中心とするデジタル製品、デザイン、自転車などの分野で執筆活動を続ける。近著に『iPodをつくった男 スティーブ・ ジョブズの現場介入型ビジネス』『iPhoneをつくった会社 ケータイ業界を揺るがすアップル社の企業文化』(以上、アスキー新書)、 『Macintosh名機図鑑』(エイ出版社)、『成功する会社はなぜ「写真」を大事にするのか』(講談社現代ビジネス刊)。
MdN DIのトップぺージ