1406views

今こそ「VUI」の時代へ。音声認識がニュー・ノーマルのスタンダードに

2020.09.08

SiriやGoogleアシスタントをはじめとする音声アシスタントや、それらに対応したスマートスピーカー。国内でこれらを「常用」しているという人は少数派だろう。日本では海外に比べ、音声UI(Voice User Interface、以下VUI)の普及が遅れている。

しかし、新型コロナウイルスによる感染症(COVID-19)の影響により、「非接触」という新たなニーズが生まれた。国内でも一転、VUIは非接触ニーズを満たす技術の一つとして、普及の兆しが見えてきた。また最近では、耳に着けたままリアルタイム翻訳やGoogleアシスタントを利用できる「Google Pixel Buds」のように、高性能で日常に取り入れやすいヒアラブルデバイスも次々に登場している。今回はそんなVUIの可能性について探っていきたい。

VUIとは何か

音声UIについて語る前に、まずは基本的な部分を押さえておこう。そもそも「UI(ユーザーインターフェイス)」とは、利用者(User)との接点(Interface)のことだ。この言葉自体はかなり広い分野で使われるようになっているが、ここでは主にコンピュータ等のデバイスと、利用者が情報をやり取りするための「接点」を指す。

UIの変遷を大まかに振り返っておくと、まず登場したのが「CUI(Character User Interface)」。キーボード入力と文字(Character)表示だけでコンピュータを操作する方法だ。

次に登場したのが、現在主流の「GUI(Graphical User Interface)」。マウスや指を使い、画面に表示されたアイコン等を選択して操作する。CUIよりも視覚的に分かりやすく、直感的な操作が可能なUIとして普及している。

そして、このGUIの「次」と目されるのがVUI。キーボードやマウスの代わりに「声」を使うことでデバイスの操作や、情報のやり取りを行うことができる。冒頭で挙げたような、音声アシスタントやスマートスピーカーをイメージすると分かりやすいだろう。音声データを文字へ変換していく音声認識技術や、言葉や文章を理解・処理するための自然言語処理、AIといったテクノロジーの進化に支えられ、急速に活躍の場を広げつつあるUIである。

人と人との「接点」の一つでもある「声」を使用するため、GUIよりもさらに自然、且つ直感的に利用できるのが特徴だ。そのため、例えば身体的ハンディキャップを持つ人々や高齢者等、これまでコンピュータやインターネットの利用が難しかった層との新たな「接点」としても期待されている。

事実、ビデオリサーチの調査(※1)を見ると、通常若年層のスコアが高くなるデジタル関連の調査項目において、「スマホの音声検索機能の利用率」だけはまったく逆の傾向を示している。18~34歳が5.8%であるのに対し、70~74歳は15.7%と、実に3倍近い開きがあることからも、VUIが持つ可能性が感じられるのではないだろうか。

より生活に密着していく音声アシスタント

冒頭で、国内の音声アシスタント・スマートスピーカー利用者が低い点に触れたが、その存在や便利さは少しずつ周知されてきている。

Amazonが2020年5月に発表した調査(※2)を見ると、一般生活者におけるスマートスピーカーの認知度は5割。スマート家電の中ではロボット掃除機(64%)の次に認知度が高いという結果になった。また、既に何らかのスマートスピーカーを利用している回答者のうち、約7割が音楽再生やアラーム・タイマーのセット、家電の操作などを声で行う体験に対し「満足に感じている」と回答している。

Amazonの調査結果。画像出典:アマゾンジャパン合同会社のプレスリリース(2020年5月13日発表、https://prtimes.jp/main/html/rd/p/000001133.000004612.htm)より

しかし、音声アシスタントに巨額な投資を行うプラットフォーマー達にとって、スマートスピーカーの普及は最終目標ではない。そこに載せられている音声アシスタントがユーザーにとって、文字通り「あらゆるサービスや機器」との接点になること。そして、そこからあらゆるデータを収集・活用することこそが真の目標だ。

それを示すように、Amazonの「Alexa」やGoogleの「Googleアシスタント」、LINEの「CLOVA」をはじめとする音声アシスタントの活躍の場は、今やスマートスピーカーやスマートフォンに留まらない。

例えば、最近流行している完全ワイヤレスイヤホン。Appleの「AirPods」シリーズを筆頭に、冒頭で紹介した「Google Pixel Buds」や、Amazonの「Echo Buds」(日本未発売)等、プラットフォーマー純正のものもあれば、好きな音声アシスタントを選んで利用できるサードパーティー製のものまで、ハンズフリーで使える取り回しの良さから愛用者が広がっている製品だ。購入の決め手が音声アシスタントであることは少ないかもしれないが、昨今ではビデオ会議のために購入した、というケースも多いだろう。

Google Pixel Buds。画像出典:Google Japan Blog(2020年8月4日投稿分、https://japan.googleblog.com/)より

「何ができるか分からない」という声も多く、やや導入のハードルが高いスマートスピーカーと違い、日常的に使用するデバイスに音声アシスタントを利用する準備ができている、というのはVUI普及にとって重要な要素だといえる。欧米ではAlexa対応の電子レンジが登場して話題を呼んだが、実際に生活必需品に「音声アシスタントが載っていることが当たり前」な世界に近づいているということだ。

また、VUIの大きなメリットとして「ながら操作」ができる、というものがあるが、この特徴と最も相性の良い日用品が車だ。

例えば、Amazonはアウディやフォードといった大手自動車メーカー各社と連携し、Alexaを搭載した車種を次々に増やしている。Googleはスマートフォンを対応する車のディスプレイに接続するだけで使用できるカーナビアプリ「Android Auto」を提供しており、2021年からはゼネラルモーターズとの連携強化も発表している。

ほかにも、LINEはトヨタ自動車と連携し、音声アシスタント「CLOVA」を使って音声操作が可能なカーナビアプリ「LINEカーナビ」の提供を行っている。走行データや日本語音声データ、SNSアプリ「LINE」の利用傾向等、両社が有するビッグデータや技術を掛け合わせることで、よりパーソナライズされた高精度なサービス提供を目指す取り組みだ。

LINEカーナビ。画像出典:LINE株式会社のプレスリリース(2019年9月10日発表、https://prtimes.jp/main/html/rd/p/000001787.000001594.html)より

カーナビや音楽再生機能はもちろん、国内においては走行中に声でLINEのメッセージを送信したり、受信したメッセージを音声で聞きたいというニーズは非常に多いだろう。

さらに、競争が激化する自動車業界内では、独自の音声アシスタント開発に乗り出す会社も少なくない。2020年10月30日にHondaが発売を予定している新型電気自動車(EV)「Honda e(ホンダ イー)」に搭載される「Hondaパーソナルアシスタント」もその一つ。同社と、音声認識技術の開発を行う米SoundHoundと共同開発したクラウドAIによる音声認識と情報提供を行う音声アシスタントで、「OK, Honda」と呼びかけることで利用可能。語りかけに対しキャラクターが7つの表情で反応したりするなど、車への愛着を感じられるような工夫が施されているという。

コロナ禍が生んだ新ニーズ

「Google Home」や「Amazon Echo」が日本に上陸し、LINEの「Clova WAVE」の販売が始まり、「スマートスピーカー元年」と呼ばれた2017年以降も、文化的背景や国民性の違い、同音異義言語や方言といった日本語の特性による難しさ等に阻まれ、欧米ほどVUIが普及していない日本。しかし技術の進化や、上述したような完全ワイヤレスイヤホンやマイク付きのスマートウォッチといったウェアラブルデバイス等の普及によって、じわじわと利用者を拡大しつつある。

さらに、新型コロナウイルスの感染拡大を受けて、VUIの特徴の一つでもあるハンズフリー、つまり「非接触」での操作が可能になる利点に大きな注目が集まっている。駅の自動販売機や案内板といった、不特定多数が利用する場面において、都度消毒が必要なタッチパネル等に代わるテクノロジーとして期待されているというわけだ。

またアクセンチュアの調査(※3)によれば、コロナ禍によりテクノロジー製品・サービスの購入や活用に関する関心が飛躍的に増加しており、スマートスピーカーについては回答者の6割近く(58%)が関心を示している。

画像出典:アクセンチュア株式会社のプレスリリース(2020年5月20日発表、https://prtimes.jp/main/html/rd/p/000000249.000019290.html)より

そして興味深いのは、音声アシスタントと話すこと等が自粛期間中の「孤独感を和らげる」ことにつながる、という声がある点。カスペルスキーの調査(※4)では、約7割が「テクノロジーの利用は、孤独感を和らげるのに役立つ」と回答している。自粛期間中、実際に孤独を感じたという回答者のうち約6割が「テクノロジーの利用に自信があれば、孤独感への対処に役立つと思う」と答えていることからも、個人レベルでも以前よりVUIへの関心が高まっていると考えられる。

画像出典:株式会社カスペルスキーのプレスリリース(2020年8月20日発表、https://prtimes.jp/main/html/rd/p/000000204.000011471.htmlより)
画像出典:株式会社カスペルスキーのプレスリリース(2020年8月20日発表、https://prtimes.jp/main/html/rd/p/000000204.000011471.htmlより)

加えて、在宅勤務が増えたことでビデオ会議等の通話内容をテキスト化するサービスの需要も高まっている。通話内容を自動で文字起こし・要約し、AIが内容の採点まで行うクラウドIP電話サービス「MiiTel」の利用者数は、緊急事態宣言の前後で約5,000人(※5)から約1万人にまで倍増(※6)。音声アシスタントとは異なるが、音声認識技術の需要が高まっている証拠と言えるだろう。

音声認識技術や自然言語処理、AIといったVUIを下支えするテクノロジーの進化には、大量のデータによる学習が不可欠だ。コロナ禍で利用者が増えることにより精度や体験が向上し、さらにVUIの利用者が増加する……という好スパイラルに入っていくのではないだろうか。

パーソナライズの精度が増す一方で、プライバシーの問題も

声紋による生体認証技術の存在からも分かる通り、声は、それ自体が個人情報だ。キーボードや液晶画面を経由する場合に比べ、ささいな一声であったとしても「特定の個人と紐づいた情報」として、裏でせっせと蓄積されていくことになる。

声という生体情報があらゆる情報や行動、サービスの接点になれば、企業によるパーソナライズも容易になるだろうし、その精度も各段に高まっていくだろう。ユーザーが得られる利点も大きいが、やはり問題となるのがプライバシーの問題だ。ちょっとしたメモから社外秘の会議まで、VUIの向こうにいる誰かが「聞き耳を立てている」とすれば、いくら便利でも安心して使えない。

Appleが「Siri」の音声分析を停止したことや、Googleの兄弟会社であるSideWalk Labsが進めていたスマートシティ計画を中止に追い込まれたことは記憶に新しいが、この点においては複数の企業・業界で度々取り沙汰されている問題だ。

データプライバシー問題は、今後も私たちユーザーと企業との間で綱引きが行われることになるだろう。SideWalk LabsやAppleは負けてしまったが、今後はユーザー心理を逆手にとって評価を上げる企業も増えていくはずだ。ユーザーに相応なメリットが無い限り、収集したデータを安易に外部へ渡さない姿勢を明示するなど、企業にはデータプライバシーをいかに使いこなすかの試行錯誤が求められる。

UIが集合知で完成度を高めていくものであるならば、なおさら利用者にそっぽを向かれないための工夫は必須。この点を理解し、使いこなす力を持った者こそが、より個人と“密着”したUI=VUI時代の覇者となる。

【出典】
※1 株式会社ビデオリサーチのプレスリリース(2018年2月13日発表)
※2 アマゾンジャパン合同会社「スマートスピーカーおよび音声アシスタントに関する調査」(2020年5月13日発表)
※3 アクセンチュア株式会社のプレスリリース(2020年5月20日発表)
※4 株式会社カスペルスキー「コロナ禍の孤独感に関する意識調査」(2020年8月20日発表)
※5 株式会社RevCommのプレスリリース(2020年4月10日発表)
※6 株式会社RevCommのプレスリリース(2020年8月27日発表)

Related