スマホの聴き取り性能の限界に挑戦 100デシベル超えの超ウルサイ騒音下で音声認識は使えるのか?

スマホに標準で搭載されている音声認識機能は、実はかなり便利。昔に比べて認識の精度も向上しており、普通に使っている分には認識ミスはめったに起きない。スマホに向かって話しかけるだけで単語を入力できるので、外出先でちょっとした調べものをしたいときに、立ち止まらずに音声で単語を入力して検索……といった用途に向いている。特に、フリック入力が苦手な人は大助かりだろう。
とはいえ、音声認識が苦手とするシチュエーションもいくつか存在する。特に「造語」と「騒音」に関しては、現在の技術をもってしてもエラーは避けられないようだ。スマホの音声認識がとこまで正しく言葉を聞き取れるのか、限界に挑戦してみたぞ。


あんスマはパンツマン!? Google音声認識で最も難易度が高いのは造語

Androidの音声入力では、Googleの持つ膨大なデータベースを生かした認識技術が使われている。入力された音声を、過去の入力パターンの蓄積と照らし合わせて、もっとも近い言葉を選び出す仕組み。そのため、世の中一般でよく使われている単語ほど、情報の蓄積が多いため認識率が高くなる。逆にマイナーな単語はなかなか認識されず、世間でほとんど使われていない造語に至っては、どんなに丁寧に発音してもまず認識されない。

ansma_01
Google音声入力は、世間一般で使われている単語の認識力は非常に高い。例えば、聴き取りが難しいように思える「きゃりーぱみゅぱみゅ」や「マチュピチュ」という単語も、ほぼ一発で認識。データベースを参照するため、多くの人に入力された言葉ほど認識精度は高くなる

ansma_02
しかし、これが未知の組み合わせの単語だと途端に精度が落ちる。例えばこのサイト名である「あんどろいどスマート」。「あんどろいど」までは正しく認識するのだが、その後に「スマート」と続くのが想定外らしく、後半の精度はガタッと落ちる。正しく認識させるには10回近く繰り返す必要がある

ansma_03
さらに略称の「あんスマ」になると、完全な造語であるため認識させるのはかなり難しい。一音一音を区切ってゆっくりと発音しても認識ミスを連発。単語自体がGoogleのデータベースに存在しないためか、響きが似ているほかの単語を勝手に当てはめてしまうのだ。それにしても「あんスマ」を「パンツマン」と認識するのはヒドい……

劣悪な騒音下でスマホの音声入力は使えるのか?

スマホの音声認識のもう1つの大敵が「騒音」。入力された音声が聞き取れないほどに周囲がうるさいと、当然、音声認識は使えない。しかし、ある程度大きな都市にいれば、周囲がうるさいのは当たり前。大通りや駅のホームなど、騒音下の状況でスマホを使う場面はいくらでもある。そこで、騒音のうるさい場所で音声認識を使って、どの程度の騒音で利用に支障が出るのかを調べてみたぞ。なお、記事内のデシベルの数値は、騒音計アプリ「騒音測定器」で計測したもの。

【75デシベル】渋谷の交差点で音声入力してみる

sibuya
一般道路の中ではもっともうるさい場所の1つであろう、渋谷の駅前交差点で音声入力してみた。ちょうどお昼の12時頃なので交通量、人通り共にかなり多い。騒音計アプリで周囲のうるささを計測すると75デシベル前後を記録。少し声を張らないと会話が難しいくらいの騒音だ

Screenshot_2012-10-06-20-27-20
「きゃりーぱみゅぱみゅ」と入力したところ正確に認識。騒音のせいでミスが増えるといった傾向は特に見当たらず。周囲の騒音が70デシベル台であれば、音声認識は何の問題もなく利用できる

【80デシベル】地下鉄のホームで音声入力してみる

chika
地下鉄のホームは到着した電車の騒音が壁に反響してかなりうるさい。さらに混雑している時間帯だと駅員によるアナウンスも大音量で流れている。渋谷駅の銀座線ホームで騒音を計測したところ、電車が到着したタイミングで騒音計の数値は83デシベル。この状況下で音声入力は使えるのか……?

Screenshot_2012-10-06-23-10-09
音声自体がなかなか認識されずエラー連発。おまけに近くで駅員がマイクを使ってアナウンスしているため、その声を拾っておかしな認識結果になることもしばしば。騒音が途切れたタイミングで上手く入力されることもあるが、それも7回に1回程度。駅のホームでの音声入力はかなり厳しそうだ

【90デシベル】パチンコ屋で音声入力してみる

cap_18
街中での騒音の最たるものといえばパチンコ店。店の周囲を歩いているだけでも、漏れ出してくる音量は凄まじいものがある。パチンコ店の内部の音量を騒音計アプリで測ってみたところ、97デシベルを記録。この大音量の中、音声入力は行えるのか……?

pachi
スマホを口元に近づけて大声を出しているのだが、毎回エラー。どんなに声を張り上げてもまったく認識される気配なし。騒音のボリュームがスマホの認識性能の限度を完全に超えてしまっている

【100デシベル】カラオケボックスで音声入力してみる

DSCN1018
パチンコ店をさらに上回る騒音スポットがある。それはカラオケボックス。御茶ノ水駅にあるカラオケ館で、クレイジーケンバンドの『タイガー&ドラゴン』の熱唱しながら計測してみたところ、音量はなんと102デシベル。この騒音下で、スマホの音声入力はどのような反応を示すのだろうか

karaoke_03
「俺の話を聞け~♪」と大熱唱が続く中、スマホに向かって声を張り上げたが、認識される以前に処理の段階でフリーズ。画面には音声の波形が表示されているが、完全に振り切れてしまっている。騒音が100デシベル台になると、マイクに近い遠いは関係なく周囲の騒音をことごとく拾ってしまうため、音声認識はまったく使えないという結果に

関連記事

2012年10月06日23時36分 公開 | カテゴリー: 文書編集 | キーワード: | Short URL
このエントリーをはてなブックマークに追加

最新記事