字幕化の記事でGoogleが凄いのは分かったけど、Siriとどっちが凄いの?
Web会議の字幕を音声認識で自動的につけるシステムの紹介を本ブログで行いました。そこで疑問が湧いたのが、Siri(Apple)と、どちらが凄いのだろう?ということでした。
思えば余り本気で比較したことはないし、Webで調べても文字認識の精度を比較したものはあまり見受けられませんでした。
ということで、音声認識対決Google対Siriを慣行いたします。
それぞれの歴史
Googleは2007年に音声認識技術を活用した無料の電話番号案内サービスを開始していて、ここで多くの音声データを入手し技術の強化に役立てたと言われています。また、2008年に音声検索機能をリリースしています。
Googleは買収に力を入れる企業として有名ですが、2013年に音声認識を研究するカナダのDNNresearch社を買収し、音声認識技術を高めていきます。
最近では、言語モデルを使用しない音声認識の研究にも力を入れているようです。言語モデルとは、単語と単語の繋がりを数学的に表したもので、この訓練には莫大な量のデータが求められます。言語モデルがなくなれば、音声認識は新たなステージに進むことができるかもしれません。
Siri
元々はSiri社によって2007年に開発された技術で、その起源は、アメリカ国防高等研究局により兵士の戦場でのサポートのためのAIプロジェクトとして開発が進められていたものです。
2010年にSiri社はAppleに売却され、iPhoneをはじめとした製品に搭載されることとなりました。
比較実験
前提条件
条件は以下の通りです。
- 環境による差を排除するために、同じ端末(iPhone6)を用いて行う
- Siriはメモ帳を開き、キー入力の画面から音声認識を行う
- GoogleはChromeの検索入力画面から音声認識を行う
- 雑音の無い室内で行う
試用したデータ
少し砕けたな感じの例文が良いと思い、おもしろニュースのデータを使用しました。
『実物大スライム、リアル世界に置いたらとんでもないことになったと話題に』の冒頭の文章約160文字です。
https://yukawanet.com/archives/suraimu20200531.html
実験方法
音声認識を起動した状態で、上の160文字程度の文章を読み上げて、得られた結果の差分を比較します。
実験結果
結果は以下の通りです。誤認識の部分は黄色くマーキングしています。脱字は()で補足していて、誤字としてカウントします。
オリジナル文
衝動買いって誰もが一度はしたことあるんじゃないかなと思います。筆者は本来店舗に赴いて実物を見てからでないと購入したくないタイプなんですが、こちらの話題は自粛期間中のオンラインショップでの衝動買いのようです。その商品の使い道について写真がたくさん載っているんですがそれがかわいすぎると商品を欲しがる声が続出しています。
衝動買いって誰もがいつでもしたことあるんじゃないか(な)と思います筆者は本来店舗にも見て実物を見てからナイト購入したがないタイプなんですがこちらの話題は自粛期間中のオンラインショップ(で)の衝動買いのようですその商品の使い道について写真がたくさん載っているんですがそれは可愛すぎると商品を欲しがる声が続出しています
正答率:143/159文字 → 89.9%
Apple
衝動買いって誰もが1度はしたことあるんじゃないか(な)と思います弊社本来店舗に赴いて実物を見てからではないと購入した答えないタイプなんですがこちらの話題は自粛期間中のオンラインショップでの衝動買いのようですその商品の使い道について写真がたくさん載っているのですがそれが可愛すぎると商品を欲しがる声が続出しています
正答率:154/159文字 → 96.8%
結果考察
正直言って、驚きでした。Googleの音声認識が凄い、というイメージがずっとあったので、Googleが勝つものとばかり思っていたからです。Googleの場合は、有償の音声認識APIを使えばまた違うのかもしれませんし、条件によっても変わってくるとは思います。
いずれにしても、高い正答率を誇っており、読んで意味が完全に理解できるレベルで認識していることがわかります。
音声認識は統計モデルによる推測であることから、一般的な表現が多い、ニュースというデータソースは、音声認識に有利に働くでしょう。日常会話のような、少し砕けたデータの場合は、もう少し正答率は落ちると思われます。
まとめ
GoogleとSiriの音声認識対決は、高いレベルでの戦いで、Siriの勝利となりました。音声認識は、まだ新しい分野なため、今後も活用範囲が広がっていくと想定されます。
当たな入力インターフェースとして、今後とも同行が気になるところです。
コメント