音声認識の認識率

 
なんだか最近、音声認識技術にスポットが当たっているように思う。
日経産業新聞でもよく、認識関係の製品の記事を見かけるようになった。
 
Google音声認識」で、
「こんなに認識するのかよ」
と思った人が多かったからかな。
 
音声認識の品質を表すのには、
 ・認識速度(RTF)
 ・認識率(WER)
で表される。
 
ここで重要なのは、
 ・その評価元に使っている音声は何なの?
 ・評価で使っている音声にカスタマイズしすぎてるだけなんじゃないの?
ってこと。
 
例えば、東北弁では99%認識するが、標準語だと80%しか認識しない、とか。
訛り、男女比、年齢を統計学的に正しく網羅してテストセットを作っているか、ってことがとても重要。
 
例えば一人暮らし老人にターゲッティングした製品なら、
60代以上の男女・各訛りでの認識率を評価したほうがいいし。
 
だから正直、〇〇%、ときくとウサン臭さを感じるのですよねw
お年寄り向け認識率90%!といっていても、
どんな地方のお年寄りでもほんとに9割認識すんのかな、っていう。