「機器に向かって独り言のように声で操作するのは少し抵抗感がある」と言っていたスマートスピーカーだが…先進技術を楽しむには、いつまでもそんな事は言ってられないので先日、勇気を出して今流行のスマートスピーカーである「Amazon Echo Dot」を購入してみた。我ながら進歩だ。これで音声によってマランツのAVアンプ(HEOS搭載)から音楽を流したり止めたりボリュームを上げ下げできるようになる。
Amazon Echo Dotは未だ私自身もよく分からない事もあるので週末に色々イジッてみたい。ということで今回は購入の報告と何故、そもそも何故私は機械に向かって喋るのが苦手なのかを客観的に考えてみた。現代のSiriやGoogleアシスタントに慣れている人からすれば「何言ってんだコイツ」と思われそうだ。
機械に向かって独り言を言っている様な感覚
以前試しにiPhoneのSiriやインストールしたGoogleに声で操作したこともあるが、何か通話でもないのに真顔でiPhoneに向かって1人で喋っているのが機械に向かって独り言を言っている様で自分が異様に感じた。しかもGoogleは比較的認識が正しいので少しは感動したものの、Siriに関しては誤認識が多く、意図しない言葉に勝手に変換され、それに対して「すみません、よくわかりません」と返されると、まるでこちらの発音が悪いかのようにバカにされているようだった。Siriは日本語文に混ぜたカタカナ発音英語発音が特に誤認識されやすい。文節毎に1拍おきながら話すと比較的通じやすいようだ。
「書く」文化と、「話す」文化
こういった音声認識AI機器は基本的に英語圏の機器なのだなと実感する。英語は発音さえ間違わなければ言葉自体は単純な構造なので、日本語のような言葉の言い換えや、普段の会話で他言語のワードを混ぜた話し方もしない。日本語は海外の人からするとかなり複雑で難しいらしい。日本語にはあるが外国語にはない言葉も多い。しかも日本語は言葉の違いが方言によってさまざまあり、標準的な単語でさえ発音自体は曖昧。「下記」「書き」「夏期」「牡蠣」「柿」「垣」などイントネーションも地方によって様々。しかし、その分前後の言葉や文脈から特定できることが多い。人間同士だから通じることも単語毎にワードを取り出す音声認識AIはどの「カキ」なのか特定出来ないことが多い。文字で書けばすぐに分かる事からも基本的に日本は「書く文化」で海外は「話す文化」で成り立っているのだなと考える。字の美しさにこだわり、小学校から書道の授業があったり、ペン字の通信教育があるのも日本ならではと感じる。
そういう私もお喋りは得意な方ではない。書く方がよほどラク。文章を書き終わってからでも言い方を変えたり、訂正したり、取り消したりもできる。このブログでも2千文字以上書くことあるが、これを対面では絶対に一気に喋れない。
日本語が随分通じるようになったが
そんな「書くことが基本」のような日本語音声を音声認識AIに理解させるため、開発者の努力によって最近はようやく言葉の前後の文脈である程度予測してくれるようになった。以前に比べれば随分とこちらの意図することが伝わるようになってきたと思うが、それでもかなり人間側が音声認識AIに分かり易いように気をつけて喋っているのは変わらない。一気に意図することを的確に伝えなければ通じない。普段なら「あれ、アレ…なんだっけ?…えっと、そうそう、△△△という曲を聴きたいんだけど、○○(アーティスト名)のアルバムある?」って言っても人なら通じるが、音声認識AIに先の言葉をそのまま言っても全く通じるはずもなく、的確に「○○の△△△かけて」と一発で言わなければならない。
アレクサ(音声認識AI)に気遣い
機器に対してのそのヘンな気遣いが私にとって違和感を抱く部分なのかも知れない。人には文脈を読み取る能力があり、多少の言葉足らずでも補える能力があるから話が成立する部分も多々ある。しかし、音声認識AIは結局コンピュータなので条件やアルゴリズムで解析する。そこに主語がなにであるかを判断する能力や、気遣いや“行間を読む”などは存在しない。咬(か)まずに、的確にハッキリと目的を話すことが求められる。言葉に詰まったり、咬んでしまったり間違えても言い換えができない。その場合は「すみません、よくわかりません」と冷たく返される。そうならないためにちゃんと言おうとすると反って少しヘンな緊張感も芽生えてくる。
アレクサに意図せずボケる
それの最たるものが、Echo Dotのセットアップを終了させてマランツのアンプで音楽を再生するときに、私はアレクサに向かってマジ顔で「“マランツ”、音楽を再生して」と言ってしまった…。当然、AVアンプであるマランツは無反応。アレクサも無反応。唯一の反応が妻の笑いだった。
この記事へのコメントはありません。