スマホやスマートスピーカーはどうやって音声を認識している？音のデジタル化を解説 - ビジネス＋IT

jn.prelol.com

音声認識のイメージ（後ほど詳しく解説します）

スマホやスマートスピーカーはなぜ人の言葉がわかるのか？

　スマホやスマートスピーカーに向かって「Hey Siri」「アレクサ」「OK google」などと呼びかけてみると、反応があります。毎朝、天気をたずねたりする人もいるでしょう。どのように私たちの言葉を「理解」しているのでしょうか。

　「Hey Siri」「アレクサ」「OK google」といった言葉は、ウェイクワードといって、システムを呼び出す言葉です。この言葉でシステムが動きはじめます。人の言葉そのものを認識する必要があるため、このシステムには音声認識が必要になります。人がしゃべっている会話を、音声信号として取り出すことからはじまります。

ウェイクワードを探す。音声認識に対応したスマホやスマートスピーカーは、人が話す言葉から「Hey Siri」「アレクサ」「OK google」などを探す

　取り出した音声信号は、コンピューターが認識できるデータ（デジタル）に変換します。その中から、「意味のある文字」を「つながりのある言葉」として認識します。

　音声認識では、ディープラーニングの技術が重要な役割を担っています。ディープラーニングは、人間の脳の仕組みをコンピューター上で数値的に再現したものです。ここでいう脳の仕組みとは、ニューロン（脳を構成する神経細胞）とシナプス（他のニューロンとの接合部分）のことです。

　ニューロンとニューロンはシナプスで結びつき、記憶したり判断したりしています。この仕組みを真似た、層状のニューラルネットワーク（脳の構造を模したもの）をつくり、それぞれのつながりや関係を重みづけして判断に役立てていきます。

　たとえば、私が「こうきな」といったとします。AIのシステムは「こうきな」を「ほうきな」「おうきな」「ほくひあ」「そうきこ」……など、聞き間違えやすい発音から、私が言っていそうな発音を選んでいきます。

音声認識のイメージ。アナログの信号をデジタルの信号に変えて、コンピューターが認識できるようにする。例の場合、「こうきな」は「KO・U・KI・NA」「O・O・KI・NA」「HO・U・KI・NA」などの中から、最適だと考えられるものが選ばれるが、ときに聞き間違えることもある

　このときもディープラーニングの手法を使います。「こうきな」は過去に聞いたことがありそうなので、高い確率で選ばれます。その次に「ほうきな」、これも聞いたことがありそうなので、その次の候補に選んでいきます。このようにして、過去に聞いたことがある発音のつながりが候補に挙がります。

　次に、音声認識で得た情報を、人間の使う言葉や文章の持つ意味として認識します。自然言語処理（Natural Language Processing）です。

　私が「こうきな」に続いて、「かおり」といったとします。AIのシステムは、「こうきな」の音声認識で理解したのと同様に「かおり」も認識します。「こうきな」「かおり」といっていることを理解し、この発音のつながりから、意味のある文章を探し出します。

人と「会話」すればするほど賢くなっていく

　「こうきな」からは、「高貴な」「好奇な」「幸喜な」……と、意味がつながる言葉を探します。次に「かおり」から「香」「香り」「香織」「薫り」……などを候補に挙げていきます。出てきた候補から、文章として意味があり、過去に使われていた言葉や文章を選びます。その結果「高貴な香り」が選ばれるのです。

自然言語処理のイメージ。「こうきな」から「高貴な」「好奇な」「幸喜な」……などの言葉を選び、後に続く「かおり」も候補を選び、「高貴な香り」を選び出す。ここでも重みづけが重要になる

　ディープラーニングでは、今まで聞いたことがある音声のつながりや、言葉のつながり、文章で重みづけをしていきます。私たちがよく使う言葉や発音などを参考に言葉を選んだり、文章を理解したりするのですから、私たちとAIが過去にどんな会話をしたかが重要です。繰り返し学習し、私たちの話しかけた内容を正確に理解するようになっていくのです。

siriやアレクサは、人との会話をデータとして学習している。このような人との会話が履歴として、重みづけの参考になっていく

　デジタル化がもたらしたのは「音声認識」だけではありません。今、私たちがスマホで通話するとき、そのスピーカーから聞こえてくる声は、本人の声ではなく、事前に登録された声の波形データから作成されています。

【次ページ】スマホの音声は本物ではない？

Let's block ads! (Why?)

"どうやって" - Google ニュース
December 12, 2020 at 05:10AM
https://ift.tt/2IIVrus

スマホやスマートスピーカーはどうやって音声を認識している？音のデジタル化を解説 - ビジネス＋IT
"どうやって" - Google ニュース
https://ift.tt/2DFeZd1
Mesir News Info
Israel News info
Taiwan News Info
Vietnam News and Info
Japan News and Info Update
https://jn.prelol.com/

Bagikan Berita Ini

Search

スマホやスマートスピーカーはどうやって音声を認識している？音のデジタル化を解説 - ビジネス＋IT

スマホやスマートスピーカーはなぜ人の言葉がわかるのか？

人と「会話」すればするほど賢くなっていく

0 Response to "スマホやスマートスピーカーはどうやって音声を認識している？音のデジタル化を解説 - ビジネス＋IT"

Post a Comment

スマホやスマートスピーカーはどうやって音声を認識している？ 音のデジタル化を解説 - ビジネス＋IT

スマホやスマートスピーカーはなぜ人の言葉がわかるのか？

人と「会話」すればするほど賢くなっていく

0 Response to "スマホやスマートスピーカーはどうやって音声を認識している？ 音のデジタル化を解説 - ビジネス＋IT"

Post a Comment

スマホやスマートスピーカーはどうやって音声を認識している？音のデジタル化を解説 - ビジネス＋IT

0 Response to "スマホやスマートスピーカーはどうやって音声を認識している？音のデジタル化を解説 - ビジネス＋IT"