AIはどのようにして画像や音声や文章を読み込んでいるのか?

IT
この記事は約3分で読めます。

AIは画像認識とか、文字認識とか、音声認識とかしますが、どのようによみこんでいるのでしょうか?
人間ではなくコンピュータなので、数字でないと読み込むことはできません。
画像や文章、音声を数字に変換しているのです。

この画像を数字に変換する処理を、画像認識と呼びます。
同じように音声を数字に変換する処理を、音声認識と呼びます。
文章を数字に変換する処理を、自然言語処理などとよびます。

今回はこの「画像認識」「音声認識」「自然言語処理」の仕組みをしっかりと理解できるように説明します。

画像認識の仕組み

まずは画像→数字から行きましょう。

例えば下の写真があったとします。

これを細かく切り刻みます。

まだ荒いですが、細かく細かくしていくと1色となりますよね。
この色を中学校でならった三原色に基づいて、3つの数字(赤青黄)で表現します。
ちなみに数字は例ですので適当です。

https://gyazo.com/b33f4a692885cbc4a8ae90a3263e2b54

つまり、この色の集合体が画像であり、
画像の集合体が映像です。

したがって、画像はすげーいっぱいの数字で表現でき、
映像はとてつもなくいっぱいの数字で表現できるのです。

音声認識の仕組み

つぎは音声→数字に行きましょう。

音声は簡単です。さらっと行きましょう。
みなさん、こんな感じの音声の波形は見たことありますよね。

参考:https://math0.pm.tokushima-u.ac.jp/~hiroki/suen/onsei.html

つまり、音声を波形グラフに変換しそれを数字に変換しているのです。
中学校の時に習いましたが、グラフは数式に変換できますよね。それと同じようにこの音声の波形も数字に置き換えているのです。

自然言語処理の仕組み

つぎは文章→数字に行きましょう。
これはちょっと難しいです。

まずは以下の文章をイメージしましょう。

これを小学校でならった品詞分解を行います。

で、それぞれ数字を振っていく。(ダブっているのは同じ数字をナンバリング)

この数字を読み込んでいけばいいんじゃないの?と思うかもしれません。
でもこれだと単語同士の関係性がわからなくなります。
例えば、「てりやきバーガー」と「食べた」の関係性は、「プリン」と「食べた」の関係性に似ているとかが数字のみでは判断できません。

そこで新たな手法が発明されました。
特定の単語の前後に位置する単語群で、特定の単語を表現するという手法です。

もう少し具体的に話します。
たとえば、前後5単語とすると、それぞれの単語は下記のような感じに表せます。

  • ぼく→()()()()(), (は)(今日)(の)(朝)(てりやきバーガー)
  • は→()()()()(ぼく), (今日)(の)(朝)(てりやきバーガー)(を)
  • てりやきバーガー→(ぼく)(は)(今日)(の)(朝),(を)(食べた)(その)(後)(プリン)

この前後の単語をナンバーに置き換えて、中心の単語の識別番号とします。
下記のようなイメージです。

つまり、「ぼくは今日の朝、てりやきバーガーを食べた。その後、プリンを食べた。」は、以下のような数字で表現できるようになります。

(,,,,,2,3,4,5,6), (,,,,1,3,4,5,6,12), (,,・・・・・・

※これは自然言語処理の手法のうちの1つで、ほかにも方法がたくさんあります。

これで大概のものを数字に置き換えることができますね。以上「画像認識」「音声認識」「自然言語処理」の仕組みでした。

コメント

タイトルとURLをコピーしました