音声認識とは

声で書く、声で動かす。
人と機械の新しいコミュニケーション

多くの人にとって、最も簡単なコミュニケーションの手段は声でのやりとりです。
声を文字に変換する音声認識技術により、キーボード入力やボタン操作などの不自由なコミュニケーションから、
人間本位の自然なコミュニケーションを実現します。

音声認識の基本的な仕組み

私たちは、普段の会話の中で他人の音声を自然に認識して意味を理解しているため、それが難しいことだとは思っていません。しかし、性別、話し方の癖、言葉遣いなど同じ内容の声でも、人や場面によって大きく様相が異なるため、コンピューターが人の音声を正しく認識することは簡単なことではありません。音声認識は、声の情報と言語の情報を密接に組合せながら、音声を「文字」に変換する技術です。

音響分析

例えば同じ「あ」という音でも、音声の波形は話者の性別や年齢、録音に用いるマイクなどによって変化します。
そのため、音声波形のデータをそのまま認識デコーダに入力するのではなく、音響分析によって音の特徴を数値化し、その数値（特徴量）を認識デコーダに入力します。

認識デコーダ

音響分析で抽出された特徴量を認識デコーダに入力することで、音声認識結果が出力されます。
認識デコーダは、「DNN-HMMハイブリッド型」と「End-to-End型」の2種類に大別できます。「DNN-HMMハイブリッド型」は、「DNN（Deep Neural Network, ディープニューラルネットワーク）」と「HMM（Hidden Markov Model, 隠れマルコフモデル）」を組み合わせた認識デコーダで、「音響モデル」「言語モデル」「発音辞書」の3つのパーツから構成されています。一方で「End-to-End型」は、認識デコーダがニューラルネットワークだけで構成されているというシンプルな構造が特長です。

音響モデル

音響モデルは、音響分析で抽出した特徴量が、どの音素に該当する確率が高いかを表す「音響スコア」を算出します。
一般的な音響モデルは、数千人、数千時間の音声を学習させて作成します。

言語モデル

文字列や単語列が日本語として適切かを評価するために使われます。日本語テキストを多く集め、統計処理したものが言語モデルです。

発音辞書

発音辞書は「哀れ」「哀願」「愛」といった単語とその読み、そして「aware」「aigaN」「ai」といった音素の表記を紐づけています。発音辞書により、単語を音素列（音素の並び）で表すことが可能です。

ディープラーニング技術

ディープラーニングとは、機械が人間の脳の構造をソフトウェア的に模倣し、データの特徴を学習して認識や分類を行う「機械学習」の手法です。
音声認識においては、音響モデルや言語モデルで活用されています。

音声認識の歴史

1950年代

音声認識の研究が始まる

1952

アメリカのベル研究所が、数字音声認識システム「Audery」を発表

1962

IBMが世界初の音声認識計算機「Soebox」を発表
京都大学が音声タイプライターを開発

1970年代

日本・ロシアで「DPマッチング法」が開発され、単語の連続認識が可能に

1980年代

カーネギーメロン大学が「隠れマルコフモデル」を応用し、
統計データに基づく音声認識を開発

1982

NECが日本初の音声ワープロ「VWP-100」を発売

1990年代

HMMと大規模音声データに基づく大語彙音声認識が確立

1995

MicrosoftがWindows95にスピーチツールを導入

1997

国内初の音声認識専業ベンダーとしてアドバンスト・メディアが創業

会社沿革を見る

2002

通信をベースとした世界初の分散型音声認識「AmiVoice DSR」を発表

2010年頃

音声認識にディープラーニング（深層学習）技術を実装

2011

AppleがスマートフォンにSiriを搭載

2015

「End-to-End型」の音声認識の研究が開始

2016

音声認識の要素技術として活用可能な、高精度かつ学習時間の短いニューラルネットワーク「Transformer」が登場

2017

Apple、Amazon、GoogleがAIスピーカーを発表

2019

音声認識APIを提供する開発プラットフォーム「AmiVoice Cloud Platform」をリリース

AmiVoice Cloud Platformを見る

2022

OpenAIが多言語の音声認識が可能なモデル「Whisper」を公開

声で書く、声で動かす。人と機械の新しいコミュニケーション