音声認識とは

声で書く、声で動かす。人と機械の新しいコミュニケーション
多くの人にとって、最も簡単なコミュニケーション手段は声のやりとりです。 音声認識技術の発展によって、キーボード入力やボタン操作など今までの不自由なコミュニケーションから、人間本位なコミュニケーションが可能になってきています。

音声認識の基本的な仕組み

私たちは、普段の会話の中で他人の音声を認識して意味を理解できるため、それが難しいことだとは思っていません。 しかし、話す人の性別、話し方の癖、言葉遣いなど様々な要因で、同じ内容の声でも様相は大きく異なるため、コンピューターにとって、音声を正しく認識することは簡単なことではありません。

音響モデル

音響モデルは、この周波数成分や時間変化の分析を使ってその声が何かを判別します。
一般的な音響モデルは、数千人、数千時間の音声を統計的に処理したものを基礎としています。
波形を切り出し、特徴量を調べ、音響モデルの元となる音素モデルを作成します。
発話された声の特徴量がどの音素モデルにどれくらい近いかが計算されます。

言語モデル

文字列や単語列が日本語として適切かを評価するために使われます。日本語テキストを多く集め、統計処理したものが言語モデルです。

発音辞書

言語モデルの単語と音響モデルを結びつけるために発音辞書が使われます。
音響モデルは声の最小単位の"音素"ごとにモデル化されており、音素音響モデルを発音辞書に従って連結して、単語発話に相当する単語音響モデルを構成します。

関連技術:声紋認証

声を利用するバイオメトリッスク認証です。
声に含まれる言語情報を用いるのが音声認識ですが、一方で、声に含まれる個人性の情報を用いるのが声紋認証です。
人だと間違ってしまい易い物まね声でも、人ごとに周波数成分の強度と変化を表す声紋が異なることから判別が可能です。

AmiVoiceの特長

「いつでも、どこでも、誰でも」
AmiVoiceは、世界トップレベルの音声認識技術を搭載し、実用的に、ビジネスや日々の生活に密着した多種多様なサービスへと反映することができます。

事前に自分の話し方のクセを学習させる必要がないため、老若男女を問わず、誰もが簡単に音声認識を行えます。アクセントや会話スピードに左右されずに音声を認識するので、より自然な発話を認識します。

音声認識に利用した発話者の音声は、非常にコンパクトなデータとして保存されるため、テキスト化したデータとともに保存しておくことが可能です。そのため、認識を終えたあとに再編集することや、議事録として保存しておくことにも向いており、音声とテキストのデータベース化に活用することができます。

スピーディに音声認識することができるか否かは、音声を認識する精度に左右されます。AmiVoiceは、ある程度明瞭な発話に対し高い認識率を誇っており、ほぼリアルタイムに認識処理を行うことができます。結果、即応性の求められるさまざまなシステムへの応用が実現します。

周囲の騒音や雑音は、認識率に大きく影響します。AmiVoiceは世界トップクラスの技術により、会話からノイズを可能なかぎり除去します。街中はもとより、自動車・電車・飛行機などの騒音、電話などの聞き取りづらい音声にも対応が出来るため、各分野から実用化への大きな期待が寄せられています。

幅広い分野でAmiVoiceが利用されています