音声認識の仕組み

声で書く、声で動かす。人と機械の新しいコミュニケーション
多くの人にとって、最も簡単なコミュニケーションの手段は声でのやりとりです。 声を文字に変換する音声認識技術により、キーボード入力やボタン操作などの不自由なコミュニケーションから、人間本位の自然なコミュニケーションを実現します。

音声認識の基本的な仕組み

私たちは、普段の会話の中で他人の音声を自然に認識して意味を理解しているため、それが難しいことだとは思っていません。 しかし、性別、話し方の癖、言葉遣いなど同じ内容の声でも、人や場面によって大きく様相が異なるため、コンピューターが人の音声を正しく認識することは簡単なことではありません。
音声認識は、声の情報と言語の情報を密接に組合せながら、音声を「文字」に変換する技術です。

音響モデル

音響モデルは、この周波数成分や時間変化の分析を使ってその声が何かを判別します。
一般的な音響モデルは、数千人、数千時間の音声を統計的に処理したものを基礎としています。
波形を切り出し、特徴量を調べ、音響モデルの元となる音素モデルを作成します。
発話された声の特徴量がどの音素モデルにどれくらい近いかが計算されます。

言語モデル

文字列や単語列が日本語として適切かを評価するために使われます。日本語テキストを多く集め、統計処理したものが言語モデルです。

発音辞書

言語モデルの単語と音響モデルを結びつけるために発音辞書が使われます。
音響モデルは声の最小単位の"音素"ごとにモデル化されており、音素音響モデルを発音辞書に従って連結して、単語発話に相当する単語音響モデルを構成します。

ディープラーニング技術

ディープラーニングとは、機械が人間の脳の構造をソフトウェア的に模倣し、データの特徴を学習して認識や分類を行う「機械学習」の手法です。

AmiVoiceの特長

「いつでも、どこでも、誰でも」
AmiVoiceは、国内シェアNo.1の音声認識技術です。ビジネスや日々の生活に密着した多種多様なサービスにお使い頂けます。

※出典:ITR「ITR Market View : AI市場2018」「ITR Market View:AI/RPA市場2017」 ベンダー別売上金額シェア(2015~2018年度予測)

ディープラーニング技術

最新のディープラーニング技術や、ディープラーニングの発展技術であるリカレントニューラルネットワークのLSTM(Long Short-Term Memory)技術をエンジンに実装。高い認識率を誇ります。

幅広い業種と専門用語に対応

20年以上を超える経験とノウハウを元に開発した、医療・金融・自治体・製造・建設など、幅広い業種の専門用語に対応する音声認識エンジンを取り揃えています。企業ごとや業務ごとの個別カスタマイズを行う事も可能です。

自然な話し言葉の認識を実現

アクセントやイントネーション、会話スピードに左右されず、より自然な発話を認識します。事前に自分の話し方のクセを学習させる必要がないため、老若男女を問わず、誰もが簡単に音声認識を行えます。

強力なノイズ除去技術で耐雑音性能

周囲の騒音や雑音は、認識率に大きく影響します。強力なノイズ除去技術で、街中はもとより、工場、自動車・電車・飛行機などの騒音、電話などの聞き取りづらい音声など、利用場所やシーンを選びません。

関連技術

  • 音声対話

    自然言語処理技術を活用し、人と機械との自然な対話を実現します。顧客対応、雑談対応、プロモーションセールス支援など、幅広い場面での活用が可能です。

  • 発音判定

    声のアクセントやイントネーションを音素単位で数値化して分析します。正しい発音と視覚的に比較することで、発音の習得を支援します。

  • 声紋認証

    声に含まれる個人性の情報を用いるバイオメトリッスク認証です。巧みなものまね声も通用しない高度な認証セキュリティを実現します。

幅広い分野でAmiVoiceが利用されています