多くの人にとって、最も簡単なコミュニケーション手段は声のやりとりです。
音声認識技術の発展によって、キーボード入力やボタン操作など今までの不自由なコミュニケーションから、人間本位なコミュニケーションが可能になってきています。
音声認識技術の発展によって、キーボード入力やボタン操作など今までの不自由なコミュニケーションから、人間本位なコミュニケーションが可能になってきています。
音声認識の基本的な仕組み
私たちは、普段の会話の中で他人の音声を認識して意味を理解できるため、それが難しいことだとは思っていません。
しかし、話す人の性別、話し方の癖、言葉遣いなど様々な要因で、同じ内容の声でも様相は大きく異なるため、コンピューターにとって、音声を正しく認識することは簡単なことではありません。
しかし、話す人の性別、話し方の癖、言葉遣いなど様々な要因で、同じ内容の声でも様相は大きく異なるため、コンピューターにとって、音声を正しく認識することは簡単なことではありません。

音声認識処理では、声の情報と言語の情報を密接に組み合わせながら、文字へと変換します。
音響モデル
音響モデルは、この周波数成分や時間変化の分析を使ってその声が何かを判別します。
一般的な音響モデルは、数千人、数千時間の音声を統計的に処理したものを基礎としています。
一般的な音響モデルは、数千人、数千時間の音声を統計的に処理したものを基礎としています。
波形を切り出し、特徴量を調べ、
音響モデルの元となる音素モデルを作成します。
音響モデルの元となる音素モデルを作成します。

発話された声の特徴量がどの音素モデルにどれくらい近いかが計算されます。

言語モデル

文字列や単語列が日本語として適切かを評価するために使われます。日本語テキストを多く集め、統計処理したものが言語モデルです。
発音辞書

言語モデルの単語と音響モデルを結びつけるために発音辞書が使われます。
音響モデルは声の最小単位の"音素"ごとにモデル化されており、音素音響モデルを発音辞書に従って連結して、単語発話に相当する単語音響モデルを構成します。
音響モデルは声の最小単位の"音素"ごとにモデル化されており、音素音響モデルを発音辞書に従って連結して、単語発話に相当する単語音響モデルを構成します。
AmiVoiceの特長
「いつでも、どこでも、誰でも」
AmiVoiceは、国内シェアNo.1※の音声認識技術です。ビジネスや日々の生活に密着した多種多様なサービスにお使い頂けます。
※出典:合同会社 ecarlate「音声認識市場動向 2023」音声認識ソフトウェア/クラウドサービス市場
※出典:合同会社 ecarlate「音声認識市場動向 2023」音声認識ソフトウェア/クラウドサービス市場
豊富な導入実績
2万件以上の利用実績に基づく、多様なビジネスシーンのデータを集積。豊富なソリューションをラインアップ。
高い認識率
常に最先端の技術を研究し、最新のディープラーニング技術を実装。業界随一の高い認識率を誇ります。
自然な話し言葉の認識を実現
発話スピードやイントネーションへ柔軟に対応。日常会話のような、自然で長い発話でも高い認識精度を実現します。
幅広い業種と専門用語に対応
幅広い業種の専門用語に対応する音声認識エンジン。個別カスタマイズも可能です。
関連技術
-
音声対話
自然言語処理技術を活用し、人と機械との自然な対話を実現します。顧客対応、雑談対応、プロモーションセールス支援など、幅広い場面での活用が可能です。
-
発音判定
声のアクセントやイントネーションを音素単位で数値化して分析します。正しい発音と視覚的に比較することで、発音の習得を支援します。
-
声紋認証
声に含まれる個人性の情報を用いるバイオメトリッスク認証です。巧みなものまね声も通用しない高度な認証セキュリティを実現します。
各製品・サービス
-
議事録・書き起こし
-
コンタクトセンター
-
医療
-
開発向けAPI・SDK
-
製造・物流
-
商談記録・報告業務
-
建設・不動産
-
AI対話
-
マイクデバイス