本文へジャンプ

FAQ AmiVoice®の音声認識技術について

  • AmiVoiceの特徴は?AmiVoiceと他の市販されている音声認識エンジンとの違いは?
  • 事前の声の登録が一切必要ありません。
    「AmiVoice」は発話者の声を事前に登録する必要が一切ありません。 市販されている代表的な音声認識エンジンは高い認識率を求める場合にはどうしてもエンロールメント(事前の声の登録)が必要です。
  • 誰の声でも認識しますか?
  • 誰の声でも認識します。
    発音の明瞭度、喋り方、声の大きさ等によって認識率は多少左右されます。
  • イントネーションの違いや方言は大丈夫ですか?
  • かなりのイントネーションの違いや発話スピードの緩急に対応しています。 ただし、方言については新たに登録をする必要があります 。
  • 単語ごとに発話すると誤認識が多いのですが…
  • AmiVoiceは前後の単語を見ながら認識結果を出していますので、 文の途中で発話を区切ると誤認識の原因となります。できるだけ一文単位で発話するように心がけてください。
  • ディクテーションを行う場合のヒントを教えてください。
  • 以下のヒントを参考にしてください。
    ・ディクテーションでは、マイクから入力されるすべての音が日本語の文章として解析されます。 途中で言い直したり、"え?と"とか"ん?"などと言うと、すべてその文脈の中での単語として見なされてしまいます。
    ・ 一気に発話する方法を心がけてください。 あまり認識中の画面を見ずに一気に最後まで読み上げてください。 AmiVoiceは前後の関係から最も最適な語を類推するため、発話を細切れにしてしまうと誤認識する場合があります。 一文節もしくは一文ぐらいを目安に句読点まで一気に入力してください。
    ・ AmiVoiceは最初の数語を聞いてその人の特徴を把握しようとします。 したがって、最初の数語は認識率があまりよくありませんが、気にせずどんどん入力してください。
    ・ 明瞭な声ではっきりと発話してください。
  • 自分たちでディクテーション用の言語モデルを作成できますか?
  • 言語モデルを作成できるツールは販売しておりません。請負で弊社が作成いたします。
  • 言語モデルを作成するために何を用意したらいいですか?
  • 認識対象のテキストデータ(10MB以上が望ましい)と、単語とその読みのペアの辞書テキスト(CSV形式が望ましい)をご用意ください。
  • 言語モデルのカスタマイズにはいくらぐらいかかるのですか?
  • 用途と作成すべき言語モデルの種類、学習テキストの量などによって変わります。 別途お見積もりさせていただきます。
  • 漢字変換はどのようにしているのですか?
  • 複数の音素列候補から辞書を用いて漢字変換し、複数の単語列候補を出力し、音響的モデルと言語的モデルで計算した確率の最も高い単語列を認識結果とします。 音声認識では一般的なFEPのように平仮名で出力してから漢字候補を選択して文字を確定するのとは根本的に異なったシステムで文字変換をしています。
  • 平仮名で一文字ずつでもよいので入力させたいのですが。
  • 言語モデルは漢字仮名混じりの単語単位での出現確率値を用いているため、平仮名での一文字ずつの認識では音響モデルの確率値しか使えません。誤認識が多く発生するため実用化しておりません。