« # 転んでもただでは起きない - その2:音声入力 | トップページ | # 9月~10月のイベント情報 »

2017.08.27

# AmiVoiceについて少し補足

AmiVoiceについて、少し補足しておきます。


1. 音声認識の限界 - 専門語

まず予想されることですが、一般性の低い専門用語はほとんど認識されません。これには、単語登録で対応します。

私の仕事だと、「マルウェア」は最初から認識されましたが、「ランサムウェア」はだめでした。そのほか、「インシデント」とか「シームレス」とか、カタカナ語はどんどん登録しています。「アシュ=亜種」も認識されなかったので、登録しました。

医薬や金融のように、専門性がもっと高いと、音声入力は厳しいかもしれません。

2. 音声認識の限界 - 音節の少ない単語

単語やフレーズではなく長い文章で発声したほうがいいと書きましたが、音節数の少ない単語は、文脈にかかわらず認識されないことがあります。

何度やってもだめなのが、「ニンイ = 任意」でした。n音のあとに母音が続くので、もともと発音しにくい=聞き取りにくい単語なのでしょう。

それから、「ほぼ」も、先ほどの記事では「ほぽ」(濁点ではなく、半濁点)になっていて、JustRightで間違いが見つかりました。「ひっしゃ=筆者」もダメで、もしかするとハ行始まりは全般的に苦手とも考えられます(私の発音が悪いだけかも)。


3. 音響学習

認識機能を最初からトレーニングする必要はありませんが、使っているうちに、ユーザーの音声の特徴を学習していく機能があります。使えば使うほど認識精度が上がってくるということです。

たとえば、先ほど「ニンイ = 任意」がなかなか認識されないと書きました。実は、今はもう文脈なしに「任意」という単語だけ発声しても正しく認識されています。「ひっしゃ=筆者」も、そのうち正しく認識されるようになるかもしれません。


4. 音声コマンド

改行するとか、何文字か戻るとか、そういうコマンドも音声でコントロールできます。キーの組み合わせを登録してカスタムコマンドを登録することもできます。

私などは、手の補助として音声入力を使っているだけですが、もっと全面的に音声に依存するユーザーが、音声コントロールだけでどこまでコンピューターを使えるものか、今はまだ判断できません。


5. 英語音声の認識

たとえば、「あんどろいど」と発声すると「アンドロイド」のほかに「Android」も候補として表示されます。でも、これは固有名詞として登録してあるだけです。

「英語の発音には対応していない」

とマニュアルに書いてありました。英語音声を入力したい場合は、やはりDragonでしょうか。


6. 発声について

私が音声入力するところを聞いていた家族が、「意外と、ぼそぼそしゃべるんだね」と言ってました。たしかにそのとおりで、頑張って声を張り上げたりしなくても、きちんと認識してくれます。

逆に、周囲の音を拾いすぎてしまうということも、まずありません。いつもどおり、PC脇のスピーカーからBGMが流れていても、まったく影響しないくらいです。もっとも、これはAmiVoiceの性能(だけ)ではなく、マイクのノイズキャンセリング性能のおかげかもしれません。

ということで、翻訳に音声入力を使う場合、分野によっても向き不向きがありそうです。試してみたいという方は、まず体験版からどうぞ。

08:56 午前 パソコン・インターネット 翻訳・英語・ことば |

はてなブックマークに追加

« # 転んでもただでは起きない - その2:音声入力 | トップページ | # 9月~10月のイベント情報 »

コメント

ご無沙汰しております。
フォーラムでお世話になっているMusashinoです。

お怪我されてしまったのですね。。どうぞお大事になさってください。

私も案件に応じてAmiVoiceを使っています。
認識のしやすさには確かにバラつきがあり、私の発音が悪いのかもしれませんが、あくまで私の場合、署名、証明、証書など、「さ行」の認識率が低いように思います。これに対する解決策として、単語登録機能の「読み」を、例えば「署名」→「サイン」、「証明」→「エビデ」(Evidenceの自己流の略)、「証書」→「サート」(Certificate)などのように、日本語には無さそうな読み方で、かつ、覚えられそうな読みを充てて登録しています。この方法は、例えば「補償」→「インデム」(Indemnity)、「保証」→「ワラント」(Warrant)などのような同音異義語や、認識率の低い頻出用語などにも使えると思います。)

それから、最近発見したのですが、フレーズごとにニュースのアナウンサーのような抑揚をつけると認識率が高まると思います。(画面に向かって抑揚をつけて話すは、ちょっと笑える光景かもしれませんが‥でも、確実に認識率は上がると思うので、是非試してみてください!)

Musashino

投稿: Musashino | 2017/08/27 13:17:55

Mushashinoさん、お久しぶりです。コメントありがとうございます。

たしかに、サ行も認識率が下がりますね。特に sha、shu、sho が弱い。

> ニュースのアナウンサーのような抑揚をつけると認識率が高まると思います

あ、はい。そうでした。アナウンサーというか、要するに標準語のアクセントとイントネーションで発声すると、精度がかなり違います。

投稿: baldhatter | 2017/08/27 13:32:04

この記事へのコメントは終了しました。