FAQ

  • 質問と回答です.

音声認識結果は表示されるのに、音声が再生できません

Podcastleでは、ポッドキャストの公開元のサイト上にあるMP3ファイルを、 直接ユーザが聴くようになっています。 そのため、ポッドキャストの公開元がMP3ファイルを削除すると、 音声の再生ができなくなります。 これが原因かどうかは、 閲覧・編集画面上部の「MP3ファイル」をクリックして、 MP3ファイルにアクセスできるかどうかで判断できます。

ポッドキャスト毎の音声認識精度の違い

Q. 音声認識がうまくいっているポッドキャストと、うまくいっていないポッ ドキャストの落差が激しいようですが?

一般にアナウンサーのようなきれいな発声はうまくいくことが多いです。一方、 背景に音楽が鳴っていたり、対談形式で複数の人が話していたり、くだけた口 調で話していたりするとうまくいかないことが多いです。そのような場合でも、 しつこく認識結果の訂正を続けていくと、訂正の結果をシステムは自動的に学 習していきますので、いつのまにか認識できるようになるかもしれません。 Podcastleは「学習する音声認識システム」を塔載していますので、みんなで 訂正しながら音声認識システムを育てて、なんとかうまく認識できるようになっ ていければと願っています。

認識結果の候補の区切りが間違っていてうまく訂正できません

候補の時間的な区切りはあまり気にせずに、 タイプ入力したり削除したりして問題ありません。 例えば、元は一つの単語のところに、複数の単語を入力しても大丈夫です。 訂正してからしばらくはその近辺を再生するときにカーソルがずれた状態になることがありますが、 後日(当面はかなり時間がかかります)、 音声認識システムが自動的にずれを直してくれます。

認識結果にときどき出てくる「 (音楽) 」はなんですか?

ポッドキャスト中の音楽の区間を表しています。 Podcastleでは音声認識の前に、 どの区間が音声でどの区間が音楽かを判断して、 音声の区間だけ音声認識しています。 ただし、その精度は完璧ではないため、 音声の区間が音楽だと間違われてしまうと、 訂正作業が難しくなってしまうという問題があることがわかっています (正解テキストは長くても大丈夫なので、一応タイプ入力すれば訂正はできます)。 解決策を検討中です。

日本語以外のポッドキャストには対応しないんですか?

現段階では、日本語以外のポッドキャストには対応しておりません。 日本語以外の音声は、何らかの日本語の文字列として誤認識されてしまいます。 将来対応することを検討しています。

どのようにして音声再生個所を取得しているのですか?

JavaScriptとプラグインの連携で行っています。QuickTimeやFlashというプラ グインで音声の再生を行い、JavaScriptから現在再生している個所の時間情報 をポーリングで取得します。画面に表示されているテキストはそれぞれの単語 毎に開始時間と終了時間が設定されており、再生中の時間に対応する単語をハ イライトしています。

Last modified: 2009-03-02 Attached files total: 42KB