掲示板3

  • 質問、御意見、御感想などお書き下さい(お名前欄を入力しないと匿名になります)。
2008-06-13名無しさん
外国人が話す日本語に修正を加えるとパラメータが劣化することにはならないか。それとも、ネイティブの日本語話者にとって日本語として聞こえる範囲ぎりぎり一杯まで適応できるように最適化されることになるのか。
2008-06-14Anonymous
言葉が全然デタラメですね。。。

でも期待してます!
2008-06-16名無しさん
訂正結果による変化は、どのくらいの期間で現れるものでしょうか。
少しずつでも変化すれば(あるいは、反映したとのアナウンスがあるだけでも)、訂正に対する意欲が違うと思います。

まだ、立ち上げたばかりで、いろいろと大変だとは思いますが、期待しています。
2008-06-19名無しさん
外国人の名前や外国書のタイトルはどう修正すれば良いですか?
たとえば
「Robert Reich」「ロバート・ライシュ」
「The work of nations」「ザ・ワーク・オブ・ネーション」
みたいなケースです。
2008-06-20名無しさん
声と音楽が一緒になっている箇所は、今はまったく正しくは認識されていないのですが、声の方を入力しておいた方がいいのでしょうか。それとも、潔く(音楽)としてしまった方がいいのでしょうか。
2008-06-20名無しさん
単語の区切りが適切でない場合、どう入力すればいいでしょう。
たとえば、「最新」という語が以下のように認識されている場合はどうしましょう。
@ さ い しん
A さい しん

単語の単位を優先するのか(最初のマスに「最新」と入れて後は空欄にするのか)、音声とのタイミングを重視するのか(各マスに対応するひらがなを書くのか)。

名詞は単語重視で入力していますが、助動詞や助詞などはタイミング重視で入力しています。迷ってます。

2008-08-04石川慎一郎
完成したものを公開するというのではなく,ユーザーの自発的協力でデータを精錬してゆくという発想は斬新で,すばらしいものだと思います。「みんなで作る,音声データつき日本語話し言葉コーパス」として大きく育ててゆきたいですね。応援しております。

コメント欄は、SPAM対策のため廃止しました。右上のログインから、通常の Wikiページとして編集してください。

PodCastle開発者からのご回答 (後日、一部はFAQへ移動予定です)

外国人が話す日本語に修正を加えるとパラメータが劣化すること にはならないか。それとも、ネイティブの日本語話者にとって 日本語として聞こえる範囲ぎりぎり一杯まで適応できるように 最適化されることになるのか。

音声認識の学習は、ある程度のデータ量をもとに行われるので、「外国人が話す日本語」がそれほど多くない場合、 現状では、そのような音声に訂正を行っても悪影響はないと考えられます。 今後は、そのような音声に対する訂正に関しても、 より効果的に活用できるような学習方法についての研究も進めていきたいと思います。

訂正結果による変化は、どのくらいの期間で現れるものでしょうか。 少しずつでも変化すれば(あるいは、反映したとのアナウンスが あるだけでも)、訂正に対する意欲が違うと思います。

まだ、立ち上げたばかりで、いろいろと大変だとは思いますが、 期待しています。

貴重なご意見、どうもありがとうございます。 どのくらいの期間(訂正の量)でどの程度の効果が現れるかは、現在調査中です。 今後、「訂正によってどの程度、認識性能が向上しているか」を表したグラフ等を作成し、 サイト上で公開したいと思います。

外国人の名前や外国書のタイトルはどう修正すれば良いですか? たとえば 「Robert Reich」「ロバート・ライシュ」 「The work of nations」「ザ・ワーク・オブ・ネーション」 みたいなケースです。

基本的には、多くの人達が検索したいときにどちらで入力するか、で 判断してもらえればと思います。 音声認識の立場からは、カタカナ表記で修正していただければ、 その後の学習に利用しやすくなります。 ただし、英数字の単語でも、すでに一般的になっているものや、カタカナでは不自然なもの (例えば、Windows, Google, Java, Firefox, SMAP, KAT-TUN など)は、 そのまま英数字で記入していただいた方が、検索されやすくて便利かと思います (将来的にはどちらでも検索可能なようにしたいとは考えていますが、 現状では表記上同一なものしか検索できません)。

声と音楽が一緒になっている箇所は、今はまったく正しくは認識 されていないのですが、声の方を入力しておいた方がいいので しょうか。 それとも、潔く(音楽)としてしまった方がいいのでしょうか。

現状、背景で音楽が含まれている音声は認識が非常に難しく、今後の重要な研究課題にもなっております。 そのような場合の訂正は非常にやりにくいと思いますが、可能な範囲で「声の方」を入力していただけると、 音声認識の学習がより効果的になります。

単語の区切りが適切でない場合、どう入力すればいいでしょう。 たとえば、「最新」という語が以下のように認識されている 場合はどうしましょう。 @ さ い しん A さい しん 単語の単位を優先するのか(最初のマスに「最新」と入れて後 は空欄にするのか)、音声とのタイミングを重視するのか (各マスに対応するひらがなを書くのか)。 名詞は単語重視で入力していますが、助動詞や助詞などは タイミング重視で入力しています。迷ってます。

丁寧に訂正をしていただき、どうもありがとうございます。 上記の例のように、名詞など、特に漢字混じりの単語に関しては、 タイミング重視(各マスに対応するひらがなを書く)ではなく、 "単語重視"(最初のマスに「最新」と入れて後は空欄)での入力をお願いします。 助動詞や助詞などに関しては、可能な範囲でタイミングを重視して入力していただければと思いますが、 手間が大きければ、一つのマスにまとめて入力しても大丈夫です。

Last modified: 2009-06-24 Attached files total: 42KB