概要 - 話し言葉の文法的エラーコレクションのためのデータ増強

タイトル
話し言葉の文法的エラーコレクションのためのデータ増強

時間
2025-07-25 15:25:17

著者
{"Penny Karanasou","Mengjie Qian","Stefano Bannò","Mark J. F. Gales","Kate M. Knill"}

カテゴリ
{cs.CL,cs.AI,cs.SD,eess.AS}

リンク
http://arxiv.org/abs/2507.19374v1

PDF リンク
http://arxiv.org/pdf/2507.19374v1

概要

この論文は、スピーキング文法的エラーコレクション(SGEC)におけるデータ不足の課題に対処するために、完全に自動化されたデータ拡張パイプラインを提案しています。このパイプラインは、文法的なエラーと不自然な発音を含むオーディオテキストペアを生成し、元のデータセットを変更せずに強化します。 パイプラインは以下の3つの主要モジュールで構成されています: 1. **逆GECモジュール**:手動で校正されたトランスクリプションから文法的なエラーを含むテキストを自動生成するためのBART-largeモデルを使用します。このモジュールは、エラーを含む発話にトレーニングすることで、多様で意味のあるエラーを生成し、新しいエラーを含む出力の数を倍増させます。 2. **不自然な発音追加モジュール**:不自然な発音、遅延、繰り返し、そして誤発音などの不自然な発音を拡張されたテキストに追加し、不自然な発音の発生頻度を保ちつつ、テキストへの変更を最小限に抑えます。 3. **TTSモジュール**:F5-TTSなどのTTSシステムを使用して、拡張されたテキストから一致するオーディオを生成し、元の話者の声を保ちつつ、高いオーディオ品質を提供します。 論文は、生成されたデータの品質を評価するための4つの客観的な指標を提案しています: 1. **話者認証**:元の生成された話語の話者エンブリッディングの相似性を測定し、話者の同一性が保たれていることを確認します。 2. **ASR出力**:生成されたオーディオが対応する生成されたトランスクリプションにどれだけ近いかを評価するために、単語エラー率(WER)を計算します。 3. **BERTテキストベースのSLAスコアリング**:生成されたデータから予測されるSLAスコアと元のスコアを比較し、拡張されたコーパスが学習者の評価結果を変更していないことを示します。 4. **Wav2vecオーディオベースのSLAスコアリング**:生成されたデータから予測されるSLAスコアと元のスコアを比較し、元の音声特性が保たれていることをさらに確認します。 Speak & Improveコーパスにおける実験では、提案されたデータ拡張パイプラインが、カスケード、半カスケード、エンドツーエンドパイプラインを含むさまざまなパイプラインセットアップにおいて、テキストベースのGECとSGECタスクの両方のパフォーマンスを向上させることを示しました。


推奨論文

TRPrompt: テキストベースの報酬からクエリ意識的なプロンプト最適化をブートストラップする

セキュア・タグ・オブ・ウォー(SecTOW):マルチモーダルモデルのセキュリティのための強化学習を用いた反復的な防衛攻撃トレーニング

ベイズ的な異方分散ガウスプロセスのVecchia近似

ポッツ格子ゲージ理論のための一般化クラスタリングアルゴリズム

OMiSO: 神経集合状態を形成するための状態依存脳刺激の適応的最適化

制約表現可能な中間表現に導かれた3Dソフトウェア合成

多様な分子埋め込みの表現と統合のためのプラットフォーム

DEFNet: ブラインド画像品質評価のためのマルチタスクに基づく深層推論融合ネットワーク

エッジでTransformerを加速するための超低消費電力CGRA

他者の心:言語モデルが人間の時的認知を示す方法