概要 - 2025年インタースピーチ音声アクセスプロジェクトチャレンジ

タイトル
2025年インタースピーチ音声アクセスプロジェクトチャレンジ

時間
2025-07-29 17:50:59

著者
{"Xiuwen Zheng","Bornali Phukon","Jonghwan Na","Ed Cutrell","Kyu Han","Mark Hasegawa-Johnson","Pan-Pan Jiang","Aadhrik Kuila","Colin Lea","Bob MacDonald","Gautam Mantena","Venkatesh Ravichandran","Leda Sari","Katrin Tomanek","Chang D. Yoo","Chris Zwilling"}

カテゴリ
{cs.AI}

リンク
http://arxiv.org/abs/2507.22047v1

PDF リンク
http://arxiv.org/pdf/2507.22047v1

概要

Interspeech 2025 Speech Accessibility Project(SAP)チャレンジは、語音障害を持つ人々のための自動音声認識(ASR)を進めることを目指していました。EvalAIで開催され、大規模な、話者非依存のコーパスを利用して、提出物を単語誤認率(WER)と意味スコア(SemScore)に基づいて評価しました。 SAPデータセット、SAP-240430は、パーキンソン病、ダウン症候群、 ALS、脳性麻痺、脳卒中など、多様な語音障害を持つ500人以上の個人の400時間以上の語音データを含んでいました。データセットはトレーニング、開発、テストセットに分けられ、テスト1とテスト2のサブセットは基準値と最終順位のために使用されました。 22チームがチャレンジに参加し、WERにおいてベースラインのwhisper-large-v2モデルを越えた12チーム、SemScoreにおいて17チームが高得点を獲得しました。トップチームはWERで8.11%、SemScoreで88.44%を記録し、ASRシステムが障害のある語音を認識するための新しい基準を設定しました。 このチャレンジは、SAPデータ上で音声基盤モデルの微調整の効果を示し、オーディオセグメンテーション、モデル統合、虚像減少、カリキュラム学習、ASR後のエラーコールシ纠正、パーソナライズなどの高度な戦略が性能向上に寄与しました。 SAPチャレンジは、障害のある語音認識分野におけるASRの重要な基準を確立し、大規模な、話者非依存のコーパスの重要性を強調し、語音障害を持つ人々のASR性能と一般化を進めるための基盤を築きました。


推奨論文

ThermoRL: 蛋白質変異設計のための構造意識型強化学習による熱安定性の向上

顔認識精度に与える顔フィルタの影響を研究するための包括的評価枠組み

木の深さの非近似性と指数的なETH下界

WSM: LLM事前学習のためのチェックポイント統合によるデイコイ・ラーニング・レート・スケジュール

生物伝達物質を介した合成MC:腸-脳軸の治療的調節

AQUA: 水産養殖・漁業用の大規模言語モデル

GS-Occ3D:高スケーラブルな視覚のみの占有空間再構成のための高斯スプラットによる自動運転

亀裂部の間に落ちる:分断された脆い亀裂前縁におけるエネルギー貯蔵

Steiner Orientationの構造パラメータ

細胞無しのマスive MIMOシステムにおけるハイブリッド量子卷積神経網補助のパイロットアサインメント