概要 - JWB-DH-V1:第1版 联合全身トーカングアバターや音声生成のベンチマーク
タイトル
JWB-DH-V1:第1版 联合全身トーカングアバターや音声生成のベンチマーク
時間
2025-07-28 16:47:44
著者
{"Xinhan Di","Kristin Qi","Pengqian Yu"}
カテゴリ
{cs.CV,cs.AI}
リンク
http://arxiv.org/abs/2507.20987v1
PDF リンク
http://arxiv.org/pdf/2507.20987v1
概要
この論文は、顔アニメーションと全体の動きを統合する方法を評価し、進歩させるための基準となるJWB-DH-V1を紹介しています。生成された音声オーディオと一貫性を確保することで、非常に自然な全体の話すアバタを創造するためのこれは非常に重要です。この基準は、10,000のユニークなアイデンティティと2百万のビデオサンプルを持つ大規模なデータセットに加え、全体のアニメーション可能なアバタの音声・ビデオの統合生成を評価するプロトコルを含んでいます。 論文は、現在の拡散に基づくビデオ生成方法の限界について議論しています。これらの方法は、現実的な全体の動きと外観を合成しにくく、音声とビデオの同期が不足しています。JWB-DH-V1基準は、視覚的および音声の質の両方を評価する包括的な評価フレームワークを提供することで、これらのギャップを埋めることを目的としています。 データセットは、2百万のビデオサンプルにわたる10,000のユニークなアイデンティティで構成され、各サンプルに詳細なアノテーションが含まれています。評価プロトコルは、生成された全体のアバタの感知的な質、時間的な安定性、そしてアイデンティティの保持のための指標を含んでいます。また、大規模な音声言語モデル(LALMs)を使用して生成された音声の質を評価し、異なるテキスト-to-スピーチ(TTS)システムのパフォーマンスを比較しています。 論文は、オープンソースのビデオ生成、話すアバタ、TTSシステム、およびクローズドソースのTTSシステムを含む4つの最先端(SOTA)モデルグループの初期評価結果を発表しています。評価は、顔/手中心のモデルと全体のモデル間で大きなパフォーマンスの差を見せ、この分野でのさらなる研究の必要性を強調しています。 著者たちは、JWB-DH-V1基準が、全体の話すアバタのための同期および高品質な音声・ビデオ生成を進めるための貴重なリソースを提供すると結論付けます。将来のリリースでは、より長いクリップ、精査されたアノテーション、そして単一の初期フレームからのSOTA安定統合生成モデルの評価をサポートします。
推奨論文
バランスの乱れ:生成モデルにおけるオンライン概念バランス
「型IIIのアスペクトの仮説検定における強い逆の対数率」
多源CTスキャン分類におけるドメインシフトの抑え込みを目的とする入力空間標準化
ヴァン・デル・ワールズガスにおける衝撃波のためのMHD Rankine-Hugoniotジャンプ条件
光顕微鏡および生物医学画像における曲線構造のセグメントーションのための適応的な注目残差U-Net
OMiSO: 神経集合状態を形成するための状態依存脳刺激の適応的最適化
タイム有限状態機械の遠位復帰と同期シーケンスの研究
YOLOを使用したエッジFPGAのためのリアルタイム物体検出と分類
ApexOracleを使って、将来の病原体に対する抗生物質を予測および生成することを日本語に翻訳すると以下のようになります: ApexOracleを使って、将来の病原体に対する抗生物質を予測・生成する
バーチャルリアリティにおけるタスクの難易度と音楽専門知識の影響:リズムエクササイズゲームにおける認知負担とタスク精度の観察