概要 - NoHumansRequired: 自動化高品質画像編集トリプルミニング

タイトル
NoHumansRequired: 自動化高品質画像編集トリプルミニング

時間
2025-07-18 17:50:00

著者
{"Maksim Kuprashevich","Grigorii Alekseenko","Irina Tolstykh","Georgii Fedorov","Bulat Suleimanov","Vladimir Dokholyan","Aleksandr Gordeev"}

カテゴリ
{cs.CV,cs.AI,cs.CL,cs.LG}

リンク
http://arxiv.org/abs/2507.14119v1

PDF リンク
http://arxiv.org/pdf/2507.14119v1

概要

この論文は、自然言語指示のみを使用して高品質な画像編集トリプルを抽出するための革新的なエンドツーエンドシステムであるNoHumansRequired(NHR)を提案しています。このシステムは、生成モデルの力を活用して、トレーニングと画像編集アルゴリズムの改善に使用される多様で高精度なデータセットを作成します。 NHRは以下のいくつかの主要な構成要素から成り立っています: 1. **プロンプトエンジニアリングモジュール**:このモジュールは、ユーザーの指示に基づいてテキストから画像(T2I)と画像から画像(I2I)のプロンプトを生成し、生成モデルが特定の編集指示を持つ画像を生成するガイドを行います。 2. **高精度T2I生成器**:このコンポーネントは、最先端のテキストから画像モデルを使用して、T2Iプロンプトから高品質な画像を生成します。 3. **指示ガイド付き画像エディタ**:このモジュールは、生成画像に編集指示を適用し、複数の候補画像を得ます。 4. **多段階検証スタック**:このスタックは、失敗した編集をフィルタリングし、品質指標に基づいて最も良いものを選択することで、トリプルの品質を確保します。 NHRの主要な革新点は以下の通りです: 1. **トリプルマイニングパイプライン**:このパイプラインは、人間のアノテーションなしで高品質な画像編集トリプルを自動的にマイニングし、多様な候補画像を生成し、品質指標に基づいて失敗した編集をフィルタリングします。 2. **エンドツーエンドシステム**:NHRは、プロンプトの生成から最終トリプルの検証まで完全なエンドツーエンドシステムとして運用されます。これにより、プロセスが簡素化され、人間の介入が必要な割合が減少します。 3. **専門の検証器**:NHRは、人間アノテーションデータでトレーニングされた微調整されたGeminiモデルを使用して、生成画像の品質を評価する専門の検証器として使用します。このモデルは信頼性の高い品質評価を提供します。 4. **データ拡張技術**:NHRは、セマンティック逆転や構成生成などの様々なデータ拡張技術を使用して、データセットを拡張し、トリプルの多様性を向上させます。 また、論文ではNHR-Editデータセット、358kの高品質なトリプルを収集した公開データセットも紹介しています。このデータセットは、画像編集アルゴリズムのトレーニングと評価に使用され、NHRシステムの効果を示しています。 全体として、NHRは画像編集分野における重要な進歩を代表しています。このシステムは、トレーニングと画像編集アルゴリズムの改善に使用される高品質なデータセットを生成する実用的で効率的な方法を提供し、最小限の人間の介入で行えます。このシステムは、画像編集の方法を革新し、ユーザーにとってよりアクセスしやすく効率的になる可能性があります。


推奨論文

非曲がり可能なガラス中間基板によって実現される高性能かつ熱的にも可能なマルチチップレットアーキテクチャの設計

MC$^2$A: 高効率なマルコフ連鎖モンテカルロ加速のためのアルゴリズム・ハードウェア共設計を可能にする

医学における埋め込みモデルの分野指定への進展

RADAR: VANETsにおける擬似名の動的関連と認識のためのラジオベースの解析

ホーク・ブラウン基準の超弾性性質

「どれだけの程度で、公的な株価指数が統計的に構造的な新興市場のリスクにおける複利による実際の購買力の低下をヘッジできるか?説明可能な機械学習に基づく評価」

多目的ポートフォリオ最適化による勾配降下法

Ultra3D:部分注意での効率的で高精度な3D生成

DINO-SLAM:神経学的な暗黙的および明示的な表現のためのDINO情報を利用したRGB-D SLAM

PRACtical:効率的なPRAC Rowhammer対策のためのサブアレイレベルのカウンタ更新とバンクレベルのリカバリ保護