人工知能によるコンテンツ検出 - 百科事典
人工知能検出ソフトウェアは、テキスト、画像、動画、音声などのコンテンツが人工知能(AI)を使って生成されたかどうかを判断することを目的としています。しかし、このソフトウェアはしばしば信頼性に欠けています。
精度問題
多くのAI検出ツールは、AI生成のテキストを検出する際に信頼性に欠けることが示されています。2023年にWeber-Wulffらによって行われた研究では、TurnitinやGPTZeroを含む14の検出ツールが評価され、「すべてのツールが80%未満の精度で、70%以上のツールはわずか5つ」との結果が出されました。彼らはまた、これらのツールはテキストをAIよりも人間のものとして分類する傾向があり、パラフレーズによってこれらのツールの精度が低下するということも発見しました。
= 偽陽性 =
AIコンテンツ検出における偽陽性とは、人間が書いた作品がAI書いたと誤ってマークされた場合です。多くのAI検出プラットフォームは、偽陽性が最小限であると主張していますが、Turnitinは1%未満の偽陽性率を宣伝しています。しかし、ワシントンポストの後の研究では、50%の高い率が報告されましたが、サンプルサイズが小さかったためです。学術的な環境での偽陽性は、学生の学術記録に深刻な影響を与える学术不正の申し立てにつながることがよくあります。さらに、多くのAI検出モデルが英語が母国語でない人や神経多様性を持つ人々の書いた作品に対して偽陽性を出す傾向があるという証拠が研究で示されています。2023年6月にJanelle Shaneは、彼女の本「You Look Like a Thing and I Love You」の一部がAI生成と誤ってマークされたと書きました。
= 偽陰性 =
偽陰性とは、AI書いたテキストを持つ文書を特定しなかったことです。偽陰性はしばしば検出ソフトウェアの感度レベルの問題や、作品をより人間らしく見せるために避けがけの技術が使われた結果として発生します。学術的な環境では、偽陰性は特に問題ではなく、申し立てや結果につながる可能性が低いためです。特に、Turnitinは15%の偽陰性率を発表しています。
テキスト検出
テキストについては、主に盗作の防止のために行われます。AI生成と考えられるテキストが生成されたかどうかを検出するため、単語の重複を手がかりとして使われます。これらは教師が学生の成績を評価する際に、通常臨時的な basisで使われます。ChatGPTや同様のAIテキスト生成ソフトウェアがリリースされた後、多くの教育機関では学生のAI使用に対するポリシーを発令しました。AIテキスト検出ソフトウェアは、求職者評価やオンライン検索エンジンでも使われています。
現在の検出器は時々信頼性に欠け、人間が書いた作品をAI由来と誤ってマークしながら、他のケースではAI生成の作品を検出しないことがあります。MIT Technology Reviewは、技術が「人間が少し変えたり、パラフレーズツールを使って隠したりしたChatGPT生成のテキストを検出するのに苦労した」と述べました。AIテキスト検出ソフトウェアは、英語が母国語でない人に対しても差別するということも示されています。
カリフォルニア大学デービスの2人の学生が、教授が彼らのエッセイをスキャンし、AI検出ツールGPTZeroやTurnitinのAI検出ツールが陽性結果を出した後、大学の学生成功と司法事務局(OSSJA)に送られました。しかし、メディアの報道と徹底的な調査の後、学生はどんな不正行為もなさなかったことが判明しました。
2023年4月に、ケンブリッジ大学とイギリスのラッセルグループの他の大学は、TurnitinのAIテキスト検出ツールを信頼性に問題があるとして辞退しました。テキサス大学オースティンはその6ヶ月後、システムから撤退しました。
2023年5月に、テキサスA&M大学コマーシスの教授は、ChatGPTを使って学生のコンテンツがそれによって書かれたかどうかを検出しました。ChatGPTはそうであると述べましたが、教授はそれにもかかわらずクラスを落とすと脅しました。この問題のために卒業を阻止された学生はいませんでした。ほぼ全員の学生(ソフトウェアを使用したと認めた1人を除いて)はChatGPTの使用に関する申し立てから無罪となりました。
2023年7月に、「GPT検出器は非ネイティブ英語の書き手に対してバイアスがある」と題された論文が発表され、GPTが非ネイティブ英語の著者に対して差別するという報告がなされました。論文では、非ネイティブ英語のスピーカーやアメリカの学生のエッセイと比較して、7つのGPT検出器が評価されました。非ネイティブ英語のスピーカーのエッセイは、平均的な偽陽性率が61.3%でした。
2024年6月にGizmodoに掲載されたトマス・ジェルマンの記事では、AIテキスト検出ソフトウェアが誤って作品をAI生成と分類したために、フリーランスのライターやジャーナリストが失業したと報告されました。
2024年9月に、Common Sense Mediaは、黒人学生に対して20%、ラテンアメリカ系学生に対して10%、白人学生に対して7%の偽陽性率があると報告しました。
AIテキスト検出の信頼性を向上させるために、研究者たちはデジタルウォーターマーク技術を探索しています。2023年に発表された「大規模言語モデルのためのウォーターマーク」と題された論文は、大規模言語モデル(LLM)によって生成されたテキストに見えないウォーターマークを埋め込む方法を提案しています。このウォーターマークのアプローチは、テキストが少しパラフレーズされたり変更されたりしても、非常に高い精度でAI生成と旗印を付けられることを許可します。この技術は、一般的な読者には見えにくく、読みやすさを維持しつつ、専門ツールを使用する人々に対して検出可能なシグナルを提供するように設計されています。しかし、ウォーターマークは敵対的な変換の下で堅牢さを保つことや、異なるLLM間の互換性を確保するという課題に直面しています。
抗テキスト検出
AIテキスト検出を回避するためのソフトウェアがあります。
2023年8月に発表された研究では、Eye Journalに発表された20件のアブストラクトがGPT-4.0を使用してパラフレーズされ、その後QueTextとOriginality.AIを使用して盗作とAI生成のコンテンツとして検出されました。テキストは、AI検出スコアを低減するために、Undetectable.aiという敵対的なソフトウェアを通じて再処理されました。研究では、Originality.AIがGPT-4で生成されたテキストを平均91.3%の精度で検出したが、Undetectable.aiの再処理の後、Originality.aiの検出精度は平均27.8%に低下しました。
一部の専門家は、デジタルウォーターマークのような技術が効果がないと考えています。彼らは、「大規模言語モデルのためのウォーターマーク」と題されたKirchenbauerらの論文でも、ウォーターマーク技術の潜在的な脆弱性について述べています。著者たちは、テキストの挿入、削除、置換攻撃など、ウォーターマーク検出を回避するためのさまざまな敵対的戦術を示しています。これらの攻撃は、シンプルなパラフレーズから、トークン化やホモグリフの変更を含むより高度な方法まで様々です。研究は、自動的なパラフレーズツールや特定の言語モデルの置き換えを使用してテキストのスパンを反復的に変更しつつ、セマンティックの類似性を維持する攻撃者に対してウォーターマークの堅牢性を維持する難しさを強調しています。実験結果は、このような攻撃がウォーターマークの強度を低下させるが、テキストの品質や計算リソースの増加というコストも伴うことを示しています。
多言語テキスト検出
ほとんどのAIコンテンツ検出ソフトウェアの短所は、AI生成のテキストをどの言語でも特定できないことです。ChatGPT、Claude、Geminiなどの大規模言語モデル(LLM)は異なる言語で書けることができますが、伝統的なAIテキスト検出ツールは主に英語やフランス語、スペイン語などの広く話される他の言語で訓練されています。より少ないAI検出ソリューションは、ペルシア語、アラビア語、ヒンディー語などの言語でAI生成のテキストを検出できます。
画像、動画、音声検出
AI生成の画像(例えば、MidjourneyやDALL-Eから生成されたもの)を検出するためのAI画像検出ソフトウェアがいくつか存在しますが、それらも完全には信頼性に欠けていません。
他の人々は、ビデオや音声のdeepfakeを識別すると言っていますが、この技術もまだ完全には信頼性に欠けていません。
ウォーターマークの効果についての議論にもかかわらず、Google DeepMindは、人間の目には見えないデジタルウォーターマークを画像のピクセルに挿入する方法で動作する検出ソフトウェア「SynthID」を開発しています。
参考リソース
Copyleaks
AI alignment
人工知能と選挙
抗盗作ソフトウェアの比較
コンテンツ類似検出
ヒャラクション(人工知能)
自然言語処理