Netflix賞 - 百科事典
Netflix賞は、ユーザーの評価を予測するための最も優れた協調フィルタリングアルゴリズムを競い合うオープンコンテストで、ユーザーや映画に関する他の情報は一切なく、ユーザーはコンテスト用に割り当てられた番号で識別されるのみでした。
このコンテストは、ビデオストリーミングサービスのNetflixが主催し、Netflixと関係がない(現職および元従業員、エージェント、Netflix従業員の近親者など)および特定のブロック国(キューバや北朝鮮など)の住民でない誰でも参加可能でした。2009年9月21日、10.06%の評価を予測したNetflixの独自アルゴリズムを上回ったBellKor's Pragmatic Chaosチームに、100万ドルのグランド賞が授与されました。
問題とデータセット
Netflixは、480,189人のユーザーが17,770の映画に対して提供した100,480,507件の評価データセットを提供しました。各評価は、ユーザー、映画、評価の日付、評価の形式で表されます。ユーザーと映画のフィールドは整数IDであり、評価は1から5(整数)の星です。
資格データセットには、評価が陪審にのみ知られている形式で表される2,817,131のトリプル(ユーザー、映画、評価の日付)が含まれています。参加チームのアルゴリズムは、資格セット全体の評価を予測する必要がありますが、彼らはデータの半分(1,408,342の評価)のスコアのみを知らされます。残りの半分はテストセット(1,408,789件)であり、このパフォーマンスが陪審によって賞金受領者としての可能性を決定するために使用されます。陪審のみがクイズセットとテストセットの評価がどれかを知っています。この体制は、テストセットに対するヒルクライミングを難しくするためのものです。提出された予測は、真の評価に対してルート平均二乗誤差(RMSE)としてスコア付けされ、このエラーを可能な限り減らすことが目標です。実際の評価は1から5の整数ですが、提出された予測は必ずしもそうではありません。Netflixは、トレーニングデータセット内の1,408,395の評価のプローブサブセットも特定しました。プローブ、クイズ、テストデータセットは、似た統計的性質を持つように選ばれました。
要約すると、Netflix賞で使用されたデータは以下のようです:
トレーニングセット(プローブセットを除く99,072,112件の評価;プローブセットを含む100,480,507件)
プローブセット(1,408,395件の評価)
資格セット(2,817,131件の評価)は以下で構成されています:
テストセット(1,408,789件)、勝者を決定するために使用されます
クイズセット(1,408,342件)、リーダーボードスコアを計算するために使用されます
各映画には、タイトルと公開年が別のデータセットで提供されます。ユーザーに関する情報は一切提供されません。顧客のプライバシーを保護するために、「トレーニングおよび資格セットの一部の顧客の評価データは、以下の方法のいずれかで意図的に乱雑にされた:評価の削除、代替評価および日付の挿入、評価日付の変更」です。
トレーニングセットは、平均ユーザーが200以上の映画を評価し、平均映画が5000以上のユーザーによって評価されるように構成されていますが、データには広いバラツキがあります。トレーニングセットには評価が少ない映画(3件の評価)もありますが、あるユーザーは17,000以上の映画を評価しています。
RMSEが定義する指標としての選択には、いくらかの議論がありました。1%のRMSEの改善でも、「トップ10」の最も推薦される映画の評価順位に大きな違いが生じると主張されています。
奨励金
賞金は、Netflixの独自アルゴリズム「Cinematch」に対する改善や、特定の閾値を超えたチームの前年スコアに基づいています。クイズセットの各映画に対してトレーニングデータから平均評価を予測する単純なアルゴリズムは、RMSE 1.0540を生成します。Cinematchは、「多くのデータ条件を伴う単純な統計的線形モデル」を使用します。Cinematchのパフォーマンスは2006年までに Plateauに達しました。
トレーニングデータのみを使用して、Cinematchはクイズデータに対してRMSE 0.9514を記録し、単純なアルゴリズムに対して約10%の改善を達成しました。Cinematchはテストセットでも同じパフォーマンスを示し、0.9525でした。1,000,000ドルのグランド賞を獲得するためには、参加チームはテストセットでさらに10%の改善を行い、0.8572を達成する必要がありました。クイズセットでのこのような改善は、RMSE 0.8563に対応します。
チームがグランド賞を獲得しない限り、その年の最も優れた結果に対して50,000ドルの進捗賞が毎年授与されました。しかし、この賞を獲得するためには、アルゴリズムが前年度の進捗賞勝者(または第1年目のCinematch)に対して少なくとも1%のRMSEを改善する必要がありました。提出が成功しなかった場合、その年の進捗賞は授与されませんでした。
進捗賞またはグランド賞を獲得するためには、陪審に連絡された後1週間以内にソースコードとアルゴリズムの説明を提供する必要がありました。確認後、勝者はNetflixに対して非独占ライセンスを提供する必要がありました。Netflixは、システムの説明のみを公開し、ソースコードは公開されませんでした。(アルゴリズムとソースコードを秘密に保つために、チームは賞を請求しない選択肢もありました。)陪審も他の参加者に対して予測を秘密に保いました。チームは評価を予測するために希望するだけ多くの試みを送信することができます。最初の提出は週に一度に限られていましたが、すぐに1日に一度に変更されました。チームの最も良い提出は現在の提出として計上されました。
1つのチームがRMSEを10%以上改善することで、陪審は最終呼び出しを行い、すべてのチームに30日間以内に提出を送信する時間を与えました。その後、最も良い提出を行ったチームに対してアルゴリズムの説明、ソースコード、非独占ライセンスを求められ、確認が成功した後、グランド賞勝者として宣言されました。
コンテストは、グランド賞勝者が宣言されるまで続きました。誰もグランド賞を受賞しなかった場合、少なくとも5年間(2011年10月2日まで)続く予定でした。その後、Netflixの独自の判断でいつでもコンテストが終了することができました。
年月の進捗
コンテストは2006年10月2日に開始されました。10月8日までに、WXYZConsultingというチームがCinematchの結果を上回りました。
10月15日までには、Cinematchを上回った3チームがいました。そのうちの1チームは1.06%の改善で年次進捗賞に資格を得ました。2007年6月までに、150以上の国から20,000以上のチームがコンテストに登録し、13,000以上の予測セットを提出しました。
コンテストの最初の1年間は、数チームが順位を争いました。特に目立ったのは以下のチームでした:
WXYZConsulting、Wei XuとYi Zhangのチーム(2006年11月から12月のフロントランナー)
ML@UToronto A、トロント大学のGeoffrey Hinton教授が率いるチーム(2006年10月から12月のフロントランナーの一部)
Gravity、ブダペスト工科大学の4人の科学者からなるチーム(2007年1月から5月のフロントランナー)
BellKor、AT&T Labsの科学者集団(2007年5月からフロントランナー)
Dinosaur Planet、プリンストン大学の3人の大学院生からなるチーム(2007年9月3日にBellKorにリードを奪われた前の1時間間のフロントランナー)
リーダーチームが使用したアルゴリズムは、通常、単項値分解、k-最寄り隣接、神経ネットワークなどが組み合わせられていました。
2007年8月12日、多くのコンテスト参加者がカリフォルニア州サンノゼで開催されたKDD CupおよびWorkshop 2007に集まりました。ワークショップの間に、その時のリーダーボードの上位4チームが技術を発表しました。IBM Researchのチーム(Yan Liu、Saharon Rosset、Claudia Perlich、Zhenzhen Kou)はTask 1で第3位、Task 2で第1位を獲得しました。
2007年から2008年のコンテストでは、3チームだけがリーダー地位を獲得しました:
BellKor、AT&T Labsの科学者集団(2007年5月から2008年9月までのフロントランナー)
BigChaos、オーストリアの科学者たちからなるCommendo Research & Consultingのチーム(2008年10月から単一チームのフロントランナー)
BellKor in BigChaos、2つのリーダーチームが合体したチーム(2008年9月からフロントランナー)
= 2007年進捗賞 =
2007年9月2日、2007年進捗賞のための「最終呼び出し」期間が開始されました。186カ国から40,000以上のチームがコンテストに参加し、30日間で提出を提出する機会がありました。この期間の初めには、リーダーチームはBellKorでRMSE 0.8728(8.26%の改善)で、Dinosaur Planet(RMSE = 0.8769;7.83%の改善)、Gravity(RMSE = 0.8785;7.66%の改善)が続いていました。最終呼び出し期間の最後の1時間に「KorBell」のエントリが第1位を獲得しました。これは、Team BellKorの別名であることが判明しました。
2007年11月13日、KorBell(以前はBellKor)は、RMSE 0.8712(8.43%の改善)で50,000ドルの進捗賞を獲得しました。チームはAT&T Labsの3人の研究者、Yehuda Koren、Robert Bell、Chris Volinskyで構成されていました。必要に応じて、彼らはアルゴリズムの説明を公開しました。
2008年進捗賞は、BellKorチームに授与されました。彼らの提出は、別のチームと組み合わせて207の予測セットを用いてRMSE 0.8616を達成しました。
この連合チームは、Commendo Research & Consulting GmbHの2人の研究者、Andreas TöscherとMichael Jahrer(元チームBigChaos)と、AT&T Labsの3人の研究者、Yehuda Koren、Robert Bell、Chris Volinsky(元チームBellKor)で構成されていました。必要に応じて、彼らはアルゴリズムの説明を公開しました。これは最後の進捗賞であり、2008年進捗賞に対して1%の改善を達成するだけで、グランド賞に資格を得ることができました。賞金は、勝者によって選ばれたチャリティーに寄付されました。
= 2009年 =
2009年6月26日、チーム「BellKor's Pragmatic Chaos」(「Bellkor in BigChaos」と「Pragmatic Theory」のチームの合併)は、Cinematchに対して10.05%の改善を達成し(クイズRMSE 0.8558)、Netflix賞コンテストはグランド賞のための最終呼び出し期間に入りました。規則に従って、チームは2009年7月26日18:42:37 UTCまでにこの賞に資格を得るために考慮される提出を行う必要がありました。
2009年7月25日、チーム「The Ensemble」(「Grand Prize Team」と「Opera Solutions and Vandelay United」のチームの合併)は、Cinematchに対して10.09%の改善を達成し(クイズRMSE 0.8554)、提出を収集を停止しました。
その時のリーダーボードの最終順位では、2つのチームが最低要件を満たしていました。「The Ensemble」は資格セットに対してCinematchに対して10.10%の改善を達成し(クイズRMSE 0.8553)、「BellKor's Pragmatic Chaos」は資格セットに対してCinematchに対して10.09%の改善を達成し(クイズRMSE 0.8554)、テストセットでのパフォーマンスがより良いチームがグランド賞勝者となります。
2009年9月18日、Netflixはチーム「BellKor's Pragmatic Chaos」が賞勝者であることを発表し(テストRMSE 0.8567)、9月21日にカンファレンスで賞が授与されました。「The Ensemble」チームはBellKorの結果と同じ結果を達成しましたが、BellKorが20分早く結果を提出したため、規則に従ってBellKorに賞が授与されました。
「BellKor's Pragmatic Chaos」連合チームは、Commendo Research & Consulting GmbHの2人のオーストリアの研究者、Andreas TöscherとMichael Jahrer(元チームBigChaos)、AT&T LabsのRobert Bell、Chris Volinsky、Yahoo!のYehuda Koren(元チームBellKor)、Pragmatic Theoryの2人の研究者、Martin PiotteとMartin Chabbertで構成されていました。必要に応じて、彼らはアルゴリズムの説明を公開しました。
チームは、44,014の提出のうちの44,014件の提出に対して最も悪いRMSEを記録した「Lanterne Rouge」チーム(J.M. Linacreが率いる「The Ensemble」チームのメンバー)が「dubious honors」(sic Netflix)を達成したと報告しました。Linacreは、「Lanterne rouge」の名にふさわしいように意図的に悪い結果を生成したと主張しました。
セカンドシーズンのキャンセル
コンテストの終了後、Netflixはシーズン2の計画を発表しました。これは、レンタル者の年齢、性別、ZIPコード、ジャンル評価、以前に選択した映画などの人口統計と行動データを提供しますが、評価は提供されません。タスクは、これらの人々がどの映画を好むかを予測することです。賞金を勝ち取るための特定の精度目標はありません。代わりに、6ヶ月後にリーダーチームに50万ドルが授与され、18ヶ月後にリーダーにさらに50万ドルが授与されます。
2010年3月12日、Netflixは、前年8月に発表した第2次賞金競争を進めることを辞退すると発表しました。この決定は、訴訟と連邦取引委員会のプライバシー関連の懸念に対する対応として行われました。Volinskyなどの一部の参加者は、キャンセルに対する失望を表明しました。
= プライバシーに関する懸念 =
データセットは顧客のプライバシーを保護するために構成されていますが、プライバシー保護主義者から批判されています。2007年に、テキサス大学オースティン校の2人の研究者(Vitaly ShmatikovとArvind Narayanan)は、インターネット映画データベースの映画評価とデータセットをマッチングすることで、個別のユーザーを特定することができました。
2009年12月17日、4人のNetflixユーザーがNetflixに対して集団訴訟を起こし、Netflixがデータセットを公開することで米国の公正取引法およびビデオプライバシー保護法を侵害したと主張しました。研究参加者のプライバシーに関する公的な議論が行われました。2010年3月19日、Netflixは原告との和解に達し