Premio Netflix - Enciclopedia
El Premio Netflix fue una competencia abierta para el mejor algoritmo de filtrado colaborativo para predecir las calificaciones de los usuarios de películas, basándose en calificaciones previas sin otra información sobre los usuarios o películas, es decir, sin identificar a los usuarios más que por números asignados para el concurso.
La competencia fue organizada por Netflix, un servicio de streaming de video, y estaba abierta a cualquier persona que no estuviera relacionada con Netflix (empleados actuales y anteriores, agentes, familiares cercanos de empleados de Netflix, etc.) ni fuera residente de ciertos países bloqueados (como Cuba o Corea del Norte). El 21 de septiembre de 2009, el premio mayor de 1 millón de dólares fue otorgado al equipo BellKor's Pragmatic Chaos, que superó al propio algoritmo de Netflix para predecir calificaciones en un 10.06%.
Problema y conjuntos de datos
Netflix proporcionó un conjunto de datos de entrenamiento de 100,480,507 calificaciones que 480,189 usuarios dieron a 17,770 películas. Cada calificación de entrenamiento es un cuadruplo de la forma <usuario, película, fecha de calificación, calificación>. Los campos de usuario y película son IDs enteros, mientras que las calificaciones van de 1 a 5 (enteros) estrellas.
El conjunto de datos de calificación cualificada contiene más de 2,817,131 tripletos de la forma <usuario, película, fecha de calificación de calificación>, con calificaciones conocidas solo por el jurado. El algoritmo de un equipo participante debe predecir calificaciones en todo el conjunto de datos cualificado, pero solo se les informa de la puntuación de la mitad de los datos: un conjunto de prueba de 1,408,342 calificaciones. La otra mitad es el conjunto de prueba de 1,408,789, y el rendimiento en este se utiliza por el jurado para determinar posibles ganadores del premio. Solo los jueces saben qué calificaciones están en el conjunto de prueba y cuáles en el conjunto de prueba; este arreglo está diseñado para dificultar la escalada en el conjunto de prueba. Las predicciones presentadas se evalúan contra las calificaciones reales en la forma de error cuadrático medio (RMSE), y el objetivo es reducir este error tanto como sea posible. Note que, aunque las calificaciones reales son enteros en el rango de 1 a 5, las predicciones presentadas no necesariamente tienen que ser. Netflix también identificó un subconjunto de prueba de 1,408,395 calificaciones dentro del conjunto de datos de entrenamiento. El subconjunto de prueba, el conjunto de prueba y el conjunto de prueba se seleccionaron para tener propiedades estadísticas similares.
En resumen, los datos utilizados en el Premio Netflix se ven así:
Conjunto de datos de entrenamiento (99,072,112 calificaciones sin incluir el subconjunto de prueba; 100,480,507 incluyendo el subconjunto de prueba)
Subconjunto de prueba (1,408,395 calificaciones)
Conjunto de datos cualificados (2,817,131 calificaciones) que consta de:
Conjunto de prueba (1,408,789 calificaciones), utilizado para determinar ganadores
Conjunto de prueba (1,408,342 calificaciones), utilizado para calcular puntuaciones de la tabla de clasificación
Para cada película, se proporciona el título y el año de lanzamiento en un conjunto de datos separado. No se proporciona ninguna información sobre los usuarios. Para proteger la privacidad de los clientes, "algunos de los datos de calificación de algunos clientes en los conjuntos de datos de entrenamiento y cualificados han sido deliberadamente alterados de una o más de las siguientes maneras: eliminación de calificaciones; inserción de calificaciones alternativas y fechas; y modificación de fechas de calificación".
El conjunto de datos de entrenamiento se construyó de manera que el usuario promedio calificó más de 200 películas, y la película promedio fue calificada por más de 5000 usuarios. Pero hay una gran variabilidad en los datos; algunas películas en el conjunto de entrenamiento tienen tan solo 3 calificaciones, mientras que un usuario calificó más de 17,000 películas.
Hubo alguna controversia sobre la elección del RMSE como métrica definitoria. Se ha afirmado que incluso un pequeño aumento del 1% en el RMSE resulta en una diferencia significativa en el ranking de las "10 películas más recomendadas" para un usuario.
Premios
Los premios se basaban en la mejora sobre el propio algoritmo de Netflix, llamado Cinematch, o la puntuación del año anterior si un equipo había mejorado más allá de un umbral determinado. Un algoritmo trivial que predice para cada película en el conjunto de prueba su calificación promedio desde los datos de entrenamiento produce un RMSE de 1.0540. Cinematch utiliza "modelos estadísticos lineales sencillos con mucha condicionalización de datos". El rendimiento de Cinematch había alcanzado un pico en 2006.
Utilizando solo los datos de entrenamiento, Cinematch obtiene una puntuación de RMSE de 0.9514 en el conjunto de prueba, aproximadamente un 10% mejor que el algoritmo trivial. Cinematch tiene un rendimiento similar en el conjunto de prueba, 0.9525. Para ganar el premio mayor de 1 millón de dólares, un equipo participante tenía que mejorar esto en otro 10%, alcanzando 0.8572 en el conjunto de prueba. Tal mejora en el conjunto de prueba corresponde a un RMSE de 0.8563.
Mientras que ningún equipo ganara el premio mayor, se otorgaría un premio de progreso de 50,000 dólares al año por el mejor resultado hasta la fecha. Sin embargo, para ganar este premio, un algoritmo tenía que mejorar el RMSE en el conjunto de prueba al menos en un 1% sobre el ganador del premio de progreso anterior (o sobre Cinematch, el primer año). Si ninguna presentación lograba esto, el premio de progreso no se otorgaría ese año.
Para ganar un premio de progreso o un premio mayor, un participante tenía que proporcionar el código fuente y una descripción del algoritmo al jurado dentro de una semana después de ser contactado por ellos. Después de la verificación, el ganador también tenía que proporcionar una licencia no exclusiva a Netflix. Netflix publicaría solo la descripción, no el código fuente, del sistema. (Para mantener su algoritmo y código fuente secretos, un equipo podría optar por no reclamar un premio.) El jurado también mantuvo sus predicciones secretas de otros participantes. Un equipo podía enviar tantas intentos de predecir calificaciones como deseara. Originalmente, las presentaciones estaban limitadas a una vez a la semana, pero el intervalo se modificó rápidamente a una vez al día. La mejor presentación hasta la fecha de un equipo se contaba como su presentación actual.
Una vez que uno de los equipos logró mejorar el RMSE en un 10% o más, el jurado emitiría un último llamado, otorgando a todos los equipos 30 días para enviar sus presentaciones. Solo después, el equipo con la mejor presentación fue solicitado para la descripción del algoritmo, el código fuente y la licencia no exclusiva, y, después de una verificación exitosa, declarado ganador del premio mayor. La competencia duraría hasta que se declarara al ganador del premio mayor. Si nadie recibía el premio mayor, la competencia habría durado al menos cinco años (hasta el 2 de octubre de 2011). Después de esa fecha, la competencia podría haber sido cancelada en cualquier momento a discreción exclusiva de Netflix.
Progreso a lo largo de los años
La competencia comenzó el 2 de octubre de 2006. Para el 8 de octubre, un equipo llamado WXYZConsulting ya había superado los resultados de Cinematch.
Para el 15 de octubre, había tres equipos que habían superado a Cinematch, uno de ellos por 1.06%, suficiente para calificar para el premio de progreso anual. Para junio de 2007, más de 20,000 equipos se habían registrado para la competencia de más de 150 países. 2,000 equipos habían presentado más de 13,000 conjuntos de predicciones.
Durante el primer año de la competencia, unos pocos equipos compitieron por el primer lugar. Los más destacados fueron:
WXYZConsulting, un equipo de Wei Xu y Yi Zhang. (Líder durante noviembre-diciembre de 2006.)
ML@UToronto A, un equipo de la Universidad de Toronto liderado por el Prof. Geoffrey Hinton. (Líder en partes de octubre-diciembre de 2006.)
Gravity, un equipo de cuatro científicos de la Universidad Técnica de Budapest (líder durante enero-mayo de 2007.)
BellKor, un grupo de científicos de AT&T Labs. (Líder desde mayo de 2007.)
Dinosaur Planet, un equipo de tres estudiantes universitarios de la Universidad de Princeton. (Líder el 3 de septiembre de 2007 durante una hora antes de que BellKor recuperara la delantera.)
Los algoritmos utilizados por los equipos líderes suelen ser un enjambre de descomposición de valores singulares, vecino más cercano k, redes neuronales, etc.
El 12 de agosto de 2007, muchos participantes se reunieron en el KDD Cup y Workshop 2007, celebrado en San José, California. Durante la reunión, todos los cuatro equipos líderes en la tabla de clasificación en ese momento presentaron sus técnicas. El equipo de investigación de IBM, conformado por Yan Liu, Saharon Rosset, Claudia Perlich y Zhenzhen Kou, ganó el tercer lugar en la Tarea 1 y el primer lugar en la Tarea 2.
Durante el segundo año de la competencia, solo tres equipos alcanzaron la posición líder:
BellKor, un grupo de científicos de AT&T Labs (líder durante mayo de 2007 – septiembre de 2008)
BigChaos, un equipo de científicos austríacos de Commendo Research & Consulting (líder solo durante octubre de 2008)
BellKor en BigChaos, un equipo conjunto de los dos equipos líderes individuales (líder desde septiembre de 2008)
= Premio de progreso 2007 =
El 2 de septiembre de 2007, la competencia entró en el período de "último llamado" para el Premio de Progreso 2007. Más de 40,000 equipos de 186 países habían entrado en el concurso. Tuvieron treinta días para presentar sus propuestas para su consideración. Al principio de este período, el equipo líder era BellKor, con un RMSE de 0.8728 (8.26% de mejora), seguido de Dinosaur Planet (RMSE = 0.8769; 7.83% de mejora) y Gravity (RMSE = 0.8785; 7.66% de mejora). En la última hora del período de último llamado, una entrada por "KorBell" tomó el primer lugar. Resultó que era un nombre alternativo para el equipo BellKor.
El 13 de noviembre de 2007, el equipo KorBell (anteriormente BellKor) fue declarado ganador del Premio de Progreso de 50,000 dólares con un RMSE de 0.8712 (8.43% de mejora). El equipo consistía en tres investigadores de AT&T Labs, Yehuda Koren, Robert Bell y Chris Volinsky. Como se requiere, publicaron una descripción de su algoritmo.
Este fue el último Premio de Progreso porque obtener la mejora del 1% requerida sobre el Premio de Progreso de 2008 sería suficiente para calificar para el Premio Mayor. El dinero del premio fue donado a las organizaciones benéficas elegidas por los ganadores.
= Premio de progreso 2008 =
El Premio de Progreso 2008 fue otorgado al equipo BellKor. Su propuesta, combinada con un equipo diferente, BigChaos, alcanzó un RMSE de 0.8616 con 207 conjuntos de predicciones.
El equipo conjunto consistía en dos investigadores de Commendo Research & Consulting GmbH, Andreas Töscher y Michael Jahrer (originalmente equipo BigChaos) y tres investigadores de AT&T Labs, Yehuda Koren, Robert Bell y Chris Volinsky (originalmente equipo BellKor). Como se requiere, publicaron una descripción de su algoritmo.
Este fue el último Premio de Progreso porque obtener la mejora del 1% requerida sobre el Premio de Progreso de 2008 sería suficiente para calificar para el Premio Mayor. El dinero del premio fue donado a las organizaciones benéficas elegidas por los ganadores.
= 2009 =
El 26 de junio de 2009, el equipo "BellKor's Pragmatic Chaos", una fusión de los equipos "Bellkor in BigChaos" y "Pragmatic Theory", logró una mejora del 10.05% sobre Cinematch (un RMSE de 0.8558 en el conjunto de prueba). La competencia del Premio Netflix entró en el período de "último llamado" para el Premio Mayor. De acuerdo con las Reglas, los equipos tenían treinta días, hasta el 26 de julio de 2009 a las 18:42:37 UTC, para presentar sus propuestas que se considerarían para este Premio.
El 25 de julio de 2009, el equipo "The Ensemble", una fusión de los equipos "Grand Prize Team" y "Opera Solutions and Vandelay United", logró una mejora del 10.09% sobre Cinematch (un RMSE de 0.8554 en el conjunto de prueba).
El 26 de julio de 2009, Netflix detuvo la recopilación de propuestas para el concurso del Premio Netflix.
El estado final de la tabla de clasificación en ese momento mostró que dos equipos cumplieron con los requisitos mínimos para el Premio Mayor. "The Ensemble" con una mejora del 10.10% sobre Cinematch en el conjunto de datos cualificados (un RMSE de 0.8553), y "BellKor's Pragmatic Chaos" con una mejora del 10.09% sobre Cinematch en el conjunto de datos cualificados (un RMSE de 0.8554). El ganador del Premio Mayor sería el que tuviera un mejor rendimiento en el conjunto de prueba.
El 18 de septiembre de 2009, Netflix anunció que el equipo "BellKor's Pragmatic Chaos" había ganado el premio (un RMSE de 0.8567 en el conjunto de prueba), y el premio fue otorgado al equipo en una ceremonia el 21 de septiembre de 2009. "The Ensemble" había igualado el resultado de BellKor, pero dado que BellKor presentó sus resultados 20 minutos antes, las Reglas otorgaron el premio a BellKor.
El equipo conjunto "BellKor's Pragmatic Chaos" consistía en dos investigadores austríacos de Commendo Research & Consulting GmbH, Andreas Töscher y Michael Jahrer (originalmente equipo BigChaos), dos investigadores de AT&T Labs, Robert Bell y Chris Volinsky, Yehuda Koren de Yahoo! (originalmente equipo BellKor) y dos investigadores de Pragmatic Theory, Martin Piotte y Martin Chabbert. Como se requiere, publicaron una descripción de su algoritmo.
El equipo informó haber alcanzado el "dubioso honor" (sic Netflix) de los peores RMSE en los conjuntos de datos de prueba y prueba entre las 44,014 presentaciones realizadas por 5,169 equipos, fue el equipo "Lanterne Rouge", liderado por J.M. Linacre, que también era miembro del equipo "The Ensemble". Linacre afirmó que fue hecho deliberadamente malo, como lo sugiere el nombre de "Lanterne rouge".
Secuela cancelada
Al final de la competencia, Netflix anunció una secuela planeada. Presentaría a los participantes datos demográficos y de comportamiento, incluyendo la edad de los alquiladores, género, códigos postales, calificaciones de géneros y películas elegidas anteriormente, pero no calificaciones. La tarea es predecir qué películas les gustarán a esas personas. No habría un objetivo específico de precisión para ganar el premio. En su lugar, se otorgaría 500,000 dólares al equipo líder después de 6 meses, y otros 500,000 dólares al líder después de 18 meses.
El 12 de marzo de 2010, Netflix anunció que no seguiría con una segunda competencia de premios que había anunciado el mes anterior. La decisión fue en respuesta a una demanda y preocupaciones de privacidad de la Comisión Federal de Comercio. Algunos participantes, como Volinsky, expresaron su desilusión por la cancelación.
= Preocupaciones de privacidad =
Aunque los conjuntos de datos se construyeron para preservar la privacidad de los clientes, el Premio ha sido criticado por defensores de la privacidad. En 2007, dos investigadores de la Universidad de Texas en Austin (Vitaly Shmatikov y Arvind Narayanan) fueron capaces de identificar usuarios individuales mediante la coincidencia de los conjuntos de datos con calificaciones de películas en la Internet Movie Database.
El 17 de diciembre de 2009, cuatro usuarios de Netflix presentaron una demanda colectiva contra Netflix, alegando que Netflix había violado las leyes de comercio justo de EE. UU. y la Ley de Protección de la Privacidad de los Videos al publicar los conjuntos de datos. Hubo un debate público sobre la privacidad de los participantes en la investigación. El 19 de marzo de 2010, Netflix llegó a un acuerdo con los demandantes, después de lo cual los demandantes voluntariamente desistieron de la demanda.
Ver también
Crowdsourcing
Innovación abierta
Competencia de innovación
Concurso de premios de incentivo
Kaggle
Lista de premios de ciencias de la computación
Referencias
Enlaces externos
Sitio web oficial
Premio Netflix en RecSysWiki
Kate Greene (2006-10-06). "El desafío de Netflix de 1 millón de dólares". Technology Review.
Bell, R.;