Kaggle es una plataforma de competencia de ciencia de datos y una comunidad en línea para científicos de datos y profesionales del aprendizaje automático de Google LLC . Kaggle permite a los usuarios buscar y publicar conjuntos de datos, explorar y crear modelos en un entorno de ciencia de datos basado en la web, trabajar con otros científicos de datos e ingenieros de aprendizaje automático y participar en competencias para resolver desafíos de ciencia de datos. [1]
Kaggle fue fundada por Anthony Goldbloom en abril de 2010. [2] Jeremy Howard , uno de los primeros usuarios de Kaggle, se unió en noviembre de 2010 y se desempeñó como presidente y científico jefe. [3] También en el equipo estaba Nicholas Gruen, que se desempeñó como presidente fundador. [4] En 2011, la empresa recaudó $12,5 millones y Max Levchin se convirtió en presidente. [5] El 8 de marzo de 2017, Fei-Fei Li , científico jefe de Google, anunció que Google estaba adquiriendo Kaggle. [6]
En junio de 2017, Kaggle superó el millón de usuarios registrados y, en octubre de 2023, tiene más de 15 millones de usuarios en 194 países. [7] [8] [9]
En 2022, los fundadores Goldbloom y Hamner renunciaron a sus cargos y D. Sculley se convirtió en el director ejecutivo . [10]
En febrero de 2023, Kaggle presentó Modelos, lo que permite a los usuarios descubrir y utilizar modelos previamente entrenados a través de integraciones profundas con el resto de la plataforma de Kaggle. [11]
Desde que se fundó la empresa, se han llevado a cabo muchas competiciones de aprendizaje automático en Kaggle. Entre las competiciones más destacadas se encuentran el reconocimiento de gestos para Microsoft Kinect [12] , la creación de una IA de fútbol para el Manchester City , la codificación de un algoritmo de negociación para Two Sigma Investments [ 13] y la mejora de la búsqueda del bosón de Higgs en el CERN [14] .
El anfitrión de la competencia prepara los datos y una descripción del problema; el anfitrión puede elegir si será recompensado con dinero o no. Los participantes experimentan con diferentes técnicas y compiten entre sí para producir los mejores modelos. El trabajo se comparte públicamente a través de Kaggle Kernels para lograr un mejor punto de referencia e inspirar nuevas ideas. Las presentaciones se pueden realizar a través de Kaggle Kernels, mediante carga manual o utilizando la API de Kaggle . Para la mayoría de las competiciones, las presentaciones se califican inmediatamente (según su precisión predictiva en relación con un archivo de solución oculto) y se resumen en una tabla de clasificación en vivo. Una vez que pasa la fecha límite, el anfitrión de la competencia paga el dinero del premio a cambio de "una licencia mundial, perpetua, irrevocable y libre de regalías [...] para usar la entrada ganadora", es decir, el algoritmo, el software y la propiedad intelectual relacionada desarrollada, que es "no exclusiva a menos que se especifique lo contrario". [15]
Además de sus concursos públicos, Kaggle también ofrece concursos privados, que están limitados a los mejores participantes de Kaggle. Kaggle ofrece una herramienta gratuita para que los profesores de ciencia de datos realicen concursos académicos de aprendizaje automático. [16] Kaggle también organiza concursos de reclutamiento en los que los científicos de datos compiten por la oportunidad de ser entrevistados en empresas líderes en ciencia de datos como Facebook , Winton Capital y Walmart .
Las competiciones de Kaggle han dado como resultado proyectos exitosos como la promoción de la investigación del VIH , [17] las clasificaciones de ajedrez [18] y la previsión del tráfico . [19] Geoffrey Hinton y George Dahl utilizaron redes neuronales profundas para ganar una competición organizada por Merck . [ cita requerida ] Vlad Mnih (uno de los estudiantes de Hinton) utilizó redes neuronales profundas para ganar una competición organizada por Adzuna . [ cita requerida ] Esto dio como resultado que la técnica fuera adoptada por otros en la comunidad de Kaggle. Tianqi Chen de la Universidad de Washington también utilizó Kaggle para mostrar el poder de XGBoost , que desde entonces ha reemplazado a Random Forest como uno de los principales métodos utilizados para ganar competiciones de Kaggle. [ cita requerida ]
Se han publicado varios artículos académicos basados en los hallazgos de las competiciones de Kaggle. [20] Un factor que contribuye a ello es la clasificación en vivo, que alienta a los participantes a seguir innovando más allá de las mejores prácticas existentes. [21] Los métodos ganadores se escriben con frecuencia en el blog de ganadores de Kaggle.
Kaggle ha implementado un sistema de progresión para reconocer y recompensar a los usuarios en función de sus contribuciones y logros dentro de la plataforma. Este sistema consta de cinco niveles: novato, colaborador, experto, maestro y gran maestro. Cada nivel se alcanza cumpliendo criterios específicos en competencias, conjuntos de datos, núcleos (código compartido) y debates. [22]
El nivel más alto, Kaggle Grandmaster, se otorga a los usuarios que han alcanzado los primeros puestos en varias competiciones, incluida la clasificación alta en un equipo en solitario. Al 28 de mayo de 2024, de 18,5 millones de cuentas de Kaggle, 2745 han alcanzado el estado de Kaggle Master y 530 han alcanzado el estado de Kaggle Grandmaster. [23]