Un conjunto de datos (o dataset ) es una colección de datos . En el caso de los datos tabulares, un conjunto de datos corresponde a una o más tablas de bases de datos , donde cada columna de una tabla representa una variable particular , y cada fila corresponde a un registro dado del conjunto de datos en cuestión. El conjunto de datos enumera valores para cada una de las variables, como por ejemplo la altura y el peso de un objeto, para cada miembro del conjunto de datos. Los conjuntos de datos también pueden consistir en una colección de documentos o archivos. [2]
En la disciplina de datos abiertos , el conjunto de datos es la unidad de medida de la información publicada en un repositorio público de datos abiertos. El portal europeo data.europa.eu reúne más de un millón de conjuntos de datos. [3]
Propiedades
Varias características definen la estructura y las propiedades de un conjunto de datos, entre ellas, la cantidad y los tipos de atributos o variables, y diversas medidas estadísticas aplicables a ellos, como la desviación estándar y la curtosis . [4]
Los valores pueden ser números, como números reales o enteros , por ejemplo, que representan la altura de una persona en centímetros, pero también pueden ser datos nominales (es decir, que no consisten en valores numéricos ), por ejemplo, que representan la etnia de una persona. En términos más generales, los valores pueden ser de cualquiera de los tipos descritos como un nivel de medición . Para cada variable, los valores normalmente son todos del mismo tipo. Pueden existir valores faltantes , que deben indicarse de alguna manera.
En estadística , los conjuntos de datos suelen proceder de observaciones reales obtenidas mediante un muestreo de una población estadística , y cada fila corresponde a las observaciones de un elemento de esa población. Los conjuntos de datos pueden generarse además mediante algoritmos con el fin de probar determinados tipos de software . Algunos programas de análisis estadístico modernos, como SPSS, aún presentan sus datos en el estilo clásico de conjuntos de datos. Si faltan datos o son sospechosos, se puede utilizar un método de imputación para completar un conjunto de datos. [5]
Conjunto de datos de flores de iris : conjunto de datos multivariados introducido por Ronald Fisher (1936). [1] Proporcionado en línea por el Repositorio de aprendizaje automático de la Universidad de California-Irvine. [6]
Análisis de datos categóricos : conjuntos de datos utilizados en el libro Introducción al análisis de datos categóricos , proporcionado en línea por UCLA Advanced Research Computing. [7]
Series temporales : los datos utilizados en el libro de Chatfield, The Analysis of Time Series , se proporcionan en línea mediante StatLib. [9]
Valores extremos – Los datos utilizados en el libro, Introducción al modelado estadístico de valores extremos, son una instantánea de los datos tal como fueron proporcionados en línea por Stuart Coles, el autor del libro.
Análisis de datos bayesianos : los datos utilizados en el libro se proporcionan en línea (enlace de archivo) por Andrew Gelman , uno de los autores del libro.
Los datos del hígado de Bupa: se utilizan en varios artículos en la literatura sobre aprendizaje automático (minería de datos).
Cuarteto de Anscombe : un pequeño conjunto de datos que ilustra la importancia de graficar los datos para evitar falacias estadísticas
Ejemplo
Cargar conjuntos de datos usando Python:
conjuntos de datos de instalación de pipDesde conjuntos de datos, importar load_datasetconjunto de datos = load_dataset ( NOMBRE DEL CONJUNTO DE DATOS )
^ ab Fisher, RA (1963). "El uso de mediciones múltiples en problemas taxonómicos" (PDF) . Anales de eugenesia . 7 (2): 179–188. doi :10.1111/j.1469-1809.1936.tb02137.x. hdl : 2440/15227 . Archivado desde el original (PDF) el 28 de septiembre de 2011 . Consultado el 22 de mayo de 2007 .
^ Snijders, C.; Matzat, U.; Reips, U.-D. (2012). «'Big Data': Grandes lagunas de conocimiento en el campo de Internet». Revista Internacional de Ciencias de Internet . 7 : 1–5. Archivado desde el original el 23 de noviembre de 2019 . Consultado el 10 de febrero de 2017 .
^ "Portal europeo de datos abiertos". Portal europeo de datos abiertos . Comisión Europea . Consultado el 23 de septiembre de 2016 .
^ Jan M. Żytkow, Jan Rauch (2000). Principios de minería de datos y descubrimiento de conocimiento. Springer. ISBN978-3-540-66490-1.
^ Comisión de Estadística de las Naciones Unidas; Comisión Económica de las Naciones Unidas para Europa (2007). Edición de datos estadísticos: impacto en la calidad de los datos: Volumen 3 de Edición de datos estadísticos, Conferencia de Estadísticos Europeos, Normas y estudios estadísticos (PDF) . Publicaciones de las Naciones Unidas. pág. 20. ISBN978-9211169522.
^ "Repositorio de aprendizaje automático de la UCI: conjunto de datos de iris". Archivado desde el original el 26 de abril de 2023. Consultado el 2 de mayo de 2023 .
^ "Ejemplos de libros de texto: Introducción al análisis de datos categóricos de Alan Agresti". Archivado desde el original el 2023-01-31 . Consultado el 2023-05-02 .
^ "Los conjuntos de datos de ROUSSEEUW". Archivado desde el original el 7 de febrero de 2005.
^ "StatLib :: Datos, software y noticias de la comunidad estadística". Archivado desde el original el 2 de enero de 2011.
Enlaces externos
Busque conjunto de datos en Wikcionario, el diccionario libre.
Data.gov: los datos abiertos del gobierno de Estados Unidos
GCMD – Directorio maestro sobre el cambio global que contiene más de 34 000 descripciones de conjuntos de datos y servicios sobre ciencias de la Tierra y del medio ambiente