stringtranslate.com

Conjunto de datos

Diversos gráficos del conjunto de datos multivariados de la flor de iris introducido por Ronald Fisher (1936). [1]

Un conjunto de datos (o dataset ) es una colección de datos . En el caso de los datos tabulares, un conjunto de datos corresponde a una o más tablas de bases de datos , donde cada columna de una tabla representa una variable particular , y cada fila corresponde a un registro dado del conjunto de datos en cuestión. El conjunto de datos enumera valores para cada una de las variables, como por ejemplo la altura y el peso de un objeto, para cada miembro del conjunto de datos. Los conjuntos de datos también pueden consistir en una colección de documentos o archivos. [2]

En la disciplina de datos abiertos , el conjunto de datos es la unidad de medida de la información publicada en un repositorio público de datos abiertos. El portal europeo data.europa.eu reúne más de un millón de conjuntos de datos. [3]

Propiedades

Varias características definen la estructura y las propiedades de un conjunto de datos, entre ellas, la cantidad y los tipos de atributos o variables, y diversas medidas estadísticas aplicables a ellos, como la desviación estándar y la curtosis . [4]

Los valores pueden ser números, como números reales o enteros , por ejemplo, que representan la altura de una persona en centímetros, pero también pueden ser datos nominales (es decir, que no consisten en valores numéricos ), por ejemplo, que representan la etnia de una persona. En términos más generales, los valores pueden ser de cualquiera de los tipos descritos como un nivel de medición . Para cada variable, los valores normalmente son todos del mismo tipo. Pueden existir valores faltantes , que deben indicarse de alguna manera.

En estadística , los conjuntos de datos suelen proceder de observaciones reales obtenidas mediante un muestreo de una población estadística , y cada fila corresponde a las observaciones de un elemento de esa población. Los conjuntos de datos pueden generarse además mediante algoritmos con el fin de probar determinados tipos de software . Algunos programas de análisis estadístico modernos, como SPSS, aún presentan sus datos en el estilo clásico de conjuntos de datos. Si faltan datos o son sospechosos, se puede utilizar un método de imputación para completar un conjunto de datos. [5]

Clásicos

En la literatura estadística se han utilizado ampliamente varios conjuntos de datos clásicos :

Véase también

Referencias

  1. ^ ab Fisher, RA (1963). "El uso de mediciones múltiples en problemas taxonómicos" (PDF) . Anales de eugenesia . 7 (2): 179–188. doi :10.1111/j.1469-1809.1936.tb02137.x. hdl : 2440/15227 . Archivado desde el original (PDF) el 28 de septiembre de 2011 . Consultado el 22 de mayo de 2007 .
  2. ^ Snijders, C.; Matzat, U.; Reips, U.-D. (2012). «'Big Data': Grandes lagunas de conocimiento en el campo de Internet». Revista Internacional de Ciencias de Internet . 7 : 1–5. Archivado desde el original el 23 de noviembre de 2019 . Consultado el 10 de febrero de 2017 .
  3. ^ "Portal europeo de datos abiertos". Portal europeo de datos abiertos . Comisión Europea . Consultado el 23 de septiembre de 2016 .
  4. ^ Jan M. Żytkow, Jan Rauch (2000). Principios de minería de datos y descubrimiento de conocimiento. Springer. ISBN 978-3-540-66490-1.
  5. ^ Comisión de Estadística de las Naciones Unidas; Comisión Económica de las Naciones Unidas para Europa (2007). Edición de datos estadísticos: impacto en la calidad de los datos: Volumen 3 de Edición de datos estadísticos, Conferencia de Estadísticos Europeos, Normas y estudios estadísticos (PDF) . Publicaciones de las Naciones Unidas. pág. 20. ISBN 978-9211169522.
  6. ^ "Repositorio de aprendizaje automático de la UCI: conjunto de datos de iris". Archivado desde el original el 26 de abril de 2023. Consultado el 2 de mayo de 2023 .
  7. ^ "Ejemplos de libros de texto: Introducción al análisis de datos categóricos de Alan Agresti". Archivado desde el original el 2023-01-31 . Consultado el 2023-05-02 .
  8. ^ "Los conjuntos de datos de ROUSSEEUW". Archivado desde el original el 7 de febrero de 2005.
  9. ^ "StatLib :: Datos, software y noticias de la comunidad estadística". Archivado desde el original el 2 de enero de 2011.

Enlaces externos