stringtranslate.com

conjunto de datos

Varios gráficos del conjunto de datos multivariado Conjunto de datos de flores de iris presentado por Ronald Fisher (1936). [1]

Un conjunto de datos (o conjunto de datos ) es una colección de datos . En el caso de los datos tabulares, un conjunto de datos corresponde a una o más tablas de una base de datos , donde cada columna de una tabla representa una variable particular , y cada fila corresponde a un registro determinado del conjunto de datos en cuestión. El conjunto de datos enumera valores para cada una de las variables, como por ejemplo la altura y el peso de un objeto, para cada miembro del conjunto de datos. Los conjuntos de datos también pueden consistir en una colección de documentos o archivos. [2]

En la disciplina de datos abiertos , el conjunto de datos es la unidad para medir la información publicada en un repositorio público de datos abiertos. El portal europeo data.europa.eu agrega más de un millón de conjuntos de datos. [3]

Propiedades

Varias características definen la estructura y las propiedades de un conjunto de datos. Estos incluyen el número y tipos de atributos o variables, y varias medidas estadísticas aplicables a ellos, como la desviación estándar y la curtosis . [4]

Los valores pueden ser números, tales como números reales o enteros , que representan, por ejemplo, la altura de una persona en centímetros, pero también pueden ser datos nominales (es decir, que no consisten en valores numéricos ), que representan, por ejemplo, el origen étnico de una persona. De manera más general, los valores pueden ser de cualquiera de los tipos descritos como nivel de medición . Para cada variable, los valores normalmente son todos del mismo tipo. Pueden existir valores faltantes , que deben indicarse de alguna manera.

En estadística , los conjuntos de datos generalmente provienen de observaciones reales obtenidas al muestrear una población estadística , y cada fila corresponde a las observaciones de un elemento de esa población. Además, los conjuntos de datos pueden generarse mediante algoritmos con el fin de probar ciertos tipos de software . Algunos software de análisis estadístico moderno, como SPSS, todavía presentan sus datos en la forma clásica de conjunto de datos. Si faltan datos o estos son sospechosos, se puede utilizar un método de imputación para completar un conjunto de datos. [5]

Clásicos

En la literatura estadística se han utilizado ampliamente varios conjuntos de datos clásicos :

Ver también

Referencias

  1. ^ ab Fisher, RA (1963). "El uso de múltiples medidas en problemas taxonómicos" (PDF) . Anales de la eugenesia . 7 (2): 179–188. doi :10.1111/j.1469-1809.1936.tb02137.x. hdl : 2440/15227 . Archivado desde el original (PDF) el 28 de septiembre de 2011 . Consultado el 22 de mayo de 2007 .
  2. ^ Snijders, C.; Matzat, U.; Reips, U.-D. (2012). "'Big Data': Grandes lagunas de conocimiento en el campo de Internet". Revista Internacional de Ciencia de Internet . 7 : 1–5. Archivado desde el original el 23 de noviembre de 2019 . Consultado el 10 de febrero de 2017 .
  3. ^ "Portal europeo de datos abiertos". Portal europeo de datos abiertos . Comisión Europea . Consultado el 23 de septiembre de 2016 .
  4. ^ Jan M. Żytkow, Jan Rauch (2000). Principios de minería de datos y descubrimiento de conocimiento. Saltador. ISBN 978-3-540-66490-1.
  5. ^ Comisión de Estadística de las Naciones Unidas; Comisión Económica de las Naciones Unidas para Europa (2007). Edición de datos estadísticos: Impacto en la calidad de los datos: Volumen 3 de Edición de datos estadísticos, Conferencia de Estadísticos Europeos Estándares y estudios estadísticos. Publicaciones de las Naciones Unidas. pag. 20.ISBN _ 978-9211169522. Consultado el 19 de julio de 2015 .[ enlace muerto permanente ]
  6. ^ "Repositorio de aprendizaje automático de la UCI: conjunto de datos de Iris". Archivado desde el original el 26 de abril de 2023 . Consultado el 2 de mayo de 2023 .
  7. ^ "Ejemplos de libros de texto: una introducción al análisis de datos categóricos por Alan Agresti". Archivado desde el original el 31 de enero de 2023 . Consultado el 2 de mayo de 2023 .
  8. ^ "Los conjuntos de datos de ROUSSEEUW". Archivado desde el original el 7 de febrero de 2005.
  9. ^ "StatLib :: Datos, software y noticias de la comunidad estadística". Archivado desde el original el 2 de enero de 2011.

enlaces externos