Conjunto de datos

Un conjunto de datos (conocido también por el anglicismo dataset, comúnmente utilizado en algunos países hispanohablantes) es una colección de datos habitualmente tabulada.[1]​ La publicación de los conjuntos de datos usados en un experimento es clave para su reproducibilidad, y cada vez son más las leyes públicas y normas de revistas científicas que obligan a hacerlos públicos, para evitar sesgos.Según el estudio, es un factor clave de las propiedades del conjunto: dispersión, curtosis, etc.[2]​ Los valores pueden ser números, como números reales o enteros, por ejemplo, que representan la altura de una persona en centímetros, pero también pueden ser datos nominales (es decir, que no consisten en valores numéricos), por ejemplo, que representan la etnia de una persona.[3]​ Para cada variable, los valores son normalmente todos del mismo tipo.Sin embargo, también pueden faltar valores, que deben indicarse de alguna manera.