Análisis de los datos

El análisis de datos es el proceso de inspeccionar, limpiar , transformar y modelar datos con el objetivo de descubrir información útil, fundamentar conclusiones y respaldar la toma de decisiones. ^[1] El análisis de datos tiene múltiples facetas y enfoques, abarcando diversas técnicas bajo una variedad de nombres, y se utiliza en diferentes dominios de negocios, ciencias y ciencias sociales. ^[2] En el mundo empresarial actual, el análisis de datos desempeña un papel a la hora de tomar decisiones más científicas y ayudar a las empresas a operar de forma más eficaz. ^[3]

La minería de datos es una técnica particular de análisis de datos que se centra en el modelado estadístico y el descubrimiento de conocimientos con fines predictivos más que puramente descriptivos, mientras que la inteligencia empresarial cubre el análisis de datos que depende en gran medida de la agregación, centrándose principalmente en la información empresarial. ^[4] En aplicaciones estadísticas, el análisis de datos se puede dividir en estadística descriptiva , análisis de datos exploratorios (EDA) y análisis de datos confirmatorios (CDA). ^[5] EDA se centra en descubrir nuevas características en los datos, mientras que CDA se centra en confirmar o refutar hipótesis existentes . ^[6]^[7] El análisis predictivo se centra en la aplicación de modelos estadísticos para la predicción o clasificación predictiva, mientras que el análisis de texto aplica técnicas estadísticas, lingüísticas y estructurales para extraer y clasificar información de fuentes textuales, una especie de datos no estructurados . Todo lo anterior son variedades de análisis de datos. ^[8]

La integración de datos es un precursor del análisis de datos, y el análisis de datos está estrechamente vinculado con la visualización y difusión de datos. ^[9]

El proceso de análisis de datos.

El análisis se refiere a dividir un todo en sus componentes separados para un examen individual. ^[10] El análisis de datos es un proceso para obtener datos sin procesar , y posteriormente convertirlos en información útil para la toma de decisiones por parte de los usuarios. ^[1] Los datos se recopilan y analizan para responder preguntas, probar hipótesis o refutar teorías. ^[11]

El estadístico John Tukey , definió el análisis de datos en 1961, como:

"Procedimientos para analizar datos, técnicas para interpretar los resultados de dichos procedimientos, formas de planificar la recopilación de datos para hacer su análisis más fácil, más preciso o más exacto, y todos los mecanismos y resultados de la estadística (matemática) que se aplican al análisis de datos. ". ^[12]

Hay varias fases que se pueden distinguir, que se describen a continuación. Las fases son iterativas , en el sentido de que la retroalimentación de fases posteriores puede resultar en trabajo adicional en fases anteriores. ^[13] El marco CRISP , utilizado en la minería de datos , tiene pasos similares.

Requerimientos de datos

Los datos son necesarios como entradas para el análisis, que se especifica en función de los requisitos de quienes dirigen el análisis (o de los clientes, que utilizarán el producto final del análisis). ^[14]^[15] El tipo general de entidad sobre la cual se recopilarán los datos se denomina unidad experimental (por ejemplo, una persona o población de personas). Se pueden especificar y obtener variables específicas relativas a una población (por ejemplo, edad e ingresos). Los datos pueden ser numéricos o categóricos (es decir, una etiqueta de texto para números). ^[13]

Recopilación de datos

Los datos se recopilan de una variedad de fuentes. ^[16]^[17] Hay una lista de fuentes de datos disponibles para estudio e investigación. Los analistas podrán comunicar los requisitos a los custodios de los datos; como por ejemplo, personal de Tecnología de la Información dentro de una organización. ^[18] La recopilación de datos o recopilación de datos es el proceso de recopilar y medir información sobre variables específicas en un sistema establecido, que luego permite responder preguntas relevantes y evaluar resultados. Los datos también pueden recopilarse a partir de sensores en el medio ambiente, incluidas cámaras de tráfico, satélites, dispositivos de grabación, etc. También pueden obtenerse a través de entrevistas, descargas de fuentes en línea o lectura de documentación. ^[13]

Procesamiento de datos

Los datos, cuando se obtienen inicialmente, deben procesarse u organizarse para su análisis. ^[19]^[20] Por ejemplo, estos pueden implicar colocar datos en filas y columnas en un formato de tabla ( conocido como datos estructurados ) para su posterior análisis, a menudo mediante el uso de hojas de cálculo o software estadístico. ^[13]

Limpieza de datos

Una vez procesados y organizados, los datos pueden estar incompletos, contener duplicados o contener errores. ^[21]^[22] La necesidad de limpieza de datos surgirá de problemas en la forma en que se ingresan y almacenan los datos. ^[21] La limpieza de datos es el proceso de prevenir y corregir estos errores. Las tareas comunes incluyen la comparación de registros, la identificación de inexactitud de los datos, la calidad general de los datos existentes, la deduplicación y la segmentación de columnas. ^[23] Estos problemas de datos también pueden identificarse mediante una variedad de técnicas analíticas. Por ejemplo; Con la información financiera, los totales de variables particulares pueden compararse con números publicados por separado que se consideran confiables. ^[24]^[25] También podrán revisarse los importes inusuales, por encima o por debajo de umbrales predeterminados. Existen varios tipos de limpieza de datos, que dependen del tipo de datos del conjunto; Estos podrían ser números de teléfono, direcciones de correo electrónico, empleadores u otros valores. ^[26]^[27] Los métodos de datos cuantitativos para la detección de valores atípicos se pueden utilizar para eliminar datos que parecen tener una mayor probabilidad de ingresarse incorrectamente. ^[28] Los correctores ortográficos de datos textuales se pueden utilizar para reducir la cantidad de palabras mal escritas. Sin embargo, es más difícil saber si las palabras en sí son correctas. ^[29]

Análisis exploratorio de datos

Una vez que se limpian los conjuntos de datos, se pueden analizar. Los analistas pueden aplicar una variedad de técnicas, denominadas análisis de datos exploratorios , para comenzar a comprender los mensajes contenidos en los datos obtenidos. ^[30] El proceso de exploración de datos puede resultar en una limpieza de datos adicional o solicitudes adicionales de datos; de ahí la inicialización de las fases iterativas mencionadas en el párrafo inicial de esta sección. ^{[31] Se pueden generar} estadísticas descriptivas , como el promedio o la mediana, para ayudar a comprender los datos. ^[32]^[33] La visualización de datos también es una técnica utilizada, en la que el analista puede examinar los datos en un formato gráfico para obtener información adicional sobre los mensajes dentro de los datos. ^[13]

Modelado y algoritmos.

Se pueden aplicar fórmulas o modelos matemáticos (también conocidos como algoritmos ) a los datos para identificar relaciones entre las variables; por ejemplo, utilizando correlación o causalidad . ^[34]^[35] En términos generales, se pueden desarrollar modelos para evaluar una variable específica en función de otras variables contenidas en el conjunto de datos, con algún error residual que depende de la precisión del modelo implementado ( p. ej. , Datos = Modelo + Error). . ^[36]^[11]

La estadística inferencial incluye la utilización de técnicas que miden las relaciones entre variables particulares. ^[37] Por ejemplo, el análisis de regresión puede usarse para modelar si un cambio en la publicidad ( variable independiente X ) proporciona una explicación para la variación en las ventas ( variable dependiente Y ). ^[38] En términos matemáticos, Y (ventas) es función de X (publicidad). ^[39] Puede describirse como ( Y = aX + b + error), donde el modelo está diseñado de manera que ( a ) y ( b ) minimicen el error cuando el modelo predice Y para un rango dado de valores de X. ^[40] Los analistas también pueden intentar construir modelos que sean descriptivos de los datos, con el objetivo de simplificar el análisis y comunicar los resultados. ^[11]

Producto de datos

Un producto de datos es una aplicación informática que toma entradas de datos y genera salidas , devolviéndolas al medio ambiente. ^[41] Puede basarse en un modelo o algoritmo. Por ejemplo, una aplicación que analiza datos sobre el historial de compras del cliente y utiliza los resultados para recomendar otras compras que el cliente podría disfrutar. ^[42]^[13]

Comunicación

Una vez que se analizan los datos, se pueden informar en muchos formatos a los usuarios del análisis para respaldar sus requisitos. ^[44] Los usuarios pueden tener comentarios, lo que resulta en análisis adicionales. Como tal, gran parte del ciclo analítico es iterativo. ^[13]

Al determinar cómo comunicar los resultados, el analista puede considerar implementar una variedad de técnicas de visualización de datos para ayudar a comunicar el mensaje a la audiencia de manera más clara y eficiente. ^[45] La visualización de datos utiliza visualizaciones de información (gráficos como tablas y cuadros) para ayudar a comunicar mensajes clave contenidos en los datos. ^[46] Las tablas son una herramienta valiosa que permite al usuario consultar y centrarse en números específicos; mientras que los gráficos (por ejemplo, gráficos de barras o gráficos de líneas) pueden ayudar a explicar los mensajes cuantitativos contenidos en los datos. ^[47]

Mensajes cuantitativos

Stephen Few describió ocho tipos de mensajes cuantitativos que los usuarios pueden intentar comprender o comunicar a partir de un conjunto de datos y los gráficos asociados utilizados para ayudar a comunicar el mensaje. ^[48] Los clientes que especifican requisitos y los analistas que realizan el análisis de datos pueden considerar estos mensajes durante el curso del proceso. ^[49]

Series de tiempo: se captura una sola variable durante un período de tiempo, como la tasa de desempleo durante un período de 10 años. Se puede utilizar un gráfico de líneas para demostrar la tendencia. ^[50]
Clasificación: las subdivisiones categóricas se clasifican en orden ascendente o descendente, como una clasificación del desempeño de ventas (la medida ) por vendedores (la categoría , donde cada vendedor es una subdivisión categórica ) durante un solo período. ^[51] Se puede utilizar un gráfico de barras para mostrar la comparación entre los vendedores. ^[52]
Parte-total: las subdivisiones categóricas se miden como una relación con el todo (es decir, un porcentaje del 100%). Un gráfico circular o de barras puede mostrar la comparación de ratios, como la cuota de mercado representada por los competidores en un mercado. ^[53]
Desviación: las subdivisiones categóricas se comparan con una referencia, como una comparación de los gastos reales frente a los presupuestados para varios departamentos de una empresa durante un período de tiempo determinado. Un gráfico de barras puede mostrar la comparación entre el importe real y el de referencia. ^[54]
Distribución de frecuencia: muestra el número de observaciones de una variable particular para un intervalo determinado, como el número de años en los que el rendimiento del mercado de valores se encuentra entre intervalos como 0–10%, 11–20%, etc. Un histograma , un Para este análisis se puede utilizar un tipo de gráfico de barras. ^[55]
Correlación: Comparación entre observaciones representadas por dos variables (X,Y) para determinar si tienden a moverse en direcciones iguales o opuestas. Por ejemplo, trazar el desempleo (X) y la inflación (Y) para una muestra de meses. Normalmente se utiliza un diagrama de dispersión para este mensaje. ^[56]
Comparación nominal: comparación de subdivisiones categóricas sin ningún orden en particular, como el volumen de ventas por código de producto. Se puede utilizar un gráfico de barras para esta comparación. ^[57]
Geográfico o geoespacial: comparación de una variable en un mapa o diseño, como la tasa de desempleo por estado o el número de personas en los distintos pisos de un edificio. Un cartograma es un gráfico típico utilizado. ^[58]^[59]

Técnicas para analizar datos cuantitativos.

El autor Jonathan Koomey ha recomendado una serie de mejores prácticas para comprender los datos cuantitativos. ^[60] Estos incluyen:

Verifique los datos sin procesar en busca de anomalías antes de realizar un análisis;
Vuelva a realizar cálculos importantes, como verificar columnas de datos basadas en fórmulas;
Confirmar que los totales principales son la suma de los subtotales;
Verifique las relaciones entre números que deben estar relacionados de manera predecible, como proporciones a lo largo del tiempo;
Normalizar los números para facilitar las comparaciones, como analizar cantidades por persona o en relación con el PIB o como un valor de índice en relación con un año base;
Divida los problemas en sus componentes analizando los factores que condujeron a los resultados, como el análisis de rendimiento sobre el capital de DuPont. ^[25]

Para las variables examinadas, los analistas suelen obtener estadísticas descriptivas , como la media (promedio), la mediana y la desviación estándar . ^[61] También pueden analizar la distribución de las variables clave para ver cómo los valores individuales se agrupan alrededor de la media. ^[62]

Los consultores de McKinsey and Company denominaron principio MECE una técnica para descomponer un problema cuantitativo en sus componentes . ^[63] Cada capa se puede dividir en sus componentes; cada uno de los subcomponentes debe ser mutuamente excluyente entre sí y sumar colectivamente la capa superior a ellos. ^[64] La relación se denomina "mutuamente excluyente y colectivamente exhaustiva" o MECE. Por ejemplo, las ganancias, por definición, se pueden dividir en ingresos totales y costos totales. ^[65] A su vez, los ingresos totales pueden analizarse por sus componentes, como los ingresos de las divisiones A, B y C (que se excluyen mutuamente) y deben sumarse a los ingresos totales (colectivamente exhaustivos). ^[66]

Los analistas pueden utilizar medidas estadísticas sólidas para resolver ciertos problemas analíticos. ^[67] La prueba de hipótesis se utiliza cuando el analista formula una hipótesis particular sobre el verdadero estado de cosas y se recopilan datos para determinar si ese estado de cosas es verdadero o falso. ^[68]^[69] Por ejemplo, la hipótesis podría ser que "El desempleo no tiene ningún efecto sobre la inflación", lo que se relaciona con un concepto económico llamado Curva de Phillips . ^[70] La prueba de hipótesis implica considerar la probabilidad de errores de tipo I y tipo II , que se relacionan con si los datos respaldan la aceptación o el rechazo de la hipótesis. ^[71]^[72]

El análisis de regresión se puede utilizar cuando el analista intenta determinar en qué medida la variable independiente X afecta a la variable dependiente Y (por ejemplo, "¿En qué medida los cambios en la tasa de desempleo (X) afectan la tasa de inflación (Y)?"). ^[73] Este es un intento de modelar o ajustar una línea o curva de ecuación a los datos, de modo que Y sea una función de X. ^[74]^[75]

El análisis de condición necesaria (NCA) se puede utilizar cuando el analista intenta determinar en qué medida la variable independiente X permite la variable Y (por ejemplo, "¿En qué medida es necesaria una determinada tasa de desempleo (X) para una determinada tasa de inflación (Y)? ?"). ^[73] Mientras que el análisis de regresión (múltiple) utiliza lógica aditiva donde cada variable X puede producir el resultado y las X pueden compensarse entre sí (son suficientes pero no necesarias), ^[76] el análisis de condición necesaria (NCA) utiliza lógica de necesidad. , donde una o más variables X permiten que exista el resultado, pero pueden no producirlo (son necesarias pero no suficientes). Cada una de las condiciones necesarias debe estar presente y la compensación no es posible. ^[77]

Actividades analíticas de los usuarios de datos.

Actividades analíticas de los usuarios de visualización de datos.

Los usuarios pueden tener puntos de datos particulares de interés dentro de un conjunto de datos, a diferencia de los mensajes generales descritos anteriormente. Estas actividades analíticas de usuario de bajo nivel se presentan en la siguiente tabla. La taxonomía también se puede organizar en tres polos de actividades: recuperar valores, encontrar puntos de datos y organizar puntos de datos. ^[78]^[79]^[80]^[81]

Barreras para un análisis eficaz

Pueden existir barreras para un análisis eficaz entre los analistas que realizan el análisis de datos o entre la audiencia. Distinguir los hechos de las opiniones, los sesgos cognitivos y la aritmética son desafíos para un análisis sólido de los datos. ^[82]

Hechos y opiniones confusos

Tiene derecho a tener su propia opinión, pero no a sus propios hechos.

Daniel Patrick Moynihan

El análisis eficaz requiere obtener hechos relevantes para responder preguntas, respaldar una conclusión u opinión formal , o probar hipótesis . ^[83]^[84] Los hechos, por definición, son irrefutables, lo que significa que cualquier persona involucrada en el análisis debería poder ponerse de acuerdo sobre ellos. ^[85] Por ejemplo, en agosto de 2010, la Oficina de Presupuesto del Congreso (CBO) estimó que ampliar los recortes de impuestos de Bush de 2001 y 2003 para el período 2011-2020 añadiría aproximadamente 3,3 billones de dólares a la deuda nacional. ^[86] Todo el mundo debería poder estar de acuerdo en que, efectivamente, esto es lo que informó la CBO; Todos pueden examinar el informe. Esto lo convierte en un hecho. Si las personas están de acuerdo o en desacuerdo con la CBO es su propia opinión. ^[87]

Como otro ejemplo, el auditor de una empresa pública debe llegar a una opinión formal sobre si los estados financieros de las empresas que cotizan en bolsa están "expresados de manera justa, en todos los aspectos importantes". ^[88] Esto requiere un análisis exhaustivo de datos fácticos y pruebas que respalden su opinión. Al dar el salto de los hechos a las opiniones, siempre existe la posibilidad de que la opinión sea errónea . ^[89]

Sesgos cognitivos

Existe una variedad de sesgos cognitivos que pueden afectar negativamente al análisis. Por ejemplo, el sesgo de confirmación es la tendencia a buscar o interpretar información de una manera que confirme las propias ideas preconcebidas. ^[90] Además, las personas pueden desacreditar información que no respalde sus puntos de vista. ^[91]

Los analistas pueden estar capacitados específicamente para ser conscientes de estos sesgos y cómo superarlos. ^[92] En su libro Psicología del análisis de inteligencia , el analista retirado de la CIA Richards Heuer escribió que los analistas deben delinear claramente sus suposiciones y cadenas de inferencia y especificar el grado y la fuente de la incertidumbre involucrada en las conclusiones. ^[93] Hizo hincapié en los procedimientos para ayudar a sacar a la luz y debatir puntos de vista alternativos. ^[94]

aritmética

Los analistas eficaces suelen ser expertos en una variedad de técnicas numéricas. Sin embargo, es posible que el público no tenga ese conocimiento de los números o la aritmética ; se dice que son innumerables. ^[95] Las personas que comunican los datos también pueden estar intentando engañar o desinformar, utilizando deliberadamente malas técnicas numéricas. ^[96]

Por ejemplo, si un número aumenta o disminuye puede no ser el factor clave. Más importante puede ser el número en relación con otro número, como el tamaño de los ingresos o gastos del gobierno en relación con el tamaño de la economía (PIB) o el monto del costo en relación con los ingresos en los estados financieros corporativos. ^[97] Esta técnica numérica se conoce como normalización ^[25] o tamaño común. Los analistas emplean muchas técnicas de este tipo, ya sea ajustando la inflación (es decir, comparando datos reales con datos nominales) o considerando aumentos de población, datos demográficos, etc. ^[98] Los analistas aplican una variedad de técnicas para abordar los diversos mensajes cuantitativos descritos en el informe. sección anterior. ^[99]

Los analistas también pueden analizar datos bajo diferentes supuestos o escenarios. Por ejemplo, cuando los analistas realizan análisis de estados financieros , a menudo los reformulan bajo diferentes supuestos para ayudar a llegar a una estimación del flujo de efectivo futuro, que luego descuentan al valor presente con base en alguna tasa de interés, para determinar la valoración del activo. empresa o sus acciones. ^[100]^[101] De manera similar, la CBO analiza los efectos de varias opciones políticas sobre los ingresos, los desembolsos y los déficits del gobierno, creando escenarios futuros alternativos para medidas clave. ^[102]

Otros temas

Edificios inteligentes

Se puede utilizar un enfoque de análisis de datos para predecir el consumo de energía en los edificios. ^[103] Los diferentes pasos del proceso de análisis de datos se llevan a cabo para realizar edificios inteligentes, donde las operaciones de gestión y control del edificio, incluidas calefacción, ventilación, aire acondicionado, iluminación y seguridad, se realizan automáticamente imitando las necesidades de los usuarios del edificio. y optimizar recursos como la energía y el tiempo. ^[104]

Analítica e inteligencia empresarial

La analítica es el "uso extensivo de datos, análisis estadísticos y cuantitativos, modelos explicativos y predictivos y gestión basada en hechos para impulsar decisiones y acciones". Es un subconjunto de la inteligencia empresarial , que es un conjunto de tecnologías y procesos que utilizan datos para comprender y analizar el desempeño empresarial para impulsar la toma de decisiones. ^[105]

Educación

En educación , la mayoría de los educadores tienen acceso a un sistema de datos con el fin de analizar los datos de los estudiantes. ^[106] Estos sistemas de datos presentan datos a los educadores en un formato de datos de venta libre (incorporando etiquetas, documentación complementaria y un sistema de ayuda y tomando decisiones clave sobre empaque/exhibición y contenido) para mejorar la precisión de los análisis de datos de los educadores. ^[107]

Notas del practicante

Esta sección contiene explicaciones bastante técnicas que pueden ayudar a los profesionales, pero que están más allá del alcance típico de un artículo de Wikipedia. ^[108]

Análisis de datos inicial

La distinción más importante entre la fase de análisis de datos inicial y la fase de análisis principal es que durante el análisis de datos inicial uno se abstiene de realizar cualquier análisis que tenga como objetivo responder la pregunta de investigación original. ^[109] La fase inicial de análisis de datos se guía por las cuatro preguntas siguientes: ^[110]

Calidad de los datos

La calidad de los datos debe comprobarse lo antes posible. La calidad de los datos se puede evaluar de varias maneras, utilizando diferentes tipos de análisis: recuentos de frecuencia, estadísticas descriptivas (media, desviación estándar, mediana), normalidad (asimetría, curtosis, histogramas de frecuencia), y se necesita una imputación normal . ^[111]

Análisis de observaciones extremas : las observaciones atípicas en los datos se analizan para ver si parecen alterar la distribución. ^[112]
Comparación y corrección de diferencias en los esquemas de codificación: las variables se comparan con esquemas de codificación de variables externas al conjunto de datos y posiblemente se corrigen si los esquemas de codificación no son comparables. ^[113]
Prueba de varianza del método común .

La elección de los análisis para evaluar la calidad de los datos durante la fase inicial de análisis de datos depende de los análisis que se realizarán en la fase de análisis principal. ^[114]

Calidad de las mediciones

La calidad de los instrumentos de medición sólo debe comprobarse durante la fase inicial de análisis de datos cuando este no sea el foco o la pregunta de investigación del estudio. ^[115]^[116] Se debe verificar si la estructura de los instrumentos de medición corresponde a la estructura reportada en la literatura.

Hay dos formas de evaluar la calidad de la medición:

Análisis factorial confirmatorio
Análisis de homogeneidad ( consistencia interna ), que da una indicación de la confiabilidad de un instrumento de medición. ^[117] Durante este análisis, se inspeccionan las varianzas de los ítems y las escalas, el α de Cronbach de las escalas y el cambio en el alfa de Cronbach cuando un ítem se eliminaría de una escala ^[118]

Transformaciones iniciales

Después de evaluar la calidad de los datos y de las mediciones, se podría decidir imputar los datos faltantes o realizar transformaciones iniciales de una o más variables, aunque esto también se puede hacer durante la fase de análisis principal. ^[119]
Posibles transformaciones de variables son: ^[120]

Transformación de raíz cuadrada (si la distribución difiere moderadamente de la normal)
Transformación logarítmica (si la distribución difiere sustancialmente de la normal)
Transformación inversa (si la distribución difiere mucho de la normal)
Hacer categórico (ordinal/dicotómico) (si la distribución difiere mucho de la normal y ninguna transformación ayuda)

¿La implementación del estudio cumplió con las intenciones del diseño de investigación?

Se debe comprobar el éxito del procedimiento de aleatorización , comprobando, por ejemplo, si las variables de fondo y sustantivas están distribuidas equitativamente dentro y entre los grupos. ^[121]
Si el estudio no necesitaba ni utilizaba un procedimiento de aleatorización, se debe comprobar el éxito del muestreo no aleatorio, por ejemplo comprobando si todos los subgrupos de la población de interés están representados en la muestra. ^[122]
Otras posibles distorsiones de los datos que deberían comprobarse son:

Abandono (esto debe identificarse durante la fase inicial de análisis de datos).
Falta de respuesta al ítem (si esto es aleatorio o no, debe evaluarse durante la fase inicial de análisis de datos)
Calidad del tratamiento (mediante controles de manipulación ). ^[123]

Características de la muestra de datos.

En cualquier informe o artículo, se debe describir con precisión la estructura de la muestra. ^[124]^[125] Es especialmente importante determinar exactamente la estructura de la muestra (y específicamente el tamaño de los subgrupos) cuando se realizarán análisis de subgrupos durante la fase de análisis principal. ^[126]
Las características de la muestra de datos pueden evaluarse observando:

Estadísticas básicas de variables importantes.
Gráfico de dispersión
Correlaciones y asociaciones
Tabulaciones cruzadas ^[127]

Etapa final del análisis inicial de datos.

Durante la etapa final, se documentan los hallazgos del análisis de datos inicial y se toman las acciones correctivas necesarias, preferibles y posibles. ^[128]
Además, el plan original para los principales análisis de datos puede y debe especificarse con más detalle o reescribirse. ^[129] Para ello, se pueden y se deben tomar varias decisiones sobre los principales análisis de datos:

En el caso de no normales : ¿se deben transformar las variables? hacer que las variables sean categóricas (ordinales/dicotómicas); ¿adaptar el método de análisis?
En el caso de datos faltantes : ¿se deben descuidar o imputar los datos faltantes? ¿Qué técnica de imputación se debe utilizar?
En el caso de valores atípicos : ¿se deben utilizar técnicas de análisis sólidas?
En caso de que los ítems no se ajusten a la escala: ¿se debe adaptar el instrumento de medición omitiendo ítems, o más bien garantizar la comparabilidad con otros (usos del) instrumento(s) de medición?
En el caso de subgrupos (demasiado) pequeños: ¿se debería abandonar la hipótesis sobre las diferencias entre grupos o utilizar técnicas de muestras pequeñas, como pruebas exactas o bootstrapping ?
En caso de que el procedimiento de aleatorización parezca defectuoso: ¿se puede y se debe calcular las puntuaciones de propensión e incluirlas como covariables en los análisis principales? ^[130]

Análisis

Se pueden utilizar varios análisis durante la fase inicial de análisis de datos: ^[131]

Estadísticas univariadas (una sola variable)
Asociaciones bivariadas (correlaciones)
Técnicas gráficas (diagramas de dispersión)

Es importante tener en cuenta los niveles de medición de las variables para los análisis, ya que se encuentran disponibles técnicas estadísticas especiales para cada nivel: ^[132]

Variables nominales y ordinales
- Recuentos de frecuencia (números y porcentajes)
- Asociaciones
  - circunvalaciones (tabulaciones cruzadas)
  - análisis loglineal jerárquico (restringido a un máximo de 8 variables)
  - análisis loglineal (para identificar variables relevantes/importantes y posibles factores de confusión)
- Pruebas exactas o bootstrapping (en caso de que los subgrupos sean pequeños)
- Cálculo de nuevas variables.
Variables continuas
- Distribución
  - Estadísticas (M, SD, varianza, asimetría, curtosis)
  - Exhibiciones de tallo y hojas
  - Diagramas de caja

Análisis no lineal

El análisis no lineal suele ser necesario cuando los datos se registran desde un sistema no lineal . Los sistemas no lineales pueden exhibir efectos dinámicos complejos que incluyen bifurcaciones , caos , armónicos y subarmónicos que no pueden analizarse utilizando métodos lineales simples. El análisis de datos no lineal está estrechamente relacionado con la identificación de sistemas no lineales . ^[133]

Análisis de datos principales

En la fase de análisis principal, se realizan análisis destinados a responder a la pregunta de investigación, así como cualquier otro análisis relevante necesario para redactar el primer borrador del informe de investigación. ^[134]

Enfoques exploratorios y confirmatorios.

En la fase de análisis principal, se puede adoptar un enfoque exploratorio o confirmatorio. Generalmente el enfoque se decide antes de recopilar los datos. ^[135] En un análisis exploratorio no se establece ninguna hipótesis clara antes de analizar los datos, y se buscan modelos que los describan bien. ^[136] En un análisis confirmatorio se prueban hipótesis claras sobre los datos. ^[137]

El análisis de datos exploratorios debe interpretarse con cuidado. Al probar varios modelos a la vez, existe una alta probabilidad de encontrar que al menos uno de ellos sea significativo, pero esto puede deberse a un error de tipo 1 . ^[138] Es importante ajustar siempre el nivel de significancia al probar varios modelos con, por ejemplo, una corrección de Bonferroni . ^[139] Además, no se debe dar seguimiento a un análisis exploratorio con un análisis confirmatorio en el mismo conjunto de datos. ^[140] Un análisis exploratorio se utiliza para encontrar ideas para una teoría, pero no para probar esa teoría también. ^[140] Cuando se considera que un modelo es exploratorio en un conjunto de datos, el seguimiento de ese análisis con un análisis confirmatorio en el mismo conjunto de datos podría significar simplemente que los resultados del análisis confirmatorio se deben al mismo error tipo 1 que resultó en el modelo exploratorio. en primer lugar. ^[140] Por lo tanto, el análisis confirmatorio no será más informativo que el análisis exploratorio original. ^[141]

Estabilidad de resultados

Es importante obtener alguna indicación sobre cuán generalizables son los resultados. ^[142] Si bien esto suele ser difícil de comprobar, se puede observar la estabilidad de los resultados. ¿Los resultados son fiables y reproducibles? Hay dos formas principales de hacerlo. ^[143]

Validación cruzada . Al dividir los datos en varias partes, podemos comprobar si un análisis (como un modelo ajustado) basado en una parte de los datos también se generaliza a otra parte de los datos.^[144] Sin embargo, la validación cruzada generalmente es inapropiada si existen correlaciones dentro de los datos, por ejemplo, con datos de panel .^[145] Por lo tanto, a veces es necesario utilizar otros métodos de validación. Para obtener más información sobre este tema, consulte Validación de modelos estadísticos .^[146]
Análisis de sensibilidad . Un procedimiento para estudiar el comportamiento de un sistema o modelo cuando los parámetros globales varían (sistemáticamente). Una forma de hacerlo es mediante arranque .^[147]

Software gratuito para análisis de datos.

El software gratuito destacado para el análisis de datos incluye:

DevInfo : un sistema de base de datos respaldado por el Grupo de Desarrollo de las Naciones Unidas para monitorear y analizar el desarrollo humano. ^[148]
ELKI : marco de minería de datos en Java con funciones de visualización orientadas a la minería de datos.
KNIME : Konstanz Information Miner, un marco de análisis de datos completo y fácil de usar.
Orange : una herramienta de programación visual que presenta visualización de datos interactiva y métodos para análisis de datos estadísticos, minería de datos y aprendizaje automático .
Pandas : biblioteca Python para análisis de datos.
PAW : marco de análisis de datos FORTRAN/C desarrollado en el CERN .
R : lenguaje de programación y entorno de software para gráficos y computación estadística. ^[149]
ROOT : marco de análisis de datos C++ desarrollado en el CERN .
SciPy : biblioteca Python para informática científica.
Julia : un lenguaje de programación muy adecuado para el análisis numérico y la ciencia computacional.

Análisis reproducible

El flujo de trabajo típico de análisis de datos implica recopilar datos, ejecutar análisis a través de varios scripts, crear visualizaciones y escribir informes. Sin embargo, este flujo de trabajo presenta desafíos, incluida una separación entre los scripts de análisis y los datos, así como una brecha entre el análisis y la documentación. A menudo, el orden correcto de ejecución de los scripts sólo se describe de manera informal o reside en la memoria del científico de datos. La posibilidad de perder esta información crea problemas de reproducibilidad. Para abordar estos desafíos, es esencial contar con scripts de análisis escritos para flujos de trabajo automatizados y reproducibles. Además, la documentación dinámica es crucial, ya que proporciona informes que son comprensibles tanto para las máquinas como para los humanos, lo que garantiza una representación precisa del flujo de trabajo de análisis incluso a medida que los scripts evolucionan. ^[150]

Concursos internacionales de análisis de datos

Diferentes empresas u organizaciones organizan concursos de análisis de datos para alentar a los investigadores a utilizar sus datos o resolver una pregunta particular mediante el análisis de datos. ^[151]^[152] Algunos ejemplos de concursos internacionales de análisis de datos conocidos son los siguientes: ^[153]

Competencia de Kaggle, que está a cargo de Kaggle . ^[154]
Concurso de análisis de datos LTPP realizado por FHWA y ASCE . ^[155]^[156]

Ver también

Referencias

Citas

^ ab "Transformación de datos no estructurados en información útil", Big Data, Minería y Análisis , Publicaciones Auerbach, págs. 227–246, 2014-03-12, doi :10.1201/b16666-14, ISBN 978-0-429-09529-0, recuperado el 29 de mayo de 2021
^ "Las múltiples facetas de las funciones de correlación", Técnicas de análisis de datos para científicos físicos , Cambridge University Press, págs. 526–576, 2017, doi :10.1017/9781108241922.013, ISBN 978-1-108-41678-8, recuperado el 29 de mayo de 2021
^ Xia, BS y Gong, P. (2015). Revisión de la inteligencia de negocios a través del análisis de datos. Evaluación comparativa , 21 (2), 300-311. doi :10.1108/BIJ-08-2012-0050
^ Explorando el análisis de datos
^ "Reglas de codificación de datos y análisis exploratorio (EDA) para la codificación de datos Supuestos estadísticos del análisis de datos exploratorios (EDA), SPSS para estadísticas intermedias , Routledge, págs. 42–67, 2004-08-16, doi :10.4324/9781410611420-6 , ISBN 978-1-4106-1142-0, recuperado el 29 de mayo de 2021
^ Espía (1 de octubre de 2014). "La nueva convocatoria europea de TIC se centra en PIC, láseres y transferencia de datos". SPIE Profesional . doi :10.1117/2.4201410.10. ISSN 1994-4403.
^ Samandar, Petersson; Svantesson, Sofía (2017). Skapandet av förtroende inom eWOM: Enstudie av profilbildens effekt ur ett könsperspektiv . Högskolan i Gävle, Företagsekonomi. OCLC 1233454128.
^ Buenas noches, James (13 de enero de 2011). "El pronóstico para el análisis predictivo: caliente y cada vez más caliente". Análisis estadístico y minería de datos: The ASA Data Science Journal . 4 (1): 9–10. doi :10.1002/sam.10106. ISSN 1932-1864. S2CID 38571193.
^ Sherman, Rick (4 de noviembre de 2014). Guía de inteligencia empresarial: de la integración de datos al análisis. Ámsterdam. ISBN 978-0-12-411528-6. OCLC 894555128.{{cite book}}: CS1 maint: location missing publisher (link)
^ Field, John (2009), "Dividir la escucha en sus componentes", Escuchar en el aula de idiomas , Cambridge: Cambridge University Press, págs. 96-109, doi :10.1017/cbo9780511575945.008, ISBN 978-0-511-57594-5, recuperado el 29 de mayo de 2021
^ a b C Judd, Charles; McCleland, Gary (1989). Análisis de los datos . Harcourt Brace Jovanovich. ISBN 0-15-516765-0.
^ Tukey, John W. (marzo de 1962). "John Tukey-El futuro del análisis de datos-Julio de 1961". Los anales de la estadística matemática . 33 (1): 1–67. doi : 10.1214/aoms/1177704711. Archivado desde el original el 26 de enero de 2020 . Consultado el 1 de enero de 2015 .
^ abcdefg Schutt, Rachel; O'Neil, Cathy (2013). Haciendo ciencia de datos . Medios O'Reilly . ISBN 978-1-449-35865-5.
^ "USO DE LOS DATOS", Manual de análisis de productos petrolíferos , Hoboken, Nueva Jersey: John Wiley & Sons, Inc, págs. 296–303, 6 de febrero de 2015, doi :10.1002/9781118986370.ch18, ISBN 978-1-118-98637-0, recuperado el 29 de mayo de 2021
^ Ainsworth, Penne (20 de mayo de 2019). Introducción a la contabilidad: un enfoque integrado . John Wiley e hijos. ISBN 978-1-119-60014-5. OCLC 1097366032.
^ Margo, Robert A. (2000). Salarios y mercados laborales en los Estados Unidos, 1820-1860 . Prensa de la Universidad de Chicago. ISBN 0-226-50507-3. OCLC 41285104.
^ Olusola, Johnson Adedeji; Shote, Adebola Adekunle; Ouigmane, Abdellah; Isaifan, Rima J. (7 de mayo de 2021). "Tabla 1: Tipo de datos y fuentes de datos recopilados para esta investigación". PeerJ . 9 : e11387. doi : 10.7717/peerj.11387/table-1 .
^ MacPherson, Derek (16 de octubre de 2019), "Perspectivas de los analistas de tecnología de la información", Estrategia de datos en colegios y universidades , Routledge, págs. 168-183, doi :10.4324/9780429437564-12, ISBN 978-0-429-43756-4, S2CID 211738958 , consultado el 29 de mayo de 2021
^ Nelson, Stephen L. (2014). Análisis de datos en Excel para principiantes . Wiley. ISBN 978-1-118-89810-9. OCLC 877772392.
^ "Figura 3: datos de origen 1. Valores sin procesar y procesados obtenidos mediante qPCR". 30 de agosto de 2017. doi : 10.7554/elife.28468.029 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ ab Bohannon, John (24 de febrero de 2016). "Muchas encuestas, aproximadamente una de cada cinco, pueden contener datos fraudulentos". Ciencia . doi : 10.1126/ciencia.aaf4104 . ISSN 0036-8075.
^ Jeannie Scruggs, Garber; Bruto, Monty; Slonim, Anthony D. (2010). Evitar errores comunes de enfermería . Wolters Kluwer Health/Lippincott Williams & Wilkins. ISBN 978-1-60547-087-0. OCLC 338288678.
^ "Limpieza de datos". Investigación de Microsoft. Archivado desde el original el 29 de octubre de 2013 . Consultado el 26 de octubre de 2013 .
^ Hancock, RGV; Carter, Tristan (febrero de 2010). "¿Qué tan confiables son nuestros análisis arqueométricos publicados? Efectos de las técnicas analíticas a través del tiempo en el análisis elemental de las obsidianas". Revista de Ciencias Arqueológicas . 37 (2): 243–250. Código Bib : 2010JArSc..37..243H. doi :10.1016/j.jas.2009.10.004. ISSN 0305-4403.
^ abc "Perceptual Edge-Jonathan Koomey-Mejores prácticas para comprender datos cuantitativos-14 de febrero de 2006" (PDF) . Archivado (PDF) desde el original el 5 de octubre de 2014 . Consultado el 12 de noviembre de 2014 .
^ Peleg, Roni; Avdalimov, Angelika; Freud, Tamar (23 de marzo de 2011). "Proporcionar números de teléfono celular y direcciones de correo electrónico a los pacientes: la perspectiva del médico". Notas de investigación de BMC . 4 (1): 76. doi : 10.1186/1756-0500-4-76 . ISSN 1756-0500. PMC 3076270 . PMID 21426591.
^ Goodman, Lenn Evan (1998). Judaísmo, derechos humanos y valores humanos . Prensa de la Universidad de Oxford. ISBN 0-585-24568-1. OCLC 45733915.
^ Hanzo, Lajos. "Estimación de canal de máxima verosimilitud de unión ciega y detección de datos para sistemas de entrada única y salida múltiple" . doi : 10.1049/iet-tv.44.786 . Consultado el 29 de mayo de 2021 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Hellerstein, Joseph (27 de febrero de 2008). "Limpieza de datos cuantitativos para grandes bases de datos" (PDF) . División de Informática de EECS : 3. Archivado (PDF) desde el original el 13 de octubre de 2013 . Consultado el 26 de octubre de 2013 .
^ Davis, Steve; Pettengill, James B.; Luo, Yan; Payne, Justin; Shpuntoff, Al; Rand, Hugh; Cepa, Errol (26 de agosto de 2015). "CFSAN SNP Pipeline: un método automatizado para construir matrices SNP a partir de datos de secuencia de próxima generación". PeerJ Ciencias de la Computación . 1 : e20. doi : 10.7717/peerj-cs.20/supp-1 .
^ "La FTC solicita datos adicionales". Analista de la industria de bombas . 1999 (48): 12 de diciembre de 1999. doi :10.1016/s1359-6128(99)90509-8. ISSN 1359-6128.
^ "Exploración de sus datos con visualización de datos y estadísticas descriptivas: estadísticas descriptivas comunes para datos cuantitativos". 2017.doi : 10.4135 /9781529732795. {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Murray, Daniel G. (2013). ¡Tableau sus datos! : análisis visual rápido y sencillo con Tableau Software . J. Wiley e hijos. ISBN 978-1-118-61204-0. OCLC 873810654.
^ Ben-Ari, Mordechai (2012), "Lógica de primer orden: fórmulas, modelos, cuadros", Lógica matemática para la informática , Londres: Springer London, págs. 131-154, doi :10.1007/978-1-4471- 4129-7_7, ISBN 978-1-4471-4128-0, consultado el 31 de mayo de 2021
^ Sosa, Ernesto (2011). Causalidad . Universidad de Oxford. Prensa. ISBN 978-0-19-875094-9. OCLC 767569031.
^ Evans, Michelle V.; Dallas, Tad A.; Han, Bárbara A.; Murdock, Courtney C.; Drake, John M. (28 de febrero de 2017). Brady, Oliver (ed.). "Figura 2. Importancia de la variable por permutación, promediada en 25 modelos". eVida . 6 : e22053. doi : 10.7554/elife.22053.004 .
^ Watson, Kevin; Halperín, Israel; Aguilera-Castells, Joan; Iacono, Antonio Dello (12 de noviembre de 2020). "Tabla 3: Estadísticas descriptivas (media ± DE), inferenciales (IC del 95%) y cualitativas (ES) de todas las variables entre condiciones autoseleccionadas y predeterminadas". PeerJ . 8 : e10361. doi : 10.7717/peerj.10361/table-3 .
^ Cortés-Molino, Álvaro; Aulló-Maestro, Isabel; Fernández-Luque, Ismael; Flores-Moya, Antonio; Carreira, José A.; Salvo, A. Enrique (22 de octubre de 2020). "Tabla 3: Mejores modelos de regresión entre datos LIDAR (variable independiente) y datos de Forestereo basados en campo (variable dependiente), utilizados para mapear la distribución espacial de las principales variables de la estructura forestal". PeerJ . 8 : e10158. doi : 10.7717/peerj.10158/table-3 .
^ Condiciones de venta internacionales, Beck/Hart, 2014, doi :10.5040/9781472561671.ch-003, ISBN 978-1-4725-6167-1, consultado el 31 de mayo de 2021
^ Nwabueze, JC (21 de mayo de 2008). "Rendimiento de estimadores de modelo lineal con términos de error autocorrelacionados cuando la variable independiente es normal". Revista de la Asociación Nigeriana de Física Matemática . 9 (1). doi : 10.4314/jonamp.v9i1.40071. ISSN 1116-4336.
^ Conway, Steve (4 de julio de 2012). "Una nota de advertencia sobre las entradas de datos y las salidas visuales en el análisis de redes sociales". Revista británica de gestión . 25 (1): 102-117. doi :10.1111/j.1467-8551.2012.00835.x. hdl :2381/36068. ISSN 1045-3172. S2CID 154347514.
^ "Compras de clientes y otros eventos repetidos", análisis de datos mediante SQL y Excel® , Indianápolis, Indiana: John Wiley & Sons, Inc., págs. 367–420, 2016-01-29, doi :10.1002/9781119183419.ch8, ISBN 978-1-119-18341-9, consultado el 31 de mayo de 2021
^ Grandjean, Martín (2014). "La connaissance est un réseau" (PDF) . Les Cahiers du Numérique . 10 (3): 37–54. doi :10.3166/lcn.10.3.37-54. Archivado (PDF) desde el original el 27 de septiembre de 2015 . Consultado el 5 de mayo de 2015 .
^ Requisitos de datos para matrices semiconductoras. Formatos de datos de intercambio y diccionario de datos, BSI British Standards, doi :10.3403/02271298 , consultado el 31 de mayo de 2021.
^ Sí, D. (1 de abril de 1985). "Cómo comunicar su mensaje a una audiencia de forma eficaz". El Gerontólogo . 25 (2): 209. doi :10.1093/geront/25.2.209. ISSN 0016-9013.
^ Bemowska-Kałabun, Olga; Wąsowicz, Paweł; Napora-Rutkowski, Łukasz; Nowak-Życzyńska, Zuzanna; Wierzbicka, Małgorzata (11 de junio de 2019). "Información complementaria 1: datos sin procesar para gráficos y tablas". doi : 10.7287/peerj.preprints.27793v1/supp-1 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Visualización de datos sobre museos del Reino Unido: gráficos de barras, gráficos de líneas y mapas de calor. 2021. doi : 10.4135/9781529768749. ISBN 9781529768749. S2CID 240967380.
^ Tunqui Neira, José Manuel (19 de septiembre de 2019). "Gracias por su reseña. Encuentre en el archivo pdf adjunto una respuesta detallada a los puntos que planteó". doi : 10.5194/hess-2019-325-ac2 . S2CID 241041810. {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Brackett, John W. (1989), "Realización de cursos de proyectos de análisis de requisitos para clientes externos", Problemas en la educación en ingeniería de software , Nueva York, NY: Springer New York, págs. 276–285, doi :10.1007/978-1- 4613-9614-7_20, ISBN 978-1-4613-9616-1, recuperado 2021-06-03
^ Wyckhuys, Kris AG; Wongtiem, Prapit; Rauf, Aunu; Thancharoen, Anchana; Heimpel, George E.; Le, Nhung TT; Fanani, Muhammad Zainal; Gurr, Geoff M.; Lundgren, Jonathan G.; Burra, Dharani D.; Palao, Leo K.; Hyman, Glenn; Graziosi, Ignacio; Le, Vi X.; Polla, Mateo JW; Tscharntke, Teja; Wratten, Steve D.; Nguyen, Liem V.; Tú, Minsheng; Lu, Yanhui; Ketelaar, Johannes W.; Görgen, Georg; Neuenschwander, Peter (19 de octubre de 2018). "Figura 2: Fluctuaciones bimestrales de la población de cochinillas en el sur de Vietnam, durante un período de dos años". PeerJ . 6 : e5796. doi : 10.7717/peerj.5796/fig-2 .
^ Riehl, Emily (2014), "Una muestra de aspectos de dos categorías de la teoría de cuasicategorías", Teoría de la homotopía categórica , Cambridge: Cambridge University Press, págs. 318–336, doi :10.1017/cbo9781107261457.019, ISBN 978-1-107-26145-7, recuperado 2021-06-03
^ "Gráfico de barras X". Enciclopedia de Gestión de la Producción y Manufactura . 2000. pág. 841. doi :10.1007/1-4020-0612-8_1063. ISBN 978-0-7923-8630-8.
^ "Gráfico C5.3. Porcentaje de jóvenes de 15 a 19 años que no reciben educación, por situación en el mercado laboral (2012)". doi : 10.1787/888933119055 . Consultado el 3 de junio de 2021 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ "Gráfico 7: Hogares: gasto en consumo final versus consumo individual real". doi : 10.1787/665527077310 . Consultado el 3 de junio de 2021 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Chao, Lucas H.; Jang, Jaebong; Johnson, Adán; Nguyen, Antonio; Gray, Natanael S.; Yang, Priscila L.; Harrison, Stephen C. (12 de julio de 2018). Jahn, Reinhard; Schekman, Randy (eds.). "Figura 4. Frecuencia de hemifusión (medida como desactivación de la fluorescencia DiD) en función del número de moléculas de Alexa-fluor-555/3-110-22 unidas". eVida . 7 : e36461. doi : 10.7554/elife.36461.006 .
^ Garnier, Elodie M.; Fouret, Nastasia; Descoins, Médéric (3 de febrero de 2020). "Tabla 2: Comparación de gráficos entre diagrama de dispersión, violín + diagrama de dispersión, mapa de calor y gráfico ViSiElse". PeerJ . 8 : e8341. doi : 10.7717/peerj.8341/table-2 .
^ "Cuadro comparativo de productos: wearables". Conjunto de datos PsycEXTRA . 2009.doi : 10.1037 /e539162010-006 . Consultado el 3 de junio de 2021 .
^ "Stephen Few-Perceptual Edge-Seleccionando el gráfico correcto para su mensaje-2004" (PDF) . Archivado (PDF) desde el original el 5 de octubre de 2014 . Consultado el 29 de octubre de 2014 .
^ "Matriz de selección de gráficos de bordes de Stephen Few-Perceptual" (PDF) . Archivado (PDF) desde el original el 5 de octubre de 2014 . Consultado el 29 de octubre de 2014 .
^ "Mejores prácticas recomendadas". 2008-10-01. doi :10.14217/9781848590151-8-en . Consultado el 3 de junio de 2021 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Hobold, Edilson; Pires-Lopes, Vítor; Gómez-Campos, Rossana; Arruda, Miguel de; Andruske, Cynthia Lee; Pacheco-Carrillo, Jaime; Cossio-Bolaños, Marco Antonio (30 de noviembre de 2017). "Tabla 1: Estadísticas descriptivas (media ± desviación estándar) para variables somáticas y ítems de aptitud física para hombres y mujeres". PeerJ . 5 : e4032. doi : 10.7717/peerj.4032/table-1 .
^ Ablin, Jacob N.; Zohar, Ada H.; Zaraya-Blum, Reut; Buskila, Dan (13 de septiembre de 2016). "Tabla 2: Análisis de conglomerados que presenta valores medios de variables psicológicas por grupo de conglomerados". PeerJ . 4 : e2421. doi : 10.7717/peerj.2421/table-2 .
^ "Consultores empleados por McKinsey & Company", Organizational Behavior 5 , Routledge, págs. 77–82, 2008-07-30, doi :10.4324/9781315701974-15, ISBN 978-1-315-70197-4, recuperado 2021-06-03
^ Antiphanes (2007), Olson, S. Douglas (ed.), "H6 Antiphanes fr.172.1-4, de mujeres que se parecían entre sí o de hombres que se parecían entre sí", Risa rota: fragmentos selectos de comedia griega , Prensa de la Universidad de Oxford, doi :10.1093/oseo/instance.00232915, ISBN 978-0-19-928785-7, recuperado 2021-06-03
^ Carey, Malachy (noviembre de 1981). "Sobre las propiedades mutuamente excluyentes y colectivamente exhaustivas de las funciones de demanda". Económica . 48 (192): 407–415. doi :10.2307/2553697. ISSN 0013-0427. JSTOR 2553697.
^ "Ingresos fiscales totales". doi : 10.1787/352874835867 . Consultado el 3 de junio de 2021 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ "El coche de doble uso puede solucionar los problemas de transporte". Archivo de noticias de química e ingeniería . 46 (24): 44. 1968-06-03. doi :10.1021/cen-v046n024.p044. ISSN 0009-2347.
^ Heckman (1978). "Modelos estadísticos simples para datos de panel discretos desarrollados y aplicados para probar la hipótesis de dependencia del estado real frente a la hipótesis de dependencia del estado espuria". Annales de l'inséé (30/31): 227–269. doi :10.2307/20075292. ISSN 0019-0209. JSTOR 20075292.
^ Koontz, decano (2017). Falsa Memoria . Publicación de libros de titulares. ISBN 978-1-4722-4830-5. OCLC 966253202.
^ Munday, Stephen CR (1996), "Unemployment, Inflation and the Phillips Curve", Current Developments in Economics , Londres: Macmillan Education UK, págs. 186-218, doi :10.1007/978-1-349-24986-2_11, ISBN 978-0-333-64444-7, recuperado 2021-06-03
^ Louangrath, Paul I. (2013). "Pruebas alfa y beta para la determinación de errores inferenciales tipo I y tipo II en pruebas de hipótesis". Revista Electrónica SSRN . doi :10.2139/ssrn.2332756. ISSN 1556-5068.
^ Walko, Ann M. (2006). Rechazar la hipótesis de la segunda generación: mantener la etnia estonia en Lakewood, Nueva Jersey . Prensa AMS. ISBN 0-404-19454-0. OCLC 467107876.
^ ab Yanamandra, Venkataramana (septiembre de 2015). "Cambios en los tipos de cambio e inflación en la India: ¿Cuál es el alcance de la transmisión del tipo de cambio a las importaciones?". Análisis y política económica . 47 : 57–68. doi :10.1016/j.eap.2015.07.004. ISSN 0313-5926.
^ Mudiyanselage, Nawarathna; Nawarathna, Pubudu Manoj. "Caracterización de los cambios epigenéticos y su conexión con anomalías de la expresión genética en el carcinoma de células renales de células claras" . OCLC 1190697848.
^ Moreno Delgado, David; Møller, Thor C.; Ster, Jeanne; Giraldo, Jesús; Maurel, Damián; Rovira, Javier; Scholler, Paulina; Zwier, Jurriaan M.; Perroy, Julie; Durroux, Thierry; Trinquete, Eric; Prézeau, Laurent; Rondard, Philippe; Pin, Jean-Philippe (29 de junio de 2017). Chao, Moisés V (ed.). "Apéndice 1: figura 5. Datos de la curva incluidos en el Apéndice 1: tabla 4 (puntos sólidos) y la curva teórica utilizando los parámetros de la ecuación de Hill del Apéndice 1: tabla 5 (línea de curva)". eVida . 6 : e25233. doi : 10.7554/elife.25233.027 .
^ Feinmann, Jane. "¿Cómo pueden ayudarse mutuamente los ingenieros y los periodistas?" (Video). El Instituto de Ingeniería y Tecnología. doi : 10.1049/iet-tv.48.859 . Consultado el 3 de junio de 2021 .
^ Dul, enero (2015). "Análisis de la condición necesaria (NCA): lógica y metodología de la causalidad 'necesaria pero no suficiente'". Revista Electrónica SSRN . doi :10.2139/ssrn.2588480. hdl :1765/77890. ISSN 1556-5068. S2CID 219380122.
^ Robert Amar, James Eagan y John Stasko (2005) "Componentes de bajo nivel de la actividad analítica en la visualización de información" Archivado el 13 de febrero de 2015 en Wayback Machine.
^ William Newman (1994) "Un análisis preliminar de los productos de la investigación de HCI, utilizando resúmenes pro forma" Archivado el 3 de marzo de 2016 en la Wayback Machine.
^ Mary Shaw (2002) "¿Qué constituye una buena investigación en ingeniería de software?" Archivado el 5 de noviembre de 2018 en Wayback Machine.
^ abYavari , Ali; Jayaraman, Prem Prakash; Georgakopoulos, Dimitrios; Nepal, Surya (2017). ConTaaS: un enfoque de contextualización a escala de Internet para desarrollar aplicaciones eficientes de Internet de las cosas . Actas de la 50.a Conferencia Internacional de Hawaii sobre Ciencias de Sistemas (HICSS50 2017). Universidad de Hawai'i en Mānoa. doi :10.24251/HICSS.2017.715. hdl :10125/41879. ISBN 9780998133102.
^ "La herramienta de conectividad transfiere datos entre bases de datos y productos estadísticos". Estadística computacional y análisis de datos . 8 (2): 224. julio de 1989. doi :10.1016/0167-9473(89)90021-2. ISSN 0167-9473.
^ "Información relevante para su trabajo", Obtención de información para una gestión eficaz , Routledge, págs. 48–54, 11 de julio de 2007, doi :10.4324/9780080544304-16 (inactivo 2024-05-01), ISBN 978-0-08-054430-4, recuperado 2021-06-03{{citation}}: CS1 maint: DOI inactive as of May 2024 (link)
^ Lehmann, EL (2010). Prueba de hipótesis estadísticas . Saltador. ISBN 978-1-4419-3178-8. OCLC 757477004.
^ Fielding, Henry (14 de agosto de 2008), "Consta en parte de hechos y en parte de observaciones sobre ellos", Tom Jones , Oxford University Press, doi :10.1093/owc/9780199536993.003.0193, ISBN 978-0-19-953699-3, recuperado 2021-06-03
^ "Oficina de Presupuesto del Congreso-Presupuesto y perspectivas económicas-agosto de 2010-Tabla 1.7 en la página 24" (PDF) . 18 de agosto de 2010. Archivado desde el original el 27 de febrero de 2012 . Consultado el 31 de marzo de 2011 .
^ "Sentido de pertenencia de los estudiantes, según origen inmigrante". Resultados PISA 2015 (Volumen III) . PISA. 2017-04-19. doi :10.1787/9789264273856-table125-en. ISBN 9789264273818. ISSN 1996-3777.
^ Gordon, Roger (marzo de 1990). "¿Las empresas que cotizan en bolsa actúan en beneficio del interés público?". Documentos de trabajo de la Oficina Nacional de Investigación Económica . Cambridge, MA. doi :10.3386/w3303.
^ Minardi, Margot (24 de septiembre de 2010), "Hechos y opiniones", Haciendo historia la esclavitud , Oxford University Press, págs. 13–42, doi :10.1093/acprof:oso/9780195379372.003.0003, ISBN 978-0-19-537937-2, recuperado 2021-06-03
^ Rivard, Jillian R (2014). Sesgo de confirmación en las entrevistas a testigos: ¿pueden los entrevistadores ignorar sus ideas preconcebidas? (Tesis). Universidad Internacional de Florida. doi : 10.25148/etd.fi14071109.
^ Papineau, David (1988), "¿La sociología de la ciencia desacredita la ciencia?", Relativismo y realismo en la ciencia , Dordrecht: Springer Países Bajos, págs. 37–57, doi :10.1007/978-94-009-2877-0_2, ISBN 978-94-010-7795-8, recuperado 2021-06-03
^ Bromme, Rainer; Hesse, Friedrich W.; Spada, Hans, eds. (2005). Barreras y sesgos en la comunicación del conocimiento mediada por computadora. doi :10.1007/b105100. ISBN 978-0-387-24317-7.
^ Heuer, Richards (10 de junio de 2019). Heuer, Richards J (ed.). Enfoques cuantitativos de la inteligencia política. doi :10.4324/9780429303647. ISBN 9780429303647. S2CID 145675822.
^ "Introducción" (PDF) . cia.gov . Archivado (PDF) desde el original el 25 de octubre de 2021 . Consultado el 25 de octubre de 2021 .
^ "Figura 6.7. Las diferencias en las puntuaciones de alfabetización entre los países de la OCDE generalmente reflejan las de aritmética". doi : 10.1787/888934081549 . Consultado el 3 de junio de 2021 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ "Bloomberg-Barry Ritholz-Bad Math that Passs for Insight-28 de octubre de 2014". Archivado desde el original el 29 de octubre de 2014 . Consultado el 29 de octubre de 2014 .
^ Gusnaini, Nuriska; Andesto, Rony; Ermawati (15 de diciembre de 2020). "El efecto del tamaño del gobierno regional, el tamaño legislativo, el número de población y los ingresos intergubernamentales en la divulgación de los estados financieros". Revista europea de investigación empresarial y de gestión . 5 (6). doi :10.24018/ejbmr.2020.5.6.651. ISSN 2507-1076. S2CID 231675715.
^ Linsey, Julie S .; Becker, Blake (2011), "Efectividad de las técnicas de escritura de ideas: comparación de grupos nominales con equipos reales", Design Creativity 2010 , Londres: Springer London, págs. 165-171, doi :10.1007/978-0-85729-224-7_22, ISBN 978-0-85729-223-0, recuperado 2021-06-03
^ Lyon, J. (abril de 2006). "Dirección supuestamente responsable en mensajes de correo electrónico". doi :10.17487/rfc4407. {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Stock, Eugene (10 de junio de 2017). La historia de la Sociedad Misionera de la Iglesia, su entorno, sus hombres y su obra . Hansebooks GmbH. ISBN 978-3-337-18120-8. OCLC 1189626777.
^ Gross, William H. (julio de 1979). "Valoración de cupones y ciclos de tipos de interés". Revista de analistas financieros . 35 (4): 68–71. doi :10.2469/faj.v35.n4.68. ISSN 0015-198X.
^ "25. Desembolsos totales del gobierno general". doi : 10.1787/888932348795 . Consultado el 3 de junio de 2021 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ González-Vidal, Aurora; Moreno-Cano, Victoria (2016). "Hacia modelos de edificios inteligentes de eficiencia energética basados en análisis de datos inteligentes". Procedia Ciencias de la Computación . 83 (Elsevier): 994–999. doi : 10.1016/j.procs.2016.04.213 .
^ "Control de iluminación y aire acondicionado de bajo consumo de energía", Sistemas de gestión de energía para edificios , Routledge, págs. 406–439, 4 de julio de 2013, doi :10.4324/9780203477342-18 (inactivo 01 de mayo de 2024), ISBN 978-0-203-47734-2, recuperado 2021-06-03{{citation}}: CS1 maint: DOI inactive as of May 2024 (link)
^ Davenport, Thomas; Harris, Jeanne (2007). Competir en Analytics . O'Reilly. ISBN 978-1-4221-0332-6.
^ Aarons, D. (2009). El informe encuentra que los estados están en camino de construir sistemas de datos de alumnos. Semana de la Educación, 29 (13), 6.
^ Rankin, J. (28 de marzo de 2013). Cómo los sistemas de datos e informes pueden combatir o propagar la epidemia de errores en el análisis de datos y cómo los líderes educadores pueden ayudar. Archivado el 26 de marzo de 2019 en la presentación de Wayback Machine realizada desde la Cumbre de Liderazgo Escolar del Centro de Información Tecnológica para el Liderazgo Administrativo (TICAL).
^ Brödermann, Eckart J. (2018), "Artículo 2.2.1 (Ámbito de aplicación de la Sección)", Derecho Comercial , Nomos Verlagsgesellschaft mbH & Co. KG, p. 525, doi :10.5771/9783845276564-525, ISBN 978-3-8452-7656-4, recuperado 2021-06-03
^ Jaech, JL (21 de abril de 1960). "Análisis de datos de distorsión dimensional de 24 tubos iniciales de certificación de calidad". doi :10.2172/10170345. S2CID 110058009. {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Adèr 2008a, pag. 337.
^ Kjell, Oscar NE; Thompson, Sam (19 de diciembre de 2013). "Estadísticas descriptivas que indican la media, la desviación estándar y la frecuencia de los valores faltantes para cada condición (N = número de participantes) y para las variables dependientes (DV)". PeerJ . 1 : e231. doi : 10.7717/peerj.231/table-1 .
^ Práctica para abordar observaciones periféricas, ASTM International, doi :10.1520/e0178-16a , consultado el 3 de junio de 2021
^ "Esquemas de codificación alternativos para variables ficticias", Regresión con variables ficticias , Newbury Park, CA: SAGE Publications, Inc., págs. 64–75, 1993, doi :10.4135/9781412985628.n5, ISBN 978-0-8039-5128-0, recuperado 2021-06-03
^ Adèr 2008a, págs. 338–341.
^ Danilyuk, PM (julio de 1960). "Cálculo del desplazamiento del contorno inicial de engranajes cuando se controlan mediante bolas". Técnicas de Medición . 3 (7): 585–587. doi :10.1007/bf00977716. ISSN 0543-1972. S2CID 121058145.
^ Newman, Isadore (1998). Metodología de investigación cualitativa-cuantitativa: exploración del continuo interactivo . Prensa de la Universidad del Sur de Illinois. ISBN 0-585-17889-5. OCLC 44962443.
^ Terwilliger, James S.; Lele, Kaustubh (junio de 1979). "Algunas relaciones entre coherencia interna, reproducibilidad y homogeneidad". Revista de Medición Educativa . 16 (2): 101–108. doi :10.1111/j.1745-3984.1979.tb00091.x. ISSN 0022-0655.
^ Adèr 2008a, págs. 341–342.
^ Adèr 2008a, pag. 344.
^ Tabachnick y Fidell, 2007, pág. 87-88.
^ Tchakarova, Kalina (octubre de 2020). "2020/31 Comparar las descripciones de los puestos de trabajo no es suficiente para comprobar si el trabajo tiene el mismo valor (BG)". Casos de derecho laboral europeo . 5 (3): 168-170. doi : 10.5553/eelc/187791072020005003006. ISSN 1877-9107. S2CID 229008899.
^ Procedimientos de aleatorización y muestreo aleatorio, BSI British Standards, doi :10.3403/30137438 , consultado el 3 de junio de 2021
^ Adèr 2008a, págs. 344–345.
^ Sandberg, Margareta (junio de 2006). "Los procedimientos de acupuntura deben describirse con precisión". Acupuntura en Medicina . 24 (2): 92–94. doi : 10.1136/objetivo.24.2.92. ISSN 0964-5284. PMID 16783285. S2CID 30286074.
^ Jaarsma, CF Verkeer in een landelijk gebied: waarnemingen y analice van het verkeer en el oeste de Frisia y ontwikkeling van een verkeersmodel . OCLC 1016575584.
^ Cuarto, cristiano; Hedrick, Brandon P.; Ezcurra, Martín D. (18 de enero de 2016). "Figura 4: Análisis de regresión del tamaño del centroide para la muestra principal". PeerJ . 4 : e1589. doi : 10.7717/peerj.1589/fig-4 .
^ Adèr 2008a, pag. 345.
^ "Los últimos años (1975-84)", El camino no tomado , Boydell & Brewer, págs. 853–922, 2018-06-18, doi :10.2307/j.ctv6cfncp.26, ISBN 978-1-57647-332-0, S2CID 242072487 , consultado el 3 de junio de 2021
^ Fitzmaurice, Kathryn (17 de marzo de 2015). Destino, reescrito . HarperCollins. ISBN 978-0-06-162503-9. OCLC 905090570.
^ Adèr 2008a, págs. 345–346.
^ Adèr 2008a, págs. 346–347.
^ Adèr 2008a, págs. 349–353.
^ Billings SA "Identificación de sistemas no lineales: métodos NARMAX en los dominios de tiempo, frecuencia y espacio-temporal". wiley, 2013
^ Adèr 2008b, pag. 363.
^ "Análisis de datos exploratorios", Python® para usuarios de R , Hoboken, Nueva Jersey, EE. UU.: John Wiley & Sons, Inc., págs. 119–138, 2017-10-13, doi :10.1002/9781119126805.ch4, hdl :11380 /971504, ISBN 978-1-119-12680-5, recuperado 2021-06-03
^ "Participar en análisis de datos exploratorios, visualización y pruebas de hipótesis: análisis de datos exploratorios, geovisualización y datos", Análisis espacial , CRC Press, págs. 106-139, 28 de julio de 2015, doi :10.1201/b18808-8, ISBN 978-0-429-06936-9, S2CID 133412598 , consultado el 3 de junio de 2021
^ "Hipótesis sobre categorías", Estadísticas iniciales: una guía breve y clara , Londres: SAGE Publications Ltd, págs. 138-151, 2010, doi :10.4135/9781446287873.n14, ISBN 978-1-84920-098-1, recuperado 2021-06-03
^ Sordo, Rachele Del; Sidoni, Angelo (diciembre de 2008). "Reactividad de la membrana celular MIB-1: un hallazgo que debe interpretarse con cuidado". Inmunohistoquímica aplicada y morfología molecular . 16 (6): 568. doi :10.1097/pai.0b013e31817af2cf. ISSN 1541-2016. PMID 18800001.
^ Liquet, Benoît; Riou, Jérémie (8 de junio de 2013). "Corrección del nivel de significancia al intentar múltiples transformaciones de una variable explicativa en modelos lineales generalizados". Metodología de la investigación médica del BMC . 13 (1): 75. doi : 10.1186/1471-2288-13-75 . ISSN 1471-2288. PMC 3699399 . PMID 23758852.
^ abc Mcardle, John J. (2008). "Algunas cuestiones éticas en el análisis confirmatorio versus exploratorio". Conjunto de datos PsycEXTRA . doi :10.1037/e503312008-001 . Consultado el 3 de junio de 2021 .
^ Adèr 2008b, págs. 361–362.
^ Adèr 2008b, págs. 361–371.
^ Truswell IV, William H., ed. (2009), "3 El lifting facial: una guía para obtener resultados seguros, fiables y reproducibles", Rejuvenecimiento facial quirúrgico , Stuttgart: Georg Thieme Verlag, doi :10.1055/b-0034-73436, ISBN 978-1-58890-491-1, recuperado 2021-06-03
^ Benson, Noé C; Winawer, Jonathan (diciembre de 2018). "Análisis bayesiano de mapas retinotópicos". eVida . 7 . doi : 10.7554/elife.40224 . PMC 6340702 . PMID 30520736. Archivo complementario 1. Esquema de validación cruzada. doi :10.7554/elife.40224.014
^ Hsiao, Cheng (2014), "Datos de panel dependientes transversalmente", Análisis de datos de panel , Cambridge: Cambridge University Press, págs. 327–368, doi :10.1017/cbo9781139839327.012, ISBN 978-1-139-83932-7, recuperado 2021-06-03
^ Hjorth, JS Urban (19 de octubre de 2017), "Validación cruzada", Métodos estadísticos intensivos en computadora , Chapman y Hall/CRC, págs. 24–56, doi :10.1201/9781315140056-3, ISBN 978-1-315-14005-6, recuperado 2021-06-03
^ Sheikholeslami, Razi; Razavi, Saman; Haghnegahdar, Amin (10 de octubre de 2019). "¿Qué debemos hacer cuando un modelo falla? Recomendaciones para el análisis de sensibilidad global de los modelos de sistemas ambientales y de la Tierra". Desarrollo de modelos geocientíficos . 12 (10): 4275–4296. Código Bib : 2019GMD....12.4275S. doi : 10.5194/gmd-12-4275-2019 . ISSN 1991-9603. S2CID 204900339.
^ Programa de las Naciones Unidas para el Desarrollo (2018). "Índices compuestos de desarrollo humano". Índices e Indicadores de Desarrollo Humano 2018 . Naciones Unidas. págs. 21–41. doi :10.18356/ce6f8e92-en. S2CID 240207510.
^ Wiley, Matt; Wiley, Joshua F. (2019), "Visualización de datos multivariados", Modelos de datos y programación estadística avanzada de R , Berkeley, CA: Apress, págs. 33–59, doi :10.1007/978-1-4842-2872-2_2, ISBN 978-1-4842-2871-5, S2CID 86629516 , consultado el 3 de junio de 2021
^ Mailund, Thomas (2022). Inicio de la ciencia de datos en R 4: análisis, visualización y modelado de datos para el científico de datos (2ª ed.). ISBN 978-148428155-0.
^ Orduña-Malea, Enrique; Alonso-Arroyo, Adolfo (2018), "Un modelo de análisis cibermétrico para medir empresas privadas", Técnicas cibermétricas para evaluar organizaciones utilizando datos basados en la web , Elsevier, págs. 63–76, doi :10.1016/b978-0-08-101877 -4.00003-x, ISBN 978-0-08-101877-4, recuperado 2021-06-03
^ Leen, AR El consumidor en la economía austriaca y la perspectiva austriaca sobre la política del consumidor . Universidad de Wageningen. ISBN 90-5808-102-8. OCLC 1016689036.
^ "Ejemplos de análisis de datos de supervivencia", Métodos estadísticos para el análisis de datos de supervivencia , Serie Wiley en probabilidad y estadística, Hoboken, Nueva Jersey, EE. UU.: John Wiley & Sons, Inc., 30 de junio de 2003, págs. 19–63, doi :10.1002/0471458546.ch3, ISBN 978-0-471-45854-8, recuperado 2021-06-03
^ "La comunidad de aprendizaje automático se enfrenta al Higgs". Revista Simetría . 15 de julio de 2014. Archivado desde el original el 16 de abril de 2021 . Consultado el 14 de enero de 2015 .
^ Nehme, Jean (29 de septiembre de 2016). "Concurso Internacional de Análisis de Datos LTPP". Administración Federal de Carreteras. Archivado desde el original el 21 de octubre de 2017 . Consultado el 22 de octubre de 2017 .
^ "Data.Gov: rendimiento del pavimento a largo plazo (LTPP)". 26 de mayo de 2016. Archivado desde el original el 1 de noviembre de 2017 . Consultado el 10 de noviembre de 2017 .

Bibliografía

Adèr, Herman J. (2008a). "Capítulo 14: Fases y pasos iniciales en el análisis de datos". En Adèr, Herman J.; Mellenbergh, Gideon J .; Mano, David J (eds.). Asesoramiento sobre métodos de investigación: el acompañante de un consultor . Huizen, Países Bajos: Pub Johannes van Kessel. págs. 333–356. ISBN 9789079418015. OCLC 905799857.
Adèr, Herman J. (2008b). "Capítulo 15: La fase de análisis principal". En Adèr, Herman J.; Mellenbergh, Gideon J .; Mano, David J (eds.). Asesoramiento sobre métodos de investigación: el acompañante de un consultor . Huizen, Países Bajos: Pub Johannes van Kessel. págs. 357–386. ISBN 9789079418015. OCLC 905799857.
Tabachnick, BG y Fidell, LS (2007). Capítulo 4: Limpiando tu acto. Detección de datos antes del análisis. En BG Tabachnick y LS Fidell (Eds.), Uso de estadísticas multivariadas, quinta edición (págs. 60-116). Boston: Pearson Education, Inc. / Allyn y Bacon.

Otras lecturas

Wikiversidad tiene recursos de aprendizaje sobre análisis de datos.

Adèr, HJ y Mellenbergh, GJ (con contribuciones de DJ Hand) (2008). Asesoramiento sobre métodos de investigación: un compañero de consultor . Huizen, Países Bajos: Johannes van Kessel Publishing. ISBN 978-90-79418-01-5
Cámaras, John M.; Cleveland, William S.; Kleiner, Beat; Tukey, Paul A. (1983). Métodos gráficos para análisis de datos , Wadsworth/Duxbury Press. ISBN 0-534-98052-X
Fandango, Armando (2017). Análisis de datos de Python, segunda edición . Editores de paquetes. ISBN 978-1787127487
Juran, José M.; Godfrey, A. Blanton (1999). Manual de calidad de Juran, quinta edición. Nueva York: McGraw Hill. ISBN 0-07-034003-X
Lewis-Beck, Michael S. (1995). Análisis de datos: una introducción , Sage Publications Inc, ISBN 0-8039-5772-6
NIST/SEMATECH (2008) Manual de métodos estadísticos,
Pyzdek, T, (2003). Manual de ingeniería de calidad , ISBN 0-8247-4614-7
Richard Veryard (1984). Análisis pragmático de datos . Oxford: Publicaciones científicas de Blackwell. ISBN 0-632-01311-7
Tabachnick, BG; Fidell, LS (2007). Uso de estadística multivariada, quinta edición . Boston: Pearson Education, Inc. / Allyn y Bacon, ISBN 978-0-205-45938-4