El proceso de analizar datos para descubrir información útil y respaldar la toma de decisiones.
El análisis de datos es el proceso de inspección, limpieza , transformación y modelado de datos con el objetivo de descubrir información útil, fundamentar conclusiones y respaldar la toma de decisiones . [1] El análisis de datos tiene múltiples facetas y enfoques, abarca diversas técnicas bajo una variedad de nombres, y se utiliza en diferentes dominios empresariales, científicos y de ciencias sociales. [2] En el mundo empresarial actual, el análisis de datos desempeña un papel en la toma de decisiones más científicas y en ayudar a las empresas a operar de manera más eficaz. [3]
La minería de datos es una técnica particular de análisis de datos que se centra en el modelado estadístico y el descubrimiento de conocimiento con fines predictivos en lugar de puramente descriptivos, mientras que la inteligencia empresarial cubre el análisis de datos que se basa en gran medida en la agregación, centrándose principalmente en la información empresarial. [4] En aplicaciones estadísticas, el análisis de datos se puede dividir en estadísticas descriptivas , análisis de datos exploratorios (EDA) y análisis de datos confirmatorios (CDA). [5] EDA se centra en descubrir nuevas características en los datos, mientras que CDA se centra en confirmar o falsificar hipótesis existentes . [6] [7] El análisis predictivo se centra en la aplicación de modelos estadísticos para la previsión o clasificación predictiva, mientras que el análisis de texto aplica técnicas estadísticas, lingüísticas y estructurales para extraer y clasificar información de fuentes textuales, una especie de datos no estructurados . Todas las anteriores son variedades de análisis de datos. [8]
La integración de datos es un precursor del análisis de datos, y el análisis de datos está estrechamente vinculado a la visualización y difusión de datos. [9]
Proceso de análisis de datos
El análisis se refiere a dividir un todo en sus componentes separados para su examen individual. [10] El análisis de datos es un proceso para obtener datos sin procesar y, posteriormente, convertirlos en información útil para la toma de decisiones por parte de los usuarios. [1] Los datos se recopilan y analizan para responder preguntas, probar hipótesis o refutar teorías. [11]
El estadístico John Tukey definió el análisis de datos en 1961 como:
"Procedimientos para analizar datos, técnicas para interpretar los resultados de tales procedimientos, formas de planificar la recopilación de datos para hacer su análisis más fácil, más preciso o más exacto, y toda la maquinaria y resultados de la estadística (matemática) que se aplican al análisis de datos". [12]
Se pueden distinguir varias fases, que se describen a continuación. Las fases son iterativas , en el sentido de que la retroalimentación de las fases posteriores puede dar lugar a trabajo adicional en las fases anteriores. [13] El marco CRISP , utilizado en la minería de datos , tiene pasos similares.
Requisitos de datos
Los datos son necesarios como insumos para el análisis, que se especifica en función de los requisitos de quienes dirigen los análisis (o clientes, que utilizarán el producto final del análisis). [14] [15] El tipo general de entidad sobre la que se recopilarán los datos se denomina unidad experimental (por ejemplo, una persona o una población de personas). Se pueden especificar y obtener variables específicas relacionadas con una población (por ejemplo, edad e ingresos). Los datos pueden ser numéricos o categóricos (es decir, una etiqueta de texto para números). [13]
Recopilación de datos
Los datos se recopilan de diversas fuentes. [16] [17] Hay una lista de fuentes de datos disponibles para estudio e investigación. Los analistas pueden comunicar los requisitos a los custodios de los datos, como el personal de tecnología de la información dentro de una organización. [18] La recopilación de datos o la recolección de datos es el proceso de reunir y medir información sobre variables específicas en un sistema establecido, lo que luego permite responder preguntas relevantes y evaluar resultados. Los datos también pueden recopilarse de sensores en el entorno, incluidas cámaras de tráfico, satélites, dispositivos de grabación, etc. También pueden obtenerse a través de entrevistas, descargas de fuentes en línea o lectura de documentación. [13]
Proceso de datos
Los datos, cuando se obtienen inicialmente, deben procesarse u organizarse para su análisis. [19] [20] Por ejemplo, esto puede implicar colocar datos en filas y columnas en un formato de tabla ( conocido como datos estructurados ) para su posterior análisis, a menudo mediante el uso de hojas de cálculo o software estadístico. [13]
Limpieza de datos
Una vez procesados y organizados, los datos pueden estar incompletos, contener duplicados o contener errores. [21] [22] La necesidad de limpieza de datos surgirá de problemas en la forma en que se ingresan y almacenan los datos. [21] La limpieza de datos es el proceso de prevenir y corregir estos errores. Las tareas comunes incluyen la comparación de registros, la identificación de inexactitudes de datos, la calidad general de los datos existentes, la deduplicación y la segmentación de columnas. [23] Estos problemas de datos también se pueden identificar a través de una variedad de técnicas analíticas. Por ejemplo; con información financiera, los totales de variables particulares se pueden comparar con números publicados por separado que se consideran confiables. [24] [25] También se pueden revisar cantidades inusuales, por encima o por debajo de umbrales predeterminados. Hay varios tipos de limpieza de datos, que dependen del tipo de datos en el conjunto; esto podría ser números de teléfono, direcciones de correo electrónico, empleadores u otros valores. [26] [27] Los métodos de datos cuantitativos para la detección de valores atípicos se pueden utilizar para eliminar datos que parecen tener una mayor probabilidad de ser ingresados incorrectamente. [28] Los correctores ortográficos de datos textuales se pueden utilizar para reducir la cantidad de palabras mal escritas. Sin embargo, es más difícil determinar si las palabras en sí son correctas. [29]
Análisis exploratorio de datos
Una vez que se limpian los conjuntos de datos, se pueden analizar. Los analistas pueden aplicar una variedad de técnicas, conocidas como análisis exploratorio de datos , para comenzar a comprender los mensajes contenidos en los datos obtenidos. [30] El proceso de exploración de datos puede dar como resultado una limpieza adicional de datos o solicitudes adicionales de datos; por lo tanto, la inicialización de las fases iterativas mencionadas en el párrafo inicial de esta sección. [31] Se pueden generar estadísticas descriptivas , como el promedio o la mediana, para ayudar a comprender los datos. [32] [33] La visualización de datos también es una técnica utilizada, en la que el analista puede examinar los datos en un formato gráfico para obtener información adicional sobre los mensajes dentro de los datos. [13]
Modelado y algoritmos
Las fórmulas o modelos matemáticos (también conocidos como algoritmos ) se pueden aplicar a los datos para identificar relaciones entre las variables; por ejemplo, utilizando correlación o causalidad . [34] [35] En términos generales, se pueden desarrollar modelos para evaluar una variable específica en función de otra(s) variable(s) contenidas en el conjunto de datos, con algún error residual dependiendo de la precisión del modelo implementado ( por ejemplo , Datos = Modelo + Error). [36] [11]
Las estadísticas inferenciales incluyen el uso de técnicas que miden las relaciones entre variables particulares. [37] Por ejemplo, el análisis de regresión puede utilizarse para modelar si un cambio en la publicidad ( variable independiente X ), proporciona una explicación para la variación en las ventas ( variable dependiente Y ). [38] En términos matemáticos, Y (ventas) es una función de X (publicidad). [39] Puede describirse como ( Y = aX + b + error), donde el modelo está diseñado de tal manera que ( a ) y ( b ) minimizan el error cuando el modelo predice Y para un rango dado de valores de X. [40] Los analistas también pueden intentar construir modelos que sean descriptivos de los datos , con el objetivo de simplificar el análisis y comunicar los resultados. [11]
Producto de datos
Un producto de datos es una aplicación informática que toma datos de entrada y genera resultados , que luego envía al entorno. [41] Puede basarse en un modelo o algoritmo. Por ejemplo, una aplicación que analiza datos sobre el historial de compras de los clientes y utiliza los resultados para recomendar otras compras que podrían gustarle al cliente. [42] [13]
Comunicación
Una vez analizados los datos, se pueden comunicar en muchos formatos a los usuarios del análisis para satisfacer sus necesidades. [44] Los usuarios pueden enviar comentarios, lo que da lugar a un análisis adicional. Por ello, gran parte del ciclo analítico es iterativo. [13]
Al determinar cómo comunicar los resultados, el analista puede considerar implementar una variedad de técnicas de visualización de datos para ayudar a comunicar el mensaje de manera más clara y eficiente a la audiencia. [45] La visualización de datos utiliza presentaciones de información (gráficos como tablas y gráficos) para ayudar a comunicar mensajes clave contenidos en los datos. [46] Las tablas son una herramienta valiosa al permitir que un usuario consulte y se centre en números específicos; mientras que los gráficos (por ejemplo, gráficos de barras o gráficos de líneas) pueden ayudar a explicar los mensajes cuantitativos contenidos en los datos. [47]
Mensajes cuantitativos
Stephen Few describió ocho tipos de mensajes cuantitativos que los usuarios pueden intentar comprender o comunicar a partir de un conjunto de datos y los gráficos asociados que se utilizan para ayudar a comunicar el mensaje. [48] Los clientes que especifican requisitos y los analistas que realizan el análisis de datos pueden considerar estos mensajes durante el curso del proceso. [49]
Series temporales: se captura una única variable a lo largo de un período de tiempo, como la tasa de desempleo durante un período de 10 años. Se puede utilizar un gráfico de líneas para demostrar la tendencia. [50]
Clasificación: Las subdivisiones categóricas se clasifican en orden ascendente o descendente, como una clasificación del desempeño de ventas (la medida ) por vendedores (la categoría , con cada vendedor una subdivisión categórica ) durante un solo período. [51] Se puede utilizar un gráfico de barras para mostrar la comparación entre los vendedores. [52]
Parte-todo: Las subdivisiones categóricas se miden como una proporción del total (es decir, un porcentaje del 100%). Un gráfico circular o de barras puede mostrar la comparación de proporciones, como la participación de mercado representada por los competidores en un mercado. [53]
Desviación: Las subdivisiones categóricas se comparan con una referencia, como una comparación de los gastos reales y presupuestados para varios departamentos de una empresa durante un período de tiempo determinado. Un gráfico de barras puede mostrar la comparación del monto real con el de referencia. [54]
Distribución de frecuencia: muestra el número de observaciones de una variable particular para un intervalo dado, como el número de años en los que el rendimiento del mercado de valores está entre intervalos como 0-10%, 11-20%, etc. Se puede utilizar un histograma , un tipo de gráfico de barras, para este análisis. [55]
Correlación: Comparación entre observaciones representadas por dos variables (X, Y) para determinar si tienden a moverse en la misma dirección o en direcciones opuestas. Por ejemplo, se puede representar gráficamente el desempleo (X) y la inflación (Y) para una muestra de meses. Normalmente, se utiliza un diagrama de dispersión para este mensaje. [56]
Comparación nominal: Comparación de subdivisiones categóricas sin ningún orden en particular, como el volumen de ventas por código de producto. Se puede utilizar un gráfico de barras para esta comparación. [57]
Geográfico o geoespacial: Comparación de una variable en un mapa o diseño, como la tasa de desempleo por estado o la cantidad de personas en los distintos pisos de un edificio. Un cartograma es un gráfico típico. [58] [59]
Análisis de datos cuantitativos
El autor Jonathan Koomey ha recomendado una serie de prácticas recomendadas para comprender los datos cuantitativos. [60] Estas incluyen:
Verifique los datos sin procesar para detectar anomalías antes de realizar un análisis;
Volver a realizar cálculos importantes, como verificar columnas de datos que están basadas en fórmulas;
Confirme que los totales principales sean la suma de los subtotales;
Comprobar las relaciones entre números que deberían estar relacionados de forma predecible, como las proporciones a lo largo del tiempo;
Normalizar los números para facilitar las comparaciones, por ejemplo, analizar las cantidades por persona o en relación con el PIB o como un valor de índice relativo a un año base;
Divida los problemas en sus componentes analizando los factores que llevaron a los resultados, como el análisis de DuPont sobre el rendimiento del capital. [25]
Para las variables bajo examen, los analistas suelen obtener estadísticas descriptivas , como la media (promedio), la mediana y la desviación estándar . [61] También pueden analizar la distribución de las variables clave para ver cómo se agrupan los valores individuales alrededor de la media. [62]
Los consultores de McKinsey and Company denominaron principio MECE a una técnica para descomponer un problema cuantitativo en sus partes componentes . [63] Cada capa se puede descomponer en sus componentes; cada uno de los subcomponentes debe ser mutuamente excluyente entre sí y sumarse colectivamente a la capa superior. [64] La relación se conoce como "Mutuamente excluyente y colectivamente exhaustiva" o MECE. Por ejemplo, las ganancias por definición se pueden descomponer en ingresos totales y costos totales. [65] A su vez, los ingresos totales se pueden analizar por sus componentes, como los ingresos de las divisiones A, B y C (que son mutuamente excluyentes entre sí) y deberían sumarse a los ingresos totales (colectivamente exhaustivos). [66]
Los analistas pueden utilizar mediciones estadísticas robustas para resolver ciertos problemas analíticos. [67] La prueba de hipótesis se utiliza cuando el analista formula una hipótesis particular sobre el verdadero estado de cosas y se recopilan datos para determinar si ese estado de cosas es verdadero o falso. [68] [69] Por ejemplo, la hipótesis podría ser que "el desempleo no tiene efecto sobre la inflación", que se relaciona con un concepto económico llamado la curva de Phillips . [70] La prueba de hipótesis implica considerar la probabilidad de errores de tipo I y tipo II , que se relacionan con si los datos respaldan la aceptación o el rechazo de la hipótesis. [71] [72]
El análisis de regresión se puede utilizar cuando el analista intenta determinar en qué medida la variable independiente X afecta a la variable dependiente Y (por ejemplo, "¿En qué medida los cambios en la tasa de desempleo (X) afectan la tasa de inflación (Y)?"). [73] Este es un intento de modelar o ajustar una ecuación lineal o curva a los datos, de modo que Y sea una función de X. [74] [75]
El análisis de condiciones necesarias (NCA) puede utilizarse cuando el analista intenta determinar hasta qué punto la variable independiente X permite que la variable Y (por ejemplo, "¿Hasta qué punto es necesaria una determinada tasa de desempleo (X) para una determinada tasa de inflación (Y)?"). [73] Mientras que el análisis de regresión (múltiple) utiliza la lógica aditiva, donde cada variable X puede producir el resultado y las X pueden compensarse entre sí (son suficientes pero no necesarias), [76] el análisis de condiciones necesarias (NCA) utiliza la lógica de necesidad, donde una o más variables X permiten que exista el resultado, pero pueden no producirlo (son necesarias pero no suficientes). Cada condición necesaria individual debe estar presente y la compensación no es posible. [77]
Actividades analíticas de los usuarios de datos
Los usuarios pueden tener puntos de datos de interés particulares dentro de un conjunto de datos, a diferencia de los mensajes generales descritos anteriormente. Estas actividades analíticas de usuario de bajo nivel se presentan en la siguiente tabla. La taxonomía también se puede organizar en tres polos de actividades: recuperación de valores, búsqueda de puntos de datos y ordenación de puntos de datos. [78] [79] [80] [81]
Barreras para un análisis eficaz
Pueden existir barreras para un análisis eficaz entre los analistas que realizan el análisis de datos o entre la audiencia. Distinguir los hechos de las opiniones, los sesgos cognitivos y la incapacidad de calcular son desafíos para un análisis de datos sólido. [82]
Confundir hechos y opiniones
Tienes derecho a tu propia opinión, pero no a tus propios hechos.
Un análisis eficaz requiere la obtención de hechos relevantes para responder a preguntas, sustentar una conclusión u opinión formal , o probar hipótesis . [83] [84] Los hechos, por definición, son irrefutables, lo que significa que cualquier persona involucrada en el análisis debería poder estar de acuerdo con ellos. [85] Por ejemplo, en agosto de 2010, la Oficina de Presupuesto del Congreso (CBO) estimó que extender los recortes de impuestos de Bush de 2001 y 2003 para el período 2011-2020 agregaría aproximadamente $3,3 billones a la deuda nacional. [86] Todos deberían poder estar de acuerdo en que, de hecho, esto es lo que informó la CBO; todos pueden examinar el informe. Esto lo convierte en un hecho. Si las personas están de acuerdo o no con la CBO es su propia opinión. [87]
Otro ejemplo es el de un auditor de una empresa pública que debe llegar a una opinión formal sobre si los estados financieros de las empresas que cotizan en bolsa están "presentados de manera justa, en todos los aspectos materiales". [88] Esto requiere un análisis exhaustivo de los datos fácticos y las pruebas que sustentan su opinión. Al pasar de los hechos a las opiniones, siempre existe la posibilidad de que la opinión sea errónea . [89]
Sesgos cognitivos
Existen diversos sesgos cognitivos que pueden afectar negativamente el análisis. Por ejemplo, el sesgo de confirmación es la tendencia a buscar o interpretar información de una manera que confirme las propias preconcepciones. [90] Además, las personas pueden desacreditar la información que no respalda sus puntos de vista. [91]
Los analistas pueden recibir formación específica para ser conscientes de estos sesgos y saber cómo superarlos. [92] En su libro Psicología del análisis de inteligencia , el analista retirado de la CIA Richards Heuer escribió que los analistas deberían delinear claramente sus suposiciones y cadenas de inferencia y especificar el grado y la fuente de la incertidumbre involucrada en las conclusiones. [93] Hizo hincapié en los procedimientos para ayudar a sacar a la luz y debatir puntos de vista alternativos. [94]
Incapacidad para aritmética
Los analistas eficaces suelen ser expertos en diversas técnicas numéricas. Sin embargo, es posible que sus destinatarios no tengan esa misma alfabetización numérica o aritmética ; se dice que son analfabetos. [95] Las personas que comunican los datos también pueden estar intentando engañar o desinformar, utilizando deliberadamente técnicas numéricas inadecuadas. [96]
Por ejemplo, el hecho de que una cifra aumente o disminuya puede no ser el factor clave. Puede ser más importante la relación entre la cifra y otra, como el tamaño de los ingresos o gastos del gobierno en relación con el tamaño de la economía (PIB) o la cantidad de costos en relación con los ingresos en los estados financieros corporativos. [97] Esta técnica numérica se conoce como normalización [25] o cálculo de tamaño común. Los analistas emplean muchas técnicas de este tipo, ya sea para ajustar la inflación (es decir, comparar datos reales con nominales) o para considerar los aumentos de población, la demografía, etc. [98] Los analistas aplican una variedad de técnicas para abordar los diversos mensajes cuantitativos descritos en la sección anterior. [99]
Los analistas también pueden analizar los datos bajo diferentes supuestos o escenarios. Por ejemplo, cuando los analistas realizan un análisis de estados financieros , a menudo reformulan los estados financieros bajo diferentes supuestos para ayudar a llegar a una estimación del flujo de efectivo futuro, que luego descuentan al valor actual en función de una tasa de interés, para determinar la valuación de la empresa o sus acciones. [100] [101] De manera similar, la CBO analiza los efectos de varias opciones de política sobre los ingresos, los desembolsos y los déficits del gobierno, creando escenarios futuros alternativos para las medidas clave. [102]
Otros temas
Edificios inteligentes
Se puede utilizar un enfoque de análisis de datos para predecir el consumo de energía en los edificios. [103] Los diferentes pasos del proceso de análisis de datos se llevan a cabo para crear edificios inteligentes, donde las operaciones de gestión y control del edificio, incluidas la calefacción, la ventilación, el aire acondicionado, la iluminación y la seguridad, se realizan automáticamente imitando las necesidades de los usuarios del edificio y optimizando recursos como la energía y el tiempo. [104]
Analítica e inteligencia empresarial
La analítica es el "uso extensivo de datos, análisis estadístico y cuantitativo, modelos explicativos y predictivos y gestión basada en hechos para impulsar decisiones y acciones". Es un subconjunto de la inteligencia empresarial , que es un conjunto de tecnologías y procesos que utiliza datos para comprender y analizar el rendimiento empresarial para impulsar la toma de decisiones. [105]
Educación
En el ámbito educativo , la mayoría de los educadores tienen acceso a un sistema de datos con el fin de analizar los datos de los estudiantes. [106] Estos sistemas de datos presentan los datos a los educadores en un formato de datos de venta libre (incorporando etiquetas, documentación complementaria y un sistema de ayuda y tomando decisiones clave sobre el paquete/visualización y el contenido) para mejorar la precisión de los análisis de datos de los educadores. [107]
Notas para el practicante
Esta sección contiene explicaciones bastante técnicas que pueden ayudar a los profesionales pero que están más allá del alcance típico de un artículo de Wikipedia. [108]
Análisis inicial de datos
La distinción más importante entre la fase de análisis inicial de datos y la fase de análisis principal es que durante el análisis inicial de datos uno se abstiene de cualquier análisis que tenga como objetivo responder la pregunta de investigación original. [109] La fase de análisis inicial de datos está guiada por las siguientes cuatro preguntas: [110]
Calidad de los datos
La calidad de los datos debe comprobarse lo antes posible. La calidad de los datos puede evaluarse de varias maneras, utilizando diferentes tipos de análisis: recuentos de frecuencia, estadísticas descriptivas (media, desviación estándar, mediana), normalidad (asimetría, curtosis, histogramas de frecuencia), se necesita imputación normal. [111]
Análisis de observaciones extremas : se analizan las observaciones atípicas en los datos para ver si parecen alterar la distribución. [112]
Comparación y corrección de diferencias en los esquemas de codificación: las variables se comparan con esquemas de codificación de variables externas al conjunto de datos y posiblemente se corrigen si los esquemas de codificación no son comparables. [113]
La elección de los análisis para evaluar la calidad de los datos durante la fase inicial de análisis de datos depende de los análisis que se realizarán en la fase de análisis principal. [114]
Calidad de las mediciones
La calidad de los instrumentos de medición solo debe comprobarse durante la fase inicial de análisis de datos cuando este no sea el foco o la pregunta de investigación del estudio. [115] [116] Se debe verificar si la estructura de los instrumentos de medición corresponde a la estructura reportada en la literatura.
Hay dos formas de evaluar la calidad de la medición:
Análisis factorial confirmatorio
Análisis de homogeneidad ( consistencia interna ), que da una indicación de la confiabilidad de un instrumento de medición. [117] Durante este análisis, se inspeccionan las varianzas de los ítems y las escalas, el alfa de Cronbach de las escalas y el cambio en el alfa de Cronbach cuando se elimina un ítem de una escala [118]
Transformaciones iniciales
Después de evaluar la calidad de los datos y de las mediciones, se podría decidir imputar los datos faltantes o realizar transformaciones iniciales de una o más variables, aunque esto también se puede hacer durante la fase de análisis principal. [119]
Las posibles transformaciones de variables son: [120]
Transformación de raíz cuadrada (si la distribución difiere moderadamente de la normal)
Transformación logarítmica (si la distribución difiere sustancialmente de la normal)
Transformación inversa (si la distribución difiere mucho de la normal)
Hacer categórico (ordinal/dicotómico) (si la distribución difiere severamente de lo normal y ninguna transformación ayuda)
¿La implementación del estudio cumplió con las intenciones del diseño de la investigación?
Se debe comprobar el éxito del procedimiento de aleatorización , por ejemplo, comprobando si las variables de fondo y sustantivas están distribuidas de forma uniforme dentro y entre los grupos. [121] Si el estudio no necesitó o utilizó un procedimiento de aleatorización, se debe comprobar el éxito del muestreo no aleatorio, por ejemplo, comprobando si todos los subgrupos de la población de interés están representados en la muestra. [122] Otras posibles distorsiones de los datos que se deben comprobar son:
Abandono (esto debe identificarse durante la fase inicial de análisis de datos)
Falta de respuesta a los ítems (ya sea aleatoria o no, debe evaluarse durante la fase inicial de análisis de datos)
En cualquier informe o artículo, la estructura de la muestra debe describirse con precisión. [124] [125] Es especialmente importante determinar exactamente la estructura de la muestra (y específicamente el tamaño de los subgrupos) cuando se realizarán análisis de subgrupos durante la fase de análisis principal. [126] Las características de la muestra de datos se pueden evaluar observando:
Estadísticas básicas de variables importantes
Diagramas de dispersión
Correlaciones y asociaciones
Tabulaciones cruzadas [127]
Etapa final del análisis inicial de datos
Durante la etapa final, se documentan los hallazgos del análisis inicial de datos y se toman las acciones correctivas necesarias, preferibles y posibles. [128] Además, el plan original para los análisis de datos principales puede y debe especificarse con más detalle o reescribirse. [129] Para hacer esto, se pueden y deben tomar varias decisiones sobre los análisis de datos principales:
En el caso de variables no normales : ¿se deben transformar las variables, hacer que las variables sean categóricas (ordinales/dicotómicas), adaptar el método de análisis?
En el caso de datos faltantes : ¿se deben ignorar o imputar los datos faltantes?; ¿qué técnica de imputación se debe utilizar?
En el caso de valores atípicos : ¿se deben utilizar técnicas de análisis robustas?
En caso de que los ítems no se ajusten a la escala: ¿se debe adaptar el instrumento de medición omitiendo ítems o más bien asegurar la comparabilidad con otros (usos del) instrumento(s) de medición?
En el caso de subgrupos (demasiado) pequeños: ¿se debe abandonar la hipótesis sobre las diferencias entre grupos o utilizar técnicas de muestra pequeñas, como pruebas exactas o bootstrap ?
En caso de que el procedimiento de aleatorización parezca defectuoso: ¿se pueden y se deben calcular los puntajes de propensión e incluirlos como covariables en los análisis principales? [130]
Análisis
Se pueden utilizar varios análisis durante la fase inicial de análisis de datos: [131]
Estadísticas univariadas (variable única)
Asociaciones bivariadas (correlaciones)
Técnicas gráficas (diagramas de dispersión)
Es importante tener en cuenta los niveles de medición de las variables para los análisis, ya que existen técnicas estadísticas especiales para cada nivel: [132]
Variables nominales y ordinales
Recuentos de frecuencia (números y porcentajes)
Asociaciones
Circunvalaciones (tabulaciones cruzadas)
Análisis loglineal jerárquico (restringido a un máximo de 8 variables)
Análisis loglineal (para identificar variables relevantes/importantes y posibles factores de confusión)
Pruebas exactas o bootstrap (en caso de que los subgrupos sean pequeños)
El análisis no lineal suele ser necesario cuando los datos se registran a partir de un sistema no lineal . Los sistemas no lineales pueden exhibir efectos dinámicos complejos, incluidas bifurcaciones , caos , armónicos y subarmónicos que no se pueden analizar utilizando métodos lineales simples. El análisis de datos no lineales está estrechamente relacionado con la identificación de sistemas no lineales . [133]
Análisis de datos principales
En la fase de análisis principal se realizan análisis destinados a responder la pregunta de investigación, así como cualquier otro análisis relevante necesario para redactar el primer borrador del informe de investigación. [134]
Enfoques exploratorios y confirmatorios
En la fase principal de análisis, se puede adoptar un enfoque exploratorio o confirmatorio. Por lo general, el enfoque se decide antes de recopilar los datos. [135] En un análisis exploratorio, no se establece ninguna hipótesis clara antes de analizar los datos, y se buscan modelos que los describan bien. [136] En un análisis confirmatorio, se prueban hipótesis claras sobre los datos. [137]
El análisis exploratorio de datos debe interpretarse con cuidado. Cuando se prueban varios modelos a la vez, existe una alta probabilidad de encontrar que al menos uno de ellos sea significativo, pero esto puede deberse a un error de tipo 1. [138] Es importante ajustar siempre el nivel de significancia cuando se prueban varios modelos con, por ejemplo, una corrección de Bonferroni . [139] Además , no se debe seguir un análisis exploratorio con un análisis confirmatorio en el mismo conjunto de datos. [140] Un análisis exploratorio se utiliza para encontrar ideas para una teoría, pero no para probar esa teoría también. [140] Cuando se encuentra que un modelo es exploratorio en un conjunto de datos, entonces seguir ese análisis con un análisis confirmatorio en el mismo conjunto de datos podría significar simplemente que los resultados del análisis confirmatorio se deben al mismo error de tipo 1 que resultó en el modelo exploratorio en primer lugar. [140] Por lo tanto, el análisis confirmatorio no será más informativo que el análisis exploratorio original. [141]
Estabilidad de los resultados
Es importante obtener alguna indicación sobre la generalización de los resultados. [142] Si bien esto suele ser difícil de comprobar, se puede observar la estabilidad de los resultados. ¿Son confiables y reproducibles? Hay dos formas principales de hacerlo. [143]
Validación cruzada . Al dividir los datos en varias partes, podemos comprobar si un análisis (como un modelo ajustado) basado en una parte de los datos se generaliza también a otra parte de los datos. [144] Sin embargo, la validación cruzada generalmente no es adecuada si existen correlaciones dentro de los datos, por ejemplo, con datos de panel . [145] Por lo tanto, a veces es necesario utilizar otros métodos de validación. Para obtener más información sobre este tema, consulte la validación de modelos estadísticos . [146]
Análisis de sensibilidad . Procedimiento para estudiar el comportamiento de un sistema o modelo cuando se varían (sistemáticamente) los parámetros globales. Una forma de hacerlo es mediante el método bootstrap . [147]
Software libre para análisis de datos
Entre los programas gratuitos más destacados para el análisis de datos se incluyen:
Pandas – Biblioteca de Python para análisis de datos.
PAW – Marco de análisis de datos FORTRAN/C desarrollado en el CERN .
R – Un lenguaje de programación y entorno de software para computación estadística y gráficos. [149]
ROOT – Marco de análisis de datos C++ desarrollado en el CERN .
SciPy – Biblioteca Python para computación científica.
Julia : un lenguaje de programación adecuado para el análisis numérico y la ciencia computacional.
Análisis reproducible
El flujo de trabajo típico de análisis de datos implica la recopilación de datos, la ejecución de análisis mediante diversos scripts, la creación de visualizaciones y la redacción de informes. Sin embargo, este flujo de trabajo presenta desafíos, incluida una separación entre los scripts de análisis y los datos, así como una brecha entre el análisis y la documentación. A menudo, el orden correcto de ejecución de los scripts solo se describe de manera informal o reside en la memoria del científico de datos. La posibilidad de perder esta información crea problemas de reproducibilidad. Para abordar estos desafíos, es esencial tener scripts de análisis escritos para flujos de trabajo automatizados y reproducibles. Además, la documentación dinámica es crucial, ya que proporciona informes que son comprensibles tanto para las máquinas como para los humanos, lo que garantiza una representación precisa del flujo de trabajo de análisis incluso a medida que evolucionan los scripts. [150]
Concursos internacionales de análisis de datos
Diferentes empresas u organizaciones realizan concursos de análisis de datos para alentar a los investigadores a utilizar sus datos o resolver una cuestión particular mediante el análisis de datos. [151] [152] Algunos ejemplos de concursos de análisis de datos internacionales conocidos son los siguientes: [153]
Competición de Kaggle, organizada por Kaggle . [154]
^ ab "Transformar datos no estructurados en información útil", Big Data, Mining, and Analytics , Auerbach Publications, págs. 227-246, 12 de marzo de 2014, doi : 10.1201/b16666-14, ISBN 978-0-429-09529-0, consultado el 29 de mayo de 2021
^ "Las múltiples facetas de las funciones de correlación", Técnicas de análisis de datos para científicos físicos , Cambridge University Press, págs. 526-576, 2017, doi :10.1017/9781108241922.013, ISBN978-1-108-41678-8, consultado el 29 de mayo de 2021
^ Xia, BS y Gong, P. (2015). Revisión de la inteligencia empresarial a través del análisis de datos. Benchmarking , 21 (2), 300-311. doi :10.1108/BIJ-08-2012-0050
^ Explorando el análisis de datos
^ "Reglas de codificación de datos y análisis exploratorio (EDA) para la codificación de datos Supuestos estadísticos del análisis exploratorio de datos (EDA)", SPSS for Intermediate Statistics , Routledge, págs. 42-67, 16 de agosto de 2004, doi : 10.4324/9781410611420-6, ISBN978-1-4106-1142-0, consultado el 29 de mayo de 2021
^ Spie (1 de octubre de 2014). "Nueva convocatoria europea de TIC se centra en PIC, láseres y transferencia de datos". SPIE Professional . doi :10.1117/2.4201410.10. ISSN 1994-4403.
^ Samandar, Petersson; Svantesson, Sofía (2017). Skapandet av förtroende inom eWOM: Enstudie av profilbildens effekt ur ett könsperspektiv . Högskolan i Gävle, Företagsekonomi. OCLC 1233454128.
^ Buenas noches, James (13 de enero de 2011). "El pronóstico para la analítica predictiva: cada vez más candente". Análisis estadístico y minería de datos: la revista científica de datos de la ASA . 4 (1): 9–10. doi :10.1002/sam.10106. ISSN 1932-1864. S2CID 38571193.
^ Sherman, Rick (4 de noviembre de 2014). Guía de inteligencia empresarial: de la integración de datos al análisis. Ámsterdam. ISBN978-0-12-411528-6.OCLC 894555128 .{{cite book}}: CS1 maint: location missing publisher (link)
^ Field, John (2009), "Dividir la escucha en sus componentes", Listening in the Language Classroom , Cambridge: Cambridge University Press, págs. 96-109, doi :10.1017/cbo9780511575945.008, ISBN978-0-511-57594-5, consultado el 29 de mayo de 2021
^ abc Judd, Charles; McCleland, Gary (1989). Análisis de datos . Harcourt Brace Jovanovich. ISBN0-15-516765-0.
^ Tukey, John W. (marzo de 1962). "John Tukey: el futuro del análisis de datos, julio de 1961". Annals of Mathematical Statistics . 33 (1): 1–67. doi :10.1214/aoms/1177704711. Archivado desde el original el 26 de enero de 2020. Consultado el 1 de enero de 2015 .
^ "USO DE LOS DATOS", Handbook of Petroleum Product Analysis , Hoboken, NJ: John Wiley & Sons, Inc, págs. 296-303, 6 de febrero de 2015, doi : 10.1002/9781118986370.ch18, ISBN978-1-118-98637-0, consultado el 29 de mayo de 2021
^ Ainsworth, Penne (20 de mayo de 2019). Introducción a la contabilidad: un enfoque integrado . John Wiley & Sons. ISBN978-1-119-60014-5.OCLC 1097366032 .
^ Margo, Robert A. (2000). Salarios y mercados laborales en los Estados Unidos, 1820-1860 . University of Chicago Press. ISBN0-226-50507-3.OCLC 41285104 .
^ Olusola, Johnson Adedeji; Shote, Adebola Adekunle; Ouigmane, Abdellah; Isaifan, Rima J. (7 de mayo de 2021). "Tabla 1: Tipo de datos y fuentes de datos recopilados para esta investigación". PeerJ . 9 : e11387. doi : 10.7717/peerj.11387/table-1 .
^ MacPherson, Derek (16 de octubre de 2019), "Perspectivas de los analistas de tecnología de la información", Estrategia de datos en colegios y universidades , Routledge, págs. 168-183, doi :10.4324/9780429437564-12, ISBN978-0-429-43756-4, S2CID 211738958 , consultado el 29 de mayo de 2021
^ Nelson, Stephen L. (2014). Análisis de datos de Excel para principiantes . Wiley. ISBN978-1-118-89810-9.OCLC 877772392 .
^ "Figura 3—datos fuente 1. Valores brutos y procesados obtenidos mediante qPCR". 30 de agosto de 2017. doi : 10.7554/elife.28468.029 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ ab Bohannon, John (24 de febrero de 2016). «Muchas encuestas, aproximadamente una de cada cinco, pueden contener datos fraudulentos». Science . doi : 10.1126/science.aaf4104 . ISSN 0036-8075.
^ Jeannie Scruggs, Garber; Gross, Monty; Slonim, Anthony D. (2010). Cómo evitar errores comunes de enfermería . Wolters Kluwer Health/Lippincott Williams & Wilkins. ISBN978-1-60547-087-0.OCLC 338288678 .
^ "Limpieza de datos". Microsoft Research. Archivado desde el original el 29 de octubre de 2013. Consultado el 26 de octubre de 2013 .
^ Hancock, RGV; Carter, Tristan (febrero de 2010). "¿Cuán confiables son nuestros análisis arqueométricos publicados? Efectos de las técnicas analíticas a través del tiempo en el análisis elemental de obsidianas". Journal of Archaeological Science . 37 (2): 243–250. Bibcode :2010JArSc..37..243H. doi :10.1016/j.jas.2009.10.004. ISSN 0305-4403.
^ abc "Perceptual Edge-Jonathan Koomey-Best practices for understanding numerical data-14 de febrero de 2006" (PDF) . Archivado (PDF) desde el original el 5 de octubre de 2014. Consultado el 12 de noviembre de 2014 .
^ Peleg, Roni; Avdalimov, Angelika; Freud, Tamar (23 de marzo de 2011). "Proporcionar números de teléfono móvil y direcciones de correo electrónico a los pacientes: la perspectiva del médico". BMC Research Notes . 4 (1): 76. doi : 10.1186/1756-0500-4-76 . ISSN 1756-0500. PMC 3076270 . PMID 21426591.
^ Goodman, Lenn Evan (1998). Judaísmo, derechos humanos y valores humanos . Oxford University Press. ISBN0-585-24568-1.OCLC 45733915 .
^ Hanzo, Lajos. "Estimación de canal de máxima verosimilitud y detección de datos para sistemas de entrada única y salida múltiple" . doi :10.1049/iet-tv.44.786 . Consultado el 29 de mayo de 2021 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Hellerstein, Joseph (27 de febrero de 2008). «Limpieza cuantitativa de datos para bases de datos grandes» (PDF) . División de Ciencias de la Computación de la EECS : 3. Archivado (PDF) desde el original el 13 de octubre de 2013. Consultado el 26 de octubre de 2013 .
^ Davis, Steve; Pettengill, James B.; Luo, Yan; Payne, Justin; Shpuntoff, Al; Rand, Hugh; Strain, Errol (26 de agosto de 2015). "CFSAN SNP Pipeline: un método automatizado para construir matrices SNP a partir de datos de secuencias de próxima generación". PeerJ Computer Science . 1 : e20. doi : 10.7717/peerj-cs.20/supp-1 .
^ "FTC solicita datos adicionales". Pump Industry Analyst . 1999 (48): 12 de diciembre de 1999. doi :10.1016/s1359-6128(99)90509-8. ISSN 1359-6128.
^ "Explorando sus datos con visualización de datos y estadísticas descriptivas: estadísticas descriptivas comunes para datos cuantitativos". 2017. doi :10.4135/9781529732795.{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Murray, Daniel G. (2013). Tableau your data!: análisis visual rápido y sencillo con Tableau Software . J. Wiley & Sons. ISBN978-1-118-61204-0.OCLC 873810654 .
^ Ben-Ari, Mordechai (2012), "Lógica de primer orden: fórmulas, modelos, tablas", Lógica matemática para la informática , Londres: Springer London, págs. 131-154, doi :10.1007/978-1-4471-4129-7_7, ISBN978-1-4471-4128-0, consultado el 31 de mayo de 2021
^ Evans, Michelle V.; Dallas, Tad A.; Han, Barbara A.; Murdock, Courtney C.; Drake, John M. (28 de febrero de 2017). Brady, Oliver (ed.). "Figura 2. Importancia de la variable por permutación, promediada en 25 modelos". eLife . 6 : e22053. doi : 10.7554/elife.22053.004 .
^ Watson, Kevin; Halperin, Israel; Aguilera-Castells, Joan; Iacono, Antonio Dello (12 de noviembre de 2020). "Tabla 3: Estadísticas descriptivas (media ± DE), inferenciales (IC del 95 %) y cualitativas (ES) de todas las variables entre las condiciones autoseleccionadas y predeterminadas". PeerJ . 8 : e10361. doi : 10.7717/peerj.10361/table-3 .
^ Cortés-Molino, Álvaro; Aulló-Maestro, Isabel; Fernández-Luque, Ismael; Flores-Moya, Antonio; Carreira, José A.; Salvo, A. Enrique (22 de octubre de 2020). "Tabla 3: Mejores modelos de regresión entre datos LIDAR (variable independiente) y datos de Forestereo basados en campo (variable dependiente), utilizados para mapear la distribución espacial de las principales variables de la estructura forestal". PeerJ . 8 : e10158. doi : 10.7717/peerj.10158/table-3 .
^ Condiciones de venta internacionales, Beck/Hart, 2014, doi :10.5040/9781472561671.ch-003, ISBN978-1-4725-6167-1, consultado el 31 de mayo de 2021
^ Nwabueze, JC (21 de mayo de 2008). "Rendimiento de los estimadores de modelos lineales con términos de error autocorrelacionados cuando la variable independiente es normal". Revista de la Asociación Nigeriana de Física Matemática . 9 (1). doi :10.4314/jonamp.v9i1.40071. ISSN 1116-4336.
^ Conway, Steve (4 de julio de 2012). "Una nota de advertencia sobre las entradas de datos y las salidas visuales en el análisis de redes sociales". British Journal of Management . 25 (1): 102–117. doi :10.1111/j.1467-8551.2012.00835.x. hdl :2381/36068. ISSN 1045-3172. S2CID 154347514.
^ "Compras de clientes y otros eventos repetidos", Análisis de datos con SQL y Excel® , Indianápolis, Indiana: John Wiley & Sons, Inc., págs. 367–420, 29 de enero de 2016, doi :10.1002/9781119183419.ch8, ISBN978-1-119-18341-9, consultado el 31 de mayo de 2021
^ Grandjean, Martín (2014). "La connaissance est un réseau" (PDF) . Les Cahiers du Numérique . 10 (3): 37–54. doi :10.3166/lcn.10.3.37-54. Archivado (PDF) desde el original el 27 de septiembre de 2015 . Consultado el 5 de mayo de 2015 .
^ Requisitos de datos para chips semiconductores. Formatos de datos de intercambio y diccionario de datos, BSI British Standards, doi :10.3403/02271298 , consultado el 31 de mayo de 2021
^ Yee, D. (1 de abril de 1985). "Cómo comunicar su mensaje a una audiencia de manera efectiva". The Gerontologist . 25 (2): 209. doi :10.1093/geront/25.2.209. ISSN 0016-9013.
^ Bemowska-Kałabun, Olga; Wąsowicz, Paweł; Napora-Rutkowski, Łukasz; Nowak-Życzyńska, Zuzanna; Wierzbicka, Małgorzata (11 de junio de 2019). "Información complementaria 1: datos sin procesar para gráficos y tablas". doi : 10.7287/peerj.preprints.27793v1/supp-1 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Visualización de datos sobre museos del Reino Unido: gráficos de barras, gráficos de líneas y mapas de calor. 2021. doi :10.4135/9781529768749. ISBN9781529768749. Número de identificación del sujeto 240967380.
^ Tunqui Neira, José Manuel (19 de septiembre de 2019). "Gracias por su revisión. En el archivo PDF adjunto encontrará una respuesta detallada a los puntos que planteó". doi : 10.5194/hess-2019-325-ac2 . S2CID 241041810.{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Brackett, John W. (1989), "Realización de cursos de proyectos de análisis de requisitos para clientes externos", Issues in Software Engineering Education , Nueva York, NY: Springer New York, págs. 276-285, doi :10.1007/978-1-4613-9614-7_20, ISBN978-1-4613-9616-1, consultado el 3 de junio de 2021
^ Wyckhuys, Kris AG; Wongtiem, Prapit; Rauf, Aunu; Thancharoen, Anchana; Heimpel, George E.; Le, Nhung TT; Fanani, Muhammad Zainal; Gurr, Geoff M.; Lundgren, Jonathan G.; Burra, Dharani D.; Palao, Leo K.; Hyman, Glenn; Graziosi, Ignacio; Le, Vi X.; Polla, Mateo JW; Tscharntke, Teja; Wratten, Steve D.; Nguyen, Liem V.; Tú, Minsheng; Lu, Yanhui; Ketelaar, Johannes W.; Görgen, Georg; Neuenschwander, Peter (19 de octubre de 2018). "Figura 2: Fluctuaciones bimestrales de la población de cochinillas en el sur de Vietnam, durante un período de dos años". PeerJ . 6 : e5796. doi : 10.7717/peerj.5796/fig-2 .
^ Riehl, Emily (2014), "Una muestra de aspectos 2-categóricos de la teoría de cuasiconstituciones", Categorical Homotopy Theory , Cambridge: Cambridge University Press, págs. 318-336, doi :10.1017/cbo9781107261457.019, ISBN978-1-107-26145-7, consultado el 3 de junio de 2021
^ "Diagrama de barras X". Enciclopedia de gestión de producción y fabricación . 2000. pág. 841. doi :10.1007/1-4020-0612-8_1063. ISBN978-0-7923-8630-8.
^ "Gráfico C5.3. Porcentaje de jóvenes de 15 a 19 años que no estudian, según situación en el mercado laboral (2012)". doi :10.1787/888933119055 . Consultado el 2021-06-03 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ "Gráfico 7: Hogares: gasto de consumo final frente al consumo individual efectivo". doi :10.1787/665527077310 . Consultado el 3 de junio de 2021 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Chao, Luke H.; Jang, Jaebong; Johnson, Adam; Nguyen, Anthony; Gray, Nathanael S.; Yang, Priscilla L.; Harrison, Stephen C. (12 de julio de 2018). Jahn, Reinhard; Schekman, Randy (eds.). "Figura 4. Frecuencia de hemifusión (medida como desactivación de la fluorescencia de DiD) en función del número de moléculas Alexa-fluor-555/3-110-22 unidas". eLife . 7 : e36461. doi : 10.7554/elife.36461.006 .
^ Garnier, Elodie M.; Fouret, Nastasia; Descoins, Médéric (3 de febrero de 2020). "Tabla 2: Comparación de gráficos entre el diagrama de dispersión, el diagrama de dispersión Violín +, el mapa de calor y el gráfico ViSiElse". PeerJ . 8 : e8341. doi : 10.7717/peerj.8341/table-2 .
^ "Cuadro comparativo de productos: wearables". Conjunto de datos PsycEXTRA . 2009. doi :10.1037/e539162010-006 . Consultado el 3 de junio de 2021 .
^ "Stephen Few-Perceptual Edge-Seleccionar el gráfico correcto para su mensaje-2004" (PDF) . Archivado (PDF) desde el original el 2014-10-05 . Consultado el 2014-10-29 .
^ "Matriz de selección de grafos de aristas perceptuales de Stephen Few" (PDF) . Archivado (PDF) desde el original el 5 de octubre de 2014 . Consultado el 29 de octubre de 2014 .
^ "Mejores prácticas recomendadas". 2008-10-01. doi :10.14217/9781848590151-8-en . Consultado el 2021-06-03 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Hobold, Edilson; Pires-Lopes, Vítor; Gómez-Campos, Rossana; Arruda, Miguel de; Andruske, Cynthia Lee; Pacheco-Carrillo, Jaime; Cossio-Bolaños, Marco Antonio (30 de noviembre de 2017). "Tabla 1: Estadísticas descriptivas (media ± desviación estándar) para variables somáticas y ítems de aptitud física para hombres y mujeres". PeerJ . 5 : e4032. doi : 10.7717/peerj.4032/table-1 .
^ Ablin, Jacob N.; Zohar, Ada H.; Zaraya-Blum, Reut; Buskila, Dan (13 de septiembre de 2016). "Tabla 2: Análisis de conglomerados que presenta valores medios de variables psicológicas por grupo de conglomerados". PeerJ . 4 : e2421. doi : 10.7717/peerj.2421/table-2 .
^ "Consultores empleados por McKinsey & Company", Comportamiento organizacional 5 , Routledge, págs. 77-82, 30 de julio de 2008, doi : 10.4324/9781315701974-15, ISBN978-1-315-70197-4, consultado el 3 de junio de 2021
^ Antifanes (2007), Olson, S. Douglas (ed.), "H6 Antifanes fr.172.1-4, de Mujeres que se parecían entre sí o Hombres que se parecían entre sí", Broken Laughter: Select Fragments of Greek Comedy , Oxford University Press, doi :10.1093/oseo/instance.00232915, ISBN978-0-19-928785-7, consultado el 3 de junio de 2021
^ Carey, Malachy (noviembre de 1981). "Sobre propiedades mutuamente excluyentes y colectivamente exhaustivas de las funciones de demanda". Economica . 48 (192): 407–415. doi :10.2307/2553697. ISSN 0013-0427. JSTOR 2553697.
^ "Ingresos fiscales totales". doi :10.1787/352874835867 . Consultado el 3 de junio de 2021 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ "Un coche de doble uso puede resolver los problemas de transporte". Archivo de noticias de ingeniería y química . 46 (24): 44. 1968-06-03. doi :10.1021/cen-v046n024.p044. ISSN 0009-2347.
^ Heckman (1978). "Modelos estadísticos simples para datos de panel discretos desarrollados y aplicados para probar la hipótesis de dependencia de estado real frente a la hipótesis de dependencia de estado espuria". Annales de l'inséé (30/31): 227–269. doi :10.2307/20075292. ISSN 0019-0209. JSTOR 20075292.
^ Munday, Stephen CR (1996), "Desempleo, inflación y la curva de Phillips", Current Developments in Economics , Londres: Macmillan Education UK, págs. 186-218, doi :10.1007/978-1-349-24986-2_11, ISBN978-0-333-64444-7, consultado el 3 de junio de 2021
^ Louangrath, Paul I. (2013). "Pruebas alfa y beta para la determinación de errores inferenciales de tipo I y tipo II en pruebas de hipótesis". Revista electrónica SSRN . doi :10.2139/ssrn.2332756. ISSN 1556-5068.
^ Walko, Ann M. (2006). Rechazando la hipótesis de la segunda generación: manteniendo la etnicidad estonia en Lakewood, Nueva Jersey . AMS Press. ISBN0-404-19454-0.OCLC 467107876 .
^ ab Yanamandra, Venkataramana (septiembre de 2015). "Cambios en el tipo de cambio e inflación en India: ¿Cuál es el alcance de la transmisión del tipo de cambio a las importaciones?". Análisis económico y política . 47 : 57–68. doi :10.1016/j.eap.2015.07.004. ISSN 0313-5926.
^ Mudiyanselage, Nawarathna; Nawarathna, Pubudu Manoj. Caracterización de los cambios epigenéticos y su conexión con anomalías de la expresión génica en el carcinoma renal de células claras . OCLC 1190697848.
^ Moreno Delgado, David; Møller, Thor C.; Ster, Jeanne; Giraldo, Jesús; Maurel, Damien; Rovira, Xavier; Scholler, Pauline; Zwier, Jurriaan M.; Perroy, Julie; Durroux, Thierry; Trinquet, Eric; Prezeau, Laurent; Rondard, Philippe; Pin, Jean-Philippe (29 de junio de 2017). Chao, Moses V (ed.). "Apéndice 1—figura 5. Datos de la curva incluidos en el Apéndice 1—tabla 4 (puntos sólidos) y la curva teórica utilizando los parámetros de la ecuación de Hill del Apéndice 1—tabla 5 (línea de la curva)". eLife . 6 : e25233. doi : 10.7554/elife.25233.027 .
^ Feinmann, Jane. "¿Cómo pueden ayudarse mutuamente ingenieros y periodistas?" (Video). Instituto de Ingeniería y Tecnología. doi :10.1049/iet-tv.48.859 . Consultado el 3 de junio de 2021 .
^ Dul, Jan (2015). "Análisis de condición necesaria (NCA): lógica y metodología de la causalidad 'necesaria pero no suficiente'". Revista electrónica SSRN . doi :10.2139/ssrn.2588480. hdl :1765/77890. ISSN 1556-5068. S2CID 219380122.
^ Robert Amar, James Eagan y John Stasko (2005) "Componentes de bajo nivel de la actividad analítica en la visualización de información" Archivado el 13 de febrero de 2015 en Wayback Machine.
^ William Newman (1994) "Un análisis preliminar de los productos de la investigación de HCI, utilizando resúmenes pro forma" Archivado el 3 de marzo de 2016 en Wayback Machine.
^ Mary Shaw (2002) "¿Qué hace que una investigación en ingeniería de software sea buena?" Archivado el 5 de noviembre de 2018 en Wayback Machine.
^ ab Yavari, Ali; Jayaraman, Prem Prakash; Georgakopoulos, Dimitrios; Nepal, Surya (2017). ConTaaS: Un enfoque de contextualización a escala de Internet para desarrollar aplicaciones eficientes de Internet de las cosas . Actas de la 50.ª Conferencia Internacional de Hawái sobre Ciencias de Sistemas (HICSS50 2017). Universidad de Hawái en Mānoa. doi :10.24251/HICSS.2017.715. hdl :10125/41879. ISBN .9780998133102.
^ "Una herramienta de conectividad transfiere datos entre bases de datos y productos estadísticos". Computational Statistics & Data Analysis . 8 (2): 224. Julio 1989. doi :10.1016/0167-9473(89)90021-2. ISSN 0167-9473.
^ "Información relevante para su trabajo", Obtención de información para una gestión eficaz , Routledge, págs. 48-54, 11 de julio de 2007, doi : 10.4324/9780080544304-16 (inactivo el 1 de mayo de 2024), ISBN978-0-08-054430-4, consultado el 3 de junio de 2021{{citation}}: CS1 maint: DOI inactive as of May 2024 (link)
^ Lehmann, EL (2010). Prueba de hipótesis estadísticas . Springer. ISBN978-1-4419-3178-8.OCLC 757477004 .
^ Fielding, Henry (14 de agosto de 2008), "Consta en parte de hechos y en parte de observaciones sobre ellos", Tom Jones , Oxford University Press, doi :10.1093/owc/9780199536993.003.0193, ISBN978-0-19-953699-3, consultado el 3 de junio de 2021
^ "Oficina de Presupuesto del Congreso - Presupuesto y perspectivas económicas - Agosto de 2010 - Tabla 1.7 en la página 24" (PDF) . 18 de agosto de 2010. Archivado desde el original el 27 de febrero de 2012 . Consultado el 31 de marzo de 2011 .
^ "Sentido de pertenencia de los estudiantes, según origen inmigrante". Resultados PISA 2015 (Volumen III) . PISA. 2017-04-19. doi :10.1787/9789264273856-table125-en. ISBN9789264273818. ISSN 1996-3777.
^ Gordon, Roger (marzo de 1990). "¿Las corporaciones que cotizan en bolsa actúan en interés público?". Documentos de trabajo de la Oficina Nacional de Investigación Económica . Cambridge, MA. doi :10.3386/w3303.
^ Minardi, Margot (24 de septiembre de 2010), "Hechos y opiniones", Making Slavery History , Oxford University Press, págs. 13-42, doi :10.1093/acprof:oso/9780195379372.003.0003, ISBN978-0-19-537937-2, consultado el 3 de junio de 2021
^ Rivard, Jillian R (2014). Sesgo de confirmación en las entrevistas a testigos: ¿pueden los entrevistadores ignorar sus preconcepciones? (Tesis). Florida International University. doi :10.25148/etd.fi14071109.
^ Papineau, David (1988), "¿La sociología de la ciencia desacredita a la ciencia?", Relativismo y realismo en la ciencia , Dordrecht: Springer Netherlands, pp. 37-57, doi :10.1007/978-94-009-2877-0_2, ISBN978-94-010-7795-8, consultado el 3 de junio de 2021
^ Bromme, Rainer; Hesse, Friedrich W.; Spada, Hans, eds. (2005). Barreras y sesgos en la comunicación de conocimientos a través de ordenadores. doi :10.1007/b105100. ISBN978-0-387-24317-7.
^ Heuer, Richards (10 de junio de 2019). Heuer, Richards J (ed.). Enfoques cuantitativos de la inteligencia política. doi :10.4324/9780429303647. ISBN9780429303647.ID S2C 145675822.
^ "Introducción" (PDF) . cia.gov . Archivado (PDF) del original el 2021-10-25 . Consultado el 2021-10-25 .
^ "Figura 6.7. Las diferencias en los puntajes de alfabetización entre los países de la OCDE generalmente reflejan las diferencias en los puntajes de aritmética". doi :10.1787/888934081549 . Consultado el 3 de junio de 2021 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ "Bloomberg-Barry Ritholz-Malas matemáticas que pasan por perspicacia-28 de octubre de 2014". Archivado desde el original el 29 de octubre de 2014. Consultado el 29 de octubre de 2014 .
^ Gusnaini, Nuriska; Andesto, Rony; Ermawati (15 de diciembre de 2020). "El efecto del tamaño del gobierno regional, el tamaño legislativo, el número de habitantes y los ingresos intergubernamentales en la divulgación de los estados financieros". Revista Europea de Investigación Empresarial y de Gestión . 5 (6). doi :10.24018/ejbmr.2020.5.6.651. ISSN 2507-1076. S2CID 231675715.
^ Linsey, Julie S .; Becker, Blake (2011), "Efectividad de las técnicas de escritura de ideas: comparación de grupos nominales con equipos reales", Design Creativity 2010 , Londres: Springer London, págs. 165-171, doi :10.1007/978-0-85729-224-7_22, ISBN978-0-85729-223-0, consultado el 3 de junio de 2021
^ Lyon, J. (abril de 2006). "Dirección responsable presunta en mensajes de correo electrónico". doi :10.17487/rfc4407.{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Stock, Eugene (10 de junio de 2017). Historia de la Sociedad Misionera de la Iglesia: su entorno, sus hombres y su obra . Hansebooks GmbH. ISBN978-3-337-18120-8.OCLC 1189626777 .
^ Gross, William H. (julio de 1979). "Valoración de cupones y ciclos de tasas de interés". Financial Analysts Journal . 35 (4): 68–71. doi :10.2469/faj.v35.n4.68. ISSN 0015-198X.
^ "25. Gastos totales del gobierno general". doi :10.1787/888932348795 . Consultado el 3 de junio de 2021 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ González-Vidal, Aurora; Moreno-Cano, Victoria (2016). "Hacia modelos de edificios inteligentes de eficiencia energética basados en análisis inteligente de datos". Procedia Computer Science . 83 (Elsevier): 994–999. doi : 10.1016/j.procs.2016.04.213 .
^ "Control de iluminación y aire acondicionado de bajo consumo energético", Building Energy Management Systems , Routledge, págs. 406-439, 4 de julio de 2013, doi : 10.4324/9780203477342-18 (inactivo el 1 de mayo de 2024), ISBN978-0-203-47734-2, consultado el 3 de junio de 2021{{citation}}: CS1 maint: DOI inactive as of May 2024 (link)
^ Aarons, D. (2009). Un informe revela que los estados están en vías de crear sistemas de datos sobre los alumnos. Education Week, 29 (13), 6.
^ Rankin, J. (28 de marzo de 2013). Cómo los sistemas de datos y los informes pueden combatir o propagar la epidemia de errores en el análisis de datos, y cómo los líderes educativos pueden ayudar. Archivado el 26 de marzo de 2019 en Wayback Machine . Presentación realizada en la Cumbre de liderazgo escolar del Centro de información tecnológica para el liderazgo administrativo (TICAL).
^ Brödermann, Eckart J. (2018), "Artículo 2.2.1 (Ámbito de aplicación de la Sección)", Derecho Comercial , Nomos Verlagsgesellschaft mbH & Co. KG, p. 525, doi :10.5771/9783845276564-525, ISBN978-3-8452-7656-4, consultado el 3 de junio de 2021
^ Jaech, JL (21 de abril de 1960). "Análisis de datos de distorsión dimensional de 24 tubos de certificación de calidad iniciales". doi :10.2172/10170345. S2CID 110058009.{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Adèr 2008a, pág. 337.
^ Kjell, Oscar NE; Thompson, Sam (19 de diciembre de 2013). "Estadísticas descriptivas que indican la media, la desviación estándar y la frecuencia de los valores faltantes para cada condición (N = número de participantes) y para las variables dependientes (VD)". PeerJ . 1 : e231. doi : 10.7717/peerj.231/table-1 .
^ Práctica para tratar con observaciones atípicas, ASTM International, doi :10.1520/e0178-16a , consultado el 3 de junio de 2021
^ "Esquemas de codificación alternativos para variables ficticias", Regresión con variables ficticias , Newbury Park, CA: SAGE Publications, Inc., págs. 64-75, 1993, doi :10.4135/9781412985628.n5, ISBN978-0-8039-5128-0, consultado el 3 de junio de 2021
^ Adèr 2008a, págs. 338–341.
^ Danilyuk, PM (julio de 1960). "Cálculo del desplazamiento del contorno inicial de los engranajes cuando se comprueban mediante bolas". Técnicas de medición . 3 (7): 585–587. Bibcode :1960MeasT...3..585D. doi :10.1007/bf00977716. ISSN 0543-1972. S2CID 121058145.
^ Newman, Isadore (1998). Metodología de investigación cualitativa-cuantitativa: exploración del continuo interactivo . Southern Illinois University Press. ISBN0-585-17889-5.OCLC 44962443 .
^ Terwilliger, James S.; Lele, Kaustubh (junio de 1979). "Algunas relaciones entre consistencia interna, reproducibilidad y homogeneidad". Journal of Educational Measurement . 16 (2): 101–108. doi :10.1111/j.1745-3984.1979.tb00091.x. ISSN 0022-0655.
^ Adèr 2008a, págs. 341–342.
^ Adèr 2008a, pág. 344.
^ Tabachnick y Fidell, 2007, págs. 87-88.
^ Tchakarova, Kalina (octubre de 2020). «2020/31 Comparar las descripciones de puestos de trabajo es insuficiente para comprobar si el trabajo es igualmente valioso (BG)». European Employment Law Cases . 5 (3): 168–170. doi :10.5553/eelc/187791072020005003006. ISSN 1877-9107. S2CID 229008899.
^ Procedimientos de muestreo aleatorio y aleatorización, BSI British Standards, doi :10.3403/30137438 , consultado el 3 de junio de 2021
^ Adèr 2008a, págs. 344–345.
^ Sandberg, Margareta (junio de 2006). "Los procedimientos de acupuntura deben describirse con precisión". Acupuntura en medicina . 24 (2): 92–94. doi :10.1136/aim.24.2.92. ISSN 0964-5284. PMID 16783285. S2CID 30286074.
^ Jaarsma, CF Verkeer in een landelijk gebied: waarnemingen y analice van het verkeer en el oeste de Frisia y ontwikkeling van een verkeersmodel . OCLC 1016575584.
^ Cuarto, cristiano; Hedrick, Brandon P.; Ezcurra, Martín D. (18 de enero de 2016). "Figura 4: Análisis de regresión del tamaño del centroide para la muestra principal". PeerJ . 4 : e1589. doi : 10.7717/peerj.1589/fig-4 .
^ Adèr 2008a, pág. 345.
^ "Los últimos años (1975-84)", El camino no tomado , Boydell & Brewer, págs. 853-922, 18 de junio de 2018, doi :10.2307/j.ctv6cfncp.26, ISBN978-1-57647-332-0, S2CID 242072487 , consultado el 3 de junio de 2021
^ Fitzmaurice, Kathryn (17 de marzo de 2015). El destino, reescrito . HarperCollins. ISBN978-0-06-162503-9.OCLC 905090570 .
^ Adèr 2008a, págs. 345–346.
^ Adèr 2008a, págs. 346–347.
^ Adèr 2008a, págs. 349–353.
^ Billings SA "Identificación de sistemas no lineales: métodos NARMAX en los dominios de tiempo, frecuencia y espacio-temporal". Wiley, 2013
^ Adèr 2008b, pág. 363.
^ "Análisis exploratorio de datos", Python® para usuarios de R , Hoboken, NJ, EE. UU.: John Wiley & Sons, Inc., págs. 119-138, 13 de octubre de 2017, doi : 10.1002/9781119126805.ch4, hdl : 11380/971504, ISBN978-1-119-12680-5, consultado el 3 de junio de 2021
^ "Participación en el análisis exploratorio de datos, la visualización y la prueba de hipótesis: análisis exploratorio de datos, geovisualización y datos", Spatial Analysis , CRC Press, págs. 106-139, 28 de julio de 2015, doi : 10.1201/b18808-8, ISBN978-0-429-06936-9, S2CID 133412598 , consultado el 3 de junio de 2021
^ "Hipótesis sobre categorías", Estadísticas iniciales: una guía breve y clara , Londres: SAGE Publications Ltd, págs. 138-151, 2010, doi :10.4135/9781446287873.n14, ISBN978-1-84920-098-1, consultado el 3 de junio de 2021
^ Sordo, Rachele Del; Sidoni, Angelo (diciembre de 2008). "Reactividad de la membrana celular de MIB-1: un hallazgo que debe interpretarse con cuidado". Inmunohistoquímica aplicada y morfología molecular . 16 (6): 568. doi :10.1097/pai.0b013e31817af2cf. ISSN 1541-2016. PMID 18800001.
^ Liquet, Benoit; Riou, Jérémie (8 de junio de 2013). "Corrección del nivel de significación al intentar transformaciones múltiples de una variable explicativa en modelos lineales generalizados". BMC Medical Research Methodology . 13 (1): 75. doi : 10.1186/1471-2288-13-75 . ISSN 1471-2288. PMC 3699399 . PMID 23758852.
^ abc Mcardle, John J. (2008). "Algunas cuestiones éticas en el análisis confirmatorio frente al exploratorio". Conjunto de datos PsycEXTRA . doi :10.1037/e503312008-001 . Consultado el 3 de junio de 2021 .
^ Adèr 2008b, págs. 361–362.
^ Adèr 2008b, págs. 361–371.
^ Truswell IV, William H., ed. (2009), "3 El lifting facial: una guía para obtener resultados seguros, fiables y reproducibles", Rejuvenecimiento facial quirúrgico , Stuttgart: Georg Thieme Verlag, doi :10.1055/b-0034-73436, ISBN978-1-58890-491-1, consultado el 3 de junio de 2021
^ Benson, Noah C; Winawer, Jonathan (diciembre de 2018). "Análisis bayesiano de mapas retinotópicos". eLife . 7 . doi : 10.7554/elife.40224 . PMC 6340702 . PMID 30520736. Archivo complementario 1. Esquema de validación cruzada. doi :10.7554/elife.40224.014
^ Hsiao, Cheng (2014), "Datos de panel dependientes de sección transversal", Análisis de datos de panel , Cambridge: Cambridge University Press, págs. 327–368, doi :10.1017/cbo9781139839327.012, ISBN978-1-139-83932-7, consultado el 3 de junio de 2021
^ Hjorth, JS Urban (19 de octubre de 2017), "Validación cruzada", Computer Intensive Statistical Methods , Chapman y Hall/CRC, págs. 24-56, doi :10.1201/9781315140056-3, ISBN978-1-315-14005-6, consultado el 3 de junio de 2021
^ Sheikholeslami, Razi; Razavi, Saman; Haghnegahdar, Amin (10 de octubre de 2019). "¿Qué debemos hacer cuando un modelo falla? Recomendaciones para el análisis de sensibilidad global de los modelos de sistemas ambientales y terrestres". Desarrollo de modelos geocientíficos . 12 (10): 4275–4296. Bibcode :2019GMD....12.4275S. doi : 10.5194/gmd-12-4275-2019 . ISSN 1991-9603. S2CID 204900339.
^ Programa de las Naciones Unidas para el Desarrollo (2018). «Índices compuestos de desarrollo humano». Índices e indicadores de desarrollo humano 2018. Naciones Unidas. págs. 21–41. doi :10.18356/ce6f8e92-en. S2CID 240207510.
^ Wiley, Matt; Wiley, Joshua F. (2019), "Visualización de datos multivariados", Programación estadística avanzada R y modelos de datos , Berkeley, CA: Apress, págs. 33–59, doi :10.1007/978-1-4842-2872-2_2, ISBN978-1-4842-2871-5, S2CID 86629516 , consultado el 3 de junio de 2021
^ Mailund, Thomas (2022). Introducción a la ciencia de datos en R 4: análisis, visualización y modelado de datos para el científico de datos (2.ª ed.). ISBN978-148428155-0.
^ Orduna-Malea, Enrique; Alonso-Arroyo, Adolfo (2018), "Un modelo de análisis cibermétrico para medir empresas privadas", Técnicas cibermétricas para evaluar organizaciones utilizando datos basados en la web , Elsevier, pp. 63–76, doi :10.1016/b978-0-08-101877-4.00003-x, ISBN978-0-08-101877-4, consultado el 3 de junio de 2021
^ Leen, AR El consumidor en la economía austriaca y la perspectiva austriaca sobre la política de consumo . Universidad de Wageningen. ISBN90-5808-102-8.OCLC 1016689036 .
^ "Ejemplos de análisis de datos de supervivencia", Métodos estadísticos para el análisis de datos de supervivencia , Wiley Series in Probability and Statistics, Hoboken, NJ, EE. UU.: John Wiley & Sons, Inc., 30 de junio de 2003, págs. 19-63, doi : 10.1002/0471458546.ch3, ISBN978-0-471-45854-8, consultado el 3 de junio de 2021
^ "La comunidad de aprendizaje automático se enfrenta al bosón de Higgs". Revista Symmetry . 15 de julio de 2014. Archivado desde el original el 16 de abril de 2021. Consultado el 14 de enero de 2015 .
^ Nehme, Jean (29 de septiembre de 2016). «Concurso internacional de análisis de datos LTPP». Administración Federal de Carreteras. Archivado desde el original el 21 de octubre de 2017. Consultado el 22 de octubre de 2017 .
^ "Data.Gov: Rendimiento de pavimento a largo plazo (LTPP)". 26 de mayo de 2016. Archivado desde el original el 1 de noviembre de 2017. Consultado el 10 de noviembre de 2017 .
Bibliografía
Adèr, Herman J. (2008a). "Capítulo 14: Fases y pasos iniciales en el análisis de datos". En Adèr, Herman J.; Mellenbergh, Gideon J .; Hand, David J (eds.). Asesoramiento sobre métodos de investigación: guía del consultor . Huizen, Países Bajos: Johannes van Kessel Pub. pp. 333–356. ISBN 9789079418015.OCLC 905799857 .
Adèr, Herman J. (2008b). "Capítulo 15: La fase principal de análisis". En Adèr, Herman J.; Mellenbergh, Gideon J .; Hand, David J (eds.). Asesoramiento sobre métodos de investigación: un compañero para el consultor . Huizen, Países Bajos: Johannes van Kessel Pub. pp. 357–386. ISBN 9789079418015.OCLC 905799857 .
Tabachnick, BG y Fidell, LS (2007). Capítulo 4: Cómo poner orden en su vida. Selección de datos antes del análisis. En BG Tabachnick y LS Fidell (Eds.), Using Multivariate Statistics, quinta edición (pp. 60–116). Boston: Pearson Education, Inc. / Allyn y Bacon.
Lectura adicional
Wikiversidad tiene recursos de aprendizaje sobre análisis de datos.
Adèr, HJ y Mellenbergh, GJ (con contribuciones de DJ Hand) (2008). Asesoramiento sobre métodos de investigación: guía para consultores . Huizen, Países Bajos: Johannes van Kessel Publishing. ISBN 978-90-79418-01-5
Chambers, John M.; Cleveland, William S.; Kleiner, Beat; Tukey, Paul A. (1983). Métodos gráficos para el análisis de datos , Wadsworth/Duxbury Press. ISBN 0-534-98052-X
Fandango, Armando (2017). Análisis de datos en Python, 2.ª edición . Packt Publishers. ISBN 978-1787127487
Juran, Joseph M.; Godfrey, A. Blanton (1999). Manual de calidad de Juran, quinta edición. Nueva York: McGraw Hill. ISBN 0-07-034003-X
Lewis-Beck, Michael S. (1995). Análisis de datos: una introducción , Sage Publications Inc, ISBN 0-8039-5772-6
NIST/SEMATECH (2008) Manual de métodos estadísticos,
Tabachnick, BG; Fidell, LS (2007). Uso de estadísticas multivariadas, quinta edición . Boston: Pearson Education, Inc. / Allyn y Bacon, ISBN 978-0-205-45938-4