stringtranslate.com

Coeficiente de variación

En teoría de probabilidad y estadística , el coeficiente de variación ( CV ), también conocido como desviación cuadrática media normalizada (NRMSD) , porcentaje RMS y desviación estándar relativa ( RSD ), es una medida estandarizada de dispersión de una distribución de probabilidad o distribución de frecuencias . Se define como la relación entre la desviación estándar y la media (o su valor absoluto ) y, a menudo , se expresa como porcentaje ("%RSD"). El CV o RSD se usa ampliamente en química analítica para expresar la precisión y repetibilidad de un ensayo . También se utiliza comúnmente en campos como la ingeniería o la física cuando se realizan estudios de garantía de calidad y R&R de calibre ANOVA , [ cita requerida ] por economistas e inversores en modelos económicos y en psicología / neurociencia .

Definición

El coeficiente de variación (CV) se define como la relación entre la desviación estándar y la media , [1]

Muestra el grado de variabilidad en relación con la media de la población. El coeficiente de variación debe calcularse sólo para datos medidos en escalas que tienen un cero significativo ( escala de razón ) y, por lo tanto, permiten la comparación relativa de dos mediciones (es decir, la división de una medición por la otra). El coeficiente de variación puede no tener ningún significado para los datos en una escala de intervalo . [2] Por ejemplo, la mayoría de las escalas de temperatura (por ejemplo, Celsius, Fahrenheit, etc.) son escalas de intervalo con ceros arbitrarios, por lo que el coeficiente de variación calculado sería diferente dependiendo de la escala utilizada. Por otro lado, la temperatura Kelvin tiene un valor cero significativo, la ausencia total de energía térmica y, por tanto, es una escala de relación. En lenguaje sencillo, tiene sentido decir que 20 Kelvin es el doble de caliente que 10 Kelvin, pero sólo en esta escala con un verdadero cero absoluto. Si bien una desviación estándar (SD) se puede medir en Kelvin, Celsius o Fahrenheit, el valor calculado solo es aplicable a esa escala. Sólo se puede utilizar la escala Kelvin para calcular un coeficiente de variabilidad válido.

Las mediciones que tienen una distribución logarítmica normal exhiben un CV estacionario; por el contrario, la DE varía según el valor esperado de las mediciones.

Una posibilidad más sólida es el coeficiente de dispersión del cuartil , la mitad del rango intercuartil dividido por el promedio de los cuartiles (la bisagra media ) .

En la mayoría de los casos, un CV se calcula para una sola variable independiente (por ejemplo, un solo producto de fábrica) con numerosas medidas repetidas de una variable dependiente (por ejemplo, error en el proceso de producción). Sin embargo, los datos que son lineales o incluso logarítmicamente no lineales e incluyen un rango continuo para la variable independiente con mediciones dispersas en cada valor (por ejemplo, diagrama de dispersión) pueden ser susceptibles de cálculo de CV único utilizando un enfoque de estimación de máxima verosimilitud . [3]

Ejemplos

En los ejemplos siguientes, tomaremos los valores dados como elegidos aleatoriamente de una población mayor de valores .

En estos ejemplos, tomaremos los valores dados como la población completa de valores .

Estimacion

Cuando solo se dispone de una muestra de datos de una población, el CV de la población se puede estimar utilizando la relación entre la desviación estándar de la muestra y la media de la muestra :

Pero este estimador, cuando se aplica a una muestra pequeña o de tamaño moderado, tiende a ser demasiado bajo: es un estimador sesgado . Para datos distribuidos normalmente , un estimador insesgado [4] para una muestra de tamaño n es:

Datos log-normales

Muchos conjuntos de datos siguen una distribución aproximadamente log-normal. [5] En tales casos, una estimación más precisa, derivada de las propiedades de la distribución log-normal , [6] [7] [8] se define como:

¿Dónde está la desviación estándar muestral de los datos después de una transformación logarítmica natural ? (En el caso de que las mediciones se registren utilizando cualquier otra base logarítmica, b, su desviación estándar se convierte a base e usando y la fórmula sigue siendo la misma. [9] ) Esta estimación a veces se denomina "CV geométrico". (GCV) [10] [11] para distinguirlo de la estimación simple anterior. Sin embargo, Kirkwood [12] también ha definido el "coeficiente geométrico de variación" como:

Este término pretendía ser análogo al coeficiente de variación, para describir la variación multiplicativa en datos log-normales, pero esta definición de GCV no tiene base teórica como estimación de sí misma.

Para muchos propósitos prácticos (como la determinación del tamaño de la muestra y el cálculo de intervalos de confianza ), es el más útil en el contexto de datos distribuidos logarítmicamente normales. Si es necesario, esto se puede derivar de una estimación de GCV invirtiendo la fórmula correspondiente.

Comparación con la desviación estándar

Ventajas

El coeficiente de variación es útil porque la desviación estándar de los datos siempre debe entenderse en el contexto de la media de los datos. En cambio, el valor real del CV es independiente de la unidad en la que se ha tomado la medida, por lo que es un número adimensional . Para comparar conjuntos de datos con diferentes unidades o medias muy diferentes, se debe utilizar el coeficiente de variación en lugar de la desviación estándar.

Desventajas

Aplicaciones

El coeficiente de variación también es común en campos de probabilidad aplicada como la teoría de la renovación , la teoría de colas y la teoría de la confiabilidad . En estos campos, la distribución exponencial suele ser más importante que la distribución normal . La desviación estándar de una distribución exponencial es igual a su media, por lo que su coeficiente de variación es igual a 1. Las distribuciones con CV < 1 (como una distribución de Erlang ) se consideran de baja varianza, mientras que aquellas con CV > 1 (como una distribución hiperexponencial ) se consideran de alta varianza [ cita necesaria ] . Algunas fórmulas en estos campos se expresan utilizando el coeficiente de variación al cuadrado , a menudo abreviado SCV. En modelado, una variación del CV es el CV (RMSD). Básicamente, el CV (RMSD) reemplaza el término de desviación estándar con la desviación cuadrática media (RMSD) . Si bien muchos procesos naturales muestran una correlación entre el valor promedio y la cantidad de variación a su alrededor, los dispositivos sensores precisos deben diseñarse de tal manera que el coeficiente de variación sea cercano a cero, es decir, que produzca un error absoluto constante sobre su valor promedio. Rango de trabajo.

En ciencia actuarial , el CV se conoce como riesgo unitario . [13]

En el procesamiento de sólidos industriales, el CV es particularmente importante para medir el grado de homogeneidad de una mezcla de polvo. Comparar el CV calculado con una especificación permitirá definir si se ha alcanzado un grado suficiente de mezcla. [14]

En dinámica de fluidos , el CV , también conocido como porcentaje RMS , %RMS , %RMS de uniformidad o velocidad RMS , es una determinación útil de la uniformidad del flujo para procesos industriales. El término se utiliza ampliamente en el diseño de equipos de control de la contaminación, como precipitadores electrostáticos (ESP), [15] reducción catalítica selectiva (SCR), depuradores y dispositivos similares. El Instituto de Empresas de Aire Limpio (ICAC) hace referencia a la desviación RMS de la velocidad en el diseño de filtros de tela (documento ICAC F-7). [16] El principio rector es que muchos de estos dispositivos de control de la contaminación requieren un "flujo uniforme" que entra y atraviesa la zona de control. Esto puede estar relacionado con la uniformidad del perfil de velocidad, la distribución de la temperatura, las especies de gas (como el amoníaco para un SCR o la inyección de carbón activado para la absorción de mercurio) y otros parámetros relacionados con el flujo. El porcentaje RMS también se utiliza para evaluar la uniformidad del flujo en sistemas de combustión, sistemas HVAC, conductos, entradas a ventiladores y filtros, unidades de tratamiento de aire, etc., donde el rendimiento del equipo está influenciado por la distribución del flujo entrante.

Medidas de laboratorio de CV intraensayo e interensayo.

Las medidas CV se utilizan a menudo como controles de calidad para ensayos cuantitativos de laboratorio . Si bien se puede suponer que los CV intraensayo e interensayo se calculan simplemente promediando los valores de CV entre los valores de CV para múltiples muestras dentro de un ensayo o promediando múltiples estimaciones de CV entre ensayos, se ha sugerido que estas prácticas son incorrectas y que Se requiere un proceso computacional más complejo. [17] También se ha observado que los valores de CV no son un índice ideal de la certeza de una medición cuando el número de réplicas varía entre las muestras; en este caso, se sugiere que el error estándar en porcentaje es superior. [18] Si las mediciones no tienen un punto cero natural, entonces el CV no es una medición válida y se recomiendan medidas alternativas como el coeficiente de correlación intraclase . [19]

Como medida de la desigualdad económica

El coeficiente de variación cumple los requisitos para una medida de desigualdad económica . [20] [21] [22] Si x (con entradas x i ) es una lista de los valores de un indicador económico (por ejemplo, riqueza), siendo x i la riqueza del agente i , entonces se cumplen los siguientes requisitos:

c v asume su valor mínimo de cero para una igualdad completa (todos x i son iguales). [22] Su inconveniente más notable es que no está limitado desde arriba, por lo que no se puede normalizar para que esté dentro de un rango fijo (por ejemplo, como el coeficiente de Gini , que está restringido a estar entre 0 y 1). [22] Sin embargo, es más manejable matemáticamente que el coeficiente de Gini.

Como medida de estandarización de los artefactos arqueológicos

Los arqueólogos suelen utilizar valores de CV para comparar el grado de estandarización de los artefactos antiguos. [23] [24] Se ha interpretado que la variación en los CV indica diferentes contextos de transmisión cultural para la adopción de nuevas tecnologías. [25] Los coeficientes de variación también se han utilizado para investigar la estandarización de la cerámica relacionada con los cambios en la organización social. [26] Los arqueólogos también utilizan varios métodos para comparar valores de CV, por ejemplo, la prueba de índice de verosimilitud con signo modificado (MSLR) para la igualdad de CV. [27] [28]

Ejemplos de mal uso

Comparar coeficientes de variación entre parámetros utilizando unidades relativas puede dar como resultado diferencias que pueden no ser reales. Si comparamos el mismo conjunto de temperaturas en Celsius y Fahrenheit (ambas unidades relativas, donde kelvin y la escala Rankine son sus valores absolutos asociados):

Celsius: [0, 10, 20, 30, 40]

Fahrenheit: [32, 50, 68, 86, 104]

Las desviaciones estándar muestrales son 15,81 y 28,46, respectivamente. El CV del primer set es 15,81/20 = 79%. Para el segundo conjunto (que son las mismas temperaturas) es 28,46/68 = 42%.

Si, por ejemplo, los conjuntos de datos son lecturas de temperatura de dos sensores diferentes (un sensor Celsius y un sensor Fahrenheit) y desea saber qué sensor es mejor eligiendo el que tiene la menor variación, entonces será engañado si usa CV. El problema aquí es que has dividido por un valor relativo en lugar de absoluto.

Comparando el mismo conjunto de datos, ahora en unidades absolutas:

Kelvin: [273,15, 283,15, 293,15, 303,15, 313,15]

Rankine: [491,67, 509,67, 527,67, 545,67, 563,67]

Las desviaciones estándar de la muestra siguen siendo 15,81 y 28,46, respectivamente, porque la desviación estándar no se ve afectada por un desplazamiento constante. Sin embargo, los coeficientes de variación ahora son ambos iguales al 5,39%.

Matemáticamente hablando, el coeficiente de variación no es del todo lineal. Es decir, para una variable aleatoria , el coeficiente de variación de es igual al coeficiente de variación de sólo cuando . En el ejemplo anterior, Celsius solo se puede convertir a Fahrenheit mediante una transformación lineal de la forma con , mientras que Kelvins se puede convertir a Rankines mediante una transformación de la forma .

Distribución

Siempre que los valores negativos y positivos pequeños de la media muestral ocurran con una frecuencia insignificante, Hendricks y Robey han demostrado que la distribución de probabilidad del coeficiente de variación para una muestra de tamaño de variables aleatorias normales iid es [29]

donde el símbolo indica que la suma es sólo sobre valores pares de , es decir, si es impar, suma sobre valores pares de y si es par, suma sólo sobre valores impares de .

Esto es útil, por ejemplo, en la construcción de pruebas de hipótesis o intervalos de confianza . La inferencia estadística del coeficiente de variación en datos distribuidos normalmente se basa a menudo en la aproximación chi-cuadrado de McKay para el coeficiente de variación. [30] [31] [32] [33] [34] [35] Métodos para

Alternativa

Liu (2012) revisa métodos para la construcción de un intervalo de confianza para el coeficiente de variación. [36] En particular, Lehmann (1986) derivó la distribución muestral para el coeficiente de variación utilizando una distribución t no central para dar un método exacto para la construcción del IC. [37]

Proporciones similares

Los momentos estandarizados son relaciones similares, donde es el k -ésimo momento con respecto a la media, que también son adimensionales e invariantes de escala. La relación varianza-media , , es otra relación similar, pero no es adimensional y, por lo tanto, no es invariante de escala. Consulte Normalización (estadísticas) para conocer más proporciones.

En el procesamiento de señales , particularmente en el procesamiento de imágenes , la relación recíproca (o su cuadrado) se conoce como relación señal-ruido en general y relación señal-ruido (imagen) en particular.

Otras proporciones relacionadas incluyen:

Ver también

Referencias

  1. ^ Everitt, Brian (1998). El Diccionario de Estadística de Cambridge . Cambridge, Reino Unido Nueva York: Cambridge University Press. ISBN 978-0521593465.
  2. ^ "¿Cuál es la diferencia entre variables ordinales, de intervalo y de razón? ¿Por qué debería importarme?". GraphPad Software Inc. Archivado desde el original el 15 de diciembre de 2008 . Consultado el 22 de febrero de 2008 .
  3. ^ Ódico, Darko; Soy, Hee Yeon; Eisinger, Robert; Ly, Ryan; Halberda, Justin (junio de 2016). "PsiMLE: un enfoque de estimación de máxima verosimilitud para estimar la escala y la variabilidad psicofísica de manera más confiable, eficiente y flexible". Métodos de investigación del comportamiento . 48 (2): 445–462. doi : 10.3758/s13428-015-0600-5 . ISSN  1554-3528. PMID  25987306.
  4. ^ Sokal RR y Rohlf FJ. Biometría (3ª Ed). Nueva York: Freeman, 1995. pág. 58. ISBN 0-7167-2411-1 
  5. ^ Limpert, Eckhard; Stahel, Werner A.; Abad, Markus (2001). "Distribuciones logarítmicamente normales en las ciencias: claves y pistas". Biociencia . 51 (5): 341–352. doi : 10.1641/0006-3568(2001)051[0341:LNDATS]2.0.CO;2 .
  6. ^ Koopmans, LH; Owen, DB; Rosenblatt, JI (1964). "Intervalos de confianza para el coeficiente de variación de las distribuciones normal y log normal". Biometrika . 51 (1–2): 25–32. doi :10.1093/biomet/51.1-2.25.
  7. ^ Diletti, E; Hauschke, D; Steinijans, VW (1992). "Determinación del tamaño de muestra para evaluación de bioequivalencia mediante intervalos de confianza". Revista internacional de farmacología, terapia y toxicología clínica . 30 (Suplemento 1): S51–8. PMID  1601532.
  8. ^ Julious, Steven A.; Debarnot, Camille AM ​​(2000). "¿Por qué los datos farmacocinéticos se resumen mediante medias aritméticas?". Revista de estadísticas biofarmacéuticas . 10 (1): 55–71. doi :10.1081/BIP-100101013. PMID  10709801. S2CID  2805094.
  9. ^ Caña, JF; Lynn, F; Meade, BD (2002). "Uso del coeficiente de variación en la evaluación de la variabilidad de ensayos cuantitativos". Clin Diagn Lab Inmunol . 9 (6): 1235-1239. doi :10.1128/CDLI.9.6.1235-1239.2002. PMC 130103 . PMID  12414755. 
  10. ^ Sawant, S.; Mohan, N. (2011) "Preguntas frecuentes: problemas con el análisis de eficacia de los datos de ensayos clínicos utilizando SAS" Archivado el 24 de agosto de 2011 en Wayback Machine , PharmaSUG2011 , artículo PO08
  11. ^ Schiff, MH; et al. (2014). "Estudio cruzado, aleatorizado y comparativo de metotrexato oral versus subcutáneo en pacientes con artritis reumatoide: las limitaciones de exposición al fármaco del metotrexato oral en dosis> = 15 mg pueden superarse con la administración subcutánea". Ann RheumDis . 73 (8): 1–3. doi :10.1136/annrheumdis-2014-205228. PMC 4112421 . PMID  24728329. 
  12. ^ Kirkwood, TBL (1979). "Medios geométricos y medidas de dispersión". Biometría . 35 (4): 908–9. JSTOR  2530139.
  13. ^ Broverman, Samuel A. (2001). Manual de estudio de Actex, Curso 1, Examen de la Sociedad de Actuarios, Examen 1 de la Sociedad Actuarial de Accidentes (2001 ed.). Winsted, CT: Publicaciones Actex. pag. 104.ISBN 9781566983969. Consultado el 7 de junio de 2014 .
  14. ^ "Medición del grado de mezcla - Homogeneidad de la mezcla de polvo - Calidad de la mezcla - PowderProcess.net". www.powderprocess.net . Archivado desde el original el 14 de noviembre de 2017 . Consultado el 2 de mayo de 2018 .
  15. ^ Banka, A; Dumont, B; Franklin, J; Klemm, G; Mudry, R (2018). "Metodología mejorada para CFD preciso y modelado físico de ESP" (PDF) . Conferencia de la Sociedad Internacional de Precipitación Electrostática (ISESP) 2018.
  16. ^ "F7 - Estudios de modelos de flujo de gas con filtro de tela" (PDF) . Instituto de Empresas de Aire Limpio (ICAC). 1996.
  17. ^ Rodbard, D (octubre de 1974). "Control de calidad estadístico y procesamiento de datos de rutina para radioinmunoensayos y ensayos inmunorradiométricos". Química Clínica . 20 (10): 1255–70. doi : 10.1093/clinchem/20.10.1255 . PMID  4370388.
  18. ^ Eisenberg, Dan (2015). "Mejora de los ensayos de longitud de los telómeros de qPCR: controlar los efectos de la posición del pozo aumenta el poder estadístico". Revista Estadounidense de Biología Humana . 27 (4): 570–5. doi :10.1002/ajhb.22690. PMC 4478151 . PMID  25757675. 
  19. ^ Eisenberg, Dan TA (30 de agosto de 2016). "Validez de la medición de la longitud de los telómeros: el coeficiente de variación no es válido y no se puede utilizar para comparar la reacción en cadena de la polimerasa cuantitativa y la técnica de medición de la longitud de los telómeros por transferencia Southern". Revista Internacional de Epidemiología . 45 (4): 1295-1298. doi : 10.1093/ije/dyw191 . ISSN  0300-5771. PMID  27581804.
  20. ^ Champernowne, director general; Cowell, FA (1999). Desigualdad económica y distribución del ingreso . Prensa de la Universidad de Cambridge.
  21. ^ Campaño, F.; Salvatore, D. (2006). La distribución del ingreso . Prensa de la Universidad de Oxford.
  22. ^ abcde Bellu, Lorenzo Giovanni; Liberati, Paolo (2006). "Impactos de las políticas sobre la desigualdad: medidas simples de desigualdad" (PDF) . EASYPol, Herramientas analíticas . Servicio de Apoyo a las Políticas, División de Asistencia a las Políticas, FAO. Archivado (PDF) desde el original el 5 de agosto de 2016 . Consultado el 13 de junio de 2016 .
  23. ^ Eerkens, Jelmer W.; Bettinger, Robert L. (julio de 2001). "Técnicas para evaluar la estandarización en conjuntos de artefactos: ¿podemos escalar la variabilidad del material?". Antigüedad americana . 66 (3): 493–504. doi :10.2307/2694247. JSTOR  2694247. S2CID  163507589.
  24. ^ Roux, San Valentín (2003). "Estandarización cerámica e intensidad de producción: cuantificando grados de especialización". Antigüedad americana . 68 (4): 768–782. doi :10.2307/3557072. ISSN  0002-7316. JSTOR  3557072. S2CID  147444325.
  25. ^ Apuestas, Robert L.; Eerkens, Jelmer (abril de 1999). "Tipologías de puntos, transmisión cultural y difusión de la tecnología de arco y flecha en la gran cuenca prehistórica". Antigüedad americana . 64 (2): 231–242. doi :10.2307/2694276. JSTOR  2694276. S2CID  163198451.
  26. ^ Wang, Li-Ying; Marwick, Ben (octubre de 2020). "Estandarización de la forma de la cerámica: un estudio de caso de la cerámica de la Edad del Hierro del noreste de Taiwán". Revista de ciencia arqueológica: informes . 33 : 102554. Código Bib : 2020JArSR..33j2554W. doi :10.1016/j.jasrep.2020.102554. S2CID  224904703.
  27. ^ Krishnamoorthy, K.; Lee, Meesook (febrero de 2014). "Pruebas mejoradas para la igualdad de coeficientes de variación normales". Estadística Computacional . 29 (1–2): 215–232. doi :10.1007/s00180-013-0445-2. S2CID  120898013.
  28. ^ Marwick, Ben; Krishnamoorthy, K (2019). cvequality: Pruebas para la igualdad de coeficientes de variación de múltiples grupos. Versión del paquete R 0.2.0.
  29. ^ Hendricks, Walter A.; Robey, Kate W. (1936). "La distribución muestral del coeficiente de variación". Los anales de la estadística matemática . 7 (3): 129–32. doi : 10.1214/aoms/1177732503 . JSTOR  2957564.
  30. ^ Iglevicz, Boris; Myers, Raymond (1970). "Comparaciones de aproximaciones a los puntos porcentuales del coeficiente de variación muestral". Tecnometría . 12 (1): 166-169. doi :10.2307/1267363. JSTOR  1267363.
  31. ^ Bennett, BM (1976). "Sobre una prueba aproximada de homogeneidad de coeficientes de variación". Contribución a la Estadística Aplicada . Suplemento de experiencia. vol. 22. págs. 169-171. doi :10.1007/978-3-0348-5513-6_16. ISBN 978-3-0348-5515-0.
  32. ^ Vangel, Mark G. (1996). "Intervalos de confianza para un coeficiente de variación normal". El estadístico estadounidense . 50 (1): 21-26. doi :10.1080/00031305.1996.10473537. JSTOR  2685039..
  33. ^ Feltz, Carol J; Molinero, G. Edward (1996). "Una prueba asintótica para la igualdad de coeficientes de variación de k poblaciones". Estadística en Medicina . 15 (6): 647. doi :10.1002/(SICI)1097-0258(19960330)15:6<647::AID-SIM184>3.0.CO;2-P. PMID  8731006.
  34. ^ Tenedor, Johannes (2009). "Estimador y pruebas de coeficientes de variación comunes en distribuciones normales" (PDF) . Comunicaciones en estadística: teoría y métodos . 38 (2): 21-26. doi :10.1080/03610920802187448. S2CID  29168286. Archivado (PDF) desde el original el 6 de diciembre de 2013 . Consultado el 23 de septiembre de 2013 .
  35. ^ Krishnamoorthy, K; Lee, Meesook (2013). "Pruebas mejoradas para la igualdad de coeficientes de variación normales". Estadística Computacional . 29 (1–2): 215–232. doi :10.1007/s00180-013-0445-2. S2CID  120898013.
  36. ^ Liu, Shuang (2012). Estimación del intervalo de confianza para el coeficiente de variación (Tesis). Universidad Estatal de Georgia. p.3. Archivado desde el original el 1 de marzo de 2014 . Consultado el 25 de febrero de 2014 .
  37. ^ Lehmann, EL (1986). Prueba de hipótesis estadísticas. 2da ed. Nueva York: Wiley.

enlaces externos