stringtranslate.com

Glosario de probabilidad y estadística.

Este glosario de estadística y probabilidad es una lista de definiciones de términos y conceptos utilizados en las ciencias matemáticas de la estadística y la probabilidad , sus subdisciplinas y campos relacionados. Para términos adicionales relacionados, consulte Glosario de matemáticas y Glosario de diseño experimental .

A

regla de decisión admisible
álgebra de variables aleatorias
hipótesis alternativa
Análisis de variación
evento atómico
Otro nombre para evento elemental.

B

gráfico de barras
Teorema de Bayes
Estimador de Bayes
factor de bayes
Inferencia bayesiana
inclinación
1. Cualquier característica de una muestra que no sea representativa de la población más grande.
2. La diferencia entre el valor esperado de un estimador y el valor verdadero.
datos binarios
Datos que pueden tomar sólo dos valores, normalmente representados por los dígitos binarios 0 y 1.
Distribución binomial
análisis bivariado
Un tipo de análisis estadístico cuantitativo en el que se analizan exactamente dos variables, con el fin de determinar la relación empírica entre ellas. Análisis multivariado de contraste .
bloqueando
En diseño experimental, disposición de unidades experimentales en grupos ("bloques") que son similares entre sí. El bloqueo se utiliza a menudo para gestionar el problema de la pseudorreplicación.
Método de Box-Jenkins
diagrama de caja

C

estudio causal
Un estudio estadístico en el que el objetivo es medir el efecto de alguna variable sobre el resultado de una variable diferente. Por ejemplo, un estudio causal podría plantear la pregunta: "¿Cómo se sentirá mi dolor de cabeza si tomo aspirina, en comparación con si no tomo aspirina?" Los estudios causales pueden ser experimentales u observacionales. [1]
teorema del límite central
momento central
función característica
distribución chi-cuadrado
prueba de chi cuadrado
análisis de conglomerados
muestreo por conglomerados
evento complementario
diseño completamente al azar
estadística computacional
El estudio de los métodos estadísticos que se habilitan mediante el uso de métodos computacionales, en la interfaz de la estadística y la informática .
concomitantes
En un estudio estadístico, cualquier variable cuyos valores no se vean afectados por los tratamientos experimentales, como la edad, el sexo y el nivel de colesterol de una unidad antes de comenzar una dieta experimental. [1]
distribución condicional
Dadas dos variables aleatorias X e Y distribuidas conjuntamente , la distribución de probabilidad condicional de Y dado X (escrito " Y | X ") es la distribución de probabilidad de Y cuando se sabe que X tiene un valor particular.
la probabilidad condicional
La probabilidad de algún evento A, suponiendo que ocurra el evento B. En notación matemática, la probabilidad condicional se escribe P( A | B ) y se lee "la probabilidad de A , dado B ".
distribución de probabilidad condicional
intervalo de confianza (IC)
En estadística inferencial, rango de valores plausibles para algún parámetro desconocido, como una media poblacional, definido como un intervalo con un límite inferior y un límite superior. [2] Los valores precisos de estos límites se calculan a partir de un nivel de confianza predeterminado, elegido por el investigador. El nivel de confianza representa la frecuencia de intervalos que, a largo plazo, capturan el valor real del parámetro desconocido; es decir, el 95% de los intervalos de confianza calculados con un nivel de confianza del 95% contienen el valor verdadero, y lo mismo ocurre con otros niveles de confianza. Por ejemplo, basándose en un estudio de los hábitos de sueño entre una muestra aleatoria de 100 personas, un investigador puede estimar con un nivel de confianza del 95% que la población general duerme entre 5 y 9 horas por noche. Hay un 95% de posibilidades de que la verdadera media poblacional se encuentre dentro de este intervalo, porque el 95% de las muestras aleatorias tomadas de esta misma población producirán intervalos de confianza del 95% que contienen la verdadera media.
nivel de confianza

También coeficiente de confianza .

Un número que indica la probabilidad de que el intervalo de confianza (rango) capture la verdadera media poblacional. Por ejemplo, un intervalo de confianza con un nivel de confianza del 95% tiene un 95% de posibilidades de capturar la media poblacional. Técnicamente, esto significa que, si el experimento se repitiera muchas veces, el 95% de los IC calculados a este nivel contendrían la verdadera media poblacional. [2]
confundidor
Variable que influye tanto en la variable dependiente como en la independiente, provocando una asociación espuria. La existencia de variables de confusión ocultas es una explicación cuantitativa importante de por qué la correlación no implica causalidad: si los cambios en dos variables parecen estar correlacionados, es arriesgado suponer que un cambio causa el otro porque es posible que uno o más factores de confusión no identificados tengan una correlación. de hecho causó los cambios en ambas variables. Un ejemplo clásico es la correlación entre un mayor consumo de helado y un aumento de la delincuencia en verano. Es irracional suponer que comer más helado hace que la gente cometa más delitos, o viceversa; es más probable que una o más variables adicionales, por ejemplo un clima más cálido, aumenten simultáneamente el consumo de helado y la delincuencia. En este ejemplo, el clima más cálido es el factor de confusión.
conjugado previo
variable continua
muestreo de conveniencia
correlación

También coeficiente de correlación .

Una medida numérica de la fuerza de una relación lineal entre dos variables aleatorias (se puede usar para cuantificar, por ejemplo, cómo se correlacionan el tamaño del zapato y la altura en la población). Un ejemplo es el coeficiente de correlación momento-producto de Pearson , que se encuentra dividiendo la covarianza de las dos variables por el producto de sus desviaciones estándar. Las variables independientes, por definición, tienen una correlación de 0. Una correlación poblacional suele representarse con el símbolo y una correlación muestral con .</ref>
contar datos
Datos que surgen del conteo y que, por lo tanto, solo pueden tomar valores enteros no negativos .
covarianza
Dadas dos variables aleatorias X e Y , con valores esperados y , el valor esperado de la variable aleatoria , escrito en notación estadística como . La covarianza se utiliza para medir la correlación; puede interpretarse como el grado en que las dos variables cambian simultáneamente entre sí o "covarían".

D

datos
análisis de los datos
conjunto de datos
Una muestra y los puntos de datos asociados.
punto de datos
Una medida escrita: puede ser un valor booleano , un número real, un vector (en cuyo caso también se denomina vector de datos ), etc.
regla de decisión
teoría de la decisión
grados de libertad
estimación de densidad
dependencia
variable dependiente
estadísticas descriptivas
diseño de experimentos
desviación
variable discreta
Gráfica de puntos
cuenta doble

mi

evento elemental
Un evento que contiene un solo resultado en el espacio muestral; en un conjunto de posibilidades, una posibilidad que puede ocurrir precisamente de una manera. Por ejemplo, al sacar una carta de una baraja de naipes estándar , 'sacar la jota de picas' es un evento elemental (porque solo hay una jota de picas en toda la baraja), mientras que 'sacar un rey o un as' no lo es (porque hay cuatro reyes y cuatro ases combinados en la baraja).
teoría de la estimación
Rama de la estadística que se ocupa de estimar los valores de los parámetros basándose en datos empíricos medidos con un componente aleatorio. Los parámetros describen un entorno físico subyacente de tal manera que sus valores afectan la distribución de los datos medidos; un estimador intenta utilizar las mediciones para aproximar los parámetros desconocidos.
estimador
Una función de los datos conocidos que se utiliza para estimar un parámetro desconocido; una estimación es el resultado de la aplicación real de la función a un conjunto particular de datos. Por ejemplo, la media se puede utilizar como estimador.
valor esperado

También expectativa , expectativa matemática , primer momento , o simplemente media o promedio .

La suma de las probabilidades de cada resultado posible de un experimento multiplicada por su correspondiente pago o "valor". Por lo tanto, representa la cantidad promedio que uno "espera" ganar por apuesta si apuestas con probabilidades idénticas se repiten muchas veces. Por ejemplo, el valor esperado de lanzar un dado de seis caras es 3,5. El concepto es, intuitivamente, una generalización del promedio ponderado de todos los resultados posibles de un procedimiento o experimento particular, y puede verse como la media aritmética de un gran número de realizaciones independientes del experimento. El valor esperado de la variable aleatoria X generalmente se escribe como E(X) para el operador de expectativa y ( mu ) para el parámetro.
experimento
Cualquier procedimiento que pueda repetirse infinitamente y que tenga un conjunto bien definido de resultados.
familia exponencial
evento
Un subconjunto del espacio muestral de un procedimiento o experimento (es decir, un posible resultado) al que se le puede asignar una probabilidad. Por ejemplo, al lanzar un dado, "sacar un tres" es un evento (con una probabilidad de 16 si el dado es justo), al igual que "sacar un cinco o un seis" (con una probabilidad de 13 ). .

F

análisis factorial
experimento factorial
frecuencia
distribución de frecuencias
dominio de la frecuencia
inferencia frecuentista

GRAMO

modelo linear general
modelo lineal generalizado
datos agrupados

h

histograma
Una representación gráfica aproximada de la distribución de datos numéricos. Un histograma muestra esta distribución dividiendo todo el rango de valores en una serie de intervalos consecutivos que no se superponen y luego contando cuántas instancias del conjunto de datos caen en cada intervalo.
Un histograma que muestra la distribución de las propinas dadas en un restaurante.

I

independencia
variable independiente
rango intercuartil (RIQ)

También midspread , middle 50% y H-spread .

Una medida de la dispersión estadística o extensión de un conjunto de datos, definida como la diferencia entre los percentiles 25 y 75 de los datos. Para calcular el IQR, el conjunto de datos se divide en cuatro partes pares o cuartiles ordenados por rango, cuyos límites, en los percentiles 25, 50 y 75, se denotan 1 , 2 y 3 , respectivamente; el RIQ = 3 1 .

j

distribución conjunta
Dadas dos variables aleatorias X e Y , la distribución conjunta de X e Y es la distribución de probabilidad de X e Y juntas.
probabilidad conjunta
La probabilidad de que dos eventos ocurran juntos. La probabilidad conjunta de A y B se escribe o .

k

filtro de kalman
núcleo
estimación de la densidad del grano
curtosis
Una medida de la "cola" de la distribución de probabilidad de una variable aleatoria de valor real. Hay diferentes formas de cuantificar, estimar e interpretar la curtosis, pero una interpretación común es que la curtosis representa el grado en que la forma de la distribución se ve influenciada por observaciones extremas poco frecuentes (valores atípicos); en este caso, una mayor curtosis significa que una mayor parte de la varianza se debe a desviaciones extremas poco frecuentes, a diferencia de desviaciones frecuentes de tamaño modesto.

l

momento L
ley de los grandes números (LLN)
Un teorema según el cual el promedio de los resultados obtenidos al realizar el mismo experimento una gran cantidad de veces debe estar cerca del valor esperado del experimento y tiende a acercarse al valor esperado a medida que se realizan más pruebas. La ley sugiere que es necesario un número suficientemente grande de pruebas para que los resultados de cualquier experimento se consideren confiables y, por extensión, que realizar solo una pequeña cantidad de pruebas puede producir una interpretación incompleta o engañosa de los resultados del experimento.
Un gráfico que ilustra la ley de los grandes números : los resultados observados al lanzar repetidamente un dado justo (línea verde) se acercan rápidamente al valor teórico esperado de una sola tirada (línea azul) a medida que aumenta el número de veces que se lanza el dado.
función de probabilidad
Una función de probabilidad condicional considerada una función de su segundo argumento con su primer argumento mantenido fijo. Por ejemplo, imagine sacar una bola numerada con un número k de una bolsa de n bolas, numeradas del 1 al n ; una función de probabilidad para la variable aleatoria N podría describirse como la probabilidad de sacar k dado que hay n bolas: la probabilidad será 1/ n para n mayor o igual que k , y 0 para n menor que k . A diferencia de una función de distribución de probabilidad, esta función de probabilidad no sumará 1 en el espacio muestral.
función de pérdida
prueba de razón de verosimilitud

METRO

estimador m
distribución marginal
Dadas dos variables aleatorias X e Y distribuidas conjuntamente , la distribución marginal de X es simplemente la distribución de probabilidad de X cuando se ignora la información sobre Y.
probabilidad marginal
probabilidad marginal
La probabilidad de un evento determinado, ignorando cualquier información sobre otros eventos. La probabilidad marginal de A se escribe P ( A ). Contraste probabilidad condicional .
Cadena de Markov Montecarlo
estadística matemática
estimación de máxima verosimilitud
significar
1. El valor esperado de una variable aleatoria.
2. La media aritmética , es decir, la media matemática de un conjunto de valores numéricos, calculada dividiendo la suma de los valores por el número de valores.
mediana
desviación absoluta mediana
modo
media móvil

También media móvil y media rodante .

Una serie de promedios matemáticos o medias de diferentes subconjuntos de un conjunto de datos más grande, generalmente calculados para comprender las tendencias del conjunto de datos a lo largo del tiempo.
distribución multimodal
analisis multivariable
estimación multivariante de la densidad del kernel
variable aleatoria multivariada
Un vector cuyos componentes son variables aleatorias en el mismo espacio de probabilidad.
Exclusividad mutua
independencia mutua
Se dice que un conjunto de eventos es mutuamente independiente si, para cualquier subconjunto del conjunto, la probabilidad conjunta de que ocurran todos los eventos es igual al producto de las probabilidades conjuntas de los eventos individuales. Piense en el resultado de una serie de lanzamientos de monedas. Ésta es una condición más fuerte que la independencia por pares.

norte

regresión no paramétrica
estadística no paramétrica
error no de muestreo
distribución normal
gráfico de probabilidad normal
hipótesis nula (H 0 )
La afirmación que se prueba en una prueba de significancia estadística; normalmente una declaración de "ningún efecto" o "ninguna diferencia". [3] Por ejemplo, en una prueba para determinar si la luz tiene un efecto sobre el sueño, la hipótesis nula sería que la luz no tiene ningún efecto sobre el sueño (es decir, los patrones de sueño son los mismos independientemente de las condiciones de iluminación). La hipótesis nula es una expresión de la expectativa de que la variable dependiente no cambiará significativamente a medida que se modifica la variable independiente; La significación estadística se mide y se informa de acuerdo con el grado en que se cumple esta expectativa. Contraste de hipótesis alternativas .

oh

encuesta de opinión
decisión óptima
diseño óptimo
parte aislada

PAG

valor p
independencia por pares
Un conjunto de variables aleatorias, dos de las cuales son independientes.
parámetro
Cualquier cantidad medida de una población estadística que resuma o describa un aspecto de la población, por ejemplo, una media o una desviación estándar; a menudo es una cantidad que se estima basándose en la cantidad correspondiente calculada extrayendo muestras aleatorias de la población. Puede ser un parámetro de población, un parámetro de distribución o un parámetro no observado.
Filtro de partículas
percentil
Gráfico circular
estimación puntual
fuerza
probabilidad previa
En la inferencia bayesiana , se tienen en cuenta las creencias previas u otra información que está disponible antes de que se tengan en cuenta nuevos datos u observaciones.
Parámetro de población
Ver parámetro .
probabilidad posterior
El resultado de un análisis bayesiano que resume la combinación de creencias o información previa (la probabilidad previa) con datos observados.
análisis de componentes principales (PCA)
probabilidad
densidad de probabilidad
La probabilidad en una distribución de probabilidad continua. Por ejemplo, no se puede decir que la probabilidad de que un hombre mida seis pies de altura sea del 20%, pero sí se puede decir que tiene un 20% de posibilidades de medir entre cinco y seis pies de altura. La densidad de probabilidad viene dada por una función de densidad de probabilidad. Masa de probabilidad de contraste .
función de densidad de probabilidad
La distribución de probabilidad de una variable aleatoria continua.
Distribución de probabilidad
Una función que da la probabilidad de que existan todos los elementos en un espacio determinado; ver Lista de distribuciones de probabilidad .
medida de probabilidad
La probabilidad de eventos en un espacio de probabilidad.
gráfico de probabilidad
espacio de probabilidad
Un espacio muestral sobre el cual se ha definido una medida de probabilidad.

q

cuantil
Punto o valor particular en el que el rango de una distribución de probabilidad se divide en intervalos continuos con probabilidades iguales, o en el que las observaciones de una muestra se dividen de la misma manera. El número de grupos en los que se divide el rango es siempre uno mayor que el número de cuantiles que los dividen. Los cuantiles comúnmente utilizados incluyen cuartiles (que dividen un rango en cuatro grupos), deciles (diez grupos) y percentiles (cien grupos). Los grupos en sí se denominan mitades, tercios, cuartos, etc., aunque los términos para los cuantiles a veces se utilizan para referirse a los grupos, en lugar de a los puntos de corte.
cuartilla
Un tipo de cuantil que divide un rango de puntos de datos en cuatro grupos, denominados trimestres , de igual tamaño. Para cualquier conjunto de datos dividido en cuartiles, hay exactamente tres cuartiles o puntos de corte que crean los cuatro grupos. El primer cuartil ( 1 ) se define como el punto o valor de datos medio que está a medio camino entre el valor más pequeño (mínimo) y la mediana del conjunto de datos, de modo que el 25 por ciento de los datos se encuentra por debajo de este cuartil. El segundo cuartil ( 2 ) es la propia mediana, con el 50 por ciento de los datos por debajo de este punto. El tercer cuartil ( 3 ) se define como el valor medio entre la mediana y el valor más grande (máximo) del conjunto de datos, de modo que el 75 por ciento de los datos se encuentran por debajo de este cuartil. Debido a que los datos deben ordenarse de menor a mayor para poder calcularlos, los cuartiles son un tipo de estadística de orden.
Una distribución normal dividida por tres cuartiles en cuatro cuartos. Tenga en cuenta que cada uno de los trimestres ocupa la misma área total bajo la curva, equivalente al 25 por ciento de la distribución.
muestreo por cuotas

R

variable aleatoria
Una función medible en un espacio de probabilidad, a menudo de valor real. La función de distribución de una variable aleatoria da la probabilidad de los diferentes valores de la variable. También se pueden derivar la media y la varianza de una variable aleatoria. Véase también variable aleatoria discreta y variable aleatoria continua.
diseño de bloques al azar
rango
La longitud del intervalo más pequeño que contiene todos los datos.
estimación bayesiana recursiva
análisis de regresión
diseño de medidas repetidas
variable de respuesta
Cualquier variable cuyo valor sea o se espera que sea afectado por un tratamiento experimental, o por cambios en una o más variables; por ejemplo, los niveles de colesterol después de seguir una dieta particular durante seis meses. Las variables de respuesta son aquellas que cambian o responden a algún fenómeno en estudio. El término se utiliza a menudo indistintamente con variable dependiente. [1]
aleatorización restringida
estadísticas robustas
error de redondeo

S

muestra
La parte de una población que realmente se observa.
covarianza muestral
muestra promedio
La media aritmética de una muestra de valores extraídos de una población, comúnmente denotada por . Un ejemplo es el puntaje promedio en las pruebas de un subconjunto de 10 estudiantes de una clase. La media muestral se utiliza como estimador de la media poblacional, que en este ejemplo sería la puntuación promedio en las pruebas de todos los estudiantes de la clase.
espacio muestral
El conjunto de posibles resultados de un experimento. Por ejemplo, el espacio muestral para lanzar un dado de seis caras será {1, 2, 3, 4, 5, 6}.
muestreo
Un proceso de selección de observaciones para obtener conocimiento sobre una población. Hay muchos métodos para elegir en qué muestra realizar las observaciones.
sesgo de muestreo
distribución muestral
La distribución de probabilidad, bajo muestreo repetido de la población, de una estadística determinada.
error de muestreo
gráfico de dispersión
parámetro de escala
Nivel significativo
muestra aleatoria simple
La paradoja de Simpson
oblicuidad
Una medida de la asimetría de la distribución de probabilidad de una variable aleatoria de valor real con respecto a su media. En términos generales, una distribución tiene un sesgo positivo (sesgo a la derecha) si la cola superior es más larga, y un sesgo negativo (sesgo a la izquierda) si la cola inferior es más larga. Las distribuciones perfectamente simétricas siempre tienen asimetría cero, aunque la asimetría cero no implica necesariamente una distribución simétrica.
La media y la mediana de una distribución asimétrica (izquierda y derecha) pueden diferir sustancialmente de las de una distribución simétrica (centro) con asimetría cero.
trama de espagueti
sesgo de espectro
Desviación Estándar
La medida de dispersión estadística más utilizada. Es la raíz cuadrada de la varianza y generalmente se denota con la letra griega minúscula ( sigma ).
Error estándar
puntuación estándar
estadística
El resultado de aplicar un algoritmo estadístico a un conjunto de datos. También puede describirse como una variable aleatoria observable.
dispersión estadística
gráficos estadísticos
prueba de hipótesis estadística
independencia estadística
Dos eventos son independientes si el resultado de uno no afecta al del otro (por ejemplo, obtener un 1 en una sola tirada de dado no afecta la probabilidad de obtener un 1 en una segunda tirada). De manera similar, cuando afirmamos que dos variables aleatorias son independientes, intuitivamente queremos decir que saber algo sobre el valor de una de ellas no produce ninguna información sobre el valor de la otra.
inferencia estadística
Inferencia sobre una población basada en una muestra aleatoria extraída de esa población o, más generalmente, sobre un proceso aleatorio a partir de su comportamiento observado durante un período de tiempo finito.
modelo estadístico
población estadística
Conjunto de entidades sobre las cuales se deben extraer inferencias estadísticas, a menudo basadas en un muestreo aleatorio. También se puede hablar de una población de medidas o valores.
dispersión estadística
Una medida de la diversidad dentro de un conjunto de datos, expresada por la varianza o la desviación estándar.
parámetro estadístico
Parámetro que indexa una familia de distribuciones de probabilidad.
significancia estadística
Estadísticas
prueba t de Student
visualización de tallo y hojas
muestreo estratificado
metodología de la encuesta
función de supervivencia
sesgo de supervivencia
distribución de probabilidad simétrica
muestreo sistemático

t

Estadística de prueba
datos ordenados
Estándar para estructurar datos de manera que "cada variable es una columna, cada observación es una fila y cada tipo de unidad de observación es una tabla". [4]
dominio del tiempo
series de tiempo
análisis de series temporales
pronóstico de series de tiempo
tratos
Variables en un estudio estadístico que son conceptualmente manipulables. Por ejemplo, en un estudio de salud, seguir una determinada dieta es un tratamiento mientras que la edad no lo es. [1]
ensayo
Puede referirse a cada repetición individual cuando se habla de un experimento compuesto por cualquier número fijo de ellas. Como ejemplo, se puede pensar en un experimento que consiste en cualquier número de uno a an lanzamientos de moneda, digamos 17. En este caso, un lanzamiento puede denominarse prueba para evitar confusión, ya que todo el experimento se compone de 17 unos.
estimador recortado
Errores tipo I y tipo II.

Ud.

distribución de probabilidad unimodal
unidades
En un estudio estadístico, los objetos a los que se asignan los tratamientos. Por ejemplo, en un estudio que examina los efectos de fumar cigarrillos, las unidades serían personas. [1]

V

diferencia
Una medida de su dispersión estadística de una variable aleatoria, que indica qué tan lejos del valor esperado están típicamente sus valores. La varianza de la variable aleatoria X normalmente se designa como , o simplemente

W.

media aritmética ponderada
mediana ponderada

X

XOR, disyunción exclusiva

Y

Corrección de Yates para continuidad, corrección de Yules

z

prueba z

Ver también

Referencias

  1. ^ abcde Reiter, Jerome (24 de enero de 2000). "Uso de estadísticas para determinar relaciones causales". Mensual Matemático Estadounidense . 107 (1): 24–32. doi :10.2307/2589374. JSTOR  2589374.
  2. ^ ab Pav Kalinowski. Comprensión de los intervalos de confianza (IC) y la estimación del tamaño del efecto. Observador de la Asociación de Ciencias Psicológicas, 10 de abril de 2010. http://www.psychologicalscience.org/index.php/publications/observer/2010/april-10/understanding-confidence-intervals-cis-and-effect-size-estimation. HTML
  3. ^ Moore, David; McCabe, George (2003). Introducción a la práctica de la estadística (4 ed.). Nueva York: WH Freeman and Co. p. 438.ISBN 9780716796572.
  4. ^ Wickham, Hadley (2014). "Datos ordenados" (PDF) . Revista de software estadístico . 59 (10). doi : 10.18637/jss.v059.i10.

enlaces externos