stringtranslate.com

Discusión:Regresión lineal


Endógeno/exógeno

Los usos de variables "endógenas" y "exógenas" aquí no son consistentes con la única forma en que las he escuchado. Exógena significa fuera del modelo, es decir, una variable latente/oculta. Endógena describe una variable que SÍ tiene en cuenta el modelo, ya sea independiente O dependiente. Consulte la entrada de Wiki sobre "exógena", que respalda esto.

Recomiendo que se eliminen estas dos palabras de la lista de nombres alternativos para las variables predictoras y de criterio. (comentarios sin firmar de 72.87.187.241)

He descubierto que los economistas utilizan el término "exógeno" en los modelos lineales para referirse a las variables que no responden a la ecuación. El contraste son las variables endógenas que aparecen en el lado derecho de una o más ecuaciones de otras variables, pero también en el lado izquierdo de su propia regresión. Pdbailey 00:06, 7 de octubre de 2006 (UTC) [ responder ]
En economía, exógeno significa algo determinado fuera del modelo, como X , que está determinado por Dios, o por el azar, o cualquier cosa que no sea el modelo en sí. Por otra parte, Y es endógeno , ya que está determinado dentro del modelo, a través de la ecuación Y = Xβ + ε . Esta terminología resulta más útil cuando se habla de modelos de ecuaciones simultáneas. También en el contexto de IV, siempre que una de las X esté correlacionada con ε , llamaremos a esa X endógena también. Stpasha ( discusión ) 19:10 30 jun 2009 (UTC) [ responder ]

Me gustaría añadir que en los modelos económicos existe otro tipo de variable: la variable predeterminada. Las variables predeterminadas, como su nombre lo indica, suelen ser variables endógenas rezagadas o variables dependientes rezagadas. —Comentario anterior sin firmar añadido por Daonng ( discusióncontribuciones ) 06:54, 10 de mayo de 2011 (UTC) [ responder ]

Nombre: ¿Regresión? O modelos lineales, o modelos estadísticos lineales, etc.

Hay una parte importante de la literatura que ha dejado de utilizar el término "regresión". El término "regresión" se utiliza por razones históricas, pero no capta el significado de lo que realmente está sucediendo.

Términos como "modelos lineales" y "modelos estadísticos lineales" se están utilizando al menos tan ampliamente como "regresión lineal" en la literatura, y su significado es más descriptivo de lo que realmente está sucediendo. Creo que deberíamos considerar cambiar el nombre de este artículo y poner "Regresión lineal" en la nueva página. Como mínimo, deberíamos discutir las cuestiones relacionadas con el nombre de esta página. Cazort 19:24, 17 de octubre de 2007 (UTC) [ responder ]

El término "modelo lineal" es más amplio que el de "regresión lineal", ya que este último implica que la variable predictora es numérica, mientras que el primero permite variables numéricas o categóricas (es decir, un modelo de análisis de varianza). Blaise ( discusión ) 13:07 31 mar 2013 (UTC) [ responder ]
Estoy de acuerdo -- Forich ( discusión ) 11:46 13 jun 2017 (UTC) [ responder ]

Discusión sobre artículos de regresión de julio de 2009

Se ha iniciado una discusión sobre la superposición de contenido de algunos artículos relacionados con la regresión en Talk:Linear minimum squares#Merger proposal , pero en realidad no se trata sólo de una cuestión de fusión y no se ha hecho ninguna propuesta de fusión real. Melcombe ( discusión ) 11:33 14 jul 2009 (UTC) [ responder ]

¿Rebautizar?

Estimados,

Me pregunto qué piensan todos ustedes sobre el cambio de nombre de este artículo y su denominación Modelo de regresión lineal . Me parece que ese nombre expresa mejor el tema del artículo: algunas personas usan la palabra “regresión” para referirse al proceso de estimación, mientras que para otros “regresión” significa el modelo estadístico en sí; sin embargo, la combinación “modelo de regresión” es inequívoca. ...  st pasha » discusión  » 01:17, 21 de julio de 2009 (UTC) [ responder ]

Generalmente prefiero títulos más cortos, pero pensaré en este. Michael Hardy ( discusión ) 02:00 21 jul 2009 (UTC) [ responder ]

He abierto nuevamente este tema para su discusión en la página de discusión de WPStatistics . Por favor, dejen sus comentarios allí.  //  st pasha  »  23:54, 21 de abril de 2010 (UTC) [ responder ]

Fusionar estimación de tendencia aquí

El artículo Estimación de tendencias no va más allá de los modelos lineales y contiene mucho que es realmente genérico para la regresión lineal y que se trata mejor aquí. Me parece que la estimación de tendencias podría simplemente convertirse en una redirección a Regresión lineal#Línea de tendencia (que podría cambiar de nombre a Regresión lineal#Estimación de tendencias ) después de fusionar todo el material útil de allí con este. -- Lambiam 19:17, 27 de julio de 2009 (UTC) [ responder ]

Creo que sería mejor dejarlo separado, pero modificarlo para reflejar mejor la estimación de la tendencia real en lugar de decir que es esencialmente equivalente a la regresión de mínimos cuadrados, lo cual no debería ser así. Melcombe ( discusión ) 10:50 29 jul 2009 (UTC) [ responder ]
Pero ¿quién va a ejecutar ese cambio y cuándo? ¿No está de acuerdo en que hasta que alguien realmente cree un artículo sobre la estimación de tendencias que vaya más allá de la regresión lineal para encontrar una línea de tendencia (que es más especializada que la regresión de mínimos cuadrados, que podría aplicarse a otros modelos de tendencia que no sean lineales), el lector estará mejor atendido por la redirección propuesta? -- Lambiam 12:48, 2 de agosto de 2009 (UTC) [ responder ]
Estoy de acuerdo con Nelcombe 78.86.230.145 ( discusión ) 14:13 9 sep 2009 (UTC) [ responder ]

Pero, ¿no es la regresión lineal simplemente una herramienta que se utiliza en la estimación de tendencias ? ¿Cómo se puede incluir el tema general en una herramienta? Sería como poner un artículo sobre árboles o carpintería en otro artículo que solo habla de martillos. Se utilizan martillos para trabajar la madera, pero también se utilizan sierras y otras cosas que no encajan en la categoría de martillos. Sin embargo, las sierras y las demás herramientas son fundamentales para la carpintería. Por lo tanto, simplemente coloque un enlace para la estimación de tendencias en la parte inferior de la página de regresión lineal . Si la gente quiere leerlo, puede hacer clic en el enlace. ~ Talon SFSU 12 de septiembre de 2009

>Pero, ¿no es la regresión lineal solo una herramienta utilizada en la estimación de tendencias ?

No, no lo es. Es un modelo muy general para los datos. La estimación de tendencias es sólo una aplicación. La interpolación es otra. Además, los modelos multinivel (efectos aleatorios) pueden considerarse compuestos por múltiples modelos de regresión lineal. Blaise ( discusión ) 13:14 31 mar 2013 (UTC) [ responder ]

Desambiguación de la tipografía

El carácter ' se utiliza en varios contextos diferentes sin ninguna aclaración.

p.ej:

http://upload.wikimedia.org/math/8/2/5/8255bd19aeed347fd8173d8038eb71ad.png agregación

http://upload.wikimedia.org/math/6/8/3/683c3fe809a780a8bca83553bf0f6921.png ¿transposición?

El significado contextual del carácter debe indicarse explícitamente, ya sea que signifique "Transponer" o se utilice para agregar variables individuales en filas y vectores.

El uso de la notación T es menos ambiguo en todos los casos.

-- 67.198.45.12 ( discusión ) 14:38 30 jul 2009 (UTC)Matt Fowler [ responder ]

Creo que significa transposición en ambos sentidos. Michael Hardy ( discusión ) 17:10 30 jul 2009 (UTC) [ responder ]
Ah, ya veo. Eliminaron el segundo subíndice para indicar la fila entera.
¡Así todavía la confusión deriva de una falta de definición explícita de la tipografía!
El artículo afirma que es un p -vector en la primera oración de la sección de Definición; luego define la notación ' justo después de la fórmula: dice " es un producto interno entre dos vectores". Tal vez podríamos afirmar que ' es transposición de manera más explícita.
En cuanto a la notación T , no es menos ambigua, ya que podría malinterpretarse como una elevación de la matriz a la potencia  T. ... st pasha » discusión  » 14:52 31 jul 2009 (UTC) [ responder ]

Re: Suposiciones

Amadhila Leonard, estudiante de la Universidad de Namibia (Campus Ogongo), cree que esto podría escribirse de manera que sea más útil para más personas, en la línea de lo siguiente:

Cómo comprobarlo: haga un diagrama de dispersión XY y luego busque agrupaciones de datos a lo largo de una línea, en lugar de a lo largo de una curva.
Cómo comprobarlo: un gráfico de residuos es simétrico, o los puntos en un gráfico de dispersión XY no tienden a extenderse hacia la izquierda ni hacia la derecha.
Cómo comprobarlo: Haz un histograma y luego busca solo un pico principal, en lugar de muchos.
Cómo comprobarlo: Haz ese histograma, luego compara las colas izquierda y derecha para comprobar el tamaño, etc.
Cómo comprobarlo: Cree ese histograma y luego compare su pico con una distribución normal.

Briancady413 ( discusión ) 19:53 4 nov 2009 (UTC) [ responder ]

Estas suposiciones son innecesarias para la regresión lineal, es decir, son demasiado fuertes. Bueno, excepto la primera. Pero la receta de “hacer un diagrama de dispersión XY” realmente funciona sólo en el caso de una regresión lineal simple . Además, el enfoque sugerido aquí contradice la política WP:NOTHOWTO (1).  …  st pasha  »  19:52, 30 de noviembre de 2009 (UTC) [ responder ]
Estoy de acuerdo con Stpasha. Me gustan las suposiciones tal como están ahora, porque son válidas para el caso general de regresión lineal, cualquiera sea el método de estimación o el modelo estadístico subyacente en cuestión. -- Forich ( discusión ) 22:24 30 nov 2009 (UTC)ndersta [ responder ]
¿No son los errores distribuidos normalmente un supuesto obligatorio de la regresión lineal o eso también cae dentro del grupo de casos especiales en oposición al caso general que se describe? — Comentario anterior sin firmar agregado por 207.173.178.34 (discusión) 17:34, 11 de febrero de 2015 (UTC)[ responder ]


El supuesto 1) se ha entendido mal aquí (pero no en el artículo) como si significara una relación lineal entre X e Y. Eso no es lo que se entiende por lineal. Si Y es proporcional a X^2, sigue siendo un modelo lineal, porque Y está linealmente relacionada con las betas. ESA es la relación que debe ser lineal. Además, en el caso habitual, Y se distribuye normalmente (las X no tienen por qué hacerlo) y esto implica unimodalidad, simetría y curtosis igual a cero. Blaise ( discusión ) 13:23 31 mar 2013 (UTC) [ responder ]

Este artículo, como casi todos los artículos de Wikipedia orientados a las matemáticas, ha sido escrito POR y PARA personas que ya conocen el material pero tienen dificultades para comunicarlo. Lo que ustedes han olvidado es que las personas que visitan Wikipedia NO son expertos en matemáticas (reales o imaginarios) y necesitan una explicación clara del tema. Este artículo está tan lleno de jerga y enlaces a otras páginas que el proceso de intentar llegar a comprender el tema es casi imposible. Por favor, piensen en esto, consideren traducir este material para la audiencia que utiliza Wikipedia. Antes de que los entendidos en matemáticas me traten con condescendencia, simplemente observaré que yo mismo tengo un doctorado, aunque en un campo diferente. ¡Piénsenlo un poco, amigos! — Comentario anterior sin firmar añadido por 50.164.122.229 ( discusión ) 00:23, 19 de junio de 2014 (UTC) [ responder ]

Estoy totalmente de acuerdo con el comentario anterior. Este artículo no es comprensible para nadie que no sepa ya lo que está pasando. En particular, sugiero que se escriba sin notación matricial; cualquiera que entienda la notación matricial simplemente la buscará en el libro de texto en el que aprendió la notación matricial. Este es un tema importante para muchas personas que no tienen idea de lo que es una matriz - y no deberían necesitar aprender sobre matrices para entenderla. (A pesar del hecho de que es tan "simple" usar matrices - si ya sabes matrices.) David Poole ( discusión ) 10:51 29 ene 2015 (UTC) [ responder ]

Ejemplo en la sección introductoria

¿No debería mencionarse en el párrafo de ejemplo que, en general, las variables predictoras de tipo x, x^2, x^3 también están correlacionadas entre sí? Sé que esta receta se da con frecuencia, pero creo que interpretar los resultados sin tener en cuenta estas correlaciones la convierte en una receta peligrosa. Tal vez se pueda proporcionar una pista sobre cómo normalizar las variables a un cierto intervalo (lo que también podría ser útil por razones numéricas) y sobre cómo utilizar un conjunto de polinomios independientes en ese intervalo. Por supuesto, interpretar los coeficientes resultantes puede ser mucho más complejo. ChaosSchorsch (discusión) 17:42 18 feb 2010 (UTC) [ responder ]

Ejemplo de epidemiología

Estoy un poco confundido por la inclusión del ejemplo del tabaquismo en la sección sobre aplicaciones de la regresión lineal. ¿No es más probable que el modelo utilizado en estos análisis fuera la regresión logística ? Jimjamjak ( discusión ) 15:03 26 mar 2010 (UTC) [ responder ]

No se indica la naturaleza específica de la variable dependiente. Si fuera la expectativa de vida (medida en años), entonces la regresión lineal sería perfectamente apropiada. Si fuera "si alguna vez se le diagnosticó cáncer de pulmón", entonces probablemente sería un análisis de regresión logística. Pero los puntos planteados en esta sección se centran principalmente en cuestiones relacionadas con los estudios observacionales en comparación con los experimentos aleatorios. Por lo tanto, este no es un punto importante aquí. Skbkekas ( discusión ) 23:07 26 mar 2010 (UTC) [ responder ]

Una línea tiene la forma y=mx + b, donde m es la pendiente y b es la intersección con el eje y. La exposición actual parece asumir que la intersección con el eje y es cero en todos los casos; es decir, dice que la forma de los puntos es y_i = beta * x_i + epsilon_i, donde epsilon_i es el "ruido". No se menciona la intersección con el eje y, por lo que me parece que se supone que los datos están centrados en el origen. Sin embargo, la figura en la parte superior de la página muestra claramente que la línea de mejor ajuste no necesita pasar por el origen. Entonces, ¿qué me estoy perdiendo? —Comentario anterior sin firmar agregado por 86.141.197.132 (discusión) 21:55, 6 abril 2010 (UTC) [ responder ]

¿No se menciona la intersección con el eje y? Véase la sección que comienza con "Normalmente se incluye una constante como uno de los regresores". Skbkekas ( discusión ) 12:20 7 abr 2010 (UTC) [ responder ]

Representación probablemente inexacta de la regresión lineal ponderada

Cita: "GLS puede considerarse como la aplicación de una transformación lineal a los datos de modo que se cumplan los supuestos de MCO para los datos transformados".

Esto parece incorrecto. En primer lugar, porque una transformación lineal de los datos no puede hacer que cumplan con los supuestos de MCO y, en segundo lugar, porque la introducción de los pesos en la ecuación no corresponde a una transformación lineal de los *datos*. La explicación intuitiva de la regresión lineal ponderada que tiene sentido para mí es que los elementos de datos con mayor ponderación tienen un mayor impacto en el resultado, como si se replicaran en el conjunto de datos, pero puede haber mejores explicaciones que esa. Grevillea (discusión) 04:22 20 abr 2010 (UTC) [ responder ]

Tomas la ecuación de regresión lineal y la multiplicas por una constante . Luego aplicas MCO a los datos transformados: . En esta regresión η ya es homocedástica, por lo que se cumplen los "supuestos de MCO". // st pasha  » 09:09, 20 de abril de 2010 (UTC) [ responder ]
El argumento anterior sólo es relevante si se conocen todos los elementos de Ω, de lo contrario las nuevas "observaciones" dependen de parámetros desconocidos y, a menudo, Ω no se conoce por completo. Si bien, para las aplicaciones más simples de la "regresión ponderada", se pueden conocer los pesos, este no siempre es el caso (dependiendo de cómo se defina exactamente la "regresión ponderada"): sin embargo, incluso en este caso, la idea de "observaciones replicadas" no funciona por completo debido a la dificultad de tratar las observaciones fraccionales. En el "enfoque de transformación", la idea de "observaciones con mayor ponderación" se trata tomando el modelo de regresión formal inicial, en el que una observación tiene una varianza de error que es menor que para otras, y creando el modelo transformado en el que la ecuación de regresión para esa observación se reemplaza por una en la que cada término (observación, variables dependientes y error) se multiplica por un factor tal que el nuevo término de error (factor × error anterior) tiene una varianza constante a lo largo de las observaciones. Melcombe ( discusión ) 16:27 17 may 2010 (UTC) [ responder ]

¿Debería cambiarse el nombre de este artículo?

¿Mover?

La siguiente discusión es una discusión archivada de una mudanza solicitada . No la modifique. Los comentarios posteriores deben realizarse en una nueva sección en la página de discusión. No se deben realizar más modificaciones en esta sección.

El resultado de la solicitud de traslado fue: página movida . Moví la página de dab para preservar el historial de edición y hacerlo disponible si se decide utilizarla además de la nota de sombrero (que necesita agregarse). Además, los traslados anteriores dejaron algunos archivos dispersos por todas partes. Creo que están todos en la página de dab. Dejaré que los editores de aquí los vuelvan a mover si eso es correcto. Si necesitas que un administrador haga los traslados, déjame una nota en mi página de discusión sobre lo que debe suceder. Vegaswikian ( discusión ) 03:49, 11 de junio de 2010 (UTC) [ responder ]



Modelo de regresión linealRegresión lineal — Se volvió a publicar para permitir que el último comentario tenga la oportunidad de ver si se trata de un consenso. Vegaswikian ( discusión ) 02:20 4 jun 2010 (UTC) [ responder ]

Vuelto a publicar . A rbitrarily 0  ( discusión ) 14:16 25 may 2010 (UTC) [ responder ]

Esta discusión no irá a ninguna parte, al menos no sin una declaración clara de los argumentos a favor del cambio de nombre. La discusión que precedió al cambio del título de este artículo a “Modelo de regresión lineal” es bastante antigua; sus rastros se pueden encontrar en esta página de discusión, páginas de discusión de otros artículos de regresión lineal y en el foro de discusión de WPStatistics. La conclusión de esos debates fue que necesitamos reestructurar la cobertura de los temas de regresión lineal, comenzando por delinear claramente cuál es el tema de cada artículo. Es por eso que se cambió el nombre de regresión lineal a modelo de regresión lineal , porque es inequívoco y es menos probable que la gente le agregue material irrelevante. En contraste, el artículo de regresión lineal es actualmente una página de desambiguación, exactamente porque ese nombre es ambiguo. En Wikipedia, los títulos de los artículos intentan no ser los más cortos ni los más comunes, sino los más precisos y menos ambiguos. La conveniencia es secundaria y se logra mediante redirecciones.  //  st pasha  »  20:07, 28 de mayo de 2010 (UTC) [ responder ]

La discusión anterior se conserva como archivo de una solicitud de traslado . No la modifique. Los comentarios posteriores se deben realizar en una nueva sección de esta página de discusión. No se deben realizar más modificaciones en esta sección.

Primera frase

¿Debería "regresión lineal" ser simplemente "regresión" en la primera oración? Tal como está escrito, no especifica nada que requiera linealidad. 205.248.102.81 ( discusión ) 23:06 10 sep 2010 (UTC) [ responder ]

No. La oración es la oración temática de un párrafo que define el término. 0 18 ( discusión ) 23:33 10 sep 2010 (UTC) [ responder ]
Lo que quise decir es que la frase "cualquier enfoque para modelar la relación entre una variable escalar y y una o más variables denotadas X" suena como la definición de regresión, no como la definición de regresión lineal. —Comentario anterior sin firmar agregado por 205.248.102.81 ( discusión ) 00:31, 14 de septiembre de 2010 (UTC)[ responder ]

Estoy de acuerdo con la eliminación de la palabra "lineal". Para apoyar mi acuerdo, se dan las siguientes razones: (i) La linealidad o las líneas rectas son pura imaginación humana, no existe tal cosa como una línea recta en la naturaleza; y (ii) La linealidad conduce a muchos malentendidos de los modelos utilizados en la investigación estadística o econométrica, lo que resulta en muchos modelos mal especificados seguidos de la degradación de los modelos estadísticos y econométricos basados ​​en series de tiempo. Una de las más graves erratas de especificación de los modelos estadísticos y econométricos que se citan a menudo en la literatura es la introducción de una "tendencia temporal lineal", que es una de las "incógnitas" más famosas en los modelos estadísticos, pero que aparece con más frecuencia y ha sido criticada con más frecuencia. Estas críticas han estimulado a muchos econometristas en su búsqueda de enfoques más creativos en la modelización para evitar el uso de la "tendencia temporal lineal" en la estimación de modelos de series de tiempo. Uno de los enfoques novedosos implica pruebas de raíz unitaria y la técnica de cointegración en econometría. De hecho, cuando se utiliza una tendencia temporal lineal (representada por la variable To, To+1, To+2,..., To+n; donde To es la base temporal y n es el número de observaciones), el coeficiente estimado asociado a esta variable de tendencia temporal lineal suele interpretarse como una medida del impacto de una serie de factores no medibles (subjetivamente, de hecho) conocidos y desconocidos sobre la variable dependiente en una unidad de tiempo. Lógicamente, y estrictamente hablando, esa interpretación es aplicable únicamente a los períodos de estimación. Fuera de los períodos de estimación, no se sabe cómo se comportan esos factores no medibles tanto cualitativa como cuantitativamente. Además, la linealidad de la tendencia temporal plantea muchas preguntas: (i) ¿por qué debería ser lineal? (ii) si la tendencia no es lineal, ¿en qué condiciones su inclusión no influye en la magnitud ni en la significación estadística de las estimaciones de otros parámetros del modelo? (iii) la ley de la naturaleza, especialmente en economía, comúnmente aceptada es "lo que sube debe bajar un día, y lo inverso también es cierto", entonces ¿por qué incluir la tendencia temporal [u]lineal [/u] en su modelo que viola flagrantemente esta ley cuando n -> infinito? Se han publicado en revistas algunos esfuerzos conocidos de matemáticos, estadísticos, econometristas y economistas para responder a esas preguntas (por ejemplo, el trabajo de John Blatt (significado matemático de una tendencia temporal), C Granger y muchos otros econometristas (sobre pruebas de raíz unitaria, cointegración y cuestiones relacionadas), Ho-Trieu y Tucker (sobre la tendencia temporal logarítmica que es [u]no lineal[/u] con resultados que aluden a una prueba que rechaza la existencia de una tendencia lineal, y la tendencia lineal es simplemente un nombre inapropiado para una forma especial de tendencia cíclica cuando la periodicidad es grande; consulte http://ideas.repec.org/a/ags/remaae/12288.html para obtener más detalles). Para concluir, apoyo el uso simplemente de "regresión".

Significado de "coeficiente de regresión"

La sección "Introducción a la regresión lineal" contiene el pasaje " es un vector de parámetros de dimensión p. Sus elementos también se denominan efectos o coeficientes de regresión". Pero, ¿el término "coeficiente de regresión" no se refiere convencionalmente a los valores estimados de las betas, en lugar de a las betas en sí mismas? Duoduoduo ( discusión ) 16:25 24 nov 2010 (UTC) [ responder ]

Variables aleatorias

En mi opinión, el artículo no distingue claramente entre variables reales y variables estocásticas. Nijdam ( discusión ) 23:01 6 feb 2011 (UTC) [ responder ]

Términos faltantes: punto de promedios, línea de regresión, promedio de

Punto de promedios: El punto cuyo valor x es el promedio de todos los valores x, y cuyo y es el valor de todos los valores y. http://www.youtube.com/watch?v=T7tj2-2r2Gk, en 4:30-5:00.

Gráfica de promedios: Si los valores x son discretos, para cada valor x distinto, se toma la media de los valores y correspondientes. El conjunto de puntos constituye la gráfica de promedios. Creo que esto también se define para datos continuos, si el eje x se divide en intervalos. Nótese que hay una diferencia entre la gráfica de promedios de valores y y la gráfica de valores de valores x. Fuente: http://www.youtube.com/watch?v=T7tj2-2r2Gk, en 5:00-5:30.

Línea de regresión: "versión suavizada del gráfico de promedios". La línea de regresión siempre pasa por el punto de promedios. Fuente: http://www.youtube.com/watch?v=T7tj2-2r2Gk, en 6:00 - 7:00.

Sería bueno si esto se definiera en el artículo.

213.165.179.229 (discusión) 21:58 17 jul 2011 (UTC) [ responder ]

grande

No veo ninguna diferencia entre

y

¿Por qué el "\big"? — Comentario anterior sin firmar añadido por Nijdam ( discusióncontribs ) 29 de septiembre de 2011

Si a alguien todavía le importa: ambos pares de paréntesis a la derecha del segundo signo igual en la ecuación superior son ligeramente más grandes para acomodar la fracción "1/n", que es ligeramente más alta que el resto de los elementos dentro de los paréntesis. Es común en TeX aumentar ligeramente el tamaño de los paréntesis cuando se colocan elementos "altos" (como fracciones, exponentes más grandes de lo habitual o sumas que muestran el rango de la variable índice) dentro de los paréntesis. Es una cuestión de gustos si es realmente necesario en algún caso particular. - dcljr ( discusión ) 10:00, 24 de octubre de 2015 (UTC) [ responder ]

un nombre inapropiado

"Regresión lineal" es un término erróneo. Francis Galton habló primero de reversión y luego de regresión en referencia a los cambios generacionales en la estatura de los hombres (de padre a hijo). Los hijos más bajos habían sufrido una regresión, por así decirlo.

"...en 1877, Galton se refirió por primera vez a la "reversión" en una conferencia sobre la relación entre las características físicas de las semillas de los padres y los hijos. La "ley de la reversión" fue la primera especificación formal de lo que Galton más tarde denominó "regresión". Trece maneras de considerar el coeficiente de correlación

La ley de reversión de Galton tiene que ver con la genética y no tiene nada que ver con las matemáticas de los mínimos cuadrados, aunque los mínimos cuadrados SÍ son matemáticas aplicadas. Pero si dices "regresión lineal" por teléfono desde la oficina del consultor, suena más impresionante, lo que podría explicar por qué se mantiene. — Comentario anterior sin firmar añadido por 97.81.29.81 ( discusión ) 19:58, 21 de agosto de 2012 (UTC) [ responder ]

¿Línea mediana-mediana?

No parece haber aquí una sección (ni ningún artículo) sobre la línea de mediana-mediana, a pesar de que es una técnica de regresión popular. ¿Hay alguna razón para ello? -- Spireguy ( discusión ) 19:23 2 oct 2012 (UTC) [ responder ]

Estadísticas o álgebra lineal

Yo habría escrito la primera oración para clasificarla como álgebra lineal, en lugar de estadística. ¿Es una más estándar que la otra? Aprendí esto en mi clase de álgebra lineal. Mythirdself ( discusión ) 19:15 30 mar 2013 (UTC) [ responder ]

Ajuste de distancia mínima

¿Alguien tiene una opinión sobre esto?:

En la sección "Estimación por mínimos cuadrados y técnicas relacionadas", creo que sería adecuado agregar el ajuste por la mínima distancia. En realidad, el resultado es bastante simple:

Pendiente: beta = stdev(y) / stdev(x), posiblemente con un signo menos

Desplazamiento: épsilon = media(y) - beta * media(x)

El ajuste de distancia mínima es prácticamente útil cuando se ajustan datos que son ruidosos tanto en x como en y, por ejemplo, gráficos de correlación.

Gracias, Frank Fstaals (discusión) 15:19 13 ago 2013 (UTC) [ responder ]

¿No es esto simplemente un cálculo de mínimos cuadrados ? - dcljr ( discusión ) 10:05 24 oct 2015 (UTC) [ responder ]

Variables de respuesta

"Varianza constante (también conocida como homocedasticidad). Esto significa que las diferentes variables de respuesta tienen la misma varianza en sus errores, independientemente de los valores de las variables predictoras". Este pasaje me resultó confuso y pasé media hora buscando en diferentes fuentes para intentar aclararlo. ¿Se trata de "diferentes variables de respuesta" o "diferentes valores de la variable de respuesta"? La definición indica que solo hay una variable de respuesta. Otras fuentes también confirman que la homocedasticidad se refiere a la varianza en los errores para la misma variable. Es muy confuso si intentas averiguar qué significa la oración si tuvieras diferentes variables de respuesta y estuvieras comparando la varianza en sus errores. — Comentario anterior sin firmar agregado por 95.91.235.221 (discusión) 09:10, 21 de enero de 2014 (UTC) [ responder ]

Creo que y i es una variable de respuesta para la respuesta i , pero hay n de esas variables de respuesta ( i = 1.. n ), según la definición. Cada variable de respuesta tiene un valor (medido). La homocedasticidad significa que estos errores de medición tienen la misma varianza para todos los i . —PapaNappa (discusión) 15:06 7 dic 2015 (UTC) [ responder ]

Errores y residuos, confusos

Creo que el término "error" es un poco confuso y mezclado en este artículo.

A veces significa el error (desviación estándar) de todas las y experimentales para una x dada.

A veces significa los residuos, la distancia desde E[y|x] a la línea, la distancia desde el valor medio de y para una x dada a la línea.

Y la desviación estándar a veces se refiere al primer error, a veces al segundo.

Siéntete libre de mejorar el presente artículo en función del artículo sobre errores y residuos . Fgnievinski ( discusión ) 19:23 25 jun 2015 (UTC) [ responder ]

Término constante faltante

Estimados autores principales (¿hay alguno?):

Gracias por escribir este artículo. Aquí tienes 3 sugerencias.

Creo que la notación intermedia no es una buena práctica. En lugar de , mejor escribir (y agregar el término constante).

Saludos, Herbmuell ( discusión ) 06:27 26 jul 2015 (UTC) [ responder ]

A menudo, para permitir el uso de la notación matricial, [math]X_1[/math] es un término constante de 1, por lo que el parámetro [math]b_1{/math] es la intersección. -- PeterLFlomPhD ( discusión ) 20:42 20 ago 2015 (UTC) [ responder ]

¿La sección MLE tiene un nombre incorrecto o es necesario dividirla? Comentario

No estoy seguro de que métodos como Ridge y LASSO encajen perfectamente en la sección MLE -- PeterLFlomPhD ( discusión ) 20:40 20 ago 2015 (UTC) [ responder ]

Regresión de Y sobre X y de X sobre Y en comparación con el contorno de densidad

¿Puede alguien crear una versión precisa de una imagen como ésta?

Acabo de subir una imagen que improvisé rápidamente que ilustra cómo la regresión de mínimos cuadrados ordinarios de Y sobre X conecta los puntos más a la izquierda y más a la derecha en un contorno de la densidad normal bivariada correspondiente (mismas medias, varianzas y covarianza que los datos), y la de X sobre Y conecta los puntos más altos y más bajos en la misma elipse. (Y, por cierto, los mínimos cuadrados totales darían el eje mayor de la elipse). Desafortunadamente, no estoy muy seguro de cómo hacer un contorno de densidad preciso con lo que tengo para trabajar ( Gnumeric ), así que "falsifiqué" esa parte (ajusté "a ojo"). No encontré una imagen similar en Commons. ¿Alguien sabe de una imagen con licencia apropiada (completamente precisa) como esta, o alguien puede crear una (por ejemplo, con R )? Creo que una imagen así sería una buena adición a este artículo o a uno de los otros a los que he vinculado (es decir, aquellos para OLS o TLS). - dcljr ( discusión ) 10:29 24 oct 2015 (UTC) [ responder ]

Bueno, me acabo de encontrar con el archivo File:Galton's correlation diagram 1875.jpg , que es básicamente el diagrama "original" de este tipo. Supongo que debería usarse, ya que nadie se ha tomado la molestia de crear uno nuevo. - dcljr ( discusión ) 07:12 23 abr 2017 (UTC) [ responder ]

¿Variable de respuesta distribuida normalmente?

En el párrafo "Varianza constante" de Supuestos , dice "(por ejemplo, ajustar el logaritmo de la variable de respuesta utilizando un modelo de regresión lineal, lo que implica que la variable de respuesta tiene una distribución log-normal en lugar de una distribución normal)". Creo que la variable de respuesta no tiene tal suposición de estar distribuida normalmente, ¿no es así? (Esto no tendría ningún sentido en un contexto de regresión lineal). Solo se supone que el error está distribuido normalmente. Sin embargo, no voy a editar esto ahora, porque todavía no estoy muy seguro de que la transformación logarítmica también implique que los errores estén distribuidos log-normalmente. —PapaNappa (discusión) 15:16, 7 de diciembre de 2015 (UTC) [ responder ]

Si Y está linealmente relacionada con X y los errores se distribuyen normalmente (supuestos habituales), entonces Y se distribuye normalmente; por lo que este pasaje se refiere a una implicación de los supuestos habituales. En cuanto a la cuestión log-normal, si el logaritmo de una variable es normal, entonces la variable original es log-normal —y, específicamente en este caso, si la regresión log  Y vs. X es lineal con errores homocedásticos, normalmente distribuidos y aditivos, entonces Y vs. X es no lineal con errores heterocedásticos, log-normales y multiplicativos. (Creo que lo he entendido todo bien.) - dcljr ( discusión ) 05:09, 8 de diciembre de 2015 (UTC) [ responder ]
Tienes razón, ahora está claro. ¿Debería indicarse esta implicación en algún lugar antes de estos párrafos? O simplemente deberíamos reemplazar "variable de respuesta" por "término de error" o algo similar para evitar esta confusión. —PapaNappa (discusión) 13:34 9 dic 2015 (UTC) [ responder ]
No estoy seguro de cuál es la mejor solución. Ese elemento ("Variación constante") es bastante extenso y podría simplificarse un poco. Puede que lo intente en algún momento, pero mientras tanto, siéntete libre de enviar los cambios que creas que lo mejorarían. - dcljr ( discusión ) 20:01, 9 de diciembre de 2015 (UTC) [ responder ]

¿Lineal con respecto a regresores o coeficientes?

Dado un conjunto de datos de n unidades estadísticas , un modelo de regresión lineal supone que la relación entre la variable dependiente y i y el p -vector de regresores x i es lineal .

Una rápida comprobación de cordura: ¿no debería decirse que el modelo es lineal con respecto a sus parámetros/coeficientes? Supongo que lo anterior se escribió para referirse a un modelo expresado en forma estándar, pero no creo que esté claro aquí, especialmente para un lector desinformado. El artículo en sí mismo contradice rápidamente la verborrea anterior en el ejemplo de física que sigue y en la discusión del supuesto de linealidad. Es genial que haya un enlace a la linealidad, pero parece que cualquiera que se haya tomado el tiempo de leer ese artículo y haya vuelto a este artículo se confundiría rápidamente. Ingcake (discusión) 01:14 29 dic 2015 (UTC) [ responder ]

El modelo es lineal en el sentido que se explica en Función lineal#Como función polinómica , como se ilustra explícitamente en este artículo inmediatamente después de la afirmación a la que alude (es decir, se muestra como una combinación lineal). El "ejemplo de física" no contradice el supuesto de linealidad, ya que está claramente establecido con x 1 = t y x 2 = t ² . (En particular, el modelo no tiene que ser lineal en la variable t , ya que t y t ² son dos regresores diferentes, y el modelo es lineal en estos dos regresores, como se explica en la sección " Supuestos "). Por lo tanto, la respuesta a la pregunta del encabezado de su sección es: el modelo es "lineal con respecto tanto a los regresores como a los parámetros". No estoy seguro de que sea realmente necesario hacer una distinción entre "lineal en los parámetros" y "lineal en los regresores". En el modelo en sí no existe tal distinción. Y si miras el artículo sobre regresión no lineal , el ejemplo que dan allí también es no lineal tanto en los parámetros como en los regresores. ¿Hay algún ejemplo de un modelo de "regresión no lineal" que sea no lineal en los parámetros pero lineal en los regresores (sin contar los ejemplos que se pueden transformar fácilmente para que sean lineales en ambos)? - dcljr ( discusión ) 07:54, 29 de diciembre de 2015 (UTC) [ responder ]
Estoy de acuerdo con el usuario Ingcake, el significado de 'lineal' es confuso en la entrada y debería aclararse, incluso en la sección principal -- Forich ( discusión ) 13:58 12 jun 2017 (UTC) [ responder ]

Citas

Aparte de la primera parte del artículo, no se proporcionan citas o faltan en su mayor parte. Se debería trabajar para agregar recursos confiables para la información proporcionada. Además, sería útil una discusión adicional sobre las aplicaciones de la regresión lineal para completar el artículo. Lond6846 ( discusión ) 17:07 26 enero 2017 (UTC) [ responder ]

Enlaces externos modificados

Hola compañeros wikipedistas,

Acabo de modificar un enlace externo sobre regresión lineal . Tómese un momento para revisar mi edición. Si tiene alguna pregunta o necesita que el robot ignore los enlaces o la página en su totalidad, visite esta sencilla sección de preguntas frecuentes para obtener información adicional. Hice los siguientes cambios:

Cuando haya terminado de revisar mis cambios, puede seguir las instrucciones de la plantilla a continuación para solucionar cualquier problema con las URL.

Este mensaje fue publicado antes de febrero de 2018. Después de febrero de 2018 , las secciones de la página de discusión "Enlaces externos modificados" ya no son generadas ni monitoreadas por InternetArchiveBot . No se requiere ninguna acción especial con respecto a estos avisos de la página de discusión, aparte de la verificación regular utilizando las instrucciones de la herramienta de archivo que se encuentran a continuación. Los editores tienen permiso para eliminar estas secciones de la página de discusión "Enlaces externos modificados" si desean despejar las páginas de discusión, pero consulten la RfC antes de realizar eliminaciones sistemáticas masivas. Este mensaje se actualiza dinámicamente a través de la plantilla (última actualización: 5 de junio de 2024) .{{source check}}

Saludos.— InternetArchiveBot ( Reportar error ) 10:11 16 may 2017 (UTC) [ responder ]

Confusión entre “modelos lineales generales” y “modelos lineales multivariados”

La subsección sobre "modelos lineales generales" en realidad trata de "modelos lineales multivariados" como se describe en esa sección, es decir, regresión con múltiples resultados. El "modelo lineal general" es algo diferente, como se describe en el artículo de Wikipedia sobre el modelo lineal general , es decir, regresión con predictores tanto continuos como categóricos. Propongo cambiar el nombre de esta subsección a "modelos lineales multivariados" y agregar una nueva subsección sobre "modelos lineales generales". --Hapli ( discusión ) 11:09 1 ago 2017 (UTC) [ responder ]

En realidad, el artículo al que haces referencia, Modelo lineal general , dice correctamente que se refiere a modelos multivariados. No dice nada sobre modelos con predictores tanto continuos como categóricos. Nuestra subsección "Modelo lineal general" trata correctamente de modelos multivariados. Dos subsecciones más adelante tenemos una subsección "Modelo lineal generalizado", que trata correctamente de variables dependientes acotadas o discretas , al igual que el artículo Modelo lineal generalizado . Loraof ( discusión ) 21:17 23 ago 2017 (UTC) [ responder ]

Inconsistencias en la definición del término constante y su relación con p.

La definición del término constante se realiza en algunos lugares incluyendo explícitamente un conjunto de n 1-s, índice 0 y variables independientes indexadas de 1 a p. En otros lugares, el rango del índice de las variables independientes sigue siendo de 1 a p, pero se asigna el índice 1 para el término constante y no hay índice 0. En el primer caso, en realidad hay p variables independientes y el término constante, en el segundo caso solo p-1 variables independientes reales más 1 término constante. Ejemplo para el primer caso:

β , es un vector de parámetros de dimensión (p + 1), donde β 0 es el término constante (desplazamiento).

Ejemplo para el segundo caso:

Generalmente se incluye una constante como uno de los regresores. Por ejemplo, podemos tomar x i 1 = 1 para i = 1, ..., n . El elemento correspondiente de β se denomina intersección.

2A00:23C5:7506:9C00:A02A:639:32C7:138F (discusión) 16:08 26 mar 2018 (UTC) [ responder ]

Gracias. Lo he arreglado. Loraof ( discusión ) 21:05 5 may 2018 (UTC) [ responder ]

¿Simplificar?

Este artículo es *demasiado* complicado para un tema tan simple. ¿Se pueden trasladar algunos de los conceptos a páginas independientes y vincularlos? Creo que la solución óptima estaría en algún punto entre la versión de "Simple English" (https://simple.wikipedia.org/wiki/Talk:Linear_regression/Linear_regression) y la versión actual. De todos modos, esas son solo mis ideas. 81.104.142.198 ( discusión ) 18:17 12 may 2018 (UTC) [ responder ]

Creo que tal vez estás viendo el artículo como "complicado" porque es un tema muy general (no "simple") que tiene muchos casos especiales. El artículo menciona esos casos especiales y enlaces a artículos sobre ellos (por ejemplo, regresión lineal simple ), que pueden (¡o no!) verse como "más simples" que este. No estoy seguro de que "simplificar" este artículo sea realmente posible, aunque ciertamente no estoy diciendo que no pueda hacerlo con una edición exhaustiva. ¿Tienes sugerencias específicas sobre qué material crees que debería trasladarse a artículos separados? - dcljr ( discusión ) 20:56, 12 de mayo de 2018 (UTC) [ responder ]

Notación matemática

Desde el comienzo de la "introducción", este artículo se lanza a una notación especializada que solo los lectores preentrenados comprenderán. Para el resto de nosotros que nos encontramos aquí con estos símbolos por primera vez, debe haber un enlace a math-lib que diga "cómo leer las llaves, etc." Los doctores en matemáticas pueden burlarse, pero si se introduce el arcano con un enlace que diga cómo leerlo, aumentará el número de lectores. — Comentario anterior sin firmar añadido por Jeffryfisher ( discusióncontribs ) 23:17, 17 de diciembre de 2018 (UTC) [ responder ]

Errores en la ilustración de la “independencia de los errores”

En la sección de Supuestos , dice: " Independencia de los errores . Esto supone que los errores de las variables de respuesta no están correlacionados entre sí (ver gráfico)". El gráfico es un gráfico de residuos contra los valores predichos. En el título de ese gráfico dice: "Los residuos que parecen estar distribuidos uniformemente por debajo y por encima de 0, como el gráfico anterior, indican que los errores del modelo de regresión son independientes de los valores predichos, por lo que cumplen el supuesto". En mi opinión, eso es incorrecto. Que los residuos sean independientes de los valores predichos no implica que cumplan el supuesto de independencia. Incluso si fueran independientes de los valores predichos, aún podrían estar autocorrelacionados o podrían depender de alguna variable no modelada, ninguna de las cuales sería visible en este gráfico.

El epígrafe continúa diciendo: "Los gráficos con residuos distribuidos de forma desigual indicarían una violación del supuesto". Esto también es engañoso. Si los residuos son independientes pero no están distribuidos de forma idéntica, por ejemplo debido a la heterocedasticidad, esto daría lugar a residuos distribuidos de forma desigual, pero no indicaría una violación del supuesto de independencia.

Propongo que simplemente eliminemos ese gráfico, porque da la impresión engañosa de que en los datos del mundo real se esperaría una distribución tan regular de los residuos. Delius ( discusión ) 23:01 8 may 2021 (UTC) [ responder ]

He intentado mejorar el título. Por cierto. - dcljr ( discusión ) 22:20 11 may 2021 (UTC) [ responder ]