stringtranslate.com

matriz ortogonal

En álgebra lineal , una matriz ortogonal , o matriz ortonormal , es una matriz cuadrada real cuyas columnas y filas son vectores ortonormales .

Una forma de expresar esto es

Q TtranspuestaQImatriz identidad

Esto lleva a la caracterización equivalente: una matriz Q es ortogonal si su transpuesta es igual a su inversa :

Q −1Q

Una matriz ortogonal Q es necesariamente invertible (con inversa Q −1 = Q T ), unitaria ( Q −1 = Q ), donde Q es el adjunto hermitiano ( transpuesta conjugada ) de Q , y por lo tanto normal ( Q Q = QQ ) sobre los números reales . El determinante de cualquier matriz ortogonal es +1 o −1. Como transformación lineal , una matriz ortogonal conserva el producto interno de los vectores y, por tanto, actúa como una isometría del espacio euclidiano , como una rotación , una reflexión o una reflexión del rotor . En otras palabras, es una transformación unitaria .

El conjunto de matrices ortogonales n × n , bajo multiplicación, forma el grupo O( n ) , conocido como grupo ortogonal . El subgrupo SO( n ) que consta de matrices ortogonales con determinante +1 se llama grupo ortogonal especial , y cada uno de sus elementos es una matriz ortogonal especial . Como transformación lineal, cada matriz ortogonal especial actúa como una rotación.

Descripción general

Comprensión visual de la multiplicación por la transpuesta de una matriz. Si A es una matriz ortogonal y B es su transpuesta, el ij-ésimo elemento del producto AA T desaparecerá si i≠j, porque la i-ésima fila de A es ortogonal a la j-ésima fila de A.

Una matriz ortogonal es la especialización real de una matriz unitaria y, por tanto, siempre una matriz normal . Aunque aquí solo consideramos matrices reales, la definición se puede utilizar para matrices con entradas de cualquier campo . Sin embargo, las matrices ortogonales surgen naturalmente de los productos escalares y, en el caso de las matrices de números complejos, eso conduce al requisito unitario. Las matrices ortogonales conservan el producto escalar, [1] por lo tanto, para los vectores u y v en un espacio euclidiano real de n dimensiones

Qvespacio euclidianonvv T vQ v

Así, las isometrías lineales de dimensión finita (rotaciones, reflexiones y sus combinaciones) producen matrices ortogonales. Lo contrario también es cierto: las matrices ortogonales implican transformaciones ortogonales. Sin embargo, el álgebra lineal incluye transformaciones ortogonales entre espacios que pueden no ser de dimensión finita ni de la misma dimensión, y no tienen una matriz ortogonal equivalente.

Las matrices ortogonales son importantes por varias razones, tanto teóricas como prácticas. Las matrices ortogonales n × n forman un grupo en la multiplicación de matrices, el grupo ortogonal denotado por O( n ) , que, con sus subgrupos, se usa ampliamente en matemáticas y ciencias físicas. Por ejemplo, el grupo puntual de una molécula es un subgrupo de O(3). Debido a que las versiones de coma flotante de matrices ortogonales tienen propiedades ventajosas, son clave para muchos algoritmos en álgebra lineal numérica, como la descomposición QR . Como otro ejemplo, con la normalización adecuada, la transformada de coseno discreta (utilizada en la compresión de MP3 ) se representa mediante una matriz ortogonal.

Ejemplos

A continuación se muestran algunos ejemplos de matrices ortogonales pequeñas y posibles interpretaciones.

Construcciones elementales

Dimensiones inferiores

Las matrices ortogonales más simples son las matrices 1 × 1 [1] y [−1], que podemos interpretar como la identidad y un reflejo de la línea real que cruza el origen.

Las matrices 2 × 2 tienen la forma

En consideración de la primera ecuación, sin pérdida de generalidad, sea p = cos θ , q = sin θ ; entonces t = − q , u = p o t = q , u = − p . Podemos interpretar el primer caso como una rotación por θ (donde θ = 0 es la identidad), y el segundo como una reflexión a través de una línea en un ángulo deθ/2.

El caso especial de la matriz de reflexión con θ = 90° genera una reflexión alrededor de la línea a 45° dada por y = x y por lo tanto intercambia x e y ; es una matriz de permutación , con un solo 1 en cada columna y fila (y en caso contrario 0):

La identidad es también una matriz de permutación.

Una reflexión es su propia inversa , lo que implica que una matriz de reflexión es simétrica (igual a su transpuesta) además de ortogonal. El producto de dos matrices de rotación es una matriz de rotación y el producto de dos matrices de reflexión también es una matriz de rotación.

Dimensiones superiores

Independientemente de la dimensión, siempre es posible clasificar las matrices ortogonales como puramente rotacionales o no, pero para matrices de 3 × 3 y mayores, las matrices no rotacionales pueden ser más complicadas que las reflexiones. Por ejemplo,

representan una inversión a través del origen y una rotoinversión , respectivamente, alrededor del eje z .

Las rotaciones se vuelven más complicadas en dimensiones superiores; ya no pueden caracterizarse completamente por un ángulo y pueden afectar a más de un subespacio plano. Es común describir una matriz de rotación de 3 × 3 en términos de un eje y un ángulo , pero esto solo funciona en tres dimensiones. Por encima de las tres dimensiones se necesitan dos o más ángulos, cada uno de ellos asociado a un plano de rotación .

Sin embargo, tenemos bloques de construcción elementales para permutaciones, reflexiones y rotaciones que se aplican en general.

Primitivos

La permutación más elemental es una transposición, obtenida de la matriz identidad intercambiando dos filas. Cualquier matriz de permutación n × n se puede construir como un producto de no más de n − 1 transposiciones.

Una reflexión de cabeza de familia se construye a partir de un vector no nulo v como

Aquí el numerador es una matriz simétrica mientras que el denominador es un número, la magnitud al cuadrado de v . Esta es una reflexión en el hiperplano perpendicular a v (que niega cualquier componente vectorial paralela a v ). Si v es un vector unitario, entonces Q = I − 2 vv T es suficiente. Normalmente se utiliza una reflexión de Householder para poner a cero simultáneamente la parte inferior de una columna. Cualquier matriz ortogonal de tamaño n × n se puede construir como producto de como máximo n reflexiones.

Una rotación de Givens actúa sobre un subespacio bidimensional (plano) abarcado por dos ejes de coordenadas, girando en un ángulo elegido. Normalmente se utiliza para poner a cero una única entrada subdiagonal. Cualquier matriz de rotación de tamaño n × n se puede construir como un producto de como máximonorte ( norte - 1)/2tales rotaciones. En el caso de matrices de 3 × 3 , tres de esas rotaciones son suficientes; y al fijar la secuencia podemos describir todas las matrices de rotación de 3 × 3 (aunque no de manera única) en términos de los tres ángulos utilizados, a menudo llamados ángulos de Euler .

Una rotación de Jacobi tiene la misma forma que una rotación de Givens, pero se utiliza para poner a cero ambas entradas fuera de la diagonal de una submatriz simétrica de 2 × 2 .

Propiedades

Propiedades de la matriz

Una matriz cuadrada real es ortogonal si y sólo si sus columnas forman una base ortonormal del espacio euclidiano R n con el producto escalar euclidiano ordinario , que es el caso si y sólo si sus filas forman una base ortonormal de R n . Podría ser tentador suponer que una matriz con columnas ortogonales (no ortonormales) se llamaría matriz ortogonal, pero tales matrices no tienen ningún interés especial ni nombre especial; sólo satisfacen M T M = D , siendo D una matriz diagonal .

El determinante de cualquier matriz ortogonal es +1 o −1. Esto se desprende de hechos básicos sobre los determinantes, como sigue:

Lo contrario no es cierto; tener un determinante de ±1 no es garantía de ortogonalidad, incluso con columnas ortogonales, como lo muestra el siguiente contraejemplo.

Con matrices de permutación el determinante coincide con la firma , siendo +1 o −1 según la paridad de la permutación sea par o impar, pues el determinante es una función alterna de las filas.

Más fuerte que la restricción determinante es el hecho de que una matriz ortogonal siempre se puede diagonalizar sobre los números complejos para exhibir un conjunto completo de valores propios , todos los cuales deben tener un módulo (complejo)  1.

Propiedades del grupo

La inversa de toda matriz ortogonal es nuevamente ortogonal, al igual que el producto matricial de dos matrices ortogonales. De hecho, el conjunto de todas las matrices ortogonales n × n satisface todos los axiomas de un grupo . Es un grupo compacto de dimensiones de Lie.norte ( norte - 1)/2, llamado grupo ortogonal y denotado por O( n ) .

Las matrices ortogonales cuyo determinante es +1 forman un subgrupo normal conectado por trayectoria de O( n ) de índice 2, el grupo ortogonal especial SO( n ) de rotaciones. El grupo cociente O( n )/SO( n ) es isomorfo a O(1) , y el mapa de proyección elige [+1] o [−1] según el determinante. Las matrices ortogonales con determinante −1 no incluyen la identidad, por lo que no forman un subgrupo sino solo una clase lateral ; también está (por separado) conectado. Así, cada grupo ortogonal se divide en dos partes; y debido a que el mapa de proyección se divide , O( n ) es un producto semidirecto de SO( n ) por O(1) . En términos prácticos, una afirmación comparable es que cualquier matriz ortogonal se puede producir tomando una matriz de rotación y posiblemente negando una de sus columnas, como vimos con las matrices de 2 × 2 . Si n es impar, entonces el producto semidirecto es de hecho un producto directo , y se puede producir cualquier matriz ortogonal tomando una matriz de rotación y posiblemente negando todas sus columnas. Esto se desprende de la propiedad de los determinantes de que negar una columna niega el determinante y, por tanto, negar un número impar (pero no par) de columnas niega el determinante.

Ahora considere matrices ortogonales ( n + 1) × ( n + 1) con la entrada inferior derecha igual a 1. El resto de la última columna (y la última fila) debe ser ceros, y el producto de dos matrices cualesquiera tiene la misma forma. . El resto de la matriz es una matriz ortogonal n × n ; por tanto, O( n ) es un subgrupo de O( n + 1) (y de todos los grupos superiores).

Dado que una reflexión elemental en forma de matriz de Householder puede reducir cualquier matriz ortogonal a esta forma restringida, una serie de tales reflexiones puede llevar cualquier matriz ortogonal a la identidad; por tanto, un grupo ortogonal es un grupo de reflexión . La última columna se puede fijar a cualquier vector unitario, y cada elección da una copia diferente de O( n ) en O( n + 1) ; de esta manera O( n + 1) es un paquete sobre la esfera unitaria S n con fibra O( n ) .

De manera similar, SO( n ) es un subgrupo de SO( n + 1) ; y cualquier matriz ortogonal especial puede generarse mediante rotaciones del plano de Givens utilizando un procedimiento análogo. La estructura del paquete persiste: SO( n ) ↪ SO( n + 1) → S n . Una sola rotación puede producir un cero en la primera fila de la última columna, y una serie de n − 1 rotaciones pondrá a cero todas menos la última fila de la última columna de una matriz de rotación n × n . Como los planos son fijos, cada rotación tiene sólo un grado de libertad, su ángulo. Por inducción, SO( n ) por lo tanto tiene

O( n )

Las matrices de permutación son aún más simples; forman, no un grupo de Lie, sino sólo un grupo finito, el orden n ! grupo simétrico S norte . Por el mismo tipo de argumento, S n es un subgrupo de S n + 1 . Las permutaciones pares producen el subgrupo de matrices de permutación del determinante +1, el ordennorte !/2 grupo alterno .

Forma canónica

En términos más generales, el efecto de cualquier matriz ortogonal se separa en acciones independientes en subespacios bidimensionales ortogonales. Es decir, si Q es ortogonal especial, entonces siempre se puede encontrar una matriz ortogonal P , un cambio de base (rotacional) , que lleva a Q a forma diagonal de bloque:

donde las matrices R 1 , ..., R k son matrices de rotación de 2 × 2 y las entradas restantes son cero. Excepcionalmente, un bloque de rotación podrá ser diagonal, ± I. Por lo tanto, negando una columna si es necesario y observando que una reflexión de 2 × 2 se diagonaliza a +1 y −1, cualquier matriz ortogonal se puede llevar a la forma

Las matrices R 1 , ..., R k dan pares conjugados de valores propios que se encuentran en el círculo unitario en el plano complejo ; entonces esta descomposición confirma que todos los valores propios tienen valor absoluto 1. Si n es impar, hay al menos un valor propio real, +1 o −1; para una rotación de 3 × 3 , el vector propio asociado con +1 es el eje de rotación.

álgebra de mentiras

Supongamos que las entradas de Q son funciones diferenciables de t , y que t = 0 da Q = I. Diferenciando la condición de ortogonalidad

La evaluación en t = 0 ( Q = I ) implica entonces

En términos de grupos de Lie, esto significa que el álgebra de Lie de un grupo de matrices ortogonales consta de matrices simétricas sesgadas . En la otra dirección, la matriz exponencial de cualquier matriz simétrica sesgada es una matriz ortogonal (de hecho, ortogonal especial).

Por ejemplo, el objeto tridimensional que la física llama velocidad angular es una rotación diferencial, por lo tanto, un vector en el álgebra de Lie tangente a SO(3) . Dado ω = ( , , ) , siendo v = ( x , y , z ) un vector unitario, la forma matricial simétrica sesgada correcta de ω es

El exponencial de esto es la matriz ortogonal para la rotación alrededor del eje v por el ángulo θ ; ajuste c = cosθ/2, s = pecadoθ/2,

Álgebra lineal numérica

Beneficios

El análisis numérico aprovecha muchas de las propiedades de las matrices ortogonales para el álgebra lineal numérica y surgen de forma natural. Por ejemplo, a menudo es deseable calcular una base ortonormal para un espacio o un cambio ortogonal de bases; ambos toman la forma de matrices ortogonales. Tener el determinante ±1 y todos los valores propios de magnitud 1 es de gran beneficio para la estabilidad numérica . Una implicación es que el número de condición es 1 (que es el mínimo), por lo que los errores no se magnifican al multiplicar con una matriz ortogonal. Muchos algoritmos utilizan matrices ortogonales como reflexiones de Householder y rotaciones de Givens por este motivo. También es útil que una matriz ortogonal no sólo sea invertible, sino que su inversa esté disponible esencialmente de forma gratuita mediante el intercambio de índices.

Las permutaciones son esenciales para el éxito de muchos algoritmos, incluido el caballo de batalla de la eliminación gaussiana con pivote parcial (donde las permutaciones hacen el pivote). Sin embargo, rara vez aparecen explícitamente como matrices; su forma especial permite una representación más eficiente, como una lista de n índices.

Asimismo, los algoritmos que utilizan matrices de Householder y Givens suelen utilizar métodos especializados de multiplicación y almacenamiento. Por ejemplo, una rotación de Givens afecta sólo a dos filas de una matriz que multiplica, cambiando una multiplicación completa de orden n 3 a una de orden n mucho más eficiente . Cuando el uso de estas reflexiones y rotaciones introduce ceros en una matriz, el espacio desocupado es suficiente para almacenar datos suficientes para reproducir la transformación y hacerlo de manera sólida. (Siguiendo a Stewart (1976), no almacenamos un ángulo de rotación, lo cual es costoso y se comporta mal.)

Descomposiciones

Varias descomposiciones matriciales importantes (Golub y Van Loan 1996) involucran matrices ortogonales, incluyendo especialmente:

descomposición QR
M = QR , Q ortogonal, R triangular superior
Valor singular de descomposición
M = U Σ V T , U y V ortogonales, Σ matriz diagonal
Descomposición propia de una matriz simétrica (descomposición según el teorema espectral )
S = Q Λ Q T , S simétrico, Q ortogonal, Λ diagonal
Descomposición polar
M = QS , Q ortogonal, S simétrica positiva-semidefinida

Ejemplos

Considere un sistema sobredeterminado de ecuaciones lineales , como podría ocurrir con mediciones repetidas de un fenómeno físico para compensar errores experimentales. Escribe A x = b , donde A es m × n , m > n . Una descomposición QR reduce A a R triangular superior . Por ejemplo, si A es 5 × 3 entonces R tiene la forma

El problema de mínimos cuadrados lineales consiste en encontrar la x que minimice ‖A xb‖ , lo que equivale a proyectar b al subespacio abarcado por las columnas de A. Suponiendo que las columnas de A (y por tanto R ) son independientes, la solución de proyección se encuentra a partir de A T A x = A T b . Ahora A T A es cuadrado ( n × n ) e invertible, y también igual a R T R . Pero las filas inferiores de ceros en R son superfluas en el producto, que por lo tanto ya está factorizado en forma triangular inferior-triangular superior, como en la eliminación gaussiana ( descomposición de Cholesky ). Aquí la ortogonalidad es importante no sólo para reducir A T A = ( R T Q T ) QR a R T R , sino también para permitir la solución sin magnificar los problemas numéricos.

En el caso de un sistema lineal indeterminado, o de una matriz que no es invertible , la descomposición en valores singulares (SVD) es igualmente útil. Con A factorizada como U Σ V T , una solución satisfactoria utiliza el pseudoinverso de Moore-Penrose , V Σ + U T , donde Σ + simplemente reemplaza cada entrada diagonal distinta de cero con su recíproco. Establezca x en V Σ + U T b .

El caso de una matriz cuadrada invertible también resulta interesante. Supongamos, por ejemplo, que A es una matriz de rotación de 3 × 3 que se ha calculado como la composición de numerosos giros y vueltas. El punto flotante no coincide con el ideal matemático de los números reales, por lo que A ha perdido gradualmente su verdadera ortogonalidad. Un proceso de Gram-Schmidt podría ortogonalizar las columnas, pero no es el método más confiable, ni el más eficiente, ni el más invariante. La descomposición polar factoriza una matriz en un par, uno de los cuales es la única matriz ortogonal más cercana a la matriz dada, o una de las más cercanas si la matriz dada es singular. (La cercanía se puede medir mediante cualquier norma matricial invariante bajo un cambio de base ortogonal, como la norma espectral o la norma de Frobenius). Para una matriz casi ortogonal, se puede lograr una rápida convergencia al factor ortogonal mediante un " método de Newton " . enfoque debido a Higham (1986) (1990), promediando repetidamente la matriz con su transpuesta inversa. Dubrulle (1999) ha publicado un método acelerado con una conveniente prueba de convergencia.

Por ejemplo, considere una matriz no ortogonal para la cual el algoritmo de promediado simple requiere siete pasos.

γ

Gram-Schmidt produce una solución inferior, mostrada por una distancia de Frobenius de 8,28659 en lugar del mínimo 8,12404.

Aleatorización

Algunas aplicaciones numéricas, como los métodos de Monte Carlo y la exploración de espacios de datos de alta dimensión, requieren la generación de matrices ortogonales aleatorias distribuidas uniformemente . En este contexto, "uniforme" se define en términos de medida de Haar , que esencialmente requiere que la distribución no cambie si se multiplica por cualquier matriz ortogonal elegida libremente. La ortogonalización de matrices con entradas aleatorias independientes distribuidas uniformemente no da como resultado matrices ortogonales distribuidas uniformemente [ cita necesaria ] , pero la descomposición QR de entradas aleatorias independientes distribuidas normalmente sí lo hace, siempre que la diagonal de R contenga solo entradas positivas (Mezzadri 2006). Stewart (1980) reemplazó esto con una idea más eficiente que Diaconis y Shahshahani (1987) generalizaron más tarde como el "algoritmo de subgrupo" (en cuya forma funciona igual de bien para permutaciones y rotaciones). Para generar una matriz ortogonal ( n + 1) × ( n + 1 ) , tome una n × n y un vector unitario distribuido uniformemente de dimensión n + 1 . Construya una reflexión de Householder a partir del vector, luego aplíquela a la matriz más pequeña (incrustada en el tamaño más grande con un 1 en la esquina inferior derecha).

Matriz ortogonal más cercana

El problema de encontrar la matriz ortogonal Q más cercana a una matriz M dada está relacionado con el problema de Procrustes ortogonal . Hay varias formas diferentes de obtener la solución única, la más simple de las cuales es tomar la descomposición del valor singular de M y reemplazar los valores singulares por unos. Otro método expresa R explícitamente pero requiere el uso de una matriz de raíz cuadrada : [2]

Esto se puede combinar con el método babilónico para extraer la raíz cuadrada de una matriz para obtener una recurrencia que converge cuadráticamente a una matriz ortogonal:

Q 0 = M

Estas iteraciones son estables siempre que el número de condición de M sea menor que tres. [3]

Usando una aproximación de primer orden de la inversa y la misma inicialización se obtiene la iteración modificada:

Girar y fijar

Un problema técnico sutil afecta a algunos usos de matrices ortogonales. No sólo los componentes del grupo con determinante +1 y −1 no están conectados entre sí, sino que incluso el componente +1, SO( n ) , no está simplemente conectado (excepto SO(1), que es trivial). Por lo tanto, a veces es ventajoso, o incluso necesario, trabajar con un grupo de cobertura de SO( n ), el grupo de espín , Spin( n ) . Asimismo, O( n ) tiene grupos de cobertura, los grupos de pines , Pin( n ). Para n > 2 , Spin( n ) es simplemente conexo y, por lo tanto, es el grupo de cobertura universal para SO( n ) . Con diferencia, el ejemplo más famoso de grupo de espín es Spin(3) , que no es más que SU(2) , o el grupo de cuaterniones unitarios .

Los grupos Pin y Spin se encuentran dentro de las álgebras de Clifford , que a su vez pueden construirse a partir de matrices ortogonales.

Matrices rectangulares

Si Q no es una matriz cuadrada, entonces las condiciones Q T Q = I y QQ T = I no son equivalentes. La condición Q T Q = I dice que las columnas de Q son ortonormales. Esto sólo puede suceder si Q es una matriz m × n con nm (debido a la dependencia lineal). De manera similar, QQ T = I dice que las filas de Q son ortonormales, lo que requiere nm .

No existe una terminología estándar para estas matrices. Se les llama de diversas formas "matrices semiortogonales", "matrices ortonormales", "matrices ortogonales" y, a veces, simplemente "matrices con filas/columnas ortonormales".

Para el caso nm , las matrices con columnas ortonormales pueden denominarse marcos k ortogonales y son elementos de la variedad de Stiefel .

Ver también

Notas

  1. ^ "Notas de matemáticas en línea de Paul" [ se necesita cita completa ] , Paul Dawkins, Universidad Lamar , 2008. Teorema 3 (c)
  2. ^ "Encontrar la matriz ortonormal más cercana", Berthold KP Horn , MIT .
  3. ^ "Método de Newton para la raíz cuadrada de la matriz" Archivado el 29 de septiembre de 2011 en Wayback Machine , Nicholas J. Higham, Matemáticas de la Computación, Volumen 46, Número 174, 1986.

Referencias

enlaces externos