En álgebra lineal , el teorema de Cayley-Hamilton (llamado así por los matemáticos Arthur Cayley y William Rowan Hamilton ) establece que cada matriz cuadrada sobre un anillo conmutativo (como los números reales o complejos o los enteros ) satisface su propia ecuación característica .
El polinomio característico de una matriz A de n × n se define como [5] , donde det es la operación determinante , λ es un elemento escalar variable del anillo base , e I n es la matriz identidad de n × n . Dado que cada entrada de la matriz es constante o lineal en λ , el determinante de es un polinomio mónico de grado n en λ , por lo que se puede escribir como Al reemplazar la variable escalar λ con la matriz A , se puede definir una expresión polinómica matricial análoga , (Aquí, es la matriz dada, no una variable, a diferencia de , por lo que es una constante en lugar de una función). El teorema de Cayley-Hamilton establece que esta expresión polinómica es igual a la matriz cero , lo que quiere decir que , es decir, el polinomio característico es un polinomio aniquilador para
Un uso del teorema de Cayley-Hamilton es que permite expresar A n como una combinación lineal de las potencias matriciales inferiores de A : Cuando el anillo es un campo , el teorema de Cayley-Hamilton es equivalente a la afirmación de que el polinomio mínimo de una matriz cuadrada divide su polinomio característico.
Un caso especial del teorema fue demostrado por primera vez por Hamilton en 1853 [6] en términos de inversas de funciones lineales de cuaterniones . [2] [3] [4] Esto corresponde al caso especial de ciertas matrices reales de 4 × 4 o complejas de 2 × 2. Cayley en 1858 estableció el resultado para matrices de 3 × 3 y menores, pero sólo publicó una prueba para el caso de 2 × 2. [7] [8] En cuanto a las matrices de n × n , Cayley afirmó “..., no he creído necesario emprender el trabajo de una prueba formal del teorema en el caso general de una matriz de cualquier grado”. El caso general fue demostrado por primera vez por Ferdinand Frobenius en 1878. [9]
Para una matriz 1 × 1 A = ( a ) , el polinomio característico está dado por p ( λ ) = λ − a , y por lo tanto p ( A ) = ( a ) − a (1) = 0 es trivial.
Como ejemplo concreto, sea Su polinomio característico está dado por
El teorema de Cayley-Hamilton afirma que, si definimos entonces Podemos verificar mediante cálculo que, de hecho,
Para una matriz genérica de 2 × 2 ,
El polinomio característico está dado por p ( λ ) = λ 2 − ( a + d ) λ + ( ad − bc ) , por lo que el teorema de Cayley-Hamilton establece que, lo cual de hecho siempre es así, como se evidencia al calcular las entradas de A 2 .
Para una matriz invertible general n × n A , es decir, una con determinante distinto de cero, A −1 puede escribirse como una expresión polinomial de orden ( n − 1) en A : Como se indicó, el teorema de Cayley-Hamilton equivale a la identidad
Los coeficientes c i están dados por los polinomios simétricos elementales de los valores propios de A . Utilizando las identidades de Newton , los polinomios simétricos elementales pueden a su vez expresarse en términos de polinomios simétricos de suma de potencias de los valores propios: donde tr( A k ) es la traza de la matriz A k . Por lo tanto, podemos expresar c i en términos de la traza de potencias de A .
En general, la fórmula para los coeficientes c i se da en términos de polinomios de Bell exponenciales completos como [nb 1]
En particular, el determinante de A es igual a (−1) n c 0 . Por lo tanto, el determinante puede escribirse como la identidad de traza :
De la misma manera, el polinomio característico se puede escribir como y, al multiplicar ambos lados por A −1 (nota −(−1) n = (−1) n −1 ), se llega a una expresión para la inversa de A como una identidad de traza,
Otro método para obtener estos coeficientes c k para una matriz general n × n , siempre que ninguna raíz sea cero, se basa en la siguiente expresión alternativa para el determinante , Por lo tanto, en virtud de la serie de Mercator , donde la exponencial solo necesita expandirse al orden λ − n , ya que p ( λ ) es de orden n , las potencias negativas netas de λ se desvanecen automáticamente por el teorema C–H. (De nuevo, esto requiere un anillo que contenga los números racionales ). La diferenciación de esta expresión con respecto a λ permite expresar los coeficientes del polinomio característico para n general como determinantes de matrices m × m , [nb 2]
Por ejemplo, los primeros polinomios de Bell son B 0 = 1, B 1 ( x 1 ) = x 1 , B 2 ( x 1 , x 2 ) = x2
1+ x 2 , y B 3 ( x 1 , x 2 , x 3 ) = x3
1+ 3 x 1 x 2 + x 3 .
Al utilizar estos para especificar los coeficientes c i del polinomio característico de una matriz de 2 × 2 se obtiene
El coeficiente c 0 da el determinante de la matriz 2 × 2 , c 1 menos su traza, mientras que su inversa está dada por
De la fórmula general para c n − k , expresada en términos de polinomios de Bell, se desprende que las expresiones
siempre dan los coeficientes c n −1 de λ n −1 y c n −2 de λ n −2 en el polinomio característico de cualquier matriz n × n , respectivamente. Entonces, para una matriz 3 × 3 A , el enunciado del teorema de Cayley-Hamilton también se puede escribir como donde el lado derecho designa una matriz 3 × 3 con todas las entradas reducidas a cero. Asimismo, este determinante en el caso n = 3 , es ahora Esta expresión da el negativo del coeficiente c n −3 de λ n −3 en el caso general, como se ve a continuación.
De manera similar, se puede escribir para una matriz A de 4 × 4 ,
donde, ahora, el determinante es c n −4 ,
y así sucesivamente para matrices mayores. Las expresiones cada vez más complejas para los coeficientes c k se pueden deducir de las identidades de Newton o del algoritmo de Faddeev–LeVerrier .
El teorema de Cayley-Hamilton siempre proporciona una relación entre las potencias de A (aunque no siempre la más simple), lo que permite simplificar expresiones que involucran dichas potencias y evaluarlas sin tener que calcular la potencia A n o cualquier potencia superior de A .
A modo de ejemplo, para el teorema se obtiene
Luego, para calcular A 4 , observe De manera similar,
Observe que hemos podido escribir la potencia matricial como la suma de dos términos. De hecho, la potencia matricial de cualquier orden k puede escribirse como un polinomio matricial de grado n − 1 como máximo , donde n es el tamaño de una matriz cuadrada. Este es un caso en el que el teorema de Cayley-Hamilton puede utilizarse para expresar una función matricial, que analizaremos a continuación de forma sistemática.
Dada una función analítica y el polinomio característico p ( x ) de grado n de una matriz n × n A , la función puede expresarse usando división larga como donde q ( x ) es un polinomio cociente y r ( x ) es un polinomio resto tal que 0 ≤ deg r ( x ) < n .
Por el teorema de Cayley-Hamilton, al reemplazar x por la matriz A se obtiene p ( A ) = 0 , por lo que se tiene
Así, la función analítica de la matriz A puede expresarse como un polinomio matricial de grado menor que n .
Sea el polinomio restante Dado que p ( λ ) = 0 , evaluar la función f ( x ) en los n valores propios de A da como resultado Esto equivale a un sistema de n ecuaciones lineales , que se pueden resolver para determinar los coeficientes c i . Por lo tanto, se tiene
Cuando los valores propios se repiten, es decir, λ i = λ j para algún i ≠ j , dos o más ecuaciones son idénticas; y por lo tanto, las ecuaciones lineales no se pueden resolver de forma única. Para tales casos, para un valor propio λ con multiplicidad m , las primeras m – 1 derivadas de p ( x ) se anulan en el valor propio. Esto conduce a las m – 1 soluciones linealmente independientes adicionales que, combinadas con otras, producen las n ecuaciones requeridas para resolver c i .
Encontrar un polinomio que pase por los puntos ( λ i , f ( λ i )) es esencialmente un problema de interpolación , y puede resolverse utilizando técnicas de interpolación de Lagrange o Newton , lo que conduce a la fórmula de Sylvester .
Por ejemplo, supongamos que la tarea es encontrar la representación polinomial de
El polinomio característico es p ( x ) = ( x − 1)( x − 3) = x 2 − 4 x + 3 , y los valores propios son λ = 1, 3 . Sea r ( x ) = c 0 + c 1 x . Evaluando f ( λ ) = r ( λ ) en los valores propios, se obtienen dos ecuaciones lineales, e t = c 0 + c 1 y e 3 t = c 0 + 3 c 1 .
Resolviendo las ecuaciones se obtiene c 0 = (3 e t − e 3 t )/2 y c 1 = ( e 3 t − e t )/2 . Por lo tanto, se deduce que
Si, en cambio, la función fuera f ( A ) = sen At , entonces los coeficientes habrían sido c 0 = (3 sen t − sen 3 t )/2 y c 1 = (sen 3 t − sen t )/2 ; por lo tanto
Como ejemplo adicional, al considerar entonces que el polinomio característico es p ( x ) = x 2 + 1 , y los valores propios son λ = ± i .
Como antes, evaluar la función en los valores propios nos da las ecuaciones lineales e it = c 0 + ic 1 y e − it = c 0 − ic 1 ; cuya solución da, c 0 = ( e it + e − it )/2 = cos t y c 1 = ( e it − e − it )/2 i = sen t . Por lo tanto, para este caso, que es una matriz de rotación .
Ejemplos estándar de tal uso son el mapa exponencial del álgebra de Lie de un grupo de Lie de matrices en el grupo. Está dado por una exponencial matricial , Tales expresiones se conocen desde hace mucho tiempo para SU(2) , donde σ son las matrices de Pauli y para SO(3) , que es la fórmula de rotación de Rodrigues . Para la notación, consulte Grupo de rotación 3D # Una nota sobre las álgebras de Lie .
Más recientemente, han aparecido expresiones para otros grupos, como el grupo de Lorentz SO(3, 1) , [10] O(4, 2) [11] y SU(2, 2) , [12] así como GL( n , R ) . [13] El grupo O(4, 2) es el grupo conforme del espacio-tiempo , SU(2, 2) su cubierta simplemente conexa (para ser precisos, la cubierta simplemente conexa del componente conexo SO + (4, 2) de O(4, 2) ). Las expresiones obtenidas se aplican a la representación estándar de estos grupos. Requieren el conocimiento de (algunos de) los valores propios de la matriz para exponenciar. Para SU(2) (y por lo tanto para SO(3) ), se han obtenido expresiones cerradas para todas las representaciones irreducibles, es decir, de cualquier espín. [14]
El teorema de Cayley-Hamilton es una herramienta eficaz para calcular el polinomio mínimo de los números enteros algebraicos . Por ejemplo, dada una extensión finita de y un número entero algebraico que es una combinación lineal distinta de cero de , podemos calcular el polinomio mínimo de encontrando una matriz que represente la transformación lineal - . Si llamamos a esta matriz de transformación , entonces podemos encontrar el polinomio mínimo aplicando el teorema de Cayley-Hamilton a . [15]
El teorema de Cayley-Hamilton es una consecuencia inmediata de la existencia de la forma normal de Jordan para matrices sobre cuerpos algebraicamente cerrados , véase Forma normal de Jordan § Teorema de Cayley-Hamilton . En esta sección se presentan demostraciones directas.
Como muestran los ejemplos anteriores, obtener el enunciado del teorema de Cayley-Hamilton para una matriz n × n
requiere dos pasos: primero se determinan los coeficientes c i del polinomio característico mediante el desarrollo como polinomio en t del determinante
y luego estos coeficientes se utilizan en una combinación lineal de potencias de A que se equipara a la matriz cero n × n :
El lado izquierdo puede calcularse como una matriz n × n cuyas entradas son expresiones polinómicas (enormes) en el conjunto de entradas a i , j de A , por lo que el teorema de Cayley-Hamilton establece que cada una de estas n 2 expresiones es igual a 0 . Para cualquier valor fijo de n , estas identidades pueden obtenerse mediante manipulaciones algebraicas tediosas pero sencillas. Sin embargo, ninguno de estos cálculos puede mostrar por qué el teorema de Cayley-Hamilton debería ser válido para matrices de todos los tamaños posibles n , por lo que se necesita una prueba uniforme para todos los n .
Si un vector v de tamaño n es un vector propio de A con valor propio λ , en otras palabras si A ⋅ v = λv , entonces que es el vector cero ya que p ( λ ) = 0 (los valores propios de A son precisamente las raíces de p ( t ) ). Esto es válido para todos los posibles valores propios λ , por lo que las dos matrices igualadas por el teorema ciertamente dan el mismo resultado (nulo) cuando se aplican a cualquier vector propio. Ahora bien, si A admite una base de vectores propios, en otras palabras si A es diagonalizable , entonces el teorema de Cayley-Hamilton debe ser válido para A , ya que dos matrices que dan los mismos valores cuando se aplican a cada elemento de una base deben ser iguales.
Consideremos ahora la función que asigna matrices n × n a matrices n × n dadas por la fórmula , es decir, que toma una matriz y la sustituye en su propio polinomio característico. No todas las matrices son diagonalizables, pero para matrices con coeficientes complejos muchas de ellas lo son: el conjunto de matrices cuadradas complejas diagonalizables de un tamaño dado es denso en el conjunto de todas esas matrices cuadradas [16] (para que una matriz sea diagonalizable basta, por ejemplo, que su polinomio característico no tenga raíces múltiples ). Ahora, vista como una función (ya que las matrices tienen entradas), vemos que esta función es continua . Esto es cierto porque las entradas de la imagen de una matriz están dadas por polinomios en las entradas de la matriz. Como
y como el conjunto es denso, por continuidad esta función debe mapear todo el conjunto de matrices n × n a la matriz cero. Por lo tanto, el teorema de Cayley-Hamilton es cierto para números complejos y, por lo tanto, también debe cumplirse para matrices con valores - o - .
Aunque esto proporciona una prueba válida, el argumento no es muy satisfactorio, ya que las identidades representadas por el teorema no dependen en modo alguno de la naturaleza de la matriz (diagonalizable o no), ni del tipo de entradas permitidas (para matrices con entradas reales las diagonalizables no forman un conjunto denso, y parece extraño que uno tendría que considerar matrices complejas para ver que el teorema de Cayley-Hamilton se cumple para ellas). Por lo tanto, ahora consideraremos solo argumentos que prueban el teorema directamente para cualquier matriz usando solo manipulaciones algebraicas; estos también tienen el beneficio de funcionar para matrices con entradas en cualquier anillo conmutativo .
Existe una gran variedad de demostraciones del teorema de Cayley-Hamilton, de las cuales se darán aquí varias. Varían en la cantidad de nociones algebraicas abstractas requeridas para comprender la demostración. Las demostraciones más simples utilizan sólo aquellas nociones necesarias para formular el teorema (matrices, polinomios con entradas numéricas, determinantes), pero implican cálculos técnicos que hacen un tanto misterioso el hecho de que conduzcan precisamente a la conclusión correcta. Es posible evitar tales detalles, pero al precio de involucrar nociones algebraicas más sutiles: polinomios con coeficientes en un anillo no conmutativo, o matrices con tipos inusuales de entradas.
Todas las demostraciones siguientes utilizan la noción de matriz adjunta adj( M ) de una matriz n × n M , la transpuesta de su matriz cofactor . Esta es una matriz cuyos coeficientes están dados por expresiones polinómicas en los coeficientes de M (de hecho, por ciertos determinantes ( n − 1) × ( n − 1) ), de tal manera que se cumplen las siguientes relaciones fundamentales, Estas relaciones son una consecuencia directa de las propiedades básicas de los determinantes: la evaluación de la entrada ( i , j ) del producto matricial de la izquierda da la expansión por la columna j del determinante de la matriz obtenida de M reemplazando la columna i por una copia de la columna j , que es det( M ) si i = j y cero en caso contrario; el producto matricial de la derecha es similar, pero para expansiones por filas.
Al ser una consecuencia de la manipulación de expresiones algebraicas, estas relaciones son válidas para matrices con entradas en cualquier anillo conmutativo (se debe suponer la conmutatividad para que se definan los determinantes en primer lugar). Es importante tener esto en cuenta aquí, porque estas relaciones se aplicarán a continuación para matrices con entradas no numéricas, como polinomios.
Esta demostración utiliza precisamente el tipo de objetos necesarios para formular el teorema de Cayley-Hamilton: matrices con polinomios como entradas. La matriz t I n − A cuyo determinante es el polinomio característico de A es una matriz de este tipo, y como los polinomios forman un anillo conmutativo, tiene un adjunto. Entonces, de acuerdo con la relación fundamental de la derecha del adjunto, se tiene
Como B también es una matriz con polinomios en t como entradas, se pueden, para cada i , recolectar los coeficientes de t i en cada entrada para formar una matriz B i de números, de modo que se tenga (La forma en que se definen las entradas de B deja en claro que no se dan potencias mayores que t n −1 ). Si bien esto parece un polinomio con matrices como coeficientes, no consideraremos tal noción; es solo una forma de escribir una matriz con entradas polinómicas como una combinación lineal de n matrices constantes, y el coeficiente t i se ha escrito a la izquierda de la matriz para enfatizar este punto de vista.
Ahora, uno puede expandir el producto matricial en nuestra ecuación por bilinealidad:
Escribiendo se obtiene una igualdad de dos matrices con entradas polinómicas, escritas como combinaciones lineales de matrices constantes con potencias de t como coeficientes.
Tal igualdad sólo puede cumplirse si en cualquier posición de la matriz la entrada que se multiplica por una potencia dada t i es la misma en ambos lados; de ello se deduce que las matrices constantes con coeficiente t i en ambas expresiones deben ser iguales. Escribiendo entonces estas ecuaciones para i desde n hasta 0, se encuentra
Finalmente, multiplica la ecuación de los coeficientes de t i desde la izquierda por A i , y suma:
Los lados izquierdos forman una suma telescópica y se cancelan completamente; los lados derechos suman : Esto completa la prueba.
Esta demostración es similar a la primera, pero intenta dar sentido a la noción de polinomio con coeficientes matriciales que se sugirió a partir de las expresiones que aparecen en esa demostración. Esto requiere mucho cuidado, ya que es algo inusual considerar polinomios con coeficientes en un anillo no conmutativo, y no todo el razonamiento que es válido para polinomios conmutativos puede aplicarse en este contexto.
Cabe destacar que, mientras que la aritmética de polinomios sobre un anillo conmutativo modela la aritmética de funciones polinómicas , esto no sucede sobre un anillo no conmutativo (de hecho, no hay una noción obvia de función polinómica en este caso que esté cerrada bajo la multiplicación). Por lo tanto, cuando se consideran polinomios en t con coeficientes matriciales, la variable t no debe considerarse como una "incógnita", sino como un símbolo formal que debe manipularse de acuerdo con reglas dadas; en particular, no se puede simplemente fijar t en un valor específico.
Sea el anillo de matrices n × n con elementos en algún anillo R (como los números reales o complejos) que tiene como elemento a A. Las matrices con polinomios en t como coeficientes , como o su adjunto B en la primera demostración, son elementos de .
Al reunir potencias iguales de t , dichas matrices se pueden escribir como "polinomios" en t con matrices constantes como coeficientes; escriba para el conjunto de dichos polinomios. Dado que este conjunto está en biyección con , se definen operaciones aritméticas sobre él correspondientemente, en particular la multiplicación se da respetando el orden de las matrices de coeficientes de los dos operandos; obviamente esto da una multiplicación no conmutativa.
Por lo tanto, la identidad de la primera prueba puede verse como una que implica una multiplicación de elementos en .
En este punto, es tentador simplemente establecer t igual a la matriz A , lo que hace que el primer factor de la izquierda sea igual a la matriz cero, y el lado derecho igual a p ( A ) ; sin embargo, esta no es una operación permitida cuando los coeficientes no conmutan. Es posible definir un "mapa de evaluación derecha" ev A : M [ t ] → M , que reemplaza cada t i por la potencia matricial A i de A , donde se estipula que la potencia siempre se debe multiplicar a la derecha por el coeficiente correspondiente. Pero este mapa no es un homomorfismo de anillo : la evaluación derecha de un producto difiere en general del producto de las evaluaciones derechas. Esto es así porque la multiplicación de polinomios con coeficientes matriciales no modela la multiplicación de expresiones que contienen incógnitas: un producto se define asumiendo que t conmuta con N , pero esto puede fallar si t se reemplaza por la matriz A .
Se puede evitar esta dificultad en la situación particular que nos ocupa, ya que el mapa de evaluación derecha anterior se convierte en un homomorfismo de anillo si la matriz A está en el centro del anillo de coeficientes, de modo que conmuta con todos los coeficientes de los polinomios (el argumento que prueba esto es sencillo, precisamente porque conmutar t con coeficientes ahora está justificado después de la evaluación).
Ahora bien, A no siempre está en el centro de M , pero podemos reemplazar M por un anillo más pequeño siempre que contenga todos los coeficientes de los polinomios en cuestión: , A , y los coeficientes del polinomio B . La elección obvia para dicho subanillo es el centralizador Z de A , el subanillo de todas las matrices que conmutan con A ; por definición, A está en el centro de Z .
Obviamente, este centralizador contiene , y A , pero hay que demostrar que contiene las matrices . Para ello, se combinan las dos relaciones fundamentales para los adjuntos, escribiendo el adjunto B como un polinomio:
Igualando los coeficientes se muestra que para cada i , tenemos AB i = B i A como se deseaba. Una vez encontrado el ajuste adecuado en el que ev A es de hecho un homomorfismo de anillos, se puede completar la prueba como se sugirió anteriormente: Esto completa la prueba.
En la primera demostración, se pudieron determinar los coeficientes B i de B basándose en la relación fundamental de la derecha solo para el adjunto. De hecho, las primeras n ecuaciones derivadas pueden interpretarse como la determinación del cociente B de la división euclidiana del polinomio p ( t ) I n a la izquierda por el polinomio mónico I n t − A , mientras que la ecuación final expresa el hecho de que el resto es cero. Esta división se realiza en el anillo de polinomios con coeficientes matriciales. De hecho, incluso sobre un anillo no conmutativo, la división euclidiana por un polinomio mónico P está definida, y siempre produce un cociente y un resto únicos con la misma condición de grado que en el caso conmutativo, siempre que se especifique en qué lado se desea que P sea un factor (aquí es a la izquierda).
Para ver que el cociente y el resto son únicos (que es la parte importante del enunciado aquí), basta escribir como y observar que como P es mónico, P ( Q − Q ′) no puede tener un grado menor que el de P , a menos que Q = Q ′ .
Pero el dividendo p ( t ) I n y el divisor I n t − A utilizados aquí se encuentran ambos en el subanillo ( R [ A ])[ t ] , donde R [ A ] es el subanillo del anillo de matrices M ( n , R ) generado por A : el espacio R -lineal de todas las potencias de A . Por lo tanto, la división euclidiana se puede realizar de hecho dentro de ese anillo polinomial conmutativo , y por supuesto da entonces el mismo cociente B y resto 0 que en el anillo más grande; en particular, esto muestra que B de hecho se encuentra en ( R [ A ])[ t ] .
Pero, en este contexto conmutativo, es válido fijar t en A en la ecuación
en otras palabras, aplicar el mapa de evaluación
que es un homomorfismo de anillo, dando
Tal como en la segunda prueba, como se deseaba.
Además de demostrar el teorema, el argumento anterior nos dice que los coeficientes B i de B son polinomios en A , mientras que de la segunda prueba solo sabíamos que se encuentran en el centralizador Z de A ; en general, Z es un subanillo más grande que R [ A ] , y no necesariamente conmutativo. En particular, el término constante B 0 = adj(− A ) se encuentra en R [ A ] . Dado que A es una matriz cuadrada arbitraria, esto demuestra que adj( A ) siempre se puede expresar como un polinomio en A (con coeficientes que dependen de A ) .
De hecho, las ecuaciones encontradas en la primera demostración permiten expresar sucesivamente como polinomios en A , lo que conduce a la identidad
válido para todas las matrices n × n , donde es el polinomio característico de A .
Nótese que esta identidad también implica el enunciado del teorema de Cayley-Hamilton: uno puede mover adj(− A ) al lado derecho, multiplicar la ecuación resultante (a la izquierda o a la derecha) por A , y usar el hecho de que
Como se mencionó anteriormente, la matriz p ( A ) en el enunciado del teorema se obtiene evaluando primero el determinante y luego sustituyendo la matriz A por t ; hacer esa sustitución en la matriz antes de evaluar el determinante no tiene sentido. Sin embargo, es posible dar una interpretación donde p ( A ) se obtiene directamente como el valor de un determinado determinante, pero esto requiere una configuración más complicada, una de matrices sobre un anillo en el que se pueden interpretar tanto las entradas de A como la totalidad de A en sí. Se podría tomar para esto el anillo M ( n , R ) de matrices n × n sobre R , donde la entrada se realiza como , y A como sí misma. Pero considerar matrices con matrices como entradas podría causar confusión con matrices de bloques , lo cual no es la intención, ya que da la noción incorrecta de determinante (recuerde que el determinante de una matriz se define como una suma de productos de sus entradas, y en el caso de una matriz de bloques esto generalmente no es lo mismo que la suma correspondiente de productos de sus bloques). Es más claro distinguir A del endomorfismo φ de un espacio vectorial n - dimensional V (o módulo R libre si R no es un cuerpo) definido por él en una base , y tomar matrices sobre el anillo End( V ) de todos esos endomorfismos. Entonces φ ∈ End( V ) es una posible entrada de matriz, mientras que A designa el elemento de M ( n , End( V )) cuya entrada i , j es el endomorfismo de la multiplicación escalar por ; de manera similar se interpretará como elemento de M ( n , End( V )) . Sin embargo, dado que End( V ) no es un anillo conmutativo, no se define ningún determinante en M ( n , End( V )) ; esto solo se puede hacer para matrices sobre un subanillo conmutativo de End( V ) . Ahora todas las entradas de la matriz se encuentran en el subanillo R [ φ ] generado por la identidad y φ , que es conmutativa. Luegose define una función determinante M ( n , R [ φ ]) → R [ φ ] , y se evalúa como el valor p ( φ ) del polinomio característico de A en φ (esto se cumple independientemente de la relación entre A y φ ); el teorema de Cayley-Hamilton establece que p ( φ ) es el endomorfismo nulo.
En esta forma, la siguiente prueba puede obtenerse de la de Atiyah y MacDonald (1969, Prop. 2.4) (que de hecho es la afirmación más general relacionada con el lema de Nakayama ; se toma por ideal en esa proposición todo el anillo R ). El hecho de que A sea la matriz de φ en la base e 1 , ..., e n significa que Uno puede interpretar estos como n componentes de una ecuación en V n , cuyos miembros pueden escribirse utilizando el producto matriz-vector M ( n , End( V )) × V n → V n que se define como de costumbre, pero con las entradas individuales ψ ∈ End( V ) y v en V que se "multiplican" formando ; esto da: donde es el elemento cuyo componente i es e i (en otras palabras, es la base e 1 , ..., e n de V escrita como una columna de vectores). Al escribir esta ecuación como se reconoce la transpuesta de la matriz considerada anteriormente, y su determinante (como elemento de M ( n , R [ φ ])) es también p ( φ ). Para derivar de esta ecuación que p ( φ ) = 0 ∈ End( V ) , se multiplica por la izquierda por la matriz adjunta de , que está definida en el anillo de matrices M ( n , R [ φ ]) , obteniéndose que la asociatividad de la multiplicación matriz-matriz y matriz-vector utilizada en el primer paso es una propiedad puramente formal de esas operaciones, independiente de la naturaleza de las entradas. Ahora bien, el componente i de esta ecuación dice que p ( φ )( e i ) = 0 ∈ V ; por tanto, p ( φ ) se anula en todos los e i , y puesto que estos elementos generan V se sigue que p ( φ ) = 0 ∈ End( V ), completando la prueba.
Un hecho adicional que se desprende de esta prueba es que la matriz A cuyo polinomio característico se toma no necesita ser idéntica al valor φ sustituido en ese polinomio; basta con que φ sea un endomorfismo de V que satisfaga las ecuaciones iniciales.
para alguna secuencia de elementos e 1 , ..., e n que generan V (cuyo espacio podría tener una dimensión menor que n , o en caso de que el anillo R no sea un campo podría no ser un módulo libre en absoluto).
Un argumento elemental persistente pero incorrecto [17] para el teorema es "simplemente" tomar la definición y sustituir A por λ , obteniendo
Hay muchas maneras de ver por qué este argumento es erróneo. Primero, en el teorema de Cayley-Hamilton, p ( A ) es una matriz n × n . Sin embargo, el lado derecho de la ecuación anterior es el valor de un determinante, que es un escalar . Por lo tanto, no se pueden igualar a menos que n = 1 (es decir, A es solo un escalar). Segundo, en la expresión , la variable λ en realidad aparece en las entradas diagonales de la matriz . Para ilustrarlo, considere nuevamente el polinomio característico en el ejemplo anterior:
Si se sustituye toda la matriz A por λ en esas posiciones, se obtiene
en el que la expresión "matriz" simplemente no es válida. Sin embargo, tenga en cuenta que si se restan múltiplos escalares de matrices identidad en lugar de escalares en lo anterior, es decir, si la sustitución se realiza como
entonces el determinante es de hecho cero, pero la matriz expandida en cuestión no evalúa a ; ni su determinante (un escalar) puede compararse con p ( A ) (una matriz). Por lo tanto, el argumento que sigue sin aplicarse.
En realidad, si tal argumento es válido, también debería ser válido cuando se utilizan otras formas multilineales en lugar del determinante. Por ejemplo, si consideramos la función permanente y definimos , entonces, mediante el mismo argumento, deberíamos poder "probar" que q ( A ) = 0 . Pero esta afirmación es demostrablemente errónea: en el caso bidimensional, por ejemplo, la permanente de una matriz está dada por
Entonces, para la matriz A en el ejemplo anterior,
Sin embargo, se puede verificar que
Una de las demostraciones del teorema de Cayley-Hamilton anterior guarda cierta similitud con el argumento de que . Al introducir una matriz con coeficientes no numéricos, se puede dejar que A viva dentro de una entrada de la matriz, pero entonces no es igual a A y se llega a una conclusión diferente.
Gatto y Salehyan (2016, §4) han utilizado las propiedades básicas de las derivaciones de Hasse-Schmidt en el álgebra exterior de algún B - módulo M (que se supone libre y de rango finito) para demostrar el teorema de Cayley-Hamilton. Véase también Gatto y Scherbak (2015).
Straubing [18] proporcionó una prueba basada en el desarrollo de la fórmula de Leibniz para el polinomio característico y una generalización utilizando la teoría de monoides traza de Foata y Cartier.
Las pruebas anteriores muestran que el teorema de Cayley-Hamilton se cumple para matrices con entradas en cualquier anillo conmutativo R , y que p ( φ ) = 0 se cumplirá siempre que φ sea un endomorfismo de un R -módulo generado por elementos e 1 ,..., e n que satisfaga
Esta versión más general del teorema es la fuente del célebre lema de Nakayama en álgebra conmutativa y geometría algebraica .
El teorema de Cayley-Hamilton también es válido para matrices sobre cuaterniones , un anillo no conmutativo . [19] [nb 3]
{{cite book}}
: CS1 maint: location missing publisher (link)