Teorema de Cayley-Hamilton

En álgebra lineal , el teorema de Cayley-Hamilton (llamado así por los matemáticos Arthur Cayley y William Rowan Hamilton ) establece que cada matriz cuadrada sobre un anillo conmutativo (como los números reales o complejos o los enteros ) satisface su propia ecuación característica .

El polinomio característico de una matriz $A de$ $n \times n$ se define como ^[5] , donde $det$ es la operación determinante , $λ$ es un elemento escalar variable del anillo base , e $I$ $n$ es la matriz identidad $de n$ $\times$ $n$ . Dado que cada entrada de la matriz es constante o lineal en $λ$ , el determinante de es un polinomio mónico $de$ grado n en $λ$ , por lo que se puede escribir como Al reemplazar la variable escalar $λ$ con la matriz $A$ , se puede definir una expresión polinómica matricial análoga , (Aquí, es la matriz dada, no una variable, a diferencia de , por lo que es una constante en lugar de una función). El teorema de Cayley-Hamilton establece que esta expresión polinómica es igual a la matriz cero , lo que quiere decir que , es decir, el polinomio característico es un polinomio aniquilador para $p_{A}(\lambda )=\det(\lambda I_{n}-A)$ $(\lambda I_{n}-A)$ $(\lambda I_{n}-A)$ $p_{A}(\lambda )=\lambda ^{n}+c_{n-1}\lambda ^{n-1}+\cdots +c_{1}\lambda +c_{0}.$ $p_{A}(A)=A^{n}+c_{n-1}A^{n-1}+\cdots +c_{1}A+c_{0}I_{n}.$ ${\estilo de visualización A}$ ${\estilo de visualización \lambda}$ $estilo de visualización p_{A}(A)}$ $p_{A}(A)=\mathbf {0};$ $estilo de visualización p_{A}}$ $A.$

Un uso del teorema de Cayley-Hamilton es que permite expresar $A$ ^$n$ como una combinación lineal de las potencias matriciales inferiores de $A$ : Cuando el anillo es un campo , el teorema de Cayley-Hamilton es equivalente a la afirmación de que el polinomio mínimo de una matriz cuadrada divide su polinomio característico. $A^{n}=-c_{n-1}A^{n-1}-\cdots -c_{1}A-c_{0}I_{n}.$

Un caso especial del teorema fue demostrado por primera vez por Hamilton en 1853 ^[6] en términos de inversas de funciones lineales de cuaterniones . ^[2]^[3]^[4] Esto corresponde al caso especial de ciertas matrices reales $de 4 \times 4 o complejas$ $de 2 \times 2.$ Cayley en 1858 estableció el resultado para matrices $de 3 \times 3$ y menores, pero sólo publicó una prueba para el caso de $2 \times 2.$ ^[7]^[8] En cuanto a las matrices $de n \times n$ , Cayley afirmó “..., no he creído necesario emprender el trabajo de una prueba formal del teorema en el caso general de una matriz de cualquier grado”. El caso general fue demostrado por primera vez por Ferdinand Frobenius en 1878. ^[9]

Ejemplos

1 × 1matrices

Para una matriz $1 \times 1$ $A = (a)$ , el polinomio característico está dado por $p (λ) = λ - a$ , y por lo tanto $p (A) = (a) - a (1) = 0$ es trivial.

2 × 2matrices

Como ejemplo concreto, sea Su polinomio característico está dado por $A={\begin{pmatrix}1&2\\3&4\end{pmatrix}}.$ ${\begin{aligned}p(\lambda )&=\det(\lambda I_{2}-A)=\det \!{\begin{pmatrix}\lambda -1&-2\\-3&\lambda -4\end{pmatrix}}\\&=(\lambda -1)(\lambda -4)-(-2)(-3)=\lambda ^{2}-5\lambda -2.\end{aligned}}$

El teorema de Cayley-Hamilton afirma que, si definimos entonces Podemos verificar mediante cálculo que, de hecho, $p(X)=X^{2}-5X-2I_{2},$ $p(A)=A^{2}-5A-2I_{2}={\begin{pmatrix}0&0\\0&0\\\end{pmatrix}}.$ $A^{2}-5A-2I_{2}={\begin{pmatrix}7&10\\15&22\\\end{pmatrix}}-{\begin{pmatrix}5&10\\15&20\\\end{pmatrix}}-{\begin{pmatrix}2&0\\0&2\\\end{pmatrix}}={\begin{pmatrix}0&0\\0&0\\\end{pmatrix}}.$

Para una matriz genérica $de 2 \times 2$ , $A={\begin{pmatrix}a&b\\c&d\\\end{pmatrix}},$

El polinomio característico está dado por $p (λ) = λ 2 - (a + d) λ + (ad - bc)$ , por lo que el teorema de Cayley-Hamilton establece que, lo cual de hecho siempre es así, como se evidencia al calcular las entradas de $A$ $2$ . $p(A)=A^{2}-(a+d)A+(ad-bc)I_{2}={\begin{pmatrix}0&0\\0&0\end{pmatrix}};$

Prueba

${\begin{aligned}&{}A^{2}-(a+d)A+(ad-bc)I_{2}\\[1ex]&={\begin{pmatrix}a^{2}+bc&ab+bd\\ac+cd&bc+d^{2}\\\end{pmatrix}}-{\begin{pmatrix}a(a+d)&b(a+d)\\c(a+d)&d(a+d)\end{pmatrix}}+(ad-bc)I_{2}\\[1ex]&={\begin{pmatrix}bc-ad&0\\0&bc-ad\\\end{pmatrix}}+(ad-bc)I_{2}\\[1ex]&={\begin{pmatrix}0&0\\0&0\end{pmatrix}}\end{aligned}}$

Aplicaciones

Matriz determinante e inversa

Para una matriz invertible general $n \times n$ $A$ , es decir, una con determinante distinto de cero, $A$ ⁻¹ puede escribirse como una expresión polinomial de orden $($ $n$ $- 1)$ en $A$ : Como se indicó, el teorema de Cayley-Hamilton equivale a la identidad

$p(A)=A^{n}+c_{n-1}A^{n-1}+\cdots +c_{1}A+(-1)^{n}\det(A)I_{n}=0.$

Los coeficientes $c i$ están dados por los polinomios simétricos elementales de los valores propios de $A$ . Utilizando las identidades de Newton , los polinomios simétricos elementales pueden a su vez expresarse en términos de polinomios simétricos de suma de potencias de los valores propios: donde $tr($ $A$ $k$ $)$ es la traza de la matriz $A$ $k$ . Por lo tanto, podemos expresar $c$ $i$ en términos de la traza de potencias de $A$ . $s_{k}=\sum _{i=1}^{n}\lambda _{i}^{k}=\operatorname {tr} (A^{k}),$

En general, la fórmula para los coeficientes $c i$ se da en términos de polinomios de Bell exponenciales completos como ^{[nb 1]} $c_{n-k}={\frac {(-1)^{k}}{k!}}B_{k}(s_{1},-1!s_{2},2!s_{3},\ldots ,(-1)^{k-1}(k-1)!s_{k}).$

En particular, el determinante de $A$ es igual a $(-1) n c 0$ . Por lo tanto, el determinante puede escribirse como la identidad de traza : $\det(A)={\frac {1}{n!}}B_{n}(s_{1},-1!s_{2},2!s_{3},\ldots ,(-1)^{n-1}(n-1)!s_{n}).$

De la misma manera, el polinomio característico se puede escribir como y, al multiplicar ambos lados por $A$ $-1$ (nota $-(-1)$ $n$ $= (-1)$ $n$ $-1$ ), se llega a una expresión para la inversa de $A$ como una identidad de traza, $-(-1)^{n}\det(A)I_{n}=A(A^{n-1}+c_{n-1}A^{n-2}+\cdots +c_{1}I_{n}),$ ${\begin{aligned}A^{-1}&={\frac {(-1)^{n-1}}{\det A}}(A^{n-1}+c_{n-1}A^{n-2}+\cdots +c_{1}I_{n}),\\[5pt]&={\frac {1}{\det A}}\sum _{k=0}^{n-1}(-1)^{n+k-1}{\frac {A^{n-k-1}}{k!}}B_{k}(s_{1},-1!s_{2},2!s_{3},\ldots ,(-1)^{k-1}(k-1)!s_{k}).\end{aligned}}$

Otro método para obtener estos coeficientes $c k$ para una matriz general $n \times n$ , siempre que ninguna raíz sea cero, se basa en la siguiente expresión alternativa para el determinante , Por lo tanto, en virtud de la serie de Mercator , donde la exponencial solo necesita expandirse al orden $λ$ $-$ $n$ , ya que $p$ $($ $λ$ $)$ es de orden $n$ , las potencias negativas netas de $λ$ se desvanecen automáticamente por el teorema C–H. (De nuevo, esto requiere un anillo que contenga los números racionales ). La diferenciación de esta expresión con respecto a $λ$ permite expresar los coeficientes del polinomio característico para $n$ general como determinantes de matrices $m$ $\times$ $m$ , ^{[nb 2]} $p(\lambda )=\det(\lambda I_{n}-A)=\lambda ^{n}\exp(\operatorname {tr} (\log(I_{n}-A/\lambda ))).$ $p(\lambda )=\lambda ^{n}\exp \left(-\operatorname {tr} \sum _{m=1}^{\infty }{({A \over \lambda })^{m} \over m}\right),$ $c_{n-m}={\frac {(-1)^{m}}{m!}}{\begin{vmatrix}\operatorname {tr} A&m-1&0&\cdots \\\operatorname {tr} A^{2}&\operatorname {tr} A&m-2&\cdots \\\vdots &\vdots &&&\vdots \\\operatorname {tr} A^{m-1}&\operatorname {tr} A^{m-2}&\cdots &\cdots &1\\\operatorname {tr} A^{m}&\operatorname {tr} A^{m-1}&\cdots &\cdots &\operatorname {tr} A\end{vmatrix}}~.$

Ejemplos

Por ejemplo, los primeros polinomios de Bell son $B 0$ = 1, $B 1 (x 1) = x 1$ , $B 2 (x 1, x 2) = x 21 + x 2$ , y $B 3 (x 1, x 2, x 3) = x 31 + 3 x 1 x 2 + x 3$ .

Al utilizar estos para especificar los coeficientes $c i$ del polinomio característico de una matriz de $2 \times 2 se obtiene$

${\begin{aligned}c_{2}=B_{0}=1,\\[4pt]c_{1}={\frac {-1}{1!}}B_{1}(s_{1})=-s_{1}=-\operatorname {tr} (A),\\[4pt]c_{0}={\frac {1}{2!}}B_{2}(s_{1},-1!s_{2})={\frac {1}{2}}(s_{1}^{2}-s_{2})={\frac {1}{2}}((\operatorname {tr} (A))^{2}-\operatorname {tr} (A^{2})).\end{aligned}}$

El coeficiente $c 0$ da el determinante de la matriz $2 \times 2$ , $c 1$ menos su traza, mientras que su inversa está dada por $A^{-1}={\frac {-1}{\det A}}(A+c_{1}I_{2})={\frac {-2(A-\operatorname {tr} (A)I_{2})}{(\operatorname {tr} (A))^{2}-\operatorname {tr} (A^{2})}}.$

De la fórmula general para c _{n − k} , expresada en términos de polinomios de Bell, se desprende que las expresiones $-\operatorname {tr} (A)\quad {\text{and}}\quad {\tfrac {1}{2}}(\operatorname {tr} (A)^{2}-\operatorname {tr} (A^{2}))$

siempre dan los coeficientes $c n -1$ de $λ n -1$ y $c n -2$ de $λ n -2$ en el polinomio característico de cualquier matriz $n \times n$ , respectivamente. Entonces, para una matriz $3 \times 3$ $A$ , el enunciado del teorema de Cayley-Hamilton también se puede escribir como donde el lado derecho designa una matriz $3 \times 3$ con todas las entradas reducidas a cero. Asimismo, este determinante en el caso $n$ $= 3$ , es ahora Esta expresión da el negativo del coeficiente $c$ $n$ $-3$ de $λ$ $n$ $-3$ en el caso general, como se ve a continuación. $A^{3}-(\operatorname {tr} A)A^{2}+{\frac {1}{2}}\left((\operatorname {tr} A)^{2}-\operatorname {tr} (A^{2})\right)A-\det(A)I_{3}=O,$ ${\begin{aligned}\det(A)&={\frac {1}{3!}}B_{3}(s_{1},-1!s_{2},2!s_{3})={\frac {1}{6}}(s_{1}^{3}+3s_{1}(-s_{2})+2s_{3})\\[5pt]&={\frac {1}{6}}\left[(\operatorname {tr} A)^{3}-3\operatorname {tr} (A^{2})(\operatorname {tr} A)+2\operatorname {tr} (A^{3})\right].\end{aligned}}$

De manera similar, se puede escribir para una matriz $A$ $de 4 \times 4$ , $A^{4}-(\operatorname {tr} A)A^{3}+{\tfrac {1}{2}}\left[(\operatorname {tr} A)^{2}-\operatorname {tr} (A^{2})\right]A^{2}-{\tfrac {1}{6}}\left[(\operatorname {tr} A)^{3}-3\operatorname {tr} (A^{2})(\operatorname {tr} A)+2\operatorname {tr} (A^{3})\right]A+\det(A)I_{4}=O,$

donde, ahora, el determinante es $c n -4$ ,

${\tfrac {1}{24}}\!\left[(\operatorname {tr} A)^{4}-6\operatorname {tr} (A^{2})(\operatorname {tr} A)^{2}+3\left(\operatorname {tr} (A^{2})\right)^{2}+8\operatorname {tr} (A^{3})\operatorname {tr} (A)-6\operatorname {tr} (A^{4})\right],$

y así sucesivamente para matrices mayores. Las expresiones cada vez más complejas para los coeficientes $c k$ se pueden deducir de las identidades de Newton o del algoritmo de Faddeev–LeVerrier .

norte-ésima potencia de la matriz

El teorema de Cayley-Hamilton siempre proporciona una relación entre las potencias de $A$ (aunque no siempre la más simple), lo que permite simplificar expresiones que involucran dichas potencias y evaluarlas sin tener que calcular la potencia $A$ ⁿ o cualquier potencia superior de $A$ .

A modo de ejemplo, para el teorema se obtiene $A={\begin{pmatrix}1&2\\3&4\end{pmatrix}}$ $A^{2}=5A+2I_{2}\,.$

Luego, para calcular $A 4$ , observe De manera similar, ${\begin{aligned}A^{3}&=(5A+2I_{2})A=5A^{2}+2A=5(5A+2I_{2})+2A=27A+10I_{2},\\[1ex]A^{4}&=A^{3}A=(27A+10I_{2})A=27A^{2}+10A=27(5A+2I_{2})+10A=145A+54I_{2}\,.\end{aligned}}$ ${\begin{aligned}A^{-1}&={\frac {1}{2}}\left(A-5I_{2}\right)~.\\[1ex]A^{-2}&=A^{-1}A^{-1}={\frac {1}{4}}\left(A^{2}-10A+25I_{2}\right)={\frac {1}{4}}\left((5A+2I_{2})-10A+25I_{2}\right)={\frac {1}{4}}\left(-5A+27I_{2}\right)~.\end{aligned}}$

Observe que hemos podido escribir la potencia matricial como la suma de dos términos. De hecho, la potencia matricial de cualquier orden $k$ puede escribirse como un polinomio matricial de grado $n - 1$ como máximo , donde $n$ es el tamaño de una matriz cuadrada. Este es un caso en el que el teorema de Cayley-Hamilton puede utilizarse para expresar una función matricial, que analizaremos a continuación de forma sistemática.

Funciones matriciales

Dada una función analítica y el polinomio característico $p$ $($ $x$ $)$ de grado $n$ de una matriz $n$ $\times$ $n$ $A$ , la función puede expresarse usando división larga como donde $q$ $($ $x$ $)$ es un polinomio cociente y $r$ $($ $x$ $)$ es un polinomio resto tal que $0 \leq deg$ $r$ $($ $x$ $) <$ $n$ . $f(x)=\sum _{k=0}^{\infty }a_{k}x^{k}$ $f(x)=q(x)p(x)+r(x),$

Por el teorema de Cayley-Hamilton, al reemplazar $x$ por la matriz $A$ se obtiene $p (A) = 0$ , por lo que se tiene $f(A)=r(A).$

Así, la función analítica de la matriz $A$ puede expresarse como un polinomio matricial de grado menor que $n$ .

Sea el polinomio restante Dado que $p$ $($ $λ$ $) = 0$ , evaluar la función $f$ $($ $x$ $)$ en los $n$ valores propios de $A$ da como resultado Esto equivale a un sistema de $n$ ecuaciones lineales , que se pueden resolver para determinar los coeficientes $c$ $i$ . Por lo tanto, se tiene $r(x)=c_{0}+c_{1}x+\cdots +c_{n-1}x^{n-1}.$ $f(\lambda _{i})=r(\lambda _{i})=c_{0}+c_{1}\lambda _{i}+\cdots +c_{n-1}\lambda _{i}^{n-1},\qquad {\text{for }}i=1,2,...,n.$ $f(A)=\sum _{k=0}^{n-1}c_{k}A^{k}.$

Cuando los valores propios se repiten, es decir, $λ i = λ j$ para algún $i \neq j$ , dos o más ecuaciones son idénticas; y por lo tanto, las ecuaciones lineales no se pueden resolver de forma única. Para tales casos, para un valor propio $λ$ con multiplicidad $m$ , las primeras $m - 1$ derivadas de $p (x)$ se anulan en el valor propio. Esto conduce a las $m - 1$ soluciones linealmente independientes adicionales que, combinadas con otras, producen las $n$ ecuaciones requeridas para resolver $c$ $i$ . $\left.{\frac {\mathrm {d} ^{k}f(x)}{\mathrm {d} x^{k}}}\right|_{x=\lambda }=\left.{\frac {\mathrm {d} ^{k}r(x)}{\mathrm {d} x^{k}}}\right|_{x=\lambda }\qquad {\text{for }}k=1,2,\ldots ,m-1,$

Encontrar un polinomio que pase por los puntos $(λ i, f (λ i))$ es esencialmente un problema de interpolación , y puede resolverse utilizando técnicas de interpolación de Lagrange o Newton , lo que conduce a la fórmula de Sylvester .

Por ejemplo, supongamos que la tarea es encontrar la representación polinomial de $f(A)=e^{At}\qquad \mathrm {where} \qquad A={\begin{pmatrix}1&2\\0&3\end{pmatrix}}.$

El polinomio característico es $p (x) = (x - 1)(x - 3) = x 2 - 4 x + 3$ , y los valores propios son $λ = 1, 3$ . Sea $r (x) = c 0 + c 1 x$ . Evaluando $f (λ) = r (λ)$ en los valores propios, se obtienen dos ecuaciones lineales, $e t = c 0 + c 1$ y $e 3 t = c 0 + 3 c 1$ .

Resolviendo las ecuaciones se obtiene $c 0 = (3 e t - e 3 t)/2$ y $c 1 = (e 3 t - e t)/2$ . Por lo tanto, se deduce que $e^{At}=c_{0}I_{2}+c_{1}A={\begin{pmatrix}c_{0}+c_{1}&2c_{1}\\0&c_{0}+3c_{1}\end{pmatrix}}={\begin{pmatrix}e^{t}&e^{3t}-e^{t}\\0&e^{3t}\end{pmatrix}}.$

Si, en cambio, la función fuera $f (A) = sen At$ , entonces los coeficientes habrían sido $c 0 = (3 sen t - sen 3 t)/2$ y $c 1 = (sen 3 t - sen t)/2$ ; por lo tanto $\sin(At)=c_{0}I_{2}+c_{1}A={\begin{pmatrix}\sin t&\sin 3t-\sin t\\0&\sin 3t\end{pmatrix}}.$

Como ejemplo adicional, al considerar entonces que el polinomio característico es $p$ $($ $x$ $) =$ $x$ $2$ $+ 1$ , y los valores propios son $λ$ $= \pm$ $i$ . $f(A)=e^{At}\qquad \mathrm {where} \qquad A={\begin{pmatrix}0&1\\-1&0\end{pmatrix}},$

Como antes, evaluar la función en los valores propios nos da las ecuaciones lineales $e it = c 0 + ic 1$ y $e - it = c 0 - ic 1$ ; cuya solución da, $c 0 = (e it + e - it)/2 = cos t$ y $c 1 = (e it - e - it)/2 i = sen t$ . Por lo tanto, para este caso, que es una matriz de rotación . $e^{At}=(\cos t)I_{2}+(\sin t)A={\begin{pmatrix}\cos t&\sin t\\-\sin t&\cos t\end{pmatrix}},$

Ejemplos estándar de tal uso son el mapa exponencial del álgebra de Lie de un grupo de Lie de matrices en el grupo. Está dado por una exponencial matricial , Tales expresiones se conocen desde hace mucho tiempo para $SU(2)$ , donde $σ$ son las matrices de Pauli y para $SO(3)$ , que es la fórmula de rotación de Rodrigues . Para la notación, consulte Grupo de rotación 3D # Una nota sobre las álgebras de Lie . $\exp :{\mathfrak {g}}\rightarrow G;\qquad tX\mapsto e^{tX}=\sum _{n=0}^{\infty }{\frac {t^{n}X^{n}}{n!}}=I+tX+{\frac {t^{2}X^{2}}{2}}+\cdots ,t\in \mathbb {R} ,X\in {\mathfrak {g}}.$ $e^{i(\theta /2)({\hat {\mathbf {n} }}\cdot \sigma )}=I_{2}\cos {\frac {\theta }{2}}+i({\hat {\mathbf {n} }}\cdot \sigma )\sin {\frac {\theta }{2}},$ $e^{i\theta ({\hat {\mathbf {n} }}\cdot \mathbf {J} )}=I_{3}+i({\hat {\mathbf {n} }}\cdot \mathbf {J} )\sin \theta +({\hat {\mathbf {n} }}\cdot \mathbf {J} )^{2}(\cos \theta -1),$

Más recientemente, han aparecido expresiones para otros grupos, como el grupo de Lorentz $SO(3, 1)$ , ^[10] $O(4, 2)$ ^[11] y $SU(2, 2)$ , ^[12] así como $GL(n, R)$ . ^[13] El grupo $O(4, 2)$ es el grupo conforme del espacio-tiempo , $SU(2, 2)$ su cubierta simplemente conexa (para ser precisos, la cubierta simplemente conexa del componente conexo $SO + (4, 2)$ de $O(4, 2)$ ). Las expresiones obtenidas se aplican a la representación estándar de estos grupos. Requieren el conocimiento de (algunos de) los valores propios de la matriz para exponenciar. Para $SU(2)$ (y por lo tanto para $SO(3)$ ), se han obtenido expresiones cerradas para todas las representaciones irreducibles, es decir, de cualquier espín. ^[14]

Ferdinand Georg Frobenius (1849–1917), matemático alemán. Sus principales intereses eran las funciones elípticas , las ecuaciones diferenciales y, más tarde, la teoría de grupos .
En 1878, presentó la primera prueba completa del teorema de Cayley-Hamilton. ^[9]

Teoría algebraica de números

El teorema de Cayley-Hamilton es una herramienta eficaz para calcular el polinomio mínimo de los números enteros algebraicos . Por ejemplo, dada una extensión finita de y un número entero algebraico que es una combinación lineal distinta de cero de , podemos calcular el polinomio mínimo de encontrando una matriz que represente la transformación lineal - . Si llamamos a esta matriz de transformación , entonces podemos encontrar el polinomio mínimo aplicando el teorema de Cayley-Hamilton a . ^[15] $\mathbb {Q} [\alpha _{1},\ldots ,\alpha _{k}]$ $\mathbb {Q}$ $\alpha \in \mathbb {Q} [\alpha _{1},\ldots ,\alpha _{k}]$ $\alpha _{1}^{n_{1}}\cdots \alpha _{k}^{n_{k}}$ $\alpha$ $\mathbb {Q}$ $\cdot \alpha :\mathbb {Q} [\alpha _{1},\ldots ,\alpha _{k}]\to \mathbb {Q} [\alpha _{1},\ldots ,\alpha _{k}]$ $A$ $A$

Pruebas

El teorema de Cayley-Hamilton es una consecuencia inmediata de la existencia de la forma normal de Jordan para matrices sobre cuerpos algebraicamente cerrados , véase Forma normal de Jordan § Teorema de Cayley-Hamilton . En esta sección se presentan demostraciones directas.

Como muestran los ejemplos anteriores, obtener el enunciado del teorema de Cayley-Hamilton para una matriz $n \times n$

$A=\left(a_{ij}\right)_{i,j=1}^{n}$ requiere dos pasos: primero se determinan los coeficientes $c i$ del polinomio característico mediante el desarrollo como polinomio en $t$ del determinante

${\begin{aligned}p(t)&=\det(tI_{n}-A)={\begin{vmatrix}t-a_{1,1}&-a_{1,2}&\cdots &-a_{1,n}\\-a_{2,1}&t-a_{2,2}&\cdots &-a_{2,n}\\\vdots &\vdots &\ddots &\vdots \\-a_{n,1}&-a_{n,2}&\cdots &t-a_{n,n}\end{vmatrix}}\\[5pt]&=t^{n}+c_{n-1}t^{n-1}+\cdots +c_{1}t+c_{0},\end{aligned}}$

y luego estos coeficientes se utilizan en una combinación lineal de potencias de $A$ que se equipara a la matriz cero $n \times n$ : $A^{n}+c_{n-1}A^{n-1}+\cdots +c_{1}A+c_{0}I_{n}={\begin{pmatrix}0&\cdots &0\\\vdots &\ddots &\vdots \\0&\cdots &0\end{pmatrix}}.$

El lado izquierdo puede calcularse como una matriz $n \times n cuyas entradas son expresiones polinómicas (enormes) en el conjunto de entradas$ $a i, j$ de $A$ , por lo que el teorema de Cayley-Hamilton establece que cada una de estas $n 2$ expresiones es igual a $0$ . Para cualquier valor fijo de $n$ , estas identidades pueden obtenerse mediante manipulaciones algebraicas tediosas pero sencillas. Sin embargo, ninguno de estos cálculos puede mostrar por qué el teorema de Cayley-Hamilton debería ser válido para matrices de todos los tamaños posibles $n$ , por lo que se necesita una prueba uniforme para todos $los n .$

Preliminares

Si un vector $v$ de tamaño $n$ es un vector propio de $A$ con valor propio $λ$ , en otras palabras si $A \cdot v = λv$ , entonces que es el vector cero ya que $p$ $($ $λ$ $) = 0$ (los valores propios de $A$ son precisamente las raíces de $p$ $($ $t$ $)$ ). Esto es válido para todos los posibles valores propios $λ$ , por lo que las dos matrices igualadas por el teorema ciertamente dan el mismo resultado (nulo) cuando se aplican a cualquier vector propio. Ahora bien, si $A$ admite una base de vectores propios, en otras palabras si $A$ es diagonalizable , entonces el teorema de Cayley-Hamilton debe ser válido para $A$ , ya que dos matrices que dan los mismos valores cuando se aplican a cada elemento de una base deben ser iguales. ${\begin{aligned}p(A)\cdot v&=A^{n}\cdot v+c_{n-1}A^{n-1}\cdot v+\cdots +c_{1}A\cdot v+c_{0}I_{n}\cdot v\\[6pt]&=\lambda ^{n}v+c_{n-1}\lambda ^{n-1}v+\cdots +c_{1}\lambda v+c_{0}v=p(\lambda )v,\end{aligned}}$ $A=XDX^{-1},\quad D=\operatorname {diag} (\lambda _{i}),\quad i=1,2,...,n$ $p_{A}(\lambda )=|\lambda I-A|=\prod _{i=1}^{n}(\lambda -\lambda _{i})\equiv \sum _{k=0}^{n}c_{k}\lambda ^{k}$ $p_{A}(A)=\sum c_{k}A^{k}=Xp_{A}(D)X^{-1}=XCX^{-1}$ $C_{ii}=\sum _{k=0}^{n}c_{k}\lambda _{i}^{k}=\prod _{j=1}^{n}(\lambda _{i}-\lambda _{j})=0,\qquad C_{i,j\neq i}=0$ $\therefore p_{A}(A)=XCX^{-1}=O.$

Consideremos ahora la función que asigna matrices $n$ $\times$ $n$ a matrices $n$ $\times$ $n$ dadas por la fórmula , es decir, que toma una matriz y la sustituye en su propio polinomio característico. No todas las matrices son diagonalizables, pero para matrices con coeficientes complejos muchas de ellas lo son: el conjunto de matrices cuadradas complejas diagonalizables de un tamaño dado es denso en el conjunto de todas esas matrices cuadradas ^[16] (para que una matriz sea diagonalizable basta, por ejemplo, que su polinomio característico no tenga raíces múltiples ). Ahora, vista como una función (ya que las matrices tienen entradas), vemos que esta función es continua . Esto es cierto porque las entradas de la imagen de una matriz están dadas por polinomios en las entradas de la matriz. Como $e\colon M_{n}\to M_{n}$ $e(A)=p_{A}(A)$ $A$ $D$ $e\colon \mathbb {C} ^{n^{2}}\to \mathbb {C} ^{n^{2}}$ $n^{2}$ $e(D)=\left\{{\begin{pmatrix}0&\cdots &0\\\vdots &\ddots &\vdots \\0&\cdots &0\end{pmatrix}}\right\}$

y como el conjunto es denso, por continuidad esta función debe mapear todo el conjunto de matrices $n$ $\times$ $n$ a la matriz cero. Por lo tanto, el teorema de Cayley-Hamilton es cierto para números complejos y, por lo tanto, también debe cumplirse para matrices con valores - o - . $D$ $\mathbb {Q}$ $\mathbb {R}$

Aunque esto proporciona una prueba válida, el argumento no es muy satisfactorio, ya que las identidades representadas por el teorema no dependen en modo alguno de la naturaleza de la matriz (diagonalizable o no), ni del tipo de entradas permitidas (para matrices con entradas reales las diagonalizables no forman un conjunto denso, y parece extraño que uno tendría que considerar matrices complejas para ver que el teorema de Cayley-Hamilton se cumple para ellas). Por lo tanto, ahora consideraremos solo argumentos que prueban el teorema directamente para cualquier matriz usando solo manipulaciones algebraicas; estos también tienen el beneficio de funcionar para matrices con entradas en cualquier anillo conmutativo .

Existe una gran variedad de demostraciones del teorema de Cayley-Hamilton, de las cuales se darán aquí varias. Varían en la cantidad de nociones algebraicas abstractas requeridas para comprender la demostración. Las demostraciones más simples utilizan sólo aquellas nociones necesarias para formular el teorema (matrices, polinomios con entradas numéricas, determinantes), pero implican cálculos técnicos que hacen un tanto misterioso el hecho de que conduzcan precisamente a la conclusión correcta. Es posible evitar tales detalles, pero al precio de involucrar nociones algebraicas más sutiles: polinomios con coeficientes en un anillo no conmutativo, o matrices con tipos inusuales de entradas.

Matrices adjuntas

Todas las demostraciones siguientes utilizan la noción de matriz adjunta $adj(M)$ de una matriz $n \times n$ $M$ , la transpuesta de su matriz cofactor . Esta es una matriz cuyos coeficientes están dados por expresiones polinómicas en los coeficientes de $M$ (de hecho, por ciertos determinantes $(n - 1) \times (n - 1)$ ), de tal manera que se cumplen las siguientes relaciones fundamentales, Estas relaciones son una consecuencia directa de las propiedades básicas de los determinantes: la evaluación de la entrada $($ $i$ $,$ $j$ $)$ del producto matricial de la izquierda da la expansión por la columna $j$ del determinante de la matriz obtenida de $M$ reemplazando la columna $i$ por una copia de la columna $j$ , que es $det($ $M$ $)$ si $i$ $=$ $j$ y cero en caso contrario; el producto matricial de la derecha es similar, pero para expansiones por filas. $\operatorname {adj} (M)\cdot M=\det(M)I_{n}=M\cdot \operatorname {adj} (M)~.$

Al ser una consecuencia de la manipulación de expresiones algebraicas, estas relaciones son válidas para matrices con entradas en cualquier anillo conmutativo (se debe suponer la conmutatividad para que se definan los determinantes en primer lugar). Es importante tener esto en cuenta aquí, porque estas relaciones se aplicarán a continuación para matrices con entradas no numéricas, como polinomios.

Una prueba algebraica directa

Esta demostración utiliza precisamente el tipo de objetos necesarios para formular el teorema de Cayley-Hamilton: matrices con polinomios como entradas. La matriz $t I n - A$ cuyo determinante es el polinomio característico de $A$ es una matriz de este tipo, y como los polinomios forman un anillo conmutativo, tiene un adjunto. Entonces, de acuerdo con la relación fundamental de la derecha del adjunto, se tiene $B=\operatorname {adj} (tI_{n}-A).$ $(tI_{n}-A)B=\det(tI_{n}-A)I_{n}=p(t)I_{n}.$

Como $B$ también es una matriz con polinomios en $t$ como entradas, se pueden, para cada $i$ , recolectar los coeficientes de $t i$ en cada entrada para formar una matriz $B i$ de números, de modo que se tenga (La forma en que se definen las entradas de $B$ deja en claro que no se dan potencias mayores que $t$ $n$ $-1$ ). Si bien esto parece un polinomio con matrices como coeficientes, no consideraremos tal noción; es solo una forma de escribir una matriz con entradas polinómicas como una combinación lineal de $n$ matrices constantes, y el coeficiente $t$ $i$ se ha escrito a la izquierda de la matriz para enfatizar este punto de vista. $B=\sum _{i=0}^{n-1}t^{i}B_{i}.$

Ahora, uno puede expandir el producto matricial en nuestra ecuación por bilinealidad: ${\begin{aligned}p(t)I_{n}&=(tI_{n}-A)B\\&=(tI_{n}-A)\sum _{i=0}^{n-1}t^{i}B_{i}\\&=\sum _{i=0}^{n-1}tI_{n}\cdot t^{i}B_{i}-\sum _{i=0}^{n-1}A\cdot t^{i}B_{i}\\&=\sum _{i=0}^{n-1}t^{i+1}B_{i}-\sum _{i=0}^{n-1}t^{i}AB_{i}\\&=t^{n}B_{n-1}+\sum _{i=1}^{n-1}t^{i}(B_{i-1}-AB_{i})-AB_{0}.\end{aligned}}$

Escribiendo se obtiene una igualdad de dos matrices con entradas polinómicas, escritas como combinaciones lineales de matrices constantes con potencias de $t$ como coeficientes. $p(t)I_{n}=t^{n}I_{n}+t^{n-1}c_{n-1}I_{n}+\cdots +tc_{1}I_{n}+c_{0}I_{n},$

Tal igualdad sólo puede cumplirse si en cualquier posición de la matriz la entrada que se multiplica por una potencia dada $t i$ es la misma en ambos lados; de ello se deduce que las matrices constantes con coeficiente $t i$ en ambas expresiones deben ser iguales. Escribiendo entonces estas ecuaciones para $i$ desde $n$ hasta 0, se encuentra $B_{n-1}=I_{n},\qquad B_{i-1}-AB_{i}=c_{i}I_{n}\quad {\text{for }}1\leq i\leq n-1,\qquad -AB_{0}=c_{0}I_{n}.$

Finalmente, multiplica la ecuación de los coeficientes de $t i$ desde la izquierda por $A i$ , y suma:

$A^{n}B_{n-1}+\sum \limits _{i=1}^{n-1}\left(A^{i}B_{i-1}-A^{i+1}B_{i}\right)-AB_{0}=A^{n}+c_{n-1}A^{n-1}+\cdots +c_{1}A+c_{0}I_{n}.$

Los lados izquierdos forman una suma telescópica y se cancelan completamente; los lados derechos suman : Esto completa la prueba. $p(A)$ $0=p(A).$

Una prueba que utiliza polinomios con coeficientes matriciales

Esta demostración es similar a la primera, pero intenta dar sentido a la noción de polinomio con coeficientes matriciales que se sugirió a partir de las expresiones que aparecen en esa demostración. Esto requiere mucho cuidado, ya que es algo inusual considerar polinomios con coeficientes en un anillo no conmutativo, y no todo el razonamiento que es válido para polinomios conmutativos puede aplicarse en este contexto.

Cabe destacar que, mientras que la aritmética de polinomios sobre un anillo conmutativo modela la aritmética de funciones polinómicas , esto no sucede sobre un anillo no conmutativo (de hecho, no hay una noción obvia de función polinómica en este caso que esté cerrada bajo la multiplicación). Por lo tanto, cuando se consideran polinomios en $t$ con coeficientes matriciales, la variable $t$ no debe considerarse como una "incógnita", sino como un símbolo formal que debe manipularse de acuerdo con reglas dadas; en particular, no se puede simplemente fijar $t$ en un valor específico. $(f+g)(x)=\sum _{i}\left(f_{i}+g_{i}\right)x^{i}=\sum _{i}{f_{i}x^{i}}+\sum _{i}{g_{i}x^{i}}=f(x)+g(x).$

Sea el anillo de matrices $n$ $\times$ $n$ con elementos en algún anillo R (como los números reales o complejos) que tiene como elemento $a A. Las matrices con polinomios en$ $t$ como coeficientes , como o su adjunto B en la primera demostración, son elementos de . $M(n,R)$ $tI_{n}-A$ $M(n,R[t])$

Al reunir potencias iguales de $t$ , dichas matrices se pueden escribir como "polinomios" en $t$ con matrices constantes como coeficientes; escriba para el conjunto de dichos polinomios. Dado que este conjunto está en biyección con , se definen operaciones aritméticas sobre él correspondientemente, en particular la multiplicación se da respetando el orden de las matrices de coeficientes de los dos operandos; obviamente esto da una multiplicación no conmutativa. $M(n,R)[t]$ $M(n,R[t])$ $\left(\sum _{i}M_{i}t^{i}\right)\!\!\left(\sum _{j}N_{j}t^{j}\right)=\sum _{i,j}(M_{i}N_{j})t^{i+j},$

Por lo tanto, la identidad de la primera prueba puede verse como una que implica una multiplicación de elementos en . $(tI_{n}-A)B=p(t)I_{n}.$ $M(n,R)[t]$

En este punto, es tentador simplemente establecer $t$ igual a la matriz $A$ , lo que hace que el primer factor de la izquierda sea igual a la matriz cero, y el lado derecho igual a $p (A)$ ; sin embargo, esta no es una operación permitida cuando los coeficientes no conmutan. Es posible definir un "mapa de evaluación derecha" $ev A : M [t] \to M$ , que reemplaza cada $t i$ por la potencia matricial $A i$ de $A$ , donde se estipula que la potencia siempre se debe multiplicar a la derecha por el coeficiente correspondiente. Pero este mapa no es un homomorfismo de anillo : la evaluación derecha de un producto difiere en general del producto de las evaluaciones derechas. Esto es así porque la multiplicación de polinomios con coeficientes matriciales no modela la multiplicación de expresiones que contienen incógnitas: un producto se define asumiendo que $t$ conmuta con $N$ , pero esto puede fallar si $t$ se reemplaza por la matriz $A$ . $Mt^{i}Nt^{j}=(M\cdot N)t^{i+j}$

Se puede evitar esta dificultad en la situación particular que nos ocupa, ya que el mapa de evaluación derecha anterior se convierte en un homomorfismo de anillo si la matriz $A$ está en el centro del anillo de coeficientes, de modo que conmuta con todos los coeficientes de los polinomios (el argumento que prueba esto es sencillo, precisamente porque conmutar $t$ con coeficientes ahora está justificado después de la evaluación).

Ahora bien, $A$ no siempre está en el centro de $M$ , pero podemos reemplazar $M$ por un anillo más pequeño siempre que contenga todos los coeficientes de los polinomios en cuestión: , $A$ , y los coeficientes del polinomio $B$ . La elección obvia para dicho subanillo es el centralizador $Z$ de $A$ , el subanillo de todas las matrices que conmutan con $A$ ; por definición, $A$ está en el centro de $Z$ . $I_{n}$ $B_{i}$

Obviamente, este centralizador contiene , y $A$ , pero hay que demostrar que contiene las matrices . Para ello, se combinan las dos relaciones fundamentales para los adjuntos, escribiendo el adjunto $B$ como un polinomio: $I_{n}$ $B_{i}$ ${\begin{aligned}\left(\sum _{i=0}^{m}B_{i}t^{i}\right)\!(tI_{n}-A)&=(tI_{n}-A)\sum _{i=0}^{m}B_{i}t^{i}\\\sum _{i=0}^{m}B_{i}t^{i+1}-\sum _{i=0}^{m}B_{i}At^{i}&=\sum _{i=0}^{m}B_{i}t^{i+1}-\sum _{i=0}^{m}AB_{i}t^{i}\\\sum _{i=0}^{m}B_{i}At^{i}&=\sum _{i=0}^{m}AB_{i}t^{i}.\end{aligned}}$

Igualando los coeficientes se muestra que para cada $i$ , tenemos $AB i = B i A$ como se deseaba. Una vez encontrado el ajuste adecuado en el que $ev A$ es de hecho un homomorfismo de anillos, se puede completar la prueba como se sugirió anteriormente: Esto completa la prueba. ${\begin{aligned}\operatorname {ev} _{A}\left(p(t)I_{n}\right)&=\operatorname {ev} _{A}((tI_{n}-A)B)\\[5pt]p(A)&=\operatorname {ev} _{A}(tI_{n}-A)\cdot \operatorname {ev} _{A}(B)\\[5pt]p(A)&=(AI_{n}-A)\cdot \operatorname {ev} _{A}(B)=O\cdot \operatorname {ev} _{A}(B)=O.\end{aligned}}$

Una síntesis de las dos primeras pruebas

En la primera demostración, se pudieron determinar los coeficientes $B i$ de $B$ basándose en la relación fundamental de la derecha solo para el adjunto. De hecho, las primeras $n$ ecuaciones derivadas pueden interpretarse como la determinación del cociente $B$ de la división euclidiana del polinomio $p (t) I n$ a la izquierda por el polinomio mónico $I n t - A$ , mientras que la ecuación final expresa el hecho de que el resto es cero. Esta división se realiza en el anillo de polinomios con coeficientes matriciales. De hecho, incluso sobre un anillo no conmutativo, la división euclidiana por un polinomio mónico $P$ está definida, y siempre produce un cociente y un resto únicos con la misma condición de grado que en el caso conmutativo, siempre que se especifique en qué lado se desea que $P$ sea un factor (aquí es a la izquierda).

Para ver que el cociente y el resto son únicos (que es la parte importante del enunciado aquí), basta escribir como y observar que como $P$ es mónico, $P$ $($ $Q$ $-$ $Q$ $')$ no puede tener un grado menor que el de $P$ , a menos que $Q$ $=$ $Q$ $'$ . $PQ+r=PQ'+r'$ $P(Q-Q')=r'-r$

Pero el dividendo $p (t) I n$ y el divisor $I n t - A$ utilizados aquí se encuentran ambos en el subanillo $(R [A])[t]$ , donde $R [A]$ es el subanillo del anillo de matrices $M (n, R)$ generado por $A$ : el espacio $R$ -lineal de todas las potencias de $A$ . Por lo tanto, la división euclidiana se puede realizar de hecho dentro de ese anillo polinomial conmutativo , y por supuesto da entonces el mismo cociente $B$ y resto 0 que en el anillo más grande; en particular, esto muestra que $B$ de hecho se encuentra en $($ $R$ $[$ $A$ $])[$ $t$ $]$ .

Pero, en este contexto conmutativo, es válido fijar $t$ en $A$ en la ecuación

$p(t)I_{n}=(tI_{n}-A)B;$

en otras palabras, aplicar el mapa de evaluación

$\operatorname {ev} _{A}:(R[A])[t]\to R[A]$

que es un homomorfismo de anillo, dando

$p(A)=0\cdot \operatorname {ev} _{A}(B)=0$

Tal como en la segunda prueba, como se deseaba.

Además de demostrar el teorema, el argumento anterior nos dice que los coeficientes $B$ $i$ de $B$ son polinomios en $A$ , mientras que de la segunda prueba solo sabíamos que se encuentran en el centralizador $Z$ de $A$ ; en general, $Z$ es un subanillo más grande que $R$ $[$ $A$ $]$ , y no necesariamente conmutativo. En particular, el término constante $B$ $0$ $= adj(-$ $A$ $)$ se encuentra en $R$ $[$ $A$ $]$ . Dado que $A$ es una matriz cuadrada arbitraria, esto demuestra que $adj($ $A$ $)$ siempre se puede expresar como un polinomio en $A$ (con coeficientes que dependen de $A$ $)$ .

De hecho, las ecuaciones encontradas en la primera demostración permiten expresar sucesivamente como polinomios en $A$ , lo que conduce a la identidad $B_{n-1},\ldots ,B_{1},B_{0}$

$\operatorname {adj} (-A)=\sum _{i=1}^{n}c_{i}A^{i-1},$

válido para todas las matrices $n \times n$ , donde es el polinomio característico de $A$ . $p(t)=t^{n}+c_{n-1}t^{n-1}+\cdots +c_{1}t+c_{0}$

Nótese que esta identidad también implica el enunciado del teorema de Cayley-Hamilton: uno puede mover $adj(- A)$ al lado derecho, multiplicar la ecuación resultante (a la izquierda o a la derecha) por $A$ , y usar el hecho de que $-A\cdot \operatorname {adj} (-A)=\operatorname {adj} (-A)\cdot (-A)=\det(-A)I_{n}=c_{0}I_{n}.$

Una demostración utilizando matrices de endomorfismos

Como se mencionó anteriormente, la matriz p ( A ) en el enunciado del teorema se obtiene evaluando primero el determinante y luego sustituyendo la matriz A por t ; hacer esa sustitución en la matriz antes de evaluar el determinante no tiene sentido. Sin embargo, es posible dar una interpretación donde $p$ $($ $A$ $)$ se obtiene directamente como el valor de un determinado determinante, pero esto requiere una configuración más complicada, una de matrices sobre un anillo en el que se pueden interpretar tanto las entradas de $A$ como la totalidad de $A$ en sí. Se podría tomar para esto el anillo $M$ $($ $n$ $,$ $R$ $)$ de matrices $n$ $\times$ $n sobre$ $R$ , donde la entrada se realiza como , y $A$ como sí misma. Pero considerar matrices con matrices como entradas podría causar confusión con matrices de bloques , lo cual no es la intención, ya que da la noción incorrecta de determinante (recuerde que el determinante de una matriz se define como una suma de productos de sus entradas, y en el caso de una matriz de bloques esto generalmente no es lo mismo que la suma correspondiente de productos de sus bloques). Es más claro distinguir $A$ del endomorfismo $φ$ de un espacio vectorial $n$ - dimensional V (o módulo R libre si $R$ no es un cuerpo) definido por él en una base , y tomar matrices sobre el anillo End( V ) de todos esos endomorfismos. Entonces $φ$ $\in End($ $V$ $)$ es una posible entrada de matriz, mientras que $A$ designa el elemento de $M$ $($ $n$ $, End($ $V$ $))$ cuya entrada $i$ $,$ $j$ es el endomorfismo de la multiplicación escalar por ; de manera similar se interpretará como elemento de $M$ $($ $n$ $, End($ $V$ $))$ . Sin embargo, dado que $End($ $V$ $)$ no es un anillo conmutativo, no se define ningún determinante en $M$ $($ $n$ $, End($ $V$ $))$ ; esto solo se puede hacer para matrices sobre un subanillo conmutativo de $End($ $V$ $)$ . Ahora todas las entradas de la matriz se encuentran en el subanillo $tI_{n}-A$ $A_{i,j}$ $A_{i,j}$ $A_{i,j}I_{n}$ $e_{1},\ldots ,e_{n}$ $A_{i,j}$ $I_{n}$ $\varphi I_{n}-A$ $R [φ]$ generado por la identidad y $φ$ , que es conmutativa. Luegose define $una función determinante M (n, R [φ]) \to R [φ]$ , y se evalúa como el valor $p$ $($ $φ$ $)$ del polinomio característico de $A$ en $φ$ (esto se cumple independientemente de la relación entre $A$ y $φ$ ); el teorema de Cayley-Hamilton establece que $p$ $($ $φ$ $)$ es el endomorfismo nulo. $\det(\varphi I_{n}-A)$

En esta forma, la siguiente prueba puede obtenerse de la de Atiyah y MacDonald (1969, Prop. 2.4) (que de hecho es la afirmación más general relacionada con el lema de Nakayama ; se toma por ideal en esa proposición todo el anillo $R$ ). El hecho de que $A$ sea la matriz de $φ$ en la base $e 1, ..., e n$ significa que Uno puede interpretar estos como $n$ componentes de una ecuación en $V$ $n$ , cuyos miembros pueden escribirse utilizando el producto matriz-vector $M$ $($ $n$ $, End($ $V$ $)) \times$ $V$ $n$ $\to$ $V$ $n$ que se define como de costumbre, pero con las entradas individuales $ψ$ $\in End($ $V$ $)$ y $v$ en $V$ que se "multiplican" formando ; esto da: donde es el elemento cuyo componente $i$ es $e$ $i$ (en otras palabras, es la base $e$ $1$ $, ...,$ $e$ $n$ de $V$ escrita como una columna de vectores). Al escribir esta ecuación como se reconoce la transpuesta de la matriz considerada anteriormente, y su determinante (como elemento de $M$ $($ $n$ $,$ $R$ $[$ $φ$ $]))$ es también p ( φ ). Para derivar de esta ecuación que $p$ $($ $φ$ $) = 0 \in End($ $V$ $)$ , se multiplica por la izquierda por la matriz adjunta de , que está definida en el anillo de matrices $M$ $($ $n$ $,$ $R$ $[$ $φ$ $])$ , obteniéndose que la asociatividad de la multiplicación matriz-matriz y matriz-vector utilizada en el primer paso es una propiedad puramente formal de esas operaciones, independiente de la naturaleza de las entradas. Ahora bien, el componente $i$ de esta ecuación dice que $p$ $($ $φ$ $)($ $e$ $i$ $) = 0 \in$ $V$ ; por tanto, $p$ $($ $φ$ $)$ se anula en todos $los e$ $i$ , y puesto que estos elementos generan $V$ se sigue que $p$ $($ $φ$ $) = 0 \in End($ $V$ $)$ $\varphi (e_{i})=\sum _{j=1}^{n}A_{j,i}e_{j}\quad {\text{for }}i=1,\ldots ,n.$ $\psi (v)$ $\varphi I_{n}\cdot E=A^{\operatorname {tr} }\cdot E,$ $E\in V^{n}$ $(\varphi I_{n}-A^{\operatorname {tr} })\cdot E=0\in V^{n}$ $\varphi I_{n}-A$ $\varphi I_{n}-A^{\operatorname {tr} }$ ${\begin{aligned}0&=\operatorname {adj} (\varphi I_{n}-A^{\operatorname {tr} })\cdot \left((\varphi I_{n}-A^{\operatorname {tr} })\cdot E\right)\\[1ex]&=\left(\operatorname {adj} (\varphi I_{n}-A^{\operatorname {tr} })\cdot (\varphi I_{n}-A^{\operatorname {tr} })\right)\cdot E\\[1ex]&=\left(\det(\varphi I_{n}-A^{\operatorname {tr} })I_{n}\right)\cdot E\\[1ex]&=(p(\varphi )I_{n})\cdot E;\end{aligned}}$ , completando la prueba.

Un hecho adicional que se desprende de esta prueba es que la matriz $A$ cuyo polinomio característico se toma no necesita ser idéntica al valor $φ$ sustituido en ese polinomio; basta con que $φ$ sea un endomorfismo de $V$ que satisfaga las ecuaciones iniciales.

$\varphi (e_{i})=\sum _{j}A_{j,i}e_{j}$ para alguna secuencia de elementos $e 1, ..., e n$ que generan $V$ (cuyo espacio podría tener una dimensión menor que $n$ , o en caso de que el anillo $R$ no sea un campo podría no ser un módulo libre en absoluto).

Una "prueba" falsa:p ( A ) = det ( AI n − A ) = det( A − A ) = 0

Un argumento elemental persistente pero incorrecto ^[17] para el teorema es "simplemente" tomar la definición y sustituir $A$ por $λ$ , obteniendo $p(\lambda )=\det(\lambda I_{n}-A)$ $p(A)=\det(AI_{n}-A)=\det(A-A)=\det(\mathbf {0} )=0.$

Hay muchas maneras de ver por qué este argumento es erróneo. Primero, en el teorema de Cayley-Hamilton, $p (A)$ es una matriz $n \times n$ . Sin embargo, el lado derecho de la ecuación anterior es el valor de un determinante, que es un escalar . Por lo tanto, no se pueden igualar a menos que $n = 1$ (es decir, $A$ es solo un escalar). Segundo, en la expresión , la variable λ en realidad aparece en las entradas diagonales de la matriz . Para ilustrarlo, considere nuevamente el polinomio característico en el ejemplo anterior: $\det(\lambda I_{n}-A)$ $\lambda I_{n}-A$

$\det \!{\begin{pmatrix}\lambda -1&-2\\-3&\lambda -4\end{pmatrix}}.$

Si se sustituye toda la matriz $A$ por $λ$ en esas posiciones, se obtiene

$\det \!{\begin{pmatrix}{\begin{pmatrix}1&2\\3&4\end{pmatrix}}-1&-2\\-3&{\begin{pmatrix}1&2\\3&4\end{pmatrix}}-4\end{pmatrix}},$

en el que la expresión "matriz" simplemente no es válida. Sin embargo, tenga en cuenta que si se restan múltiplos escalares de matrices identidad en lugar de escalares en lo anterior, es decir, si la sustitución se realiza como

$\det \!{\begin{pmatrix}{\begin{pmatrix}1&2\\3&4\end{pmatrix}}-I_{2}&-2I_{2}\\-3I_{2}&{\begin{pmatrix}1&2\\3&4\end{pmatrix}}-4I_{2}\end{pmatrix}},$

entonces el determinante es de hecho cero, pero la matriz expandida en cuestión no evalúa a ; ni su determinante (un escalar) puede compararse con p ( A ) (una matriz). Por lo tanto, el argumento que sigue sin aplicarse. $AI_{n}-A$ $p(A)=\det(AI_{n}-A)=0$

En realidad, si tal argumento es válido, también debería ser válido cuando se utilizan otras formas multilineales en lugar del determinante. Por ejemplo, si consideramos la función permanente y definimos , entonces, mediante el mismo argumento, deberíamos poder "probar" que $q$ $($ $A$ $) = 0$ . Pero esta afirmación es demostrablemente errónea: en el caso bidimensional, por ejemplo, la permanente de una matriz está dada por $q(\lambda )=\operatorname {perm} (\lambda I_{n}-A)$

$\operatorname {perm} \!{\begin{pmatrix}a&b\\c&d\end{pmatrix}}=ad+bc.$

Entonces, para la matriz $A$ en el ejemplo anterior,

${\begin{aligned}q(\lambda )&=\operatorname {perm} (\lambda I_{2}-A)=\operatorname {perm} \!{\begin{pmatrix}\lambda -1&-2\\-3&\lambda -4\end{pmatrix}}\\[6pt]&=(\lambda -1)(\lambda -4)+(-2)(-3)=\lambda ^{2}-5\lambda +10.\end{aligned}}$

Sin embargo, se puede verificar que

$q(A)=A^{2}-5A+10I_{2}=12I_{2}\neq 0.$

Una de las demostraciones del teorema de Cayley-Hamilton anterior guarda cierta similitud con el argumento de que . Al introducir una matriz con coeficientes no numéricos, se puede dejar que $A$ viva dentro de una entrada de la matriz, pero entonces no es igual a $A$ y se llega a una conclusión diferente. $p(A)=\det(AI_{n}-A)=0$ $AI_{n}$

Demostraciones utilizando métodos de álgebra abstracta

Gatto y Salehyan (2016, §4) han utilizado las propiedades básicas de las derivaciones de Hasse-Schmidt en el álgebra exterior de algún $B$ - módulo $M$ (que se supone libre y de rango finito) para demostrar el teorema de Cayley-Hamilton. Véase también Gatto y Scherbak (2015). ${\textstyle A=\bigwedge M}$

Una prueba combinatoria

Straubing ^[18] proporcionó una prueba basada en el desarrollo de la fórmula de Leibniz para el polinomio característico y una generalización utilizando la teoría de monoides traza de Foata y Cartier.

Abstracción y generalizaciones

Las pruebas anteriores muestran que el teorema de Cayley-Hamilton se cumple para matrices con entradas en cualquier anillo conmutativo $R$ , y que $p (φ) = 0$ se cumplirá siempre que $φ$ sea un endomorfismo de un $R$ -módulo generado por elementos $e 1,..., e n$ que satisfaga

$\varphi (e_{j})=\sum a_{ij}e_{i},\qquad j=1,\ldots ,n.$

Esta versión más general del teorema es la fuente del célebre lema de Nakayama en álgebra conmutativa y geometría algebraica .

El teorema de Cayley-Hamilton también es válido para matrices sobre cuaterniones , un anillo no conmutativo . ^[19]^{[nb 3]}

Véase también

Matriz de acompañamiento

Observaciones

^ Véase la sección 2 de Krivoruchenko (2016). Kondratyuk y Krivoruchenko (1992) proporcionan una expresión explícita para los coeficientes $c i$ : donde la suma se toma sobre los conjuntos de todas las particiones enteras $k$ $l$ $\geq 0$ que satisfacen la ecuación $c_{i}=\sum _{k_{1},k_{2},\ldots ,k_{n}}\prod _{l=1}^{n}{\frac {(-1)^{k_{l}+1}}{l^{k_{l}}k_{l}!}}\operatorname {tr} (A^{l})^{k_{l}},$ $\sum _{l=1}^{n}lk_{l}=n-i.$
^ Véase, por ejemplo, la p. 54 de Brown 1994, que resuelve la fórmula de Jacobi , donde $B$ es la matriz adjunta de la siguiente sección. También existe un algoritmo recursivo equivalente y relacionado introducido por Urbain Le Verrier y Dmitry Konstantinovich Faddeev —el algoritmo de Faddeev–LeVerrier , que se lee (véase, por ejemplo, Gantmacher 1960, p. 88.) Observe $A$ $-1$ $= -$ $M$ $n$ $/$ $c$ $0$ cuando termina la recursión. Véase la prueba algebraica en la siguiente sección, que se basa en los modos del adjunto, $B$ $k$ $\equiv$ $M$ $n$ $-$ $k$ . Específicamente, y la derivada anterior de $p$ cuando uno la traza produce (Hou 1998), y las recursiones anteriores, a su vez. ${\frac {\partial p(\lambda )}{\partial \lambda }}=p(\lambda )\sum _{m=0}^{\infty }\lambda ^{-(m+1)}\operatorname {tr} A^{m}=p(\lambda )~\operatorname {tr} {\frac {I}{\lambda I-A}}\equiv \operatorname {tr} B~,$ ${\begin{aligned}M_{0}&\equiv O&c_{n}&=1\qquad &(k=0)\\[5pt]M_{k}&\equiv AM_{k-1}-{\frac {1}{k-1}}(\operatorname {tr} (AM_{k-1}))I\qquad \qquad &c_{n-k}&=-{\frac {1}{k}}\operatorname {tr} (AM_{k})\qquad &k=1,\ldots ,n~.\end{aligned}}$ $(\lambda I-A)B=Ip(\lambda )$ $\lambda p'-np=\operatorname {tr} (AB)~,$
^ Debido a la naturaleza no conmutativa de la operación de multiplicación para cuaterniones y construcciones relacionadas, se debe tener cuidado con las definiciones, más notablemente en este contexto, para el determinante. El teorema se cumple también para los cuaterniones divididos , que se comportan ligeramente peor, véase Alagös, Oral y Yüce (2012). Los anillos de cuaterniones y los cuaterniones divididos pueden representarse mediante ciertas matrices complejas de $2 \times 2. (Cuando se restringen a la norma unitaria, estos son los$ grupos $SU(2)$ y $SU(1,1)$ respectivamente). Por lo tanto, no es sorprendente que el teorema se cumpla.
No existe tal representación matricial para los octoniones , ya que la operación de multiplicación no es asociativa en este caso. Sin embargo, un teorema de Cayley-Hamilton modificado todavía se cumple para los octoniones, véase Tian (2000).

Notas

^ de Crilly 1998
^ por Hamilton 1864a
^ por Hamilton 1864b
^ por Hamilton 1862
^ Atiyah y MacDonald 1969
^ Hamilton 1853, pág. 562
^ Cayley 1858, págs. 17–37
^ Cayley 1889, págs. 475–496
^Por Frobenius 1878
^ Zeni y Rodrigues 1992
^ Barut, Zeni y Laufer 1994a
^ Barut, Zeni y Laufer 1994b
^ Laufer 1997
^ Curtright, Fairlie y Zachos 2014
^ Stein, William. Teoría algebraica de números: un enfoque computacional (PDF) . pág. 29.
^ Bhatia 1997, pág. 7
^ Garrett 2007, pág. 381
^ Straubing, Howard (1 de enero de 1983). "Una prueba combinatoria del teorema de Cayley-Hamilton". Matemáticas discretas . 43 (2): 273–279. doi :10.1016/0012-365X(83)90164-4. ISSN 0012-365X.
^ Zhang 1997

Referencias

Alagös, Y.; Oral, K.; Yüce, S. (2012). "Matrices de cuaterniones divididos". Notas matemáticas de Miskolc . 13 (2): 223–232. doi : 10.18514/MMN.2012.364 . ISSN 1787-2405(acceso abierto)
Atiyah, MF ; MacDonald, IG (1969), Introducción al álgebra conmutativa , Westview Press, ISBN 978-0-201-40751-8
Barut, AO ; Zeni, JR; Laufer, A. (1994a). "El mapa exponencial para el grupo conforme O(2,4)". J. Phys. A: Math. Gen . 27 (15): 5239–5250. arXiv : hep-th/9408105 . Código Bibliográfico :1994JPhA...27.5239B. doi :10.1088/0305-4470/27/15/022.
Barut, AO ; Zeni, JR; Laufer, A. (1994b). "El mapa exponencial para el grupo unitario SU(2,2)". J. Phys. A: Math. Gen . 27 (20): 6799–6806. arXiv : hep-th/9408145 . Código Bibliográfico :1994JPhA...27.6799B. doi :10.1088/0305-4470/27/20/017. S2CID 16495633.
Bhatia, R. (1997). Análisis de matrices . Textos de posgrado en matemáticas. Vol. 169. Springer. ISBN 978-0387948461.
Brown, Lowell S. (1994). Teoría cuántica de campos . Cambridge University Press . ISBN 978-0-521-46946-3.
Cayley, A. (1858). "Una memoria sobre la teoría de matrices". Philos. Trans . 148 .
Cayley, A. (1889). Recopilación de trabajos matemáticos de Arthur Cayley . (Reimpresión clásica). Vol. 2. Libros olvidados. ASIN B008HUED9O.
Crilly, T. (1998). "El joven Arthur Cayley". Notas Rec. R. Soc. Lond . 52 (2): 267–282. doi :10.1098/rsnr.1998.0050. S2CID 146669911.
Curtright, TL ; Fairlie, DB ; Zachos, CK (2014). "Una fórmula compacta para rotaciones como polinomios de matriz de espín". SIGMA . 10 (2014): 084. arXiv : 1402.3541 . Código Bibliográfico :2014SIGMA..10..084C. doi :10.3842/SIGMA.2014.084. S2CID 18776942.
Frobenius, G. (1878). "Ueber lineare Substutionen und bilineare Formen". J. Reina Angew. Matemáticas . 1878 (84): 1–63. doi :10.1515/crll.1878.84.1.
Gantmacher, FR (1960). La teoría de matrices . Nueva York: Chelsea Publishing. ISBN 978-0-8218-1376-8.
Gatto, Letterio; Salehyan, Parham (2016), Derivaciones de Hasse-Schmidt sobre álgebras de Grassmann , Springer, doi :10.1007/978-3-319-31842-4, ISBN 978-3-319-31842-4, Sr. 3524604
Gatto, Letterio; Scherbak, Inna (2015), Observaciones sobre el teorema de Cayley-Hamilton , arXiv : 1510.03022
Garrett, Paul B. (2007). Álgebra abstracta . Nueva York: Chapman and Hall/CRC. ISBN 978-1584886891.
Hamilton, WR (1853). Conferencias sobre cuaterniones. Dublín.{{cite book}}: CS1 maint: location missing publisher (link)
Hamilton, WR (1864a). "Sobre un método nuevo y general de inversión de una función lineal y cuaternial de un cuaternión". Actas de la Real Academia Irlandesa . viii : 182–183.(comunicado el 9 de junio de 1862)
Hamilton, WR (1864b). "Sobre la existencia de una ecuación simbólica y bicuadrática, que se satisface mediante el símbolo de la operación lineal en cuaterniones". Actas de la Real Academia Irlandesa . viii : 190–101.(comunicado el 23 de junio de 1862)
Hou, SH (1998). "Nota para el aula: una demostración sencilla del algoritmo polinomial característico de Leverrier-Faddeev". SIAM Review . 40 (3): 706–709. Bibcode :1998SIAMR..40..706H. doi :10.1137/S003614459732076X."Nota para el aula: Una demostración sencilla del algoritmo polinomial característico de Leverrier-Faddeev"
Hamilton, WR (1862). "Sobre la existencia de una ecuación simbólica y bicuadrática que se satisface mediante el símbolo de la operación lineal o distributiva sobre un cuaternión". The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science . serie iv . 24 : 127–128. ISSN 1478-6435 . Consultado el 14 de febrero de 2015 .
Householder, Alston S. (2006). La teoría de matrices en el análisis numérico . Dover Books on Mathematics. ISBN 978-0486449722.
Krivoruchenko, MI (2016). "Identidades de trazas para matrices simétricas oblicuas". arXiv : 1605.00447 .
Kondratyuk, LA; Krivoruchenko, MI (1992). "Materia de quarks superconductores en el grupo de colores SU (2)". Zeitschrift für Physik A. 344 (1): 99-115. Código Bib : 1992ZPhyA.344...99K. doi :10.1007/BF01291027. S2CID 120467300.
Laufer, A. (1997). "El mapa exponencial de GL(N)". J. Phys. A: Math. Gen . 30 (15): 5455–5470. arXiv : hep-th/9604049 . Código Bibliográfico :1997JPhA...30.5455L. doi :10.1088/0305-4470/30/15/029. S2CID 10699434.
Tian, Y. (2000). "Representaciones matriciales de octoniones y su aplicación". Avances en álgebras de Clifford aplicadas . 10 (1): 61–90. arXiv : math/0003166 . Bibcode :2000math......3166T. CiteSeerX 10.1.1.237.2217 . doi :10.1007/BF03042010. ISSN 0188-7009. S2CID 14465054.
Zeni, JR; Rodrigues, WA (1992). "Un estudio reflexivo de las transformaciones de Lorentz mediante álgebras de Clifford". Int. J. Mod. Phys. A . 7 (8): 1793 pp. Código Bibliográfico :1992IJMPA...7.1793Z. doi :10.1142/S0217751X92000776.
Zhang, F. (1997). "Cuaterniones y matrices de cuaterniones". Álgebra lineal y sus aplicaciones . 251 : 21–57. doi : 10.1016/0024-3795(95)00543-9 . ISSN 0024-3795(archivo abierto).

Enlaces externos

"Teorema de Cayley-Hamilton", Enciclopedia de Matemáticas , EMS Press , 2001 [1994]
Una prueba de PlanetMath.
El teorema de Cayley-Hamilton en MathPages