La relación entre el objeto y la proyección de su imagen es muy compleja y puede depender de más factores que no sean solamente la posición del objeto, lo que implica que el seguimiento de objetos sea una tarea difícil.
Dado que el aspecto tanto del resto de objetos como el fondo puede ser similar al del objeto de interés, esto puede interferir en su observación.
Esta información temporal se calcula generalmente con la técnica frame differencing, que pone de manifiesto las regiones cambiantes en tramos consecutivos.
Existen diferentes técnicas de segmentación de objetos en movimiento que se pueden separar en dos grandes grupos: las basadas en movimientos y las basadas en características espaciotemporales.
Como consecuencia, los sistemas de segmentación en 3D son los más utilizados en la práctica.
Dentro de los métodos en tres dimensiones se pueden distinguir dos algoritmos diferentes: El SFM generalmente maneja escenas 3D que contienen información relevante de profundidad, mientras que en los métodos paramétricos no se asume esta profundidad.
Otra diferencia importante entre los dos algoritmos es que en el SFM se asume un movimiento rígido, mientras que en los algoritmos paramétricos solo se asume rigidez de movimiento en partes de la escena.
Para solucionar estos problemas, en los métodos espaciotemporales se propone complementar el movimiento mediante el uso de la información espacial.
Los objetos detectados en imágenes consecutivas están representados cada uno por uno o varios puntos y la asociación de éstos está basada en el estado del objeto en la imagen anterior, que puede incluir posición y movimiento.
El movimiento del objeto se expresa en general en forma de movimiento paramétrico (translación, rotación, afín...) o mediante el campo de flujo calculado en los siguientes fotogramas.
Podemos distinguir dos categorías: Estas técnicas se realizan mediante la valoración de la región del objeto en cada imagen utilizando la información que contiene.