En estadística y econometría , los datos de panel y los datos longitudinales [1] [2] son datos multidimensionales que implican mediciones a lo largo del tiempo. Los datos de panel son un subconjunto de los datos longitudinales en los que las observaciones corresponden a los mismos sujetos cada vez.
Las series temporales y los datos transversales pueden considerarse casos especiales de datos de panel que tienen una sola dimensión (un miembro del panel o individuo para los primeros, un punto temporal para los segundos). Una búsqueda bibliográfica a menudo implica series temporales, datos transversales o de panel. Los datos transversales de panel (CPD) son una fuente de información innovadora pero poco apreciada en las ciencias matemáticas y estadísticas. Los CPD se distinguen de otros métodos de investigación porque ilustran vívidamente cómo las variables independientes y dependientes pueden cambiar entre países. Esta recopilación de datos de panel permite a los investigadores examinar la conexión entre variables a lo largo de varias secciones transversales y períodos de tiempo y analizar los resultados de las acciones de política en otras naciones. [3]
Un estudio que utiliza datos de panel se denomina estudio longitudinal o estudio de panel.
En el ejemplo anterior del procedimiento de permutación de respuesta múltiple ( MRPP ), se muestran dos conjuntos de datos con una estructura de panel y el objetivo es probar si hay una diferencia significativa entre las personas en los datos de muestra. Se recopilan características individuales (ingresos, edad, sexo) para diferentes personas y diferentes años. En el primer conjunto de datos, se observan dos personas (1, 2) cada año durante tres años (2016, 2017, 2018). En el segundo conjunto de datos, se observan tres personas (1, 2, 3) dos veces (persona 1), tres veces (persona 2) y una vez (persona 3), respectivamente, durante tres años (2016, 2017, 2018); en particular, la persona 1 no se observa en el año 2018 y la persona 3 no se observa en 2016 o 2018.
Un panel equilibrado (por ejemplo, el primer conjunto de datos anterior) es un conjunto de datos en el que se observa a cada miembro del panel (es decir, a cada persona) cada año. En consecuencia, si un panel equilibrado contiene miembros del panel y períodos, la cantidad de observaciones ( ) en el conjunto de datos es necesariamente .
Un panel no balanceado (por ejemplo, el segundo conjunto de datos anterior) es un conjunto de datos en el que al menos un miembro del panel no se observa en cada período. Por lo tanto, si un panel no balanceado contiene miembros del panel y períodos, entonces se cumple la siguiente desigualdad estricta para la cantidad de observaciones ( ) en el conjunto de datos: .
Ambos conjuntos de datos anteriores están estructurados en formato largo , en el que una fila contiene una observación por momento. Otra forma de estructurar los datos de panel sería el formato ancho , en el que una fila representa una unidad de observación para todos los puntos en el tiempo (por ejemplo, el formato ancho tendría solo dos (primer ejemplo) o tres (segundo ejemplo) filas de datos con columnas adicionales para cada variable que varía con el tiempo (ingreso, edad).
Un panel tiene la forma
donde es la dimensión individual y es la dimensión temporal. Un modelo de regresión de datos de panel general se escribe como . Se pueden hacer diferentes suposiciones sobre la estructura precisa de este modelo general. Dos modelos importantes son el modelo de efectos fijos y el modelo de efectos aleatorios .
Consideremos un modelo de datos de panel genérico:
son efectos específicos del individuo, invariantes en el tiempo (por ejemplo, en un panel de países esto podría incluir geografía, clima, etc.) que son fijos en el tiempo, mientras que es un componente aleatorio que varía con el tiempo.
Si no se observa y está correlacionado con al menos una de las variables independientes, provocará un sesgo por omisión de variable en una regresión MCO estándar . Sin embargo, se pueden utilizar métodos de datos de panel, como el estimador de efectos fijos o, alternativamente, el estimador de primera diferencia , para controlarlo.
Si no está correlacionado con ninguna de las variables independientes, se pueden utilizar métodos de regresión lineal de mínimos cuadrados ordinarios para obtener estimaciones insesgadas y consistentes de los parámetros de regresión. Sin embargo, debido a que es fijo en el tiempo, inducirá una correlación serial en el término de error de la regresión. Esto significa que hay disponibles técnicas de estimación más eficientes. Los efectos aleatorios son uno de esos métodos: es un caso especial de mínimos cuadrados generalizados factibles que controla la estructura de la correlación serial inducida por .
Los datos de panel dinámicos describen el caso en el que se utiliza un rezago de la variable dependiente como regresor:
La presencia de la variable dependiente rezagada viola la exogeneidad estricta, es decir, puede ocurrir endogeneidad . Tanto el estimador de efectos fijos como el estimador de primeras diferencias se basan en el supuesto de exogeneidad estricta. Por lo tanto, si se cree que está correlacionada con una de las variables independientes, se debe utilizar una técnica de estimación alternativa. Las variables instrumentales o las técnicas GMM se utilizan comúnmente en esta situación, como el estimador de Arellano-Bond . Al estimarlo, debemos tener la información adecuada sobre las variables instrumentales.