El análisis orientado a datos ( DOP , también procesamiento orientado a datos ) es un modelo probabilístico en lingüística computacional . DOP fue concebido por Remko Scha en 1990 con el objetivo de desarrollar un marco gramatical orientado al rendimiento . A diferencia de otros modelos probabilísticos, DOP tiene en cuenta todos los subárboles contenidos en un banco de árboles en lugar de restringirse, por ejemplo, a subárboles de 2 niveles (como PCFG ), lo que permite obtener información más sensible al contexto. [1]
Se han desarrollado varias variantes de DOP. La versión inicial desarrollada por Rens Bod en 1992 se basó en la gramática de sustitución de árboles [2] , mientras que más recientemente, DOP se ha combinado con la gramática léxico-funcional (LFG). El DOP-LFG resultante encuentra una aplicación en la traducción automática . Otros trabajos sobre aprendizaje y estimación de parámetros para DOP también han encontrado su camino en la traducción automática.