El American National Corpus ( ANC ) es un corpus de textos del inglés estadounidense que contiene 22 millones de palabras de datos escritos y hablados producidos desde 1990. Actualmente, el ANC incluye una variedad de géneros, incluidos géneros emergentes como el correo electrónico, los tweets y los datos web que no están incluidos en corpus anteriores como el British National Corpus . Está anotado para partes del discurso y lemas , análisis sintáctico superficial y entidades con nombre .
El ANC está disponible en el Consorcio de Datos Lingüísticos . Un subconjunto de quince millones de palabras del corpus, llamado Open American National Corpus (OANC), está disponible de forma gratuita y sin restricciones de uso en el sitio web del ANC.
El corpus y sus anotaciones se proporcionan de acuerdo con las especificaciones del marco de anotación lingüística de ISO/TC 37 SC4. Mediante el uso de una herramienta de transducción proporcionada gratuitamente (ANC2Go), el corpus y las anotaciones elegidas por el usuario se proporcionan en múltiples formatos, incluido el formato CoNLL IOB, el formato XML conforme al estándar de codificación de corpus XML (XCES) (utilizable con el motor de búsqueda XAIRA del British National Corpus ), un formato compatible con UIMA y formatos adecuados para la entrada a una amplia variedad de software de concordancia. También hay disponibles complementos para importar las anotaciones a General Architecture for Text Engineering (GATE).
El ANC se diferencia de otros corpus del inglés porque está ricamente anotado, incluyendo diferentes anotaciones de partes del discurso (etiquetas Penn, etiquetas CLAWS5 y CLAWS7), anotaciones de análisis superficial y anotaciones para varios tipos de entidades nombradas . Se agregan anotaciones adicionales a todo el corpus o a partes del mismo a medida que están disponibles, a menudo por contribuciones de otros proyectos. A diferencia de los corpus que se pueden buscar en línea, que debido a restricciones de derechos de autor permiten el acceso solo a oraciones individuales, el ANC completo está disponible para permitir la investigación que involucra, por ejemplo, el desarrollo de modelos de lenguaje estadístico y anotación lingüística de texto completo.
Las anotaciones ANC se producen automáticamente y no se validan. Un subconjunto de 500.000 palabras llamado el Subcorpus Anotado Manualmente (MASC) está anotado para aproximadamente 20 tipos diferentes de anotaciones lingüísticas, todas las cuales han sido validadas o producidas manualmente. Estas incluyen la anotación sintáctica de Penn Treebank, la anotación de sentido de WordNet , las anotaciones de marco semántico de FrameNet , entre otras. Al igual que el OANC, MASC está disponible de forma gratuita para cualquier uso y se puede descargar desde el sitio de ANC o desde el Linguistic Data Consortium . También se distribuye en forma de etiqueta de parte del discurso con el Natural Language Toolkit .
El ANC y sus subcorpus se diferencian de otros corpus similares principalmente en la variedad de anotaciones lingüísticas que ofrecen y en la inclusión de géneros modernos que no aparecen en recursos como el British National Corpus . Además, dado que el uso inicial de los corpus era el desarrollo de modelos estadísticos del lenguaje, los datos completos y todas las anotaciones están disponibles, lo que los diferencia del Corpus of Contemporary American English (COCA), que solo está disponible de forma selectiva a través de un navegador web.
El crecimiento continuo de la OANC y la MASC depende de las contribuciones de datos y anotaciones de las comunidades de lingüística computacional y lingüística de corpus.