Estos ejemplos pueden obtenerse de textos escritos (los más comunes), o muestras orales (generalmente transcritas).
Es decir, en cuanto a su estructura, variedad y complejidad, un corpus debe reflejar una lengua, o su modalidad, de la forma más exacta posible; en cuanto a su uso, preocuparse de que su representación sea real.
Por esta razón conviene analizar un corpus recurriendo a herramientas y metodología propias.
Actualmente los corpus se recogen y almacenan de manera electrónica.
Los corpus lingüísticos se utilizan para hacer análisis estadísticos y contrastar hipótesis sobre el área que estudian.
Esta subdisciplina, dado el volumen de datos que maneja, suele asociarse con la lingüística computacional, según esta última se acerca a las aplicaciones del procesamiento de lenguaje natural.
De esta manera, debe ser posible aplicar los textos del corpus a una población entera.
Los textos auténticos son aquellos que se han creado en condiciones de comunicación natural.
Incluso los errores típicos en los periódicos y las revistas de la lengua inglesa se consideran valiosos en cierta manera.
El equilibrio se consigue al establecer las proporciones de diferentes fuentes según ciertos criterios.
Los criterios posibles son los siguientes: En cuanto a la representatividad, la pregunta esencial es ¿qué es lo que debe reflejar un corpus?
Los corpus lingüísticos se pueden dividir dependiendo del tipo de información que recojan.
El corpus sincrónico contiene ejemplos lingüísticos recogidos en un único momento, es decir, en un tiempo determinado.
Se usa para ver como palabras desaparecen, están introducidas o cambian de significado.
En los corpus continuos se puede aplicar filtros que recojan hechos lingüísticos nuevos.
Los corpus orales se utilizan para analizar las peculiaridades del discurso oral (en ese caso, se suele trabajar con corpus transcritos) y para el estudio del componente fónico (con las grabaciones).