BookCorpus (también conocido como Toronto Book Corpus ) es un conjunto de datos que consta del texto de alrededor de 7000 libros autoeditados extraídos del sitio web de distribución de libros electrónicos independientes Smashwords . [1] Fue el corpus principal utilizado para entrenar el modelo GPT inicial de OpenAI , [2] y se ha utilizado como datos de entrenamiento para otros modelos de lenguaje grandes tempranos, incluido BERT de Google . [3] El conjunto de datos consta de alrededor de 985 millones de palabras, y los libros que lo componen abarcan una variedad de géneros, que incluyen romance, ciencia ficción y fantasía. [3]
El corpus fue presentado en un artículo de 2015 por investigadores de la Universidad de Toronto y el MIT titulado "Alineando libros y películas: Hacia explicaciones visuales similares a historias mediante la observación de películas y la lectura de libros". Los autores lo describieron como compuesto por "libros gratuitos escritos por autores aún no publicados", pero esto es incorrecto desde el punto de vista fáctico. Estos libros fueron publicados por autores autopublicados ("independientes") que los pusieron a precio gratuito; los libros fueron descargados sin el consentimiento o permiso de Smashwords o de los autores de Smashwords y en violación de los Términos de Servicio de Smashwords. [4] El conjunto de datos se alojó inicialmente en una página web de la Universidad de Toronto. [4] Una versión oficial del conjunto de datos original ya no está disponible públicamente, aunque se ha creado al menos un sustituto, BookCorpusOpen. [1] Aunque no está documentado en el artículo original de 2015, ahora se sabe que el sitio del que se extrajeron los libros del corpus es Smashwords . [4] [1]