El Old Spanish Textual Archive, diseño y desarrollo de un corpus de textos medievales : lematización y etiquetado gramatical
Article Sidebar
Citacions a Google Acadèmic
Main Article Content
Francisco Gago Jover
College of the Holy Cross (Estats Units d'Amèrica)
Francisco Javier Pueyo Mena
College of the Holy Cross (Estats Units d'Amèrica)
This paper presents aspects related to the processing of forms, lemmas, grammatical analysis and texts in the Old Spanish Textual Archive (OSTA), a linguistic corpus of more than 32 million words, based on the more than 400 semipaleographic transcriptions of medieval texts written in Castilian, Asturian, Leonese, Navarro-Aragonese and Aragonese prepared by the collaborators of the Hispanic Seminary of Medieval Studies (HSMS). It also describes the process of tagging and lemmatization using Freeling, a Natural Language Processing tool, and HSMS-app, a textual analysis tool developed for this project.
Paraules clau
electronic corpus design, corpus annotation, digital medieval Spanish corpus, medieval Spanish
Article Details
Com citar
Gago Jover, Francisco; and Pueyo Mena, Francisco Javier. “El Old Spanish Textual Archive, diseño y desarrollo de un corpus de textos medievales : lematización y etiquetado gramatical”. Scriptum digital. Revista de corpus diacrònics i edició digital en Llengües iberoromàniques, no. 7, pp. 25-35, https://raco.cat/index.php/scriptumdigital/article/view/343462.
Articles més llegits del mateix autor/a
- Francisco Gago Jover, La biblioteca digital de textos del español antiguo (BiDTEA) , Scriptum digital. Revista de corpus diacrònics i edició digital en Llengües iberoromàniques: Núm. 4 (2015)
- Aitor García Moreno, Francisco Javier Pueyo Mena, Etiquetado gramatical y lematización en el Corpus Histórico Judeoespañol (CORHIJE): problemas, soluciones y resoluciones , Scriptum digital. Revista de corpus diacrònics i edició digital en Llengües iberoromàniques: Núm. 6 (2017)