Automatització de processos en el desenvolupament de corpus històrics: una proposta des de les xarxes XARTA i EGPA

Main Article Content

Víctor Caballero Gómez
Mireia Peris Vicent
Ricardo Pichel

En la creació i el desenvolupament de corpus, algunes tasques es poden executar parcialment de manera automàtica. La primera, en el cas dels corpus de textos manuscrits, és la pròpia transcripció dels testimonis. De la mateixa manera, es poden automatitzar processos com la conversió dels textos a XML, la seva normalització o la seva anotació. En aquest treball presentem els desenvolupaments empresos per automatitzar algunes d'aquestes tasques en els corpus que utilitzen els criteris de la Xarxa CHARTA (Corpus hispànic i americà a la xarxa: textos antics), en particular l'Escriptori Gallec-Portuguès Antic (EGPA), sotmetent-los a anàlisi i avaluant-ne l'efectivitat més gran o més petita.

Paraules clau
edició digital, anotació de corpus, lingüística de corpus, interoperabilitat, dades obertes

Article Details

Com citar
Caballero Gómez, Víctor et al. «Automatització de processos en el desenvolupament de corpus històrics: una proposta des de les xarxes XARTA i EGPA». Scriptum digital. Revista de corpus diacrònics i edició digital en Llengües iberoromàniques, 2025, vol.VOL 14, p. 7-36, doi:10.5565/rev/scriptum.142.
Referències

PDgp = PICHEL, Ricardo (dir.): 7PDgp. Edição digital das Sete Partidas na Galiza e Portugal. Integrado en Escritorio Galego-Portugués Antigo. https://corpora.uah.es/7pdgp/ [Consulta: 17/09/2025].

ACOCdigital = VALERO MORENO, Juan Miguel (dir.): ACOCdigital: Alfonso de Cartagena. Obras completas. http://corpus.usal.es/acoc/ [Consulta: 17/09/2025].

AGUILAR, Lourdes, Ana Belén AVILÉS, Jordi FONTSECA, Carme DE LA MOTA, Yolanda RODRÍGUEZ SELLÉS, Paola Guadalupe CAYMES SCUTARI, Sergi BALARI (2004-2005): «Un módulo de desambiguación morfosintáctica para el castellano basado en conocimiento lingüístico», Revista española de lingüística aplicada, 17-18, pp. 7-17.

AGUJETAS Ortiz, María y Pedro SÁNCHEZ-PRIETO BORJA (2022): «Nuevas vías para la recuperación de información en corpus históricos: clasificación del vocabulario», Scriptum digital, 11, pp. 5-54. https://raco.cat/index.php/scriptumdigital/article/view/412601. [Consulta: 17/09/2025].

AGUJETAS ORTIZ, María, Pedro SÁNCHEZ-PRIETO BORJA e Hiroto UEDA (2022): Inventario léxico de Castilla la Nueva. https://h-ueda.sakura.ne.jp/lyneal/il/cn/ [Consulta: 17/09/2025].

ALDICAM = GRUPO DE INVESTIGACIÓN DE TEXTOS PARA LA HISTORIA DEL ESPAÑOL [GITHE]: Atlas lingüístico diacrónico e interactivo de la Comunidad de Madrid. http://aldicam.blogspot.com/ [Consulta: 17/09/2025].

ARANHIS = PICHEL, Ricardo, Carmen BENÍTEZ GUERRERO y Filipe Alves MOREIRA (coords.): ARANHIS: Archivum Annalisticum Hispanum. Integrado en Escritorio Galego-Portugués Antigo. https://corpora.uah.es/aranhis/ [Consulta: 17/09/2025].

ARIAS ÁLVAREZ, Beatriz (2009): «Confección de un corpus para conocer el origen, la evolución y la consolidación del español en la Nueva España», en Andrés Enrique-Arias (ed.): Diacronía de las lenguas iberorrománicas: nuevas aportaciones desde la lingüística de corpus. Madrid-Frankfurt am Main: Iberoamericana-Veuvert, pp. 55-76. https://doi.org/10.31819/9783865278685-005 [Consulta: 17/09/2025].

ARIAS ÁLVAREZ, Beatriz (2012): «Configuración de un corpus colonial y caracterización de subcorpus que ayuden al conocimiento del español colonial mexicano», en María Jesús Torrens Álvarez y Pedro Sánchez-Prieto Borja (eds.): Nuevas perspectivas para la edición y el estudio de documentos hispánicos antiguos. Berna: Peter Lang, pp. 307-322.

BRAVO GARCÍA, Eva, Ana MANCERA RUEDA y Leyre MARTÍN AIZPURU (2021): «Edición de un corpus de documentos sobre los movimientos de insurgencia en Cuba durante la segunda mitad del siglo XIX», Scriptum digital, 10, pp. 53-73. https://raco.cat/index.php/scriptumdigital/article/view/395976 [Consulta: 17/09/2025].

CABALLERO GÓMEZ, Víctor (2019): «La codificación XML en el ámbito de las Ciencias Historiográficas. Algunas propuestas para su uso y desarrollo», Revista de Humanidades Digitales, 4, pp. 57-68. https://doi.org/10.5944/rhd.vol.4.2019.25136 [Consulta: 17/09/2025].

CABALLERO GÓMEZ, VÍCTOR, Miguel GARCÍA-FERNÁNDEZ y Ricardo PICHEL (2025): «O Escritorio Galego-Portugués Antigo (EGPA). Novos avances técnicos e proxectos en andamento», en II Xeira CLARIAH-GAL (Santiago de Compostela, 9 de mayo de 2025). https://ilg.usc.gal/gl/actividades/II-xeira-clariah-gal [Consulta: 17/09/2025]

CALDERÓN CAMPOS, Miguel (2019): «La edición de corpus históricos en la plataforma TEITOK. El caso de “Oralia diacrónica del español”», Chimera: Romance Corpora and Linguistic Studies, 6, pp. 21-36.

CALDERÓN CAMPOS, Miguel y M.ª Teresa GARCÍA-GODOY (2009): «El Corpus diacrónico del español del Reino de Granada (CORDEREGRA)», en Andrés Enrique-Arias (ed.): Diacronía de las lenguas iberorrománicas: nuevas aportaciones desde la lingüística de corpus. Madrid-Frankfurt am Main: Iberoamericana-Veuvert, pp. 229-250. https://doi.org/10.31819/9783865278685-014 [Consulta: 17/09/2025].

CALDERÓN CAMPOS, Miguel y Gael VAAMONDE (2020): «Oralia Diacrónica del Español: un nuevo corpus de la Edad Moderna», Scriptum digital, 9, pp. 167-189. https://raco.cat/index.php/scriptumdigital/article/view/377292 [Consulta: 17/09/2025].

CALDERÓN CAMPOS, Miguel y Rocío DÍAZ BRAVO (2021): «An online corpus for the study of historical dialectology: Oralia diacrónica del español», Digital Scholarship in the Humanities, 1, pp. 1-19. https://doi.org/10.1093/llc/fqaa066 [Consulta: 17/09/2025].

CALDERÓN CAMPOS, Miguel y M.ª Teresa GARCÍA-GODOY (2023): «“Y el dicho testigo dijo su dicho”. Gramaticalización y etiquetado de dicho en el corpus Oralia Diacrónica del Español (ODE)», en Patricia Giménez-Eguíbar et al. (eds.): Despertar palabras, renacer historias. Estudios lingüísticos en homenaje a M.ª Nieves Sánchez González de Herrero. Salamanca: Universidad de Salamanca, pp. 155-167.

CARRASCO CAMPOS, Inés, Livia Cristina GARCÍA AGUIAR y Pilar LÓPEZ MORA (2012): «El corpus CODEMA: una base documental para el estudio de la norma meridional», en M.ª Ángeles Peinado Herreros (coord.): I Congreso Internacional «El patrimonio cultural y natural como motor de desarrollo: investigación e innovación». Sevilla: Universidad Internacional de Andalucía, pp. 2140-2152.

CASTILLO LLUCH, Mónica y Elena DIEZ DEL CORRAL ARETA (2015): «El fondo Balbueno de la Universidad de Lausana», Scriptum digital, 4, pp. 109-123. https://raco.cat/index.php/scriptumdigital/article/view/316361 [Consulta: 17/09/2025].

CASTILLO LLUCH, Mónica y Elena DIEZ DEL CORRAL ARETA (2018): «Fondos documentales hispánicos en Suiza: una exploración de conjunto», Scriptum digital, 7, pp. 95-105. https://raco.cat/index.php/scriptumdigital/article/view/343467 [Consulta: 17/09/2025].

CDHM = GRUPO DE LINGÜÍSTICA HISPÁNICA-UNIVERSIDAD DE LOS ANDES [GLH-ULA]: Corpus de Documentos Históricos de Mérida. https://corpora.uah.es/charta/ [Consulta: 17/09/2025].

CHARTA = RED CHARTA: Corpus hispánico y americano en red: textos antiguos (CHARTA). https://corpora.uah.es/charta/ [Consulta: 17/09/2025].

CHAPELA DURÁN, Daniel (2024): Edición e glosario da documentación en galego do século XIII do mosteiro de San Xoán de Poio. Trabajo Final de Máster. Santiago de Compostela: Universidade de Santiago de Compostela.

CMIR = GRUPO DE ESTUDIO DE DOCUMENTOS HISTÓRICOS Y TEXTOS ANTIGUOS DE LA UNIVERSIDAD DE SALAMANCA [GEDHYTAS]: Corpus de documentación medieval castellana de Miranda de Ebro. https://campus.usal.es/~gedhytas/index.php/txt/doc/cmir [Consulta: 17/09/2025].

CODCAR = GRUPO DE ESTUDIO DE DOCUMENTOS HISTÓRICOS Y TEXTOS ANTIGUOS DE LA UNIVERSIDAD DE SALAMANCA [GEDHYTAS]: Corpus de cancillería real castellana del siglo XIII. https://campus.usal.es/~gedhytas/index.php/txt/doc/ccan [Consulta: 17/09/2025].

CODEA+ 2022 = GRUPO DE INVESTIGACIÓN DE TEXTOS PARA LA HISTORIA DEL ESPAÑOL [GITHE]: Corpus de documentos españoles anteriores a 1900. https://corpuscodea.es/ [Consulta: 17/09/2025].

CODEMA = ARCHIVO INFORMÁTICO DE TEXTOS DE ANDALUCÍA [ARINTA]: Corpus Diacrónico de Documentación Malagueña. http://teitok.uma.es/codema/ [Consulta: 17/09/2025].

CODHECUN = BRAVO GARCÍA, Eva, Ana MANCERA RUEDA y Leyre MARTÍN AIZPURU (dirs.) (2022): Corpus Documental y Hemerográfico de la Cuba del Novecientos. http://cuba19.us.es/ [Consulta: 17/09/2025].

COHIECOS = CRUZ VOLIO, Gabriela (dir.): Corpus Histórico del Español de Costa Rica. https://teitok.ucr.ac.cr/ [Consulta: 17/09/2025].

COHSANRE = GRUPO INTEXTA: Corpus Histórico del Santo Reino. https://corpora.uah.es/charta/ [Consulta: 17/09/2025].

CORAPRINA = TESUN: Corpus de archivos privados de Navarra. https://corpora.unav.edu/ [Consulta: 17/09/2025].

CorColombia = DIEZ DEL CORRAL ARETA, Elena (dir.): Corpus del español de Colombia. https://grafila.unil.ch/corcolombia/ [Consulta: 17/09/2025].

CORESGAL = GARCÍA-FERNÁNDEZ, Miguel (dir.): Corpus de espontáneas de Galicia. Integrado en Escritorio Galego-Portugués Antigo. https://corpora.uah.es/coresgal/ [Consulta: 17/09/2025].

CORDEREGRA = CALDERÓN CAMPOS, Miguel y María Teresa GARCÍA-GODOY (dirs.) (2015): Corpus Diacrónico del Español del Reino de Granada. http://corpora.ugr.es/ode/ [Consulta: 17/09/2025].

CORDEX = SÁNCHEZ SIERRA, Diego (dir.): Corpus diacrónico de Extremadura. https://corpora.uah.es/cordex/ [Consulta: 17/09/2025].

CORDINA = PICHEL, Ricardo y Diego SÁNCHEZ SIERRA (dirs.): Corpus diacrónico del español de Norteamérica. https://corpora.uah.es/cordina/ [Consulta: 17/09/2025].

COREECOM = GRUPO DE ESTUDIO DEL ESPAÑOL COLONIAL MEXICANO [GEECOM]: Corpus Electrónico del Español Colonial Mexicano. https://doi.org/10.19130/coreecom.clh.2019 [Consulta: 17/09/2025].

CORHEN = TORRENS ÁLVAREZ, María Jesús (dir. y ed.) (2016): Corpus Histórico del Español Norteño. http://corhen.es/ [Consulta: 17/09/2025].

CORHIBER = TORRUELLA, Joan y Johannes KABATEK (2018-): Portal de Corpus Históricos Iberorrománicos. http://www.corhiber.org/ [Consulta: 17/09/2025].

Corpus Mallorca = ENRIQUE-ARIAS, Andrés (dir.): Documentos castellanos en archivos de las Islas Baleares. https://www.corpusmallorca.es/ [Consulta: 17/09/2025].

CORREGAM = GARCÍA-FERNÁNDEZ, Miguel, Diana PELAZ FLORES y Ricardo PICHEL (coords.): Corpus rexio e rexinal da Galicia medieval. Integrado en Escritorio Galego-Portugués Antigo. https://corpora.uah.es/egpa/corregam [Consulta: 17/09/2025].

CORTESGAL = GARCÍA-FERNÁNDEZ, Miguel (dir.): Corpus testamentario de Galicia. Integrado en Escritorio Galego-Portugués Antigo. https://corpora.uah.es/egpa/cortesgal [Consulta: 17/09/2025].

COSTAS FRAGUEIRO, Brais (2023): Primeira aproximación aos protocolos notariais de Johán Rodríguez (Catedral de Tui, 1413-1442). Trabajo Final de Grado. Santiago de Compostela: Universidade de Santiago de Compostela. http://hdl.handle.net/10347/31088 [Consulta: 17/09/2025].

COSUIZA = GRUPO DE ANÁLISIS FILOLÓGICO DE LAUSANA [GRAFILA]: Corpus de documentos hispánicos de Suiza. https://grafila.unil.ch/cosuiza/ [Consulta: 17/09/2025].

COTAGAL = PICHEL, Ricardo y Xavier VARELA BARREIRO (dirs.): Corpus de Textos Antigos da Galiza. https://ilg.usc.gal/es/proxectos/corpus-de-textos-antiguos-de-galicia-cotagal [Consulta: 17/09/2025].

CRUZ VOLIO, Gabriela (2021a): «Hacia la conformación de un corpus histórico para el español colonial de Costa Rica», Diseminaciones, 4 (7), pp. 79-98.

CRUZ VOLIO, Gabriela (2021b): «Cuestiones sobre la selección y la edición de documentos coloniales para un corpus histórico del español de Costa Rica», en Alexánder Sánchez Mora, Gabriela Cruz Volio y José Luis Ramírez Luengo (eds.): La palabra olvidada: la lengua y la literatura de Centroamérica entre la Colonia y la Independencia, vol. I. San José: Encino, pp. 17-57.

ČERMÁKOVÁ, Anna, Jarmo JANTUNEN, Tommi JAUHIAINEN, John KIRK, Michal KŘEN, Marc KUPIETZ y Elaine UÍ DHONNCHADHA (2021): «The International Comparable Corpus: Challenges in building multilingual spoken and written comparable corpora», Research in Corpus Linguistics, 9 (1), pp. 89-103. https://doi.org/10.32714/ricl.09.01.06 [Consulta: 17/09/2025].

DGSXIX = GÓMEZ SEIBANE, Sara (dir.): Documentación guipuzcoana del siglo XIX. https://corpora.uah.es/charta/ [Consulta: 17/09/2025].

DHISPAM = Diacrhonica Hispanica [DH]: Diachronica Hispanica Americana. https://www.unine.ch/espagnol/home.html [Consulta: 17/09/2025].

DHLC = RUIZ VÁSQUEZ, Néstor Fabián (dir.): Documentos para la historia lingüística de Colombia; siglos XVI a XIX. Integrado en el Corpus Diacrónico y Diatópico del Español de América. https://www.cordiam.org/ [Consulta: 17/09/2025].

DÍAZ BRAVO, Rocío y Gael VAAMONDE (2020): «Creación de ediciones digitales para lingüistas de corpus: el caso del Retrato de la Loçana andaluza», en José R. Belda-Medina y Ricardo Casañ-Pitarch (eds.): Análisis del Discurso en la Era Digital: Una Recopilación de Casos de Estudio. Granada: Comares, pp. 17-34. https://hdl.handle.net/10481/89863 [Consulta: 17/09/2025].

DIEZ DEL CORRAL ARETA, Elena y Leyre MARTÍN AIZPURU (2014): «Sin corpus no hay historia: la Red CHARTA como un proyecto de edición común», Cuadernos de Lingüística, 2, pp. 287-314.

DIEZ DEL CORRAL ARETA, Elena y Ricardo PICHEL (2021): «Fenómenos de contacto español-francés en un corpus epistolar franco-chileno (s. XIX)», Cuadernos del Instituto Historia de la Lengua, 14, pp. 187-212. https://doi.org/10.58576/cilengua.vi14.19 [Consulta: 17/09/2025].

DOLEO = HISTORIA15: Documentación de lamento en español desde orígenes. https://corpora.uah.es/charta/ [Consulta: 17/09/2025].

GalScript = GARCÍA-FERNÁNDEZ, Miguel y Ricardo PICHEL (dirs.): GALLÆCIÆ SCRIPTORES: edición dixital dos repertorios notariais na Galiza medieval. https://corpora.uah.es/egpa/galscript [Consulta: 17/09/2025].

eASPA = PICHEL, Ricardo y Miguel GARCÍA-FERNÁNDEZ (dirs.): e-ASPA. Edición dixital do patrimonio documental medieval de San Paio de Antealtares. Integrado en Escritorio Galego-Portugués Antigo. https://corpora.uah.es/egpa/easpa [Consulta: 17/09/2025].

eRiaPon = CHAPELA, Daniel (dir.), Miguel GARCÍA-FERNÁNDEZ y Ricardo PICHEL (coords.): e-RiaPon. Edición dixital dos mosteiros da ría de Pontevedra. Integrado en Escritorio Galego-Portugués Antigo. https://corpora.uah.es/egpa/e-riapon [Consulta: 17/09/2025].

eCaTui = COSTAS FRAGUEIRO, Brais: eCaTui. Edición dixital dos protocolos notariais de Joán Rodríguez (Catedral de Tui, 1413-1442). Integrado en Escritorio Galego-Portugués Antigo. https://corpora.uah.es/egpa/ecatui [Consulta: 17/09/2025].

EGPA = PICHEL, Ricardo y Miguel GARCÍA-FERNÁNDEZ (dirs.): Escritorio Galego-Portugués Antigo. https://corpora.uah.es/egpa/ [Consulta: 17/09/2025].

ENRIQUE-ARIAS, Andrés y Ruth MIGUEL FRANCO (2015): «Una nueva herramienta para el estudio histórico del castellano en contacto con el catalán en Mallorca», en Juan Pedro Sánchez Méndez, Mariela de La Torre y Viorica Codita (eds.): Temas, problemas y métodos para la edición y el estudio de documentos hispánicos antiguos. Valencia: Tirant lo Blanch, pp. 407-426.

ENRIQUE-ARIAS, Andrés (2023): «El Corpus Mallorca». Una herramienta para el estudio histórico del castellano en contacto con el catalán en Mallorca», en Miguel Calderón Campos e Inmaculada González Sopeña (eds.): Scripta manent. Historia del español, documentación archivística y humanidades digitales. Lausanne: Peter Lang, pp. 535-561.

eReginae = RODRIGUES, Ana Maria S. A. y Maria Manuela Tavares dos Santos SILVA (dirs.): eReginae. Escrita e rainhas. As chancelarias reginais como instrumentos de poder (sécs. XI-XVI) Integrado en Escritorio Galego-Portugués Antigo. https://corpora.uah.es/egpa-ereginae/ [Consulta: 17/09/2025].

ESenCAT = TORRUELLA, Joan: Español en Cataluña [en fase de desarrollo].

FRADEJAS RUEDA, José Manuel (2023): «El Coloso Español», en José Manuel FRADEJAS RUEDA (ed.), 7PartidasDigital. Edición crítica digital de las «Siete Partidas». Valladolid: Universidad de Valladolid. https://doi.org/10.58079/vemr [Consulta: 17/09/2025].

Fueros Medievales = CASTILLO LLUCH, Mónica: Fueros Medievales. https://grafila.unil.ch/fuerosmedievales/ [Consulta: 17/09/2025].

GARCÍA-FERNÁNDEZ, Miguel (2016): «As espontáneas de San Xoán de Río. Sexualidade extraconxugal e tentativas de control municipal das mulleres no século XIX», en Álbum de mulleres. Santiago de Compostela: Comisión de Igualdade do Consello da Cultura Galega. http://culturagalega.gal/album/detalle.php?id=1044 [Consulta: 28/05/2024].

GARCÍA-FERNÁNDEZ, Miguel (2017): «Las últimas voluntades como expresión de la voz femenina en la Edad Media. Dos nuevas aportaciones al “Corpus testamentario de la Galicia medieval”», en Manuel Cabrera Espinosa y Juan Antonio López Cordero (eds.): IX Congreso virtual sobre Historia de las Mujeres (15 al 31 de octubre de 2017). Comunicaciones. Jaén: Asociación de Amigos del Archivo Histórico Diocesano de Jaén, pp. 233-284. https://corpora.uah.es/egpa/publicaciones/ultimasvoluntades.pdf [Consulta: 17/09/2025].

GARCÍA-FERNÁNDEZ, Miguel (2018a): As espontáneas. Historias de San Xoán de Río I. [San Xoán de Río]: Asociación Cultural RioMola / Concello de San Xoán de Río. https://culturagalega.gal/album/detalleextra.php?id=5264 [Consulta: 13/11/2024].

GARCÍA-FERNÁNDEZ, Miguel (2018b): «As derradeiras vontades dos señores de Castroverde: edición de «novos» documentos para o “Corpus testamentario da Galicia medieval”», Lucensia. Miscelánea de cultura e investigación, XXIX, 57, pp. 197-218. https://corpora.uah.es/egpa/publicaciones/asderradeiras.pdf [Consulta: 17/09/2025].

GARCÍA-FERNÁNDEZ, Miguel (2018-19): «Los expedientes de las “Espontáneas” de San Xoán de Río. Nuevas fuentes para la historia de las mujeres gallegas del siglo XIX”, Boletín Avriense, 48-49, pp. 287-314. http://consellodacultura.gal/mediateca/extras/CCG_ig_album_Espontaneas_sobre_003.pdf [Consulta: 17/09/2025].

GARCÍA-FERNÁNDEZ, Miguel (2019): «Testamentos femeninos para el estudio de la realidad señorial gallega a finales de la Edad Media: una aproximación comparada a las últimas voluntades de Guiomar Méndez de Ambía (1484) y doña Isabel González Noguerol (1527-1533)», en Manuel Cabrera Espinosa y Juan Antonio López Cordero (eds.): XI Congreso virtual sobre Historia de las Mujeres (15 al 31 de octubre de 2019). Comunicaciones. Jaén: Asociación de Amigos del Archivo Histórico Diocesano de Jaén, pp. 279-330. https://corpora.uah.es/egpa/publicaciones/testamentosfemeninos.pdf [Consulta: 17/09/2025].

GARCÍA-FERNÁNDEZ, Miguel (2025): «Da cantiga aos documentos: dona Milia Íñiguez de Mendoza nos tempos do trobadorismo galego-portugués», en Ricardo Pichel (ed.): «Contarte he maravillas...» Estudios hispánicos dedicados a Joseph T. Snow. Vol. 2 - El patrimonio literario de Alfonso X. Berlín: Peter Lang (en prensa).

GARCÍA-FERNÁNDEZ, Miguel; Diana PELAZ FLORES y Ricardo PICHEL (2020): «Galicia e El-Rei ou como reinar desde a distancia: comunicación política arredor de dous novos privilexios rodados de Xoán II», Madrygal. Revista de Estudios Gallegos, 23, pp. 139-180. https://doi.org/10.5209/madr.73069 [Consulta: 17/09/2025].

GARCÍA-FERNÁNDEZ, Miguel y Pablo S. OTERO PIÑEYRO MASEDA (2022): «Cinco «espontáneas» lucenses: achegas á muller, sexualidade e violencia na Galicia interior (s. XVIII)», Murguía. Revista Galega de Historia, 45-46, pp. 57-77. https://corpora.uah.es/egpa/publicaciones/cincoespontaneas.pdf [Consulta: 17/09/2025].

GARCÍA-FERNÁNDEZ, Miguel y Ricardo PICHEL (2020): «Novas achegas documentais para o estudo da realidade monástica da Ribeira Sacra: tres pergamiños inéditos de Santa Cristina de Ribas de Sil (ss. XV-XVI)», Murguía. Revista Galega de Historia, 41-42, pp. 13-41. https://corpora.uah.es/egpa/publicaciones/novasachegas.pdf [Consulta: 17/09/2025].

GARCÍA-FERNÁNDEZ, Miguel y Ricardo PICHEL (2023a): «A documentación de San Salvador de Sobrado de Trives máis alá do ASPA: achega para unha nova edición da súa colección documental», en Desde San Paio de Antealtares. Historia, patrimonio e vida monástica. Estudos dedicados a sor Mercedes, arquiveira de San Paio, e á Comunidade de Antealtares. Santiago de Compostela: Consorcio de Santiago / Alvarellos Editora, pp. 89-121. https://corpora.uah.es/egpa/publicaciones/sansalvadordesobrado.pdf [Consulta: 17/09/2025].

GARCÍA-FERNÁNDEZ, Miguel y Ricardo PICHEL (2023b): «O final do casal Limia-Seixas: a sentenza de anulación matrimonial de dona Xoana Vázquez das Seixas e Fernán Eanes de Limia (1398)», Madrygal. Revista de Estudios Gallegos, 26, e94791. https://doi.org/10.5209/madr.94791 [Consulta: 17/09/2025].

GARCÍA-FERNÁNDEZ, Miguel y Ricardo PICHEL (2024a): «Tres "novos" pergamiños de Afonso VII referidos a Galiza», Estudios Mindonienses, 37, pp. 929-943. https://corpora.uah.es/egpa/publicaciones/tresnovospergaminos.pdf [Consulta: 17/09/2025].

GARCÍA-FERNÁNDEZ, Miguel y Ricardo PICHEL (2024b): «Novos testemuños para a colección documental de Santa María de Montederramo», Madrygal. Revista de Estudios Gallegos, 27, e104943. https://doi.org/10.5209/madr.104943 [Consulta: 17/09/2025].

GARCÍA-FERNÁNDEZ, Miguel y Ricardo PICHEL (2024-25): «Os pergamiños de Manuel Murguía (I). Documentación medieval de Santa María de Sobrado», Murguía. Revista Galega de Historia, 50-51, pp. 13-36. https://corpora.uah.es/egpa/publicaciones/manuelmurguia.pdf [Consulta: 17/09/2025].

GARCÍA-FERNÁNDEZ, Miguel y Ricardo PICHEL (2025a): «O Corpus de Espontáneas de Galicia (CORESGAL). Revalorización de un tipo de documental singular a través de las Humanidades digitales», en II Xeira CLARIAH-GAL (Santiago de Compostela, 9 de mayo de 2025). https://ilg.usc.gal/gl/actividades/II-xeira-clariah-gal [Consulta: 17/09/2025]

GARCÍA-FERNÁNDEZ, Miguel y Ricardo PICHEL (2025b), «Fontes documentais da Galicia medieval para o profesorado en formación: materiais para a inclusión da perspectiva de xénero na Educación Secundaria a partir do EGPA», en Uxío-Breogán Diéguez Cequiel y Miguel García-Fernández (eds.): Ciencias Sociais. Investigación, fontes documentais, didáctica e recursos dixitais. Unha mirada desde a lexislación, a historia, a memoria histórica, a socioloxía, a antropoloxía e a didáctica das ciencias sociais. Santiago de Compostela: Instituto Galego de Historia, pp. 29-67. https://corpora.uah.es/egpa/publicaciones/fontesprofesorado.pdf [Consulta: 17/09/2025].

GARCÍA-FERNÁNDEZ, Miguel y Ricardo PICHEL (2025c): GALLÆCIÆ SCRIPTORES. O Rexistro de escrituras do notario Vasco Gómez Varela (1448-1461). Madrid: Sílex (en preparación).

GARRIDO MARTÍN, Blanca y Leyre MARTÍN AIZPURU (2024): «Filología en Teitok: la edición digital y algunas muestras de escritura epistolar», en María García Antuña (coord.): Filología y nuevas tecnologías. Sevilla: Universidad de Sevilla, pp. 91-98.

GIMÉNEZ-EGUÍBAR, Patricia y Ricardo PICHEL (2022): «“Se acordará de escribir a los pobres desterrados en este valle de dullness”. Prácticas del translenguar en la correspondencia privada de María Amparo Ruiz de Burton», en Belén Almeida, Ricardo Pichel y Delfina Vázquez Balonga (eds.), Escritura en mano de mujeres en el ámbito hispánico de la Edad Media a la Modernidad. Madrid: Sílex, pp. 405-429.

GIMÉNEZ-EGUÍBAR, Patricia y Ricardo PICHEL (2023): «Cartas desde la California recién anexionada: rasgos lingüísticos de la correspondencia privada de María Amparo Ruiz de Burton en los fondos de la Huntington Library (1852-1857)», Revista internacional de lingüística iberoamericana, 41 (Sección temática. Escritura femenina en el ámbito hispánico: enfoques para su estudio lingüístico y textual II), pp. 89-108. https://doi.org/10.31819/rili-2023-214107 [Consulta 15/07/2024].

GÓMEZ SEIBANE, Sara (2013): «Documentos guipuzcoanos 2. Cartas privadas y familiares», en Carmen Isasi Martínez y José Luis Ramírez Luengo (eds.): Una muestra documental del castellano norteño en el siglo XIX. Lugo: Axac, pp. 143-176.

HORCAJADA DIEZMA, Bautista (2012): «De la transcripción paleográfica a la presentación crítica. Automatización del proceso», en María Jesús Torrens Álvarez y Pedro Sánchez-Prieto Borja (eds.): Nuevas perspectivas para la edición y el estudio de documentos hispánicos antiguos. Berna: Peter Lang, pp. 427-445.

IRACEBURU JIMÉNEZ, Maite, Concepción MARTÍNEZ PASAMAR y Cristina TABERNERO SALA (2018): «Presentación del proyecto de investigación del grupo TesUN (Universidad de Navarra)», Chimera: Romance Corpora and Linguistic Studies, 5 (2), pp. 321-327. https://doi.org/10.15366/chimera2018.5.2.011 [Consulta: 17/09/2025].

ISASI MARTÍNEZ, Carmen, Leyre MARTÍN AIZPURU, Santiago PÉREZ ISASI, Elena PIERAZZO y Paul SPENCE (2020): Edición digital de documentos antiguos: marcación XML-TEI basada en los criterios CHARTA. Sevilla: Universidad de Sevilla.

JANSSEN, Maarten (2012): «NeoTag: A POS Tagger for Grammatical Neologism Detection», en Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC 2012). Estambul: European Language Resources Association (ELRA), pp. 2118-2124. http://www.lrec-conf.org/proceedings/lrec2012/pdf/1098_Paper.pdf [Consulta: 17/09/2025].

JANSSEN, Maarten (2014): TEITOK – a Tokenized TEI environment. http://www.teitok.org/ [Consulta: 17/09/2025].

JANSSEN, Maarten (2016): «TEITOK: Text-Faithful Annotated Corpora», en Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016). Portorož: European Language Resources Association (ELRA), pp. 4037-4043. https://aclanthology.org/L16-1637.pdf [Consulta: 17/09/2025].

JANSSEN, Maarten y Gael VAAMONDE (2020): «Da edición dixital á análise lingüística. A creación de corpus históricos na plataforma TEITOK», en Rosario Álvarez Blanco y Ernesto Xosé González Seoane (eds.): Calen barbas, falen cartas: A escrita en galego na Idade Moderna. Santiago de Compostela: Consello da Cultura Galega, pp. 271-292.

Letradas = ALMEIDA CABREJAS, Belén (coord.): Letradas. Corpus de textos escritos por mujeres en España (1400-1900). https://corpora.uah.es/letradas/ [Consulta: 17/09/2025].

LLOBERES, Marina, Irene CASTELLÓN y Lluis PADRÓ (2010): «Spanish FreeLing Dependency Grammar», en Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC 2010). Valletta: European Language Resources Association (ELRA), pp. 693-699. http://www.lrec-conf.org/proceedings/lrec2010/pdf/562_Paper.pdf [Consulta: 17/09/2025].

Lozana Digital = DÍAZ BRAVO, Rocío y Gael VAAMONDE (dirs.): LD. Lozana Digital. http://corpora.ugr.es/lozana [Consulta: 17/09/2025].

MARCET RODRÍGUEZ, Vicente J. y María de las Nieves SÁNCHEZ GONZÁLEZ DE HERRERO (2016): «La documentación medieval de Miranda de Ebro: Presentación del corpus y rasgos lingüísticos», en Johannes Kabatek (ed.), Lingüística de corpus y lingüística histórica iberorrománica. Berlín, Boston: De Gruyter, pp. 157-174. https://doi.org/10.1515/9783110462357-008 [Consulta: 17/09/2025].

MARTÍN AIZPURU, Leyre (2016): «Algunos recursos informáticos al servicio de la edición de textos: la edición en XML-TEI», en Chiara Albertin y Santiago del Rey Quesada (coords.): Hispanica Patavina. Estudios de historiografía e historia de la lengua española en homenaje a José Luis Rivarola. Padua: CLEUP, pp. 139-154.

MARTÍN AIZPURU, Leyre y María de las Nieves SÁNCHEZ GONZÁLEZ DE HERRERO (2019): «El estudio de la documentación alfonsí: un proyecto abierto», en Déborah González y Helena Bermúdez Sabel: Humanidades digitales: miradas hacia la Edad Media. Berlín: De Gruyter, pp. 111-130. https://doi.org/10.1515/9783110585421-009 [Consulta: 17/09/2025].

MELE = FERREIRA, Maria do Rosário y José Carlos Ribeiro MIRANDA (dirs.): Da memória escrita à leitura do espaço: Pedro de Barcelos e a identidade cultural do Norte de Portugal. Integrado en Escritorio Galego-Portugués Antigo. https://corpora.uah.es/egpa/mele [Consulta: 17/09/2025].

MIGUEL FRANCO, Ruth y Pedro SÁNCHEZ-PRIETO BORJA (2016): «CODEA: A “Primary” Corpus of Spanish Historical Documents», Variants, 12-13, pp. 211-230. https://doi.org/10.4000/variants.364 [Consulta: 17/09/2025].

MORAL DEL HOYO, M.ª Carmen (2019): «Volver a (y revolver) los orígenes del castellano: el Corpus Histórico del Español Norteño (CORHEN)», en Mónica Castillo Lluch y Elena Diez del Corral Areta (eds.): Reescribiendo la historia de la lengua española a partir de la edición de documentos. Bern: Peter Lang, pp. 361-390.

MORENO MORENO, María Águeda (2018): «Subcorpus documental administrativo del antiguo concejo de Baeza (Jaén): el corpus COHSANRE», Scriptum digital, 7, pp. 67-94. https://raco.cat/index.php/scriptumdigital/article/view/343466 [Consulta: 17/09/2025].

NOSTOI = PICHEL, Ricardo y Clara PASCUAL-ARGENTE (dirs.): NOSTOI: Corpus de textos troyanos ibéricos (ss. XIII-XVI). https://corpora.uah.es/nostoi/ [Consulta: 17/09/2025].

ODE = CALDERÓN CAMPOS, Miguel y María Teresa GARCÍA-GODOY (2010-2019): Oralia Diacrónica del Español. http://corpora.ugr.es/ode/ [Consulta: 17/09/2025].

OLAIA, Inês (2023): «What's in a signature? Assessing the use of the royal signature by the Queens of Portugal in the late Middle Ages», RiMe. Rivista dell'Istituto di Storia dell'Europa Mediterranea, 12/I n.s. (número especial), pp. 91-114. https://doi.org/10.7410/1607 [Consulta 15/07/2024].

OSPINA GIRALDO, Liliana Estefanía y María Claudia GONZÁLEZ-RÁTIVA (2021): «Los corpus SEAH», en María Claudia González-Rátiva y Liliana Estefanía Ospina Giraldo (coords.): El español tardocolonial en Antioquia (1701-1816). Corpus y análisis en documentación histórica. Antioquia: Universidad de Antioquia, pp. 21-34.

Panépica Digital = RODRÍGUEZ MOLINA, Javier y Gael VAAMONDE (dirs.): Panépica Digital: Corpus de la primitiva épica hispánica. http://corpora.ugr.es/cid [Consulta: 17/09/2025].

PASCUAL-ARGENTE, Clara y Ricardo PICHEL (2024): «NOSTOI: Un entorno digital colaborativo para la edición y estudio de los textos troyanos ibéricos», Medievalia, 27 (1), pp. 353-388. https://doi.org/10.5565/rev/medievalia.663 [Consulta 15/09/2024].

PICHEL, Ricardo y Francisco Xavier VARELA BARREIRO (2014): «Edición de textos da Galiza medieval e moderna. Algúns proxectos en marcha», en Leticia Eirín y Xoán López-Viñas (eds.): Lingua, texto, diacronía: estudos de lingüística histórica. A Coruña: Universidade da Coruña, Departamento de Galego-Portugués, Francés e Lingüística, pp. 291-318.

PICHEL, Ricardo y Miguel GARCÍA-FERNÁNDEZ (2024): «O Escritorio Galego-Portugués Antigo (EGPA)», en I Xeira CLARIAH-GAL (Santiago de Compostela, 2 de mayo de 2024). https://ilg.usc.gal/sites/default/files/poster_egpa_final_ilg.pdf [Consulta: 17/09/2025].

PICHEL, Ricardo; Miguel GARCÍA-FERNÁNDEZ y Víctor CABALLERO GÓMEZ (2025): «O Escritorio Galego-Portugués Antigo (EGPA): unha nova ferramenta colaborativa de edición dixital en acceso aberto», Madrygal. Revista de Estudios Gallegos, 28 (en prensa).

PONS RODRÍGUEZ, Lola, Eva BRAVO GARCÍA, Blanca GARRIDO MARTÍN y Álvaro S. OCTAVIO DE TOLEDO Y HUERTA (2014): «La edición de textos de quejas: propuestas preliminares en torno a un corpus histórico discursivo», Scriptum digital, 3, pp. 183-200. https://raco.cat/index.php/scriptumdigital/article/view/316399 [Consulta: 17/09/2025].

P.S. POST SCRIPTUM = CLUL (ed.) (2014): P.S. Post Scriptum. Arquivo Digital de Escrita Quotidiana em Portugal e Espanha na Época Moderna. http://teitok.clul.ul.pt/postscriptum/ [Consulta: 17/09/2025].

RED CHARTA (2013): Criterios de edición de documentos hispánicos (orígenes-siglo XIX) de la Red Internacional CHARTA. https://corpora.uah.es/index.php?action=recursos [Consulta: 17/09/2025].

RODRÍGUEZ MOLINA, Javier y Gael VAAMONDE (2025): «Panépica Digital: Integrando marcación textual y anotación lingüística para el estudio de la épica hispánica medieval», en Mario Cossío Olavide, José Manuel Fradejas Rueda y Ricardo Pichel (eds.): Filología digital hispánica. Aplicaciones a la lengua y literatura medieval. Berlín: Walter de Gruyter (en prensa).

ROMERO, Verónica, Alejandro Héctor TOSELLI y Enrique VIDAL (2012): Multimodal Interactive Handwritten Text Transcription. New Jersey: World Scientific.

SÁNCHEZ GONZÁLEZ DE HERRERO, María de las Nieves, Juan Pedro SÁNCHEZ MÉNDEZ, Ingmar SÖHRMAN y María Jesús TORRENS ÁLVAREZ (2013): «La Red CHARTA: objetivos y método», en Emili Casanova Herrero y Cesáreo Calvo Rigual (eds.): Actas del XXVI Congreso Internacional de Lingüística y de Filología Románicas, vol. VII. Berlín: De Gruyter, pp. 263-274.

SÁNCHEZ SIERRA, Diego (2021): «Aproximación a la configuración léxica del español en el suroeste de los Estados Unidos (1733-1900)», Cuadernos del Instituto de Historia de la Lengua, 14, pp. 147-185.

SÁNCHEZ-PRIETO BORJA, Pedro (1998): Cómo editar los textos medievales: criterios para su presentación gráfica. Madrid: Arco.

SÁNCHEZ-PRIETO BORJA, Pedro (2009a): «Hacia un estándar en la edición de las fuentes documentales», en Cristina Castillo Martínez y José Luis Ramírez Luengo (eds.): Lecturas y textos en el siglo XXI. Nuevos caminos en la edición textual. Lugo: Axac, pp. 125-143.

SÁNCHEZ-PRIETO BORJA, Pedro (2009b): «El Corpus de Documentos Españoles Anteriores a 1700 (CODEA)», en Andrés Enrique-Arias (ed.): Diacronía de las lenguas iberorrománicas: nuevas aportaciones desde la lingüística de corpus, Madrid-Frankfurt am Main: Iberoamericana-Veuvert, pp. 25-38. https://doi.org/10.31819/9783865278685-003 [Consulta: 17/09/2025].

SÁNCHEZ-PRIETO BORJA, Pedro (2011): La edición de textos españoles medievales y clásicos: criterios de presentación gráfica. San Millán de la Cogolla: Cilengua, Fundación San Millán de la Cogolla.

SÁNCHEZ-PRIETO BORJA, Pedro (2012a): «La red CHARTA: proyecto global de edición de documentos hispánicos», en María Jesús Torrens Álvarez y Pedro Sánchez-Prieto Borja (eds.): Nuevas perspectivas para la edición y el estudio de documentos hispánicos antiguos. Berna: Peter Lang, pp. 17-44.

SÁNCHEZ-PRIETO BORJA, Pedro (2012b): «Desarrollo y explotación del “Corpus de Documentos Españoles Anteriores a 1700” (CODEA)», Scriptum digital, 1, pp. 5-35. https://raco.cat/index.php/scriptumdigital/article/view/316410 [Consulta: 17/09/2025].

SÁNCHEZ-PRIETO BORJA, Pedro (2018): «El corpus ALDICAM-CM: geografía lingüística diacrónica de la Comunidad de Madrid», Chimera: Romance Corpora and Linguistic Studies, 5 (1), pp. 69-75. https://doi.org/10.15366/chimera2018.5.1.004 [Consulta: 17/09/2025].

SÁNCHEZ-PRIETO BORJA, Pedro y Hiroto UEDA (2018): Inventario léxico del corpus CODEA (Castilla la Vieja). https://h-ueda.sakura.ne.jp/lyneal/ilc-cv.htm [Consulta: 17/09/2025].

SEAH = SEMILLERO ESPAÑOL HISTÓRICO DE ANTIOQUIA: Corpus SEAH [en fase de desarrollo].

SPENCE, Paul (2014): «Siete retos en edición digital para las fuentes documentales», Scriptum digital, 3, pp. 153-181. https://raco.cat/index.php/scriptumdigital/article/view/316398 [Consulta: 17/09/2025].

SPENCE, Paul, Carmen ISASI, Elena PIERAZZO e Irene VICENTE (2012): «Cruzando la brecha: marcación digital con criterios filológicos», en María Jesús Torrens Álvarez y Pedro Sánchez-Prieto Borja (eds.): Nuevas perspectivas para la edición y el estudio de documentos hispánicos antiguos. Berna: Peter Lang, pp. 465-483.

TABERNERO SALA, Cristina (2020): «Contribución al estudio del español norteño a partir de un corpus de declaraciones en procesos judiciales (siglos XVI-XIX)», Scriptum digital, 9, pp. 87-115. https://raco.cat/index.php/scriptumdigital/article/view/377289 [Consulta: 17/09/2025].

TORRENS ÁLVAREZ, María Jesús (2019): «El hibridismo latinorromance de fueros y documentos de finales del s. XII y comienzos del XIII», en Diana Esteba Ramos et al. (eds.): Quan sabias e quam maestras: disquisiciones de lengua española. Málaga: Universidad de Málaga, pp. 101-112.

TORRUELLA, Joan (2017): Lingüística de corpus: génesis y bases metodológicas de los corpus (históricos) para la investigación en lingüística. Nueva York: Peter Lang.

TORRUELLA, Joan (2020): «Un corpus documental para el estudio de las interferencias lingüísticas entre el español y el catalán», en Rosario Álvarez Blanco y Ernesto Xosé González Seoane (eds.): Calen barbas, falen cartas: A escrita en galego na Idade Moderna. Santiago de Compostela: Consello da Cultura Galega, pp. 225-252.

TORRUELLA, Joan y Gloria CLAVERÍA (2019): «Corpus de documentos castellanos redactados en Cataluña (siglos XVIII y XIX): inicio de un proyecto», en Mónica Castillo Lluch y Elena Diez del Corral Areta (eds.): Reescribiendo la historia de la lengua española a partir de la edición de documentos. Bern: Peter Lang, pp. 43-60.

VAAMONDE, Gael (2015): «P. S. Post Scriptum: dos corpus diacrónicos de escritura cotidiana», Procesamiento del Lenguaje Natural, 55, pp. 57-64.

VAAMONDE, Gael (2018): «Escritura epistolar, edición digital y anotación de corpus», Cuadernos del Instituto de Historia de la Lengua, 11, pp. 139-164.

VILLEGAS, Mauricio, Joan Andreu SÁNCHEZ y Enrique VIDAL (2015): «Optical Modelling and Language Modelling Trade-off for Handwritten Text Recognition», en 2015 13th International Conference on Document Analysis and Recognition (ICDAR). Túnez: IEEE, pp. 831-835. https://doi.org/10.1109/ICDAR.2015.7333878.

ZavalDiCor = MARY TROJANI, Cécil (dir.): Corpus digital de correspondencias de la familia Zavala [en fase de desarrollo].