Corpus de textos notarials extremenys (cortenex s. XVII). L’edició d’un corpus historicolingüístic a en àmbit de les humanitats digitals

Inmaculada González Sopeña

PDF

Inmaculada González Sopeña

El presente artículo se centra en la metodología seguida en la elaboración de un corpus de documentación notarial extremeña del siglo XVII (CORTENEX) siguiendo las propuestas del consorcio TEI en lo referente a la codificación y etiquetado de documentos históricos. Todo ello se basa en el uso de lenguaje marcado XML en las transcripciones y en el procesamiento lingüístico de los textos en la plataforma digital TEITOK a través de cuatro fases fundamentales: tokenización, normalización, lematización y anotado morfosintáctico. Este corpus se conforma con un subcorpus de Oralia diacrónica del español (ODE). Actualmente, CORTENEX ya cuenta con documentación accesible y, por el tipo de textos que incluye, su interés fundamental reside en analizar la variación léxica del español desarrollado en el territorio que se corresponde con la Comunidad Autónoma de Extremadura. Esta variedad carece prácticamente de estudios de corte diacrónico que permitan analizar la lengua de aquella región en perspectiva histórica.

Palabras clave

documentación notarial, lingüística de corpus, XML, TEITOK, historia del léxico español

Cómo citar

González Sopeña, Inmaculada. «Corpus de textos notariales extremeños (cortenex s. XVII). La edición de un corpus histórico-lingüístico en el ámbito de las humanidades digitales». Dialectologia: revista electrònica, n.º 31, pp. 105-26, https://raco.cat/index.php/Dialectologia/article/view/419490.

Derechos

Derechos de autor

Dialectologia: revista electrònica està subjecta a una llicència Creative Commons 3.0 de Reconeixement - No Comercial - Sense Obres Derivades.

Article Sidebar

Main Article Content

Article Details

Derechos de autor