Corpus de textos notarials extremenys (cortenex s. XVII). L’edició d’un corpus historicolingüístic a en àmbit de les humanitats digitals

Main Article Content

Inmaculada González Sopeña

Aquest article se centra en la metodologia utilitzada en l’elaboració d'un corpus de documentació notarial extremenya del segle XVII (CORTENEX) que segueix les propostes del consorci TEI pel que fa a la codificació i l'etiquetatge de documents històrics. Es basa en l’ús de llenguatge marcat XML en les transcripcions i en el processament lingüístic dels textos en la plataforma digital TEITOK a través de quatre fases fonamentals: tokenització, normalització, lematització i anotació morfosintàctica. Aquest corpus es conforma amb un subcorpus d’Oralia diacrònica del español (ODE). Actualment, CORTENEX ja compta amb documentació accessible i, pel tipus de textos que inclou, el seu interès fonamental radica a analitzar la variació lèxica de l’espanyol usat en el territori que es correspon amb la Comunitat Autònoma d'Extremadura. Aquesta varietat no té pràcticament estudis de tall diacrònic que permetin analitzar la llengua d’aquella regió des d’una perspectiva històrica.

Paraules clau
documentació notarial, lingüística de corpus, XML, TEITOK, història del lèxic espanyol

Article Details

Com citar
González Sopeña, Inmaculada. “Corpus de textos notarials extremenys (cortenex s. XVII). L’edició d’un corpus historicolingüístic a en àmbit de les humanitats digitals”. Dialectologia: revista electrònica, no. 31, pp. 105-26, https://raco.cat/index.php/Dialectologia/article/view/419490.