Corpus de textos notarials extremenys (cortenex s. XVII). L’edició d’un corpus historicolingüístic a en àmbit de les humanitats digitals
Article Sidebar
Citacions a Google Acadèmic
Main Article Content
Aquest article se centra en la metodologia utilitzada en l’elaboració d'un corpus de documentació notarial extremenya del segle XVII (CORTENEX) que segueix les propostes del consorci TEI pel que fa a la codificació i l'etiquetatge de documents històrics. Es basa en l’ús de llenguatge marcat XML en les transcripcions i en el processament lingüístic dels textos en la plataforma digital TEITOK a través de quatre fases fonamentals: tokenització, normalització, lematització i anotació morfosintàctica. Aquest corpus es conforma amb un subcorpus d’Oralia diacrònica del español (ODE). Actualment, CORTENEX ja compta amb documentació accessible i, pel tipus de textos que inclou, el seu interès fonamental radica a analitzar la variació lèxica de l’espanyol usat en el territori que es correspon amb la Comunitat Autònoma d'Extremadura. Aquesta varietat no té pràcticament estudis de tall diacrònic que permetin analitzar la llengua d’aquella regió des d’una perspectiva històrica.