El big data en los estudios del lenguaje

Main Article Content

Javier Valenzuela

El presente trabajo examina las posibilidades que los acercamientos basados en los big data ofrecen a la investigación sobre el lenguaje. De manera resumida, los big data o “macrodatos” son los datos masivos que los usuarios generan en sus interacciones con el mundo digital y cuyo ingente volumen y naturaleza heterogénea precisa de un tratamiento especializado. El trabajo revisa de manera inicial las principales características de los big data para centrarse a continuación en los posibles problemas derivados del uso de big data en los análisis lingüísticos. La siguiente sección ofrece una revisión de estudios concretos que utilizan este acercamiento aplicándolo a la multimodalidad: un estudio del lenguaje que incluye no sólo el componente verbal sino aspectos multimodales como la gestualidad o la entonación. El trabajo concluye con una revisión de las ventajas y los problemas de la utilización de este tipo de datos.

Paraules clau
lingüística, análisis de corpus, big data, multimodalidad

Article Details

Com citar
Valenzuela, Javier. «El big data en los estudios del lenguaje». Estudios de lingüística del español, 2022, vol.VOL 45, p. 241-60, http://raco.cat/index.php/Elies/article/view/403752.
Referències
Alcaraz Carrión, Daniel; Valenzuela, Javier. 2021. Distant time, distant gesture: speech
and gesture correlate to express temporal distance. Semiotica 241.
DOI: 10.1515/sem-2019-0120

Álvarez García, Esther. 2022. Lo que esconden tus ojos: la metodología eye-tracking
aplicada al estudio del lenguaje. Estudios de Lingüística del Español 45: 205-239.

Atkins, Sue; Clear, Jeremy; Ostler, Nicholas. 1992. Corpus design criteria. Literary and
Linguistic Computing 7.1: 1-16.

Biber, Douglas. 1993. Representativeness in Corpus Design. Literary and Linguistic
Computing 8.4: 243-257.

Boersma, Paul; Weenink, David. 2021. Praat: doing phonetics by computer [Computer
program]. Version 6.1.50.

Brunner, Marie-Louise; Diemer, Stefan. 2018. “You are struggling forwards, and you
don’t know, and then you … you do code-switching…” – Code-switching in ELF
Skype conversations. Journal of English as a Lingua Franca 7.1: 59-88.

Cao, Zhe; Hidalgo, Gines; Simon, Tomas; Wei, Shih-En; Sheikh, Yaser. 2021.
OpenPose: Realtime multi-person 2D pose estimation using part affinity fields.
IEEE Transactions on Pattern Analysis and Machine Intelligence 43 .1: 172-186.

García-Miguel, José M. 2022. Lingüística de corpus: de los datos textuales a la teoría
lingüística. Estudios de Lingüística del Español 45: 11-42:

Hardie, Andrew. 2010. Big data in language studies: from cargo-cult science to phantom
revolution. Conferencia plenaria en el 7 Congreso de AELINCO 2015, Universidad
de Valladolid.

Keevallik, Leelo; Ogden, Richard. 2020. Sounds on the Margins of Language at the Heart
of Interaction. Research on Language and Social Interaction 53.1: 1-18. DOI:
10.1080/08351813.2020.1712961

Knight, Dawn. 2010. The future of multimodal corpora. Revista Brasileira de Linguística
Aplicada 11.2: 391-415.

Krishnamurthy, Ramesh. 2001. Size Matters: creating Dictionaries from the World’s
Largest Corpus. 8th Annual KOTESOL Conference Proceedings. Taegu:
KOTESOL: 169-180.

Igoa, José Manuel. Las tareas conductuales en la investigación sobre el procesamiento
del lenguaje. Estudios de Lingüística del Español 45: 133-158.

Leech, Geoffrey. 1991. The state of the art in corpus linguistics. En K. Aijmer y B.
Altenberg, eds. English Corpus Linguistics, Londres: Longman, pp. 8-29.

Olza, Inés; Valenzuela, Javier; Pagán-Cánovas, Cristobal. 2017. Automatic visual
analysis and gesture recognition: Two preliminary pilots. Universidad de Navarra:
Instituto Cultura Sociedad.

Pagán Cánovas Cristóbal; Valenzuela Javier; Alcaraz Carrión Daniel; Olza Inés; Ramscar
Michael. 2020. Quantifying the speech-gesture relation with massive multimodal
datasets: Informativity in time expressions. PLOS ONE 15.6: e0233892.

Rumelhart, David E.; McClelland, James L.; PDP Research Group. 1986. Parallel
distributed processing: Explorations in the microstructure of cognition. Vol. 1.
Cambridge: MIT Press.

Sinclair, John. 1991. Corpus, Concordance, Collocation. Oxford: Oxford University
Press.

Tognini-Bonelli, Elena. 2001. Corpus Linguistics at Work. Amsterdam: Benjamins.

Turchyn Sergiy; Olza Moreno, Inés; Pagán Cánovas, Cristóbal; Steen, Francis F; Turner
Mark; Valenzuela, Javier; Ray, Soumya. 2018. Gesture Annotation with a Visual
Search Engine for Multimodal Communication Research. En The Thirtieth AAAI
Conference on Innovative Applications of Artificial Intelligence (IAAI-18)
[Internet]. 2018.
https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/viewFile/16703/16398

Valenzuela, Javier; Pagán-Cánovas, Cristóbal; Olza, Inés; Alcaraz, Daniel. 2020.
Gesturing in the wild: spontaneous gestures co-occurring with temporal
demarcative expressions provide evidence for a flexible mental timeline. Review of
Cognitive Linguistics 18.2: 289-316. DOI: 10.1075/rcl.00061.val