Extraordinario 2 (2024) Los corpus orales como fuente de investigación en el habla coloquial del español
Artículos

De la transcripción al análisis: desarrollos técnicos del corpus Val.Es.Co. 3.0

Salvador Pons Bordería
Universitat de València
Sara Badia-Climent
Universitat de València
Publicado 28 diciembre 2024

Palabras clave:

corpus oral, lingüística computacional, segmentación discursiva, corpus Val.Es.Co., español hablado
Cómo citar
Pons Bordería, S., & Badia-Climent, S. (2024). De la transcripción al análisis: desarrollos técnicos del corpus Val.Es.Co. 3.0. Biblioteca De Babel: Revista De Filología Hispánica, (Extraordinario 2), 79–113. https://doi.org/10.15366/bibliotecababel2024.extra2.003

Resumen

Este artículo aborda las decisiones teóricas y técnicas adoptadas en la creación del corpus Val.Es.Co. 3.0. El objetivo principal es detallar todos los pasos que se han seguido para lograr crear un corpus oral accesible en formato digital que no solo permita trabajar a los usuarios con el contenido de las transcripciones y el etiquetado de los fenómenos discursivos, sino también con el análisis de su contenido a partir del modelo de unidades del grupo de investigación: subactos, actos, intervenciones, diálogos y discursos. Para ello, el trabajo se ha dividido en tres secciones. En primer lugar, se hace una breve introducción sobre los dos pilares fundamentales que componen el trabajo de creación del corpus Val.Es.Co. 3.0.: la transcripción y su posterior segmentación. En segundo, se describe el proceso de trabajo técnico interno que cada una de las conversaciones ha recibido, desde la transcripción hasta la segmentación de unidades. Por último, la tercera sección expone cómo se visualizan las transcripciones en la web del corpus y detalla las distintas funcionalidades que este pone a disposición de los usuarios.

Descargas

Los datos de descargas todavía no están disponibles.

Citas

Albelda, Marta, y Maria Estellés (dirs.), Corpus Ameresco. Disponible en: https://corpusameresco.com. [Fecha de consulta: 8 de septiembre de 2024].

Alcaraz Martínez, Rubén, y Elisabet Vázquez Puig (2016), «TEI: un estándar para codificar textos en el ámbito de las humanidades digitales», BiD: Textos Universitaris de Biblioteconomia i Documentació, 37: s.p. DOI: 10.1344/BiD2016.37.24.

Bolaños Cuéllar, Sergio (2015), «La lingüística de corpus: perspectivas para la investigación lingüística contemporánea», Forma y Función, 28 (1): 31-54. DOI: 10.15446/fyf.v28n1.51970.

Briz, Antonio (1996), El español coloquial: situación y uso, Barcelona, Ariel.

Briz Antonio. (2010), «Lo coloquial y lo formal, el eje de la variedad lingüística», en Castañer, R. M. y Lagüéns, V. (eds.): «De moneda nunca usada»: Estudios dedicados a José Ma Enguita Utrilla, Zaragoza, Instituto Fernando El Católico: 125-133.

Briz, Antonio et al. (1995), La conversación coloquial: materiales para su estudio, Valencia, Universitat de València.

Briz, Antonio y Carcelén, A. (2019): «El futuro iberoamericano del español: la investigación del español oral y en español», en Richard Bueno Hudson (dir.), El español en el mundo: anuario del Instituto Cervantes 2019, Madrid, Bala Perdida/Instituto Cervantes: 189-217.

Brun, Rircardo Eíto (2005). «XML y la gestión de contenidos», Hipertext. net: Revista Académica sobre Documentación Digital y Comunicación Interactiva, 3: s.p.

Cabedo Nebot, Adrián (2011). «El reajuste tonal en la delimitación de grupos entonativos», en Antonio Hidalgo Navarro, Yolanda Congosto Martín y Mercedes Quilis Merín (eds.), El estudio de la prosodia en España en el siglo xxi: Perspectivas y ámbitos, Valencia, Universitat de València, 209-222.

Cabanes Pérez, Sandra (2023), Análisis multimodal en la distinción entre intervención y turno: efectos en la segmentación de la conversación desde el modelo Val.Es.Co., tesis doctoral, Universitat de València.

Cestero Mancera, Ana M.ª (2014), «Comunicación no verbal y comunicación eficaz», ELUA, 28: 125-150.

CORPES = Real Academia Española, Corpus del Español del Siglo XXI. Disponible en: https://www.rae.es/corpes. [Fecha de consulta: 8 de septiembre de 2024].

Criado de Val, Manuel (1964), Fisonomía del español y de las lenguas modernas, Madrid, Aguilar.

Del Rio Riande, Gimena, y Susanna Allés-Torrent (2023). «Treinta años de TEI en español: usos y comunidad». Journal of the Text Encoding Initiative, 16: 1-8.

ESLORA = Corpus para el estudio del español oral, versión 2.3. Disponible en: <http://eslora.usc.es>. [Fecha de consulta: octubre de 2024].

García-Miguel, José M. (2022), «Lingüística de corpus», Estudios de Lingüística del Español, 45: 11-42.

Garfinkel, Harold (1967), Studies in ethnomethodology, Englewood Cliffs, Prentice-Hall.

Jefferson, Gail (2004), «Glossary of transcript symbols with an introduction», en Gene Lerner (ed.), Conversation analysis: studies from the first generation, Amsterdam (Phil.), John Benjamin: 13-31. DOI: 10.1075/pbns.125.02jef.

Llamazares, Milka Villayandre (2008), «Lingüística con corpus (I)», Estudios Humanísticos. Filología, 30: 329-349. DOI: 10.18002/ehf.v0i30.2847?.

Lope Blanch., Juan M. (1971), «El léxico de la zona maya en el marco de la dialectología mexicana», Nueva Revista de Filología Hispánica, 20 (1): 1-63. DOI: 10.24201/nrfh.v20i1.1557.

Lope Blanch, Juan M. (1976), «Algunos casos de polimorfismo fonético en México», Revista de Dialectología y Tradiciones Populares, 32 (1): 247-262.

Lope Blanch, Juan M. (1986), El estudio del español hablado culto: historia de un proyecto, Ciudad de México, Universidad Nacional Autónoma de México.

Marcos Marín, Francisco (dir.), Corpus Oral de Referencia de la Lengua Española Contemporánea (CORLEC). Disponible en: https://cvc.cervantes.es/lengua/corlec.htm. [Fecha de consulta: 8 de septiembre de 2024].

Narbona, Antonio (1989), Sintaxis española: nuevos y viejos enfoques, Barcelona, Ariel.

O’Keefe, Daniel J. (1979), «Ethnomethodology», Journal for the Theory of Social Behaviour, 9 (2): 187-219.

Pons Bordería, Salvador (dir.), Corpus Val.Es.Co. Disponible en: http://www.valesco.es. [Fecha de consulta: 8 de septiembre de 2024].

Pons Bordería, Salvador (ed.) (2014): Discourse segmentation in Romance languages. Amsterdam (Phil.), John Benjamins.

Pons Bordería, Salvador (2016). «Cómo dividir una conversación en actos y subactos», en Antonio Miguel Bañón et al. (eds.), Oralidad y análisis del discurso: homenaje a Luis Cortés Rodríguez, Almería, Universidad de Almería, 545-566.

Pons Bordería, Salvador (2022), Creación y análisis de corpus orales: saberes prácticos y reflexiones teóricas, Berna, Peter Lang.

Poyatos, Fernando (1994), La comunicación no verbal, Madrid, Istmo.

Poyatos, Fernando (2018), Advances in non-berbal communication, Amsterdam (Phil.), John Benjamins.

PRESEEA = Proyecto para el estudio sociolingüístico del español de España y América. Disponible en: https://preseea.linguas.net. [Fecha de consulta: 8 de septiembre de 2024].

Rojo, Guillermo (2016), «Los corpus textuales del español», Enciclopedia lingüística hispánica, 2: 285-296. DOI: 10.4324/9781315792942.

Rojo, Guillermo (2024). «El futuro de los corpus de referencia», Studia Linguistica Romanica, 12: 18-33.

Roulet, Eddy, Laurent Fillietaz, y Anne Grobet (2002), «Un modèle et un instrument d’analyse de l’organisation du discours», en Patrick Charaudeau y Dominique Maingueneau (eds.), Dictionnaire d’analyse du discours, París, Seuil.

Roulet, Eddy, et al. (1981), L’articulation du discours en français contemporain, Berna, Peter Lang.

Sacks, Harvey, Emanuel A. Schegloff, y Gail Jefferson (1974), «A simplest systematics for the organization of turn-taking for conversation», Language, 50 (4): 696-735.

Sacks, Harvey, y Gail Jefferson (2000), «Convenciones de transcripción», en Teun A. Van Dijk (comp.), El discurso como estructura y proceso. Estudios del discurso: introducción multidisciplinaria, Barcelona, Gedisa: 442-444.

Torruella, Joan, y Joaquim Llisterri (1999), «Diseño de corpus textuales y orales», en José Manuel Blecua, Gloria Clavería, Carlos Sánchez y Joan Torruella (eds.): Filología e informática: nuevas tecnologías en los estudios filológicos, Barcelona, Milenio/Universidad Autónoma de Barcelona: 45-77.

Val.Es.Co. (2014), «Las unidades del discurso oral: la propuesta Val.Es.Co. de segmentación de la conversación (coloquial)», Estudios de Lingüística del Español, 35: 11-71.

Vázquez Rozas, Victoria, et al. (2020), «Codificación y anotación del habla en un contexto bilingüe: el corpus ESLORA de español de Galicia» en Ángel Gallego y Francesc Roca (eds.), Dialectología Digital del Español, Santiago de Compostela, Universidade de Santiago de Compostela, 189-224.

Venegas, Rene, Iris Viviana Bosio, y Constanza Ceda-Canales (2022), «Los corpus sincrónicos del español: descripción y potencialidades para la investigación teórica y aplicada de la lengua», Revista de Lexicografía y Lingüística Aplicada, 22 (3): 45-67.

Zimmerman, Don H. (1978), «Ethnomethodology», The American Sociologist, 13 (1), 6-15.