Vol. 2 (2015)
SHORT PAPERS

CorpusRedEs. Proyecto de creación y anotación de un corpus de comunicación mediada por ordenador en español

Ana Pano Alamán
Università di Bologna
Patricio Moya Muñoz
Universitat Politècnica de València
Published December 18, 2015

Keywords:

Computer-mediated communication, annotation methods, TEI, XML, Spanish varieties

Abstract

This paper presents CorpusRedEs, a project which aims at building a corpus of Computer-Mediated Communication in Spanish. This corpus will gather texts from different cybergenres or socio-technical modes, and it will include different geographical or diatopic varieties of Spanish, covering several fields of interest as well. The annotation of the macrolevel of texts included in the corpus is based on the standard TEI-XML adapted to CMC, in order to promote both interoperability between platforms and the easy recovery of data by users. In this sense, we suggest that <posting> and <thread> elements, considered in other projects in order to segment CMC interaction units, may be enriched by the adoption of attributes like @trans (transition), generally used for the annotation of spoken language corpora, since it allows the representation of the interactional dynamics within these texts.

References

Androutsopoulos, J. 2006. Introduction: Sociolinguistics and computer-mediated communication. Journal of Sociolinguistics, 10(4): 419–438.

Androutsoupoulos, J. & Beiβwenger, M. 2008. Introduction. Data and Methods in Computer-Mediated Discourse Analysis. Language@Internet, 5 (9).

http://www.languageatinternet.org/articles/2008/1609/introduction.pdf (recuperado el 1 de septiembre de 2015).

Bateman, J., Delin, J., & Henschel, R. 2004. Multimodality and empiricism: preparing for a corpus-based approach to the study of multimodal meaning-making. In E. Ventola, C. Charles & M. Kaltenbacher (eds), Perspectives on Multimodality. Amsterdam/Philadelphia: John Benjamins.

Beißwenger, M. y Storrer, A. 2008. Corpora of Computer-Mediated Communication. In A. Lüdeling & M. Kytö (eds). Corpus Linguistics. An International Handbook. Berlin: de Gruyter, 292-308.

Beißwenger, M., Ermakova, M., Geyken, A., Lemnitzer, L., & Storrer, A. 2012. A TEI Schema for the Representation of Computer-mediated Communication. Journal of the Text Encoding Initiative, (3).

http://jtei.revues.org/476 (recuperado el 1 de septiembre de 2015).

Beißwenger, M., Ermakova, M., Geyken, A., Lemnitzer, L., & Storrer, A. 2013. DeRiK: A German reference corpus of computer-mediated communication. Literary and linguistic computing, 28(4): 531-537.

Borghetti, C., Castagnoli, S., & Brunello, M. 2011. I testi del web: una proposta di classificazione sulla base del corpus PAISA. In M. Cerruti, E. Corino & C. Onesti (eds), Scritto e parlato, formale e informale: La comunicazione mediata dalla rete. Roma: Carocci, 147-170.

Chanier, T., Poudat, C., Sagot, B., Antoniadis, G., Wigham, C., Hriba, L., Longhi, J., & Seddah, D. 2014. The CoMeRe corpus for French: structuring and annotating heterogeneous CMC genres. Journal for Language Technology and Computational Linguistics, 29 (2), 1-30.

Cherny, L. 1999. Conversation and community: Chat in a virtual world. Stanford, CA: Center for the Study of Language and Information.

Chiari, I. & Canzonetti, A. 2012. La comunicazione mediata dal computer: la questione del genere e il problema dell’annotazione. Dal manoscritto al web: canali e modalità di trasmissione dell’italiano. In E. Garavelli & E. Suomela-Härmä (eds), Atti del XII Congresso SILFI Società Internazionale di Linguistica e Filologia Italiana. Cesati: Firenze, 595-606.

Herring, S.C. 2002. Computer-mediated communication on the Internet. Annual Review of Information Science and Technology 36, 109-168.

Herring, S.C. 2007. A Faceted Classification Scheme for Computer-Mediated Discourse. Language@Internet, 4(1).

http://www.languageatinternet.org/articles/2007/761 (recuperado el 1 de septiembre de 2015).

King, B. 2009. Building and analysing corpora of computer-mediated communication. In: P. Baker (ed), Contemporary Corpus Linguistics. London: Continuum, 301-320.

Mancera Rueda, A. & Pano Alamán, A. 2013. El español coloquial en las redes sociales. Madrid: Arco Libros.

Mancera Rueda, A. & Pano Alamán, A. 2014. Las redes sociales como corpus de estudio para el Análisis del discurso mediado por ordenador. In López Poza, S. & Pena Sueiro, N. (eds.). Humanidades digitales: desafíos, logros y perspectivas de futuro - Janus. Anejo 1, 305-315. http://bit.ly/1gYmw1f (recuperado el 1 de septiembre de 2015).

Moya Muñoz, P. (2015). La influencia de la Web 2.0 en la comunicación: una aproximación desde la Comunicación Mediada por Ordenador. Lengcom, 4(3).

http://www.lengcom.es/revista-lengcom/lengcom-n%C3%BAmeros-de-2015/2015-4-3-patricio-moya-la-web-2-0/ (visitado el 1 de septiembre de 2015).

Pano Alamán, A. 2008. Dialogar en la Red. La lengua española en chats, e-mails, foros y blogs. Bern: Peter Lang.

Pano Alamán, A. & Mancera Rueda, A. 2014. La ‘conversación’ en Twitter: las unidades discursivas y el uso de marcadores interactivos en los intercambios con parlamentarios españoles en la red social. In Cortés, L. (coord.). Unidades de segmentación en el discurso - Estudios de Lingüística del español, 35(1), 234-268.

Pano Alamán, A. & Moya Muñoz, P. 2015. Una aproximación a los estudios sobre el discurso mediado por ordenador en lengua española, trabajo inédito.

Real Academia de la Lengua Española. 2013. Corpus del Español del Siglo XXI. http://www.rae.es/recursos/banco-de-datos/corpes-xxi (visitado el 1 de septiembre de 2015).

Text Encoding Initiative. http://www.tei-c.org/index.xml (visitada el 1 de septiembre de 2015).

Vela Delfa, C. & Cantamutto, L. 2015a. Methodological Approach to the Design of Digital Discourse Corpora in Spanish. Proposal of the CÓDICE Project. In P. Fuertes-Olivera, E. Álvarez, R. Fernández, P. Garcés, B. López, M. Niño, I. Pizarro, A. Sáez, M. Sastre & M. Velasco(eds), Current Work in Corpus Linguistics: Working with Traditionally- conceived Corpora and Beyond. Selected Papers from the 7th International Conference on Corpus Linguistics, 494-499.

Vela Delfa, C. & Cantamutto, L. 2015b. Al abordaje de la comunicación digital: elaboración de un repositorio del español. 7 Congreso Internacional de Lingüística de Corpus, http://aelinco.blogs.uva.es/files/2015/03/Cristina-Delfa-L.-Cantamutto.pdf (visitada el 1 de septiembre de 2015).