La edición de corpus lingüísticos en la plataforma TEITOK. El caso de Oralia diacrónica del español (ODE)

Miguel Calderón Campos

Abstract


This article presents the Oralia diacrónica del español (ODE) (Spanish diachronic oral discourse) corpus (http://corpora.ugr.es/ode) - a continuation of the Corpus diacrónico del español del reino de Granada, 1492-1833 (CORDEREGRA) (Diachronic Corpus of Spanish in the Kingdom of Granada), primarily comprised of declarations by witnesses and inventories of goods. One new feature of the ODE is the transcription of the manuscripts into XML, according to the character coding standard proposed by the TEI consortium, and closely following the model that was successfully carried out in the P.S. Post Scriptum: A Digital Archive of Ordinary Writing (Early Modern Portugal and Spain) project. The TEITOK (Janssen 2016) tool, designed for creating, maintaining and publishing linguistically annotated corpora and to provide them with a robust search engine, is being used for the tokenization, standardization and labelling of the corpus.


Keywords


Corpus Linguistics, Diachronic Linguistics, Spanish, XML, TEITOK

Full Text:

PDF (Español)

References


CHARTA. http://www.corpuscharta.es [21/05/2019].

Cíbola. The Cíbola Project. Editing the Documents of the Hispanic Southwest in the 16th and 17th Centuries. https://escholarship.org/uc/rcrs_ias_ucb_cibola [30/05/2019].

CORDE. Corpus diacrónico del español. http://www.rae.es [23/05/2019].

CORDIAM. Corpus diacrónico y diatópico del español de América. http://www.cordiam.org/ [04/05/2019].

COREECOM. http://www.corpuscharta.es/grupos.html [12/05/2019].

CorLexIn. Corpus léxico de inventarios. http://web.frl.es/CORLEXIN.html [12/05/2019].

Corpus del español. http://www.corpusdelespanol.org [15/05/2019].

Corpus del Nuevo Diccionario Histórico del Español (CDH). http://www.rae.es [23/05/2019].

Díaz Bravo, R. 2015. Herramientas computacionales aplicadas al estudio de la Historia de la lengua española. En Temas, problemas y métodos para la edición y el estudio de documentos hispánicos antiguos, Tirant lo Blanc: Valencia, 377-393.

Isasi, C., Spence, P., Lobo Puga, A., Martín Aizpuru, L., Pérez Isasi, S. & Pierazzo, E. 2014. Guía para editar textos CHARTA según el estándar TEI: una propuesta [02-05-2019].

Janssen, M. 2012. NeoTag: A POS Tagger for Grammatical Neologism Detection. In Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC-2012). http://maarten.janssenweb.net/Papers/neotag-lrec.pdf. [05-06-2019].

Janssen, M. 2016. TEITOK: Text-faithful annotated corpora. In Proceedings of the 10th International Conference on Language Resources and Evaluation, LREC 2016, 4037-4043.

Martín Aizpuru, L. 2016. Algunos recursos informáticos al servicio de la edición de textos: la edición en XML-TEI. En Hispanica Patavina. Estudios de historiografía e historia de la lengua española en homenaje a José Luis Rivarola. Padua: CLEUP, 139-154.

Marttila, V. 2014. Creating Digital Editions for Corpus Linguistics. The case of Potage Dyvers, a family of six Middle English recipe collections. Helsinki: University of Helsinki.

Post Scriptum. Archivo digital de escritura cotidiana en Portugal y España en la Edad Moderna. http://ps.clul.ul.pt/es/index.php? [15/05/2019].

Sánchez-Prieto Borja, P. 2011. La edición de textos españoles medievales y clásicos. Criterios de presentación gráfica. San Millán de la Cogolla: CILENGUA.

Torruella, J. 2017. Lingüística de corpus: génesis y bases metodológicas de los corpus (históricos) para la investigación en lingüística. Frankfurt: Peter Lang.

Torruella, J. & Kabatek, J. 2018. Portal de corpus históricos iberorrománicos (CORHIBER). http://www.corhiber.org/ [02/06/2019].

Vaamonde, G. 2015. P.S. Post Scriptum: Dos corpus diacrónicos de escritura cotidiana. Procesamiento del lenguaje natural 55: 57-64.

Vaamonde, G. & Magro, C. 2017. Manual de edición y anotación en TEITOK de los materiales de P. S. Post Scriptum. http://ps.clul.ul.pt/es/index.php?action=papers [13/05/2019].


Refbacks

  • There are currently no refbacks.


CHIMERA Romance Corpora and Linguistic Studies

ISSN: 2386-2629