Répétitions et variations des textes générés: Une analyse linguistique basée sur un corpus d’articles financiers rédigés en français
Derechos de autor 2022 CHIMERA: Revista de Corpus de Lenguas Romances y Estudios Lingüísticos
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.
Resumen
Texts automatically generated in French by commercial software have not been the subject of in-depth linguistic analyses until now, even though they are becoming increasingly common, especially in the media. The questions we are interested in concern their 'quality', in particular their repetitiveness and specificity compared to non-generated texts. The paper is organized as follows: After defining the theoretical concepts able to describe the specificities of generated texts and presenting our work corpus (composed of 100 articles produced by the CAC40 software in the field of finance), we show that the similarity of generated texts does not only concern the lexicon, but can also be traced in less obvious properties, such as their macro- and micro-structuring and their information structural properties. Our conclusion is that the high repetitiveness of texts generated by the CAC40 software is not in itself a problem because it becomes obvious only when many texts are compared. Taken individually, each generated text shows a sufficiently rich internal variation to be natural.
Descargas
Citas
Andorno, C.M. & De Cesare, A.-M. 2017. Mapping additivity through translation: From French aussi to Italian anche and back in the Europarl-direct corpus. In A.-M. De Cesare & C.M. Andorno (eds), Focus on Additivity. Adverbial Modifiers in Romance, Germanic and Slavic Languages (Pragmatics & Beyond New Series n°278). Amsterdam-Philadelphia: John Benjamins, 157-200.
Belen Baez, M. 2018. Génération de récits à partir de données ambiantes. Informatique et langage [cs.CL]. Thèse de doctorat, Université Grenoble Alpes.
Danlos, L. 1991. Génération automatique de textes en langue naturelle. In J. Anis & J.-L. Lebrave (eds), Texte et ordinateur. Les Mutations du Lire-Ecrire (Linx, hors-série n°4), 197-214; doi: https://doi.org/10.3406/linx.1991.1198.
Danlos, L. 2000. Génération automatique de textes. In J.-M. Pierrel (ed), Ingénierie des langues. Paris: Hermès Science, 311-330.
De Cesare, A.-M. 2002. Intensification, modalisation et focalisation. Les différents effets des adverbes proprio, davvero et veramente. Bern: Peter Lang.
De Cesare, A.-M. & Laura Baranzini. 2011. La variété syntaxique des dépêches d’agence publiées en ligne. Réflexions à partir d’un corpus de langue italienne. In A. Ferrari & L. Lala (eds.), Variétés syntaxiques dans la variété des textes online en italien : aspects micro- et macrostructuraux [Verbum XXXIII/1-2], 247-298.
De Cesare, A.-M., Garassino, D., Agar Marco, R., Albom, A. & Cimmino, D. 2016. Sintassi marcata dell’italiano dell’uso medio in prospettiva contrastiva con il francese, lo spagnolo, il tedesco e l’inglese. Uno studio basato sulla scrittura dei quotidiani online (Linguistica contrastiva 5). Frankfurt am Main: Peter Lang.
De Cesare, A.-M., Eliasson, E. & Weidensdorfer, T. En prép. Gerarchie testuali della scrittura generata automaticamente in ambito finanziario. Italiano-francese a confronto. In A.-M. De Cesare, A. Ferrari, F. Pecorari (a c. di), Forme della scrittura italiana contemporanea in prospettiva contrastiva. La componente testuale. Firenze: Cesati.
Dierickx, L. 2019. Production automatisée d’informations: une ligne du temps. Publié par Ohmybox. https://journodev.tech//generation-automatique-de-textes-et-journalisme-une-ligne-du-temps/ (visité le 15.11.2021).
Dierickx, L. 2020. La production automatisée d'informations en appui aux pratiques journalistiques: Analyse des représentations, des conditions d'association et de la structuration des usages en Belgique francophone. Thèse de doctorat, Université Libre de Bruxelles.
Dierickx, L. 2021. Journalisme algorithmique : un état de l’art de la recherche. In L. Dierickx (ed.), Journalisme algorithmique. Les carnets du Laboratoire des pratiques et des identités journalistiques. In Les Carnets du LaPIJ 2, 8-10.
Eliasson, Elina. En prép. L’emploi des verbes dans les textes générés automatiquement sur l’indice boursier CAC40 : une perspective aspectuo-temporelle.
Ferrari, A. 2014. The Basel Model for paragraph segmentation: the construction units, their relationships and linguistic indication. In S. Pons Bordería (ed.), Discourse Segmentation in Romance Languages. Amsterdam: John Benjamins, 23-54.
Ferrari, A. et al. 2008. L’interfaccia lingua-testo. Natura e funzioni dell’articolazione informativa dell’enunciato. Alessandria: Edizioni dell’Orso.
GPT-3. 2020. A robot wrote this entire article. Are you scared yet, human? Publié par The Guardian. https://www.theguardian.com/commentisfree/2020/sep/08/robot-wrote-this-article-gpt-3 (visité le 07.01.2022).
Graefe, A., Haim, M., Haarmann, B., & Brosius, H. 2018. Readers’ perception of computer-generated news: Credibility, expertise, and readability. In Journalism, 19(5), 595–610.
Jung, J., Song, H., Kim, Y., Im, H., & Oh, S. 2017. Intrusion of software robots into journalism: The public's and journalists' perceptions of news written by algorithms and human journalists. In Computers in Human Behavior, 71(C), 291-298.
Kilgarriff, A., Baisa, V., Bušta, J., Jakubí?ek, M., Ková?, V., Michelfeit, J., Rychlý, P. & Suchomel, V. 2014. The Sketch Engine: ten years on. In Lexicography, 1, 7-36.
Linden, C.-G. & Dierickx, L. 2019. Robot Journalism: The damage done by a metaphor. In Unmediated: Journal of Politics and Communication 2, 152-155.
Mégean, O. 2021. Les robots rédacteurs: une technologie stable, efficace et éprouvée. Publié par Demain.ai. https://www.demain.ai/nos_publications/les-robots-redacteurs-une-technologie-stable-efficace-et-eprouvee (visité le 09.09.2021).
Meier-Vieracker, S. 2020. Die Verdatung des Fußballs: Spuren von Algorithmen in der Fußballberichterstattung. In Muttersprache, 130, 304-318.
Meier-Vieracker, S. 2021. Wer schreibt? Automatisierter Fußballjournalismus aus kommunikations- und sprachwissenschaftlicher Sicht. Vortrag, TU Dresden, 21.04.2021.
Ponton, C. 1997. Génération automatique de textes : 30 ans de réalisations. In Génération Automatique de textes GAT’97, 1-14.
Schevenels, H. 2019-2020. La génération automatique de textes en presse écrite : historique problématisé, questions d'éthique et analyse de contenu. Thèse de Master, Université de Liège.
Stalph, F., Thaesler-Kordonouri, S. & Thurman, N. 2021. Exploring audience perceptions of, and preferences for, data-driven ‘quantitative’ journalism. Working paper.
Thurman, N. 2019. Computational Journalism. In K. Wahl-Jorgensen & T. Hanitzsch (eds), The Handbook of Journalism Studies, Second Edition. New York: Routledge, 180-195.
Van der Lee, C., Krahmer, E. & Wubben, S. 2018. Automated learning of templates for data-to-text generation: comparing rule-based, statistical and neural methods. In Proceedings of the 11th International Natural Language Generation Conference, 35-45. Association for Computational Linguistics. https://aclanthology.org/W18-6504.pdf.