TREMoLo : un corpus multi-étiquettes de tweets en français pour la caractérisation des registres de langue

Jade Mekki; Delphine Battistelli; Nicolas Béchet; Gwénolé Lecorvé

Communication Dans Un Congrès Année : 2021

TREMoLo : un corpus multi-étiquettes de tweets en français pour la caractérisation des registres de langue

(1, 2) , (3) , (1, 2) , (4)

1
2
3
4

Jade Mekki

Fonction : Auteur
PersonId : 1236982
IdHAL : jade-mekki
ORCID : 0009-0009-1725-1133

Expressiveness in Human Centered Data/Media

Université de Bretagne Sud

Delphine Battistelli

Fonction : Auteur
PersonId : 89
IdHAL : delphine-battistelli
IdRef : 060895217

Modèles, Dynamiques, Corpus

Nicolas Béchet

Fonction : Auteur
PersonId : 181774
IdHAL : nicolas-bechet
ORCID : 0000-0001-9425-5570
IdRef : 142928879

Expressiveness in Human Centered Data/Media

Université de Bretagne Sud

Gwénolé Lecorvé

Fonction : Auteur
PersonId : 20677
IdHAL : gwenole-lecorve
ORCID : 0000-0002-4271-2087
IdRef : 150245254

Orange Labs

Résumé

Des registres tels que familier, courant et soutenu sont un phénomène immédiatement perceptible par tout locuteur d’une langue. Ils restent encore peu étudiés en traitement des langues (TAL), en particulier en dehors de l’anglais. Cet article présente un large corpus de tweets en français annotés en registres de langue. L’annotation intègre des marqueurs propres à ce type de textes (tels que les émoticônes ou les hashtags) et habituellement évincés dans les travaux en TAL. À partir d’une graine annotée manuellement en proportion d’appartenance aux registres, un classifieur de type CamemBERT est appris et appliqué sur un large ensemble de tweets. Le corpus annoté en résultant compte 228 505 tweets pour un total de 6 millions de mots. Des premières analyses statistiques sont menées et permettent de conclure à la qualité du corpus présenté. Le corpus ainsi que son guide d’annotation sont mis à la disposition de la communauté scientifique.

Mots clés

corpus annoté CamemBERT registres de langue tweets.

Domaines

Informatique et langage [cs.CL] Linguistique

Fichier principal

136.pdf (643.87 Ko)

Origine : Fichiers éditeurs autorisés sur une archive ouverte

Yannick Parmentier : Connectez-vous pour contacter le contributeur

https://hal.science/hal-03265873

Soumis le : mercredi 23 juin 2021-23:42:31

Dernière modification le : jeudi 21 décembre 2023-17:18:03

Archivage à long terme le : vendredi 24 septembre 2021-19:08:58

Dates et versions

hal-03265873 , version 1 (23-06-2021)

Identifiants

HAL Id : hal-03265873 , version 1

Citer

Jade Mekki, Delphine Battistelli, Nicolas Béchet, Gwénolé Lecorvé. TREMoLo : un corpus multi-étiquettes de tweets en français pour la caractérisation des registres de langue. Traitement Automatique des Langues Naturelles, 2021, Lille, France. pp.237-245. ⟨hal-03265873⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-RENNES1 CNRS INRIA INSA-RENNES IRISA MODYCO CENTRALESUPELEC UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES UNIV-PARIS-LUMIERES IRISA_UBS_2 TALN-RECITAL ANR UR1-MATH-NUM UNIV-PARIS-NANTERRE TALN-RECITAL2021

176 Consultations

127 Téléchargements

TREMoLo : un corpus multi-étiquettes de tweets en français pour la caractérisation des registres de langue

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager