6533b839fe1ef96bd12a61b4
RESEARCH PRODUCT
Extraire des patterns pour améliorer l'idiomaticité de résumés semiautomatiques en finances : le cas du lexique support
Abdelghani LaifaLaurent GautierChristophe Cruzsubject
Plongement de motsCommunication financièreTraitement automatique de la langueRésumé automatiqueLinguistique de corpus[SHS.LANGUE]Humanities and Social Sciences/LinguisticsCorpusTerminologiePatterns[SHS.LANGUE] Humanities and Social Sciences/LinguisticsTraitement automatique des languesFinanceFigementdescription
International audience; Cet article présente des travaux visant à développer un système de rédaction automatique de résumés de textes économiques et financiers en attachant une attention particulière à l’idiomaticité et à la fluidité de la langue d’arrivée. Pour ce faire, l’étude part d’un corpus de rapports périodiques de la Banque de France relevant des discours de conjoncture. Le travail linguistique permet de montrer qu’une rédaction des résumés ne s’attachant qu’à l’extraction terminologique et collocationnelle stricte ignore tout un pan de vocabulaire, saisi ici comme « lexique support », jouant un rôle important dans l’organisation cognitive du domaine. Sur cette base, le travail présenté sur les modèles de langage en apprentissage profond met en avant la pertinence du mécanisme d’auto-attention pour identifier et extraire des schémas lexico-grammaticaux ainsi le lexique support, et l’impact sur le guidage du modèle de résumé abstractif de CamemBERT à travers l'augmentation des données. Une première expérimentation utilisant le corpus considéré ainsi que la méthode d'extraction sont présentées.
year | journal | country | edition | language |
---|---|---|---|---|
2020-11-26 |