Numéro |
2010
|
|
---|---|---|
Numéro d'article | 151 | |
Nombre de pages | 12 | |
Section | Traitement automatique des langues | |
DOI | https://doi.org/10.1051/cmlf/2010255 | |
Publié en ligne | 12 juillet 2010 |
Extraction automatique de traductions de mots composés français
1
Université Paris-Est Marne-la-Vallée, LIGM, 5, bd Descartes, Champs/Marne, 77454 Marne-la-Vallée, France
2
ALPAGE, 30 rue du Chateau des Rentiers, 75013 Paris, France
Contact : mconstan@univ-mlv.fr
La traduction des expressions multi-mots pose de sérieux problèmes car elles sont non-compositionnelles. Par ailleurs, bien qu’elles soient très présentes dans les textes, la fréquence des expressions multi-mots prises individuellement est relativement faible ce qui cause des difficultés pour extraire les traductions. De plus en plus d'études ont été réalisées sur ce sujet, expérimentant un certain nombre de méthodes utilisant des approches statistiques et/ou des méthodes plus linguistiques . La plupart du temps, elles traitent des collocations et utilisent des corpus parallèles multilingues. Dans notre article, nous traitons uniquement de mots composés, séquences de mots contigus non-compositionnelles, qui sont présentes dans le dictionnaire DELACF (Courtois et al. 1997). Nous confrontons les méthodes utilisées pour les collocations aux mots composés. Alors que les collocations ont tendance à mettre en relation deux mots pleins (ex. verbe-nom pour les collocations verbe-objet, ex: prend l'apéritif; nom adjectif pour les collocations nominales: pain perdu), certains types de mots composés comme les prépositions ne possèdent souvent qu'un seul mot plein entouré de mots grammaticaux (au sein de), ce qui les rend plus difficile à repérer et traduire que les collocations traditionnelles. Etant donné un mot composé identifié dans une phrase en français d’un corpus parallèle, le but est d’extraire automatiquement la traduction du mot composé dans la phrase correspondante en anglais. Ce balisage permet d'extraire du corpus les meilleures traductions et ainsi initier la création d'une ressource bilingue. Les mots composés que nous traitons appartiennent à quatre catégories : les noms, les adverbes, les conjonctions et les prépositions. Nous nous basons sur les études réalisées sur l’extraction statistique des traductions de collocations. Nous nous basons sur les modèles probabilistes IBM d’alignement (Och et Ney, 2003) ou sur des mesures d’associations (Bai et al. 2009). Les résultats obtenus sont très intéressants. Nous montrons notamment que les résultats sont très altérés sur certaines catégories de mots composés comme les prepositions qui contiennent de multiples mots grammaticaux.
© Owned by the authors, published by EDP Sciences, 2010