1 00:00:06,677 --> 00:00:08,306 Comment se fait-il 2 00:00:08,306 --> 00:00:11,306 que tant de races intergalactiques dans les films et les séries 3 00:00:11,306 --> 00:00:14,483 parlent parfaitement l'anglais ? 4 00:00:14,483 --> 00:00:17,886 La réponse courte est que personne ne veut voir l'équipage d'un vaisseau 5 00:00:17,886 --> 00:00:21,774 passer des années à compiler un dictionnaire alien. 6 00:00:21,774 --> 00:00:23,392 Mais pour la cohérence de la chose, 7 00:00:23,392 --> 00:00:26,789 les créateurs de Star Trek et d'autres mondes de science-fiction 8 00:00:26,789 --> 00:00:30,514 ont introduit le concept d'un traducteur universel, 9 00:00:30,514 --> 00:00:35,012 un appareil portatif qui peut traduire instantanément n'importe quelle langue. 10 00:00:35,012 --> 00:00:38,539 Peut-on créer un traducteur universel dans la vraie vie ? 11 00:00:38,539 --> 00:00:42,137 Il existe déjà de nombreux programmes qui prétendent pourvoir faire cela, 12 00:00:42,137 --> 00:00:45,954 en prenant un mot, une phrase, ou un livre entier dans une langue 13 00:00:45,954 --> 00:00:49,004 et le traduire dans quasiment n'importe quelle autre langue, 14 00:00:49,004 --> 00:00:52,337 que ce soit l'anglais moderne ou l'ancien sanskrit. 15 00:00:52,337 --> 00:00:55,913 Et si pour traduire, il suffisait de chercher des mots dans un dictionnaire, 16 00:00:55,913 --> 00:00:59,825 ces programmes seraient partout. 17 00:00:59,825 --> 00:01:03,299 La réalité est, cependant, un peu plus compliquée. 18 00:01:03,299 --> 00:01:04,569 Un programme de traduction 19 00:01:04,569 --> 00:01:07,349 basé sur des règles utilise une base de données lexicale, 20 00:01:07,349 --> 00:01:10,302 qui inclut tous les mots trouvés dans un dictionnaire 21 00:01:10,302 --> 00:01:13,283 et toutes les formes grammaticales qu'elles peuvent contenir, 22 00:01:13,283 --> 00:01:15,925 et un jeu de règles permettant de reconnaître 23 00:01:15,925 --> 00:01:18,925 les bases des éléments linguistiques de la langue source. 24 00:01:18,925 --> 00:01:22,506 Pour un phrase apparemment simple comme « les enfants mangent les muffins », 25 00:01:22,506 --> 00:01:27,050 le programme analyse la syntaxe, ou la structure grammaticale, 26 00:01:27,050 --> 00:01:29,587 en identifiant « les enfants » comme sujet 27 00:01:29,587 --> 00:01:32,317 et le reste de la phrase comme prédicat 28 00:01:32,317 --> 00:01:34,368 consistant du verbe « mangent » 29 00:01:34,368 --> 00:01:37,422 et du complément d'objet direct « les muffins ». 30 00:01:37,422 --> 00:01:40,249 Il doit ensuite reconnaître la morphologie anglaise, 31 00:01:40,249 --> 00:01:44,681 ou la séparation de la langue dans ses plus petites unités ayant un sens, 32 00:01:44,681 --> 00:01:46,124 comme le mot « muffin » 33 00:01:46,124 --> 00:01:49,755 et le suffixe « s », utilisé pour indiquer le pluriel. 34 00:01:49,755 --> 00:01:52,449 De plus, il a besoin de comprendre la sémantique, 35 00:01:52,449 --> 00:01:56,178 ce que les différentes parties de la phrase veulent dire. 36 00:01:56,178 --> 00:01:58,074 Pour traduire cette phrase correctement, 37 00:01:58,074 --> 00:02:01,982 le programme devra consulter un jeu de règles et de vocabulaires différents 38 00:02:01,982 --> 00:02:05,166 pour chaque élément de la langue cible. 39 00:02:05,166 --> 00:02:07,020 Mais c'est là que ça devient compliqué. 40 00:02:07,020 --> 00:02:11,820 La syntaxe de certaines langues permet aux mots d'être désordonnés, 41 00:02:11,820 --> 00:02:13,954 alors que dans d'autres, 42 00:02:13,954 --> 00:02:16,954 cela pourrait conduire au « muffin mange l'enfant ». 43 00:02:16,954 --> 00:02:19,647 La morphologie pose aussi un problème. 44 00:02:19,647 --> 00:02:23,243 En slovène, on distingue entre deux ans et plus 45 00:02:23,243 --> 00:02:27,097 en utilisant d'un double suffixe absent dans la plupart des autres langues, 46 00:02:27,097 --> 00:02:30,532 lorsqu'en russe le manque d'articles définis vous fera demander 47 00:02:30,532 --> 00:02:33,575 si les enfants mangeaient un type particulier de muffins, 48 00:02:33,575 --> 00:02:36,679 ou juste des muffins en général. 49 00:02:36,679 --> 00:02:39,708 Finalement, même quand la sémantique est techniquement correcte, 50 00:02:39,708 --> 00:02:42,757 le programme peut manquer les points plus complexes, 51 00:02:42,757 --> 00:02:45,809 comme si les enfants ont « mangé » les muffins, 52 00:02:45,809 --> 00:02:47,794 ou s'ils les ont « dévorés ». 53 00:02:47,794 --> 00:02:51,558 L'autre méthode est une machine de traduction statistique, 54 00:02:51,558 --> 00:02:55,762 qui analyse une base de données de livres, d'articles et de documents 55 00:02:55,762 --> 00:02:59,488 qui ont déjà été traduits par des humains. 56 00:02:59,488 --> 00:03:02,959 En trouvant des correspondances entre la source et le texte traduit 57 00:03:02,959 --> 00:03:05,393 qui ont peu de chance de se produire par accident, 58 00:03:05,393 --> 00:03:09,345 le programme peut identifier des expressions et des schémas correspondants, 59 00:03:09,345 --> 00:03:12,429 et les utiliser pour des traductions futures. 60 00:03:12,429 --> 00:03:14,969 Cependant, la qualité de ce type de traduction 61 00:03:14,969 --> 00:03:17,690 dépend de la taille de la base de données initiale 62 00:03:17,690 --> 00:03:21,357 et de la disponibilité d’échantillons pour certaines langues 63 00:03:21,357 --> 00:03:23,383 ou styles d'écriture. 64 00:03:23,383 --> 00:03:27,140 La difficulté que les ordinateurs ont avec les exceptions, les irrégularités 65 00:03:27,140 --> 00:03:30,994 et les nuances du sens qui semblent être instinctives pour les humains 66 00:03:30,994 --> 00:03:35,045 a amené certains chercheurs à penser que notre compréhension du langage 67 00:03:35,045 --> 00:03:39,251 est un produit propre à la structure biologique de notre cerveau. 68 00:03:39,251 --> 00:03:43,101 En fait, un des traducteurs universels fictifs les plus connus, 69 00:03:43,101 --> 00:03:46,439 le poisson Babel du « Guide du voyageur galactique », 70 00:03:46,439 --> 00:03:49,726 n'est pas du tout une machine, mais une petite créature 71 00:03:49,726 --> 00:03:54,210 qui traduit les ondes cérébrales et les signaux nerveux de races sensibles 72 00:03:54,210 --> 00:03:57,005 grâce à une forme de télépathie. 73 00:03:57,005 --> 00:03:59,726 Pour l'instant, apprendre une langue à l'ancienne 74 00:03:59,726 --> 00:04:05,106 vous donnera de meilleurs résultats que n'importe quel logiciel existant. 75 00:04:05,106 --> 00:04:06,749 Mais ce n'est pas facile, 76 00:04:06,749 --> 00:04:09,014 et le simple nombre de langues dans le monde, 77 00:04:09,014 --> 00:04:12,989 en plus des interactions croissantes de personnes qui les parlent, 78 00:04:12,989 --> 00:04:17,764 vont seulement continuer à stimuler des avancées dans la traduction automatique. 79 00:04:17,764 --> 00:04:21,329 Peut-être que lorsque nous rencontrerons des formes de vie intergalactiques, 80 00:04:21,329 --> 00:04:24,990 nous serons capables de communiquer avec eux à travers un petit dispositif, 81 00:04:24,990 --> 00:04:29,026 ou peut-être que nous devrons quand même compiler ce petit dictionnaire après tout.