WEBVTT 00:00:06.677 --> 00:00:08.306 Comment se fait-il 00:00:08.306 --> 00:00:11.306 que tant de races intergalactiques dans les films et les séries 00:00:11.306 --> 00:00:14.483 parlent parfaitement l'anglais ? 00:00:14.483 --> 00:00:17.886 La réponse courte est que personne ne veut voir l'équipage d'un vaisseau 00:00:17.886 --> 00:00:21.774 passer des années à compiler un dictionnaire alien. 00:00:21.774 --> 00:00:23.392 Mais pour la cohérence de la chose, 00:00:23.392 --> 00:00:26.789 les créateurs de Star Trek et d'autres mondes de science-fiction 00:00:26.789 --> 00:00:30.514 ont introduit le concept d'un traducteur universel, 00:00:30.514 --> 00:00:35.012 un appareil portatif qui peut traduire instantanément n'importe quelle langue. 00:00:35.012 --> 00:00:38.539 Peut-on créer un traducteur universel dans la vraie vie ? 00:00:38.539 --> 00:00:42.137 Il existe déjà de nombreux programmes qui prétendent pourvoir faire cela, 00:00:42.137 --> 00:00:45.954 en prenant un mot, une phrase, ou un livre entier dans une langue 00:00:45.954 --> 00:00:49.004 et le traduire dans quasiment n'importe quelle autre langue, 00:00:49.004 --> 00:00:52.337 que ce soit l'anglais moderne ou l'ancien sanskrit. 00:00:52.337 --> 00:00:55.913 Et si pour traduire, il suffisait de chercher des mots dans un dictionnaire, 00:00:55.913 --> 00:00:59.825 ces programmes seraient partout. 00:00:59.825 --> 00:01:03.299 La réalité est, cependant, un peu plus compliquée. 00:01:03.299 --> 00:01:04.569 Un programme de traduction 00:01:04.569 --> 00:01:07.349 basé sur des règles utilise une base de données lexicale, 00:01:07.349 --> 00:01:10.302 qui inclut tous les mots trouvés dans un dictionnaire 00:01:10.302 --> 00:01:13.283 et toutes les formes grammaticales qu'elles peuvent contenir, 00:01:13.283 --> 00:01:15.925 et un jeu de règles permettant de reconnaître 00:01:15.925 --> 00:01:18.925 les bases des éléments linguistiques de la langue source. 00:01:18.925 --> 00:01:22.506 Pour un phrase apparemment simple comme « les enfants mangent les muffins », 00:01:22.506 --> 00:01:27.050 le programme analyse la syntaxe, ou la structure grammaticale, 00:01:27.050 --> 00:01:29.587 en identifiant « les enfants » comme sujet 00:01:29.587 --> 00:01:32.317 et le reste de la phrase comme prédicat 00:01:32.317 --> 00:01:34.368 consistant du verbe « mangent » 00:01:34.368 --> 00:01:37.422 et du complément d'objet direct « les muffins ». 00:01:37.422 --> 00:01:40.249 Il doit ensuite reconnaître la morphologie anglaise, 00:01:40.249 --> 00:01:44.681 ou la séparation de la langue dans ses plus petites unités ayant un sens, 00:01:44.681 --> 00:01:46.124 comme le mot « muffin » 00:01:46.124 --> 00:01:49.755 et le suffixe « s », utilisé pour indiquer le pluriel. 00:01:49.755 --> 00:01:52.449 De plus, il a besoin de comprendre la sémantique, 00:01:52.449 --> 00:01:56.178 ce que les différentes parties de la phrase veulent dire. 00:01:56.178 --> 00:01:58.074 Pour traduire cette phrase correctement, 00:01:58.074 --> 00:02:01.982 le programme devra consulter un jeu de règles et de vocabulaires différents 00:02:01.982 --> 00:02:05.166 pour chaque élément de la langue cible. 00:02:05.166 --> 00:02:07.020 Mais c'est là que ça devient compliqué. 00:02:07.020 --> 00:02:11.820 La syntaxe de certaines langues permet aux mots d'être désordonnés, 00:02:11.820 --> 00:02:13.954 alors que dans d'autres, 00:02:13.954 --> 00:02:16.954 cela pourrait conduire au « muffin mange l'enfant ». 00:02:16.954 --> 00:02:19.647 La morphologie pose aussi un problème. 00:02:19.647 --> 00:02:23.243 En slovène, on distingue entre deux ans et plus 00:02:23.243 --> 00:02:27.097 en utilisant d'un double suffixe absent dans la plupart des autres langues, 00:02:27.097 --> 00:02:30.532 lorsqu'en russe le manque d'articles définis vous fera demander 00:02:30.532 --> 00:02:33.575 si les enfants mangeaient un type particulier de muffins, 00:02:33.575 --> 00:02:36.679 ou juste des muffins en général. 00:02:36.679 --> 00:02:39.708 Finalement, même quand la sémantique est techniquement correcte, 00:02:39.708 --> 00:02:42.757 le programme peut manquer les points plus complexes, 00:02:42.757 --> 00:02:45.809 comme si les enfants ont « mangé » les muffins, 00:02:45.809 --> 00:02:47.794 ou s'ils les ont « dévorés ». 00:02:47.794 --> 00:02:51.558 L'autre méthode est une machine de traduction statistique, 00:02:51.558 --> 00:02:55.762 qui analyse une base de données de livres, d'articles et de documents 00:02:55.762 --> 00:02:59.488 qui ont déjà été traduits par des humains. 00:02:59.488 --> 00:03:02.959 En trouvant des correspondances entre la source et le texte traduit 00:03:02.959 --> 00:03:05.393 qui ont peu de chance de se produire par accident, 00:03:05.393 --> 00:03:09.345 le programme peut identifier des expressions et des schémas correspondants, 00:03:09.345 --> 00:03:12.429 et les utiliser pour des traductions futures. 00:03:12.429 --> 00:03:14.969 Cependant, la qualité de ce type de traduction 00:03:14.969 --> 00:03:17.690 dépend de la taille de la base de données initiale 00:03:17.690 --> 00:03:21.357 et de la disponibilité d’échantillons pour certaines langues 00:03:21.357 --> 00:03:23.383 ou styles d'écriture. 00:03:23.383 --> 00:03:27.140 La difficulté que les ordinateurs ont avec les exceptions, les irrégularités 00:03:27.140 --> 00:03:30.994 et les nuances du sens qui semblent être instinctives pour les humains 00:03:30.994 --> 00:03:35.045 a amené certains chercheurs à penser que notre compréhension du langage 00:03:35.045 --> 00:03:39.251 est un produit propre à la structure biologique de notre cerveau. 00:03:39.251 --> 00:03:43.101 En fait, un des traducteurs universels fictifs les plus connus, 00:03:43.101 --> 00:03:46.439 le poisson Babel du « Guide du voyageur galactique », 00:03:46.439 --> 00:03:49.726 n'est pas du tout une machine, mais une petite créature 00:03:49.726 --> 00:03:54.210 qui traduit les ondes cérébrales et les signaux nerveux de races sensibles 00:03:54.210 --> 00:03:57.005 grâce à une forme de télépathie. 00:03:57.005 --> 00:03:59.726 Pour l'instant, apprendre une langue à l'ancienne 00:03:59.726 --> 00:04:05.106 vous donnera de meilleurs résultats que n'importe quel logiciel existant. 00:04:05.106 --> 00:04:06.749 Mais ce n'est pas facile, 00:04:06.749 --> 00:04:09.014 et le simple nombre de langues dans le monde, 00:04:09.014 --> 00:04:12.989 en plus des interactions croissantes de personnes qui les parlent, 00:04:12.989 --> 00:04:17.764 vont seulement continuer à stimuler des avancées dans la traduction automatique. 00:04:17.764 --> 00:04:21.329 Peut-être que lorsque nous rencontrerons des formes de vie intergalactiques, 00:04:21.329 --> 00:04:24.990 nous serons capables de communiquer avec eux à travers un petit dispositif, 00:04:24.990 --> 00:04:29.026 ou peut-être que nous devrons quand même compiler ce petit dictionnaire après tout.