1 00:00:06,677 --> 00:00:11,306 Почему это в любом кино или по телевизору пришельцы-инопланетяне 2 00:00:11,306 --> 00:00:14,483 всегда так хорошо владеют английским языком? 3 00:00:14,483 --> 00:00:17,886 Если коротко, то потому, что зрителям не интересно, как экипаж корабля 4 00:00:17,886 --> 00:00:21,774 будет годами составлять словарь пришельцев. 5 00:00:21,774 --> 00:00:23,392 Но чтобы всё было логично, 6 00:00:23,392 --> 00:00:26,789 создатели «Звёздного пути» и других фантастических миров 7 00:00:26,789 --> 00:00:30,514 придумали понятие «универсального переводчика»: 8 00:00:30,514 --> 00:00:35,012 переносного устройства, которое может мгновенно переводить на разные языки. 9 00:00:35,012 --> 00:00:38,539 Возможен ли универсальный переводчик в реальности? 10 00:00:38,539 --> 00:00:42,137 На сегодняшний день есть много программ, чьи создатели утверждают, 11 00:00:42,137 --> 00:00:45,954 что можно взять на одном языке слово, предложение, целую книгу 12 00:00:45,954 --> 00:00:49,004 и перевести на почти любой язык, 13 00:00:49,004 --> 00:00:52,337 будь то современный английский или древний санскрит. 14 00:00:52,337 --> 00:00:55,913 Если бы при переводе нужно было просто отыскивать слова в словаре, 15 00:00:55,913 --> 00:00:59,825 то эти программы давно бы за пояс заткнули живых переводчиков. 16 00:00:59,825 --> 00:01:03,299 Однако в реальности всё намного сложнее. 17 00:01:03,299 --> 00:01:07,349 Обычная компьютерная программа-переводчик использует базу данных лексических единиц, 18 00:01:07,349 --> 00:01:10,302 которая включает все слова, содержащиеся в словаре, 19 00:01:10,302 --> 00:01:13,283 и все грамматические формы, которые они могут принимать, 20 00:01:13,283 --> 00:01:18,925 а также набор правил, которые определяют базовые языковые элементы исходного языка. 21 00:01:18,925 --> 00:01:22,396 Казалось бы, в таком простом предложении, например: «Дети едят маффины», 22 00:01:22,396 --> 00:01:27,050 программа вначале анализирует синтаксис или грамматическую структуру предложения, 23 00:01:27,050 --> 00:01:29,587 она определяет, что «дети» — это субъект, 24 00:01:29,587 --> 00:01:32,317 а остаток предложения — его предикат, 25 00:01:32,317 --> 00:01:34,368 который состоит из глагола «едят» 26 00:01:34,368 --> 00:01:37,422 и прямого дополнения «маффины». 27 00:01:37,422 --> 00:01:40,579 Затем ей необходимо вникнуть в английскую морфологическую структуру, 28 00:01:40,579 --> 00:01:44,681 или как язык можно разбить на небольшие значимые единицы, 29 00:01:44,681 --> 00:01:46,124 например, корень «маффин» 30 00:01:46,124 --> 00:01:49,755 и окончание «ы», указывающее на форму множественного числа. 31 00:01:49,755 --> 00:01:52,449 Наконец, программа должна понять семантику, 32 00:01:52,449 --> 00:01:56,178 что на самом деле означают различные части предложения. 33 00:01:56,178 --> 00:01:58,204 Чтобы правильно перевести это предложение, 34 00:01:58,204 --> 00:02:01,982 программа должна обладать определённым запасом словаря и правил 35 00:02:01,982 --> 00:02:05,166 для каждого элемента языка перевода. 36 00:02:05,166 --> 00:02:07,020 А вот здесь-то и кроется подвох. 37 00:02:07,020 --> 00:02:11,820 Синтаксис некоторых языков допускает свободный порядок слов в предложении, 38 00:02:11,820 --> 00:02:16,954 зато в других языках подобные перестановки могут означать, что маффины едят детей. 39 00:02:16,954 --> 00:02:19,647 С морфологией всё тоже не так просто. 40 00:02:19,647 --> 00:02:23,243 В словенском языке есть различия, едят ли двое детей, трое или более, 41 00:02:23,243 --> 00:02:27,097 это показывает суффикс парности, отсутствующий во многих других языках. 42 00:02:27,097 --> 00:02:30,532 В русском языке не существует определённого артикля, отчего непонятно, 43 00:02:30,532 --> 00:02:33,575 едят ли дети какие-то конкретные маффины в данный момент 44 00:02:33,575 --> 00:02:36,719 или просто едят маффины вообще. 45 00:02:36,719 --> 00:02:39,708 Наконец, даже если с семантикой и всё хорошо, 46 00:02:39,708 --> 00:02:42,757 программа может не понять некоторых тонкостей, 47 00:02:42,757 --> 00:02:45,809 например, едят ли дети маффины в смысле «mangiano» 48 00:02:45,809 --> 00:02:47,794 или они их «divorano». 49 00:02:47,794 --> 00:02:51,558 Вторым методом является статистический машинный перевод, 50 00:02:51,558 --> 00:02:55,762 который представляет собой анализ баз данных книг, статей, документов, 51 00:02:55,762 --> 00:02:58,978 которые уже переводились людьми. 52 00:02:58,978 --> 00:03:01,318 Благодаря тому, что находятся соответствия между 53 00:03:01,318 --> 00:03:03,419 текстами на исходном языке и языке перевода, 54 00:03:03,429 --> 00:03:05,683 такие совпадения вряд ли бывают случайными, 55 00:03:05,683 --> 00:03:09,345 это означает, что программа может выявлять фразы и конструкции 56 00:03:09,345 --> 00:03:12,429 и использовать их для будущих переводов. 57 00:03:12,429 --> 00:03:14,969 Однако качество такого типа переводов 58 00:03:14,969 --> 00:03:17,690 зависит от объёма исходной базы банных 59 00:03:17,690 --> 00:03:21,357 и наличия образцов для определённых языков 60 00:03:21,357 --> 00:03:23,383 или стилей письма. 61 00:03:23,383 --> 00:03:25,603 Трудности, с которыми сталкивается компьютер, 62 00:03:25,603 --> 00:03:27,850 когда ему попадаются исключения, нарушения норм 63 00:03:27,850 --> 00:03:30,994 или оттенки значений, которые люди интерпретируют интуитивно, 64 00:03:30,994 --> 00:03:35,045 заставило некоторых учёных предполагать, что понимание языка людьми — 65 00:03:35,045 --> 00:03:39,251 это уникальное явление, свойственное биологической структуре нашего мозга. 66 00:03:39,251 --> 00:03:43,101 Собственно, самый знаменитый фантастический универсальный переводчик 67 00:03:43,101 --> 00:03:46,439 Вавилонская рыбка из романа «Автостопом по галактике» 68 00:03:46,439 --> 00:03:49,726 и вовсе не прибор, а крошечное создание, 69 00:03:49,726 --> 00:03:54,210 переводившее биотоки мозга и нервные сигналы разумных существ 70 00:03:54,210 --> 00:03:57,005 путём телепатии. 71 00:03:57,005 --> 00:03:59,726 На сегодняшний день старое доброе изучение другого языка 72 00:03:59,726 --> 00:04:05,106 по-прежнему результативнее любой из доступных программ-переводчиков. 73 00:04:05,106 --> 00:04:06,749 Но это не самый лёгкий путь, 74 00:04:06,749 --> 00:04:09,014 а само число существующих в мире языков, 75 00:04:09,014 --> 00:04:12,989 а также всё возрастающее число контактов между говорящими на разных языках людьми 76 00:04:12,989 --> 00:04:18,004 будут только способствовать дальнейшему улучшению машинного перевода. 77 00:04:18,004 --> 00:04:19,514 Возможно, что к моменту встречи 78 00:04:19,514 --> 00:04:21,719 с представителями межгалактических цивилизаций 79 00:04:21,719 --> 00:04:24,660 мы сможем общаться с ними посредством крохотных девайсов, 80 00:04:24,660 --> 00:04:29,026 или же нам придётся по старинке садиться за составление словаря.