WEBVTT 00:00:06.677 --> 00:00:11.306 Почему это в любом кино или по телевизору пришельцы-инопланетяне 00:00:11.306 --> 00:00:14.483 всегда так хорошо владеют английским языком? 00:00:14.483 --> 00:00:17.886 Если коротко, то потому, что зрителям не интересно, как экипаж корабля 00:00:17.886 --> 00:00:21.774 будет годами составлять словарь пришельцев. 00:00:21.774 --> 00:00:23.392 Но чтобы всё было логично, 00:00:23.392 --> 00:00:26.789 создатели «Звёздного пути» и других фантастических миров 00:00:26.789 --> 00:00:30.514 придумали понятие «универсального переводчика»: 00:00:30.514 --> 00:00:35.012 переносного устройства, которое может мгновенно переводить на разные языки. 00:00:35.012 --> 00:00:38.539 Возможен ли универсальный переводчик в реальности? 00:00:38.539 --> 00:00:42.137 На сегодняшний день есть много программ, чьи создатели утверждают, 00:00:42.137 --> 00:00:45.954 что можно взять на одном языке слово, предложение, целую книгу 00:00:45.954 --> 00:00:49.004 и перевести на почти любой язык, 00:00:49.004 --> 00:00:52.337 будь то современный английский или древний санскрит. 00:00:52.337 --> 00:00:55.913 Если бы при переводе нужно было просто отыскивать слова в словаре, 00:00:55.913 --> 00:00:59.825 то эти программы давно бы за пояс заткнули живых переводчиков. 00:00:59.825 --> 00:01:03.299 Однако в реальности всё намного сложнее. 00:01:03.299 --> 00:01:07.349 Обычная компьютерная программа-переводчик использует базу данных лексических единиц, 00:01:07.349 --> 00:01:10.302 которая включает все слова, содержащиеся в словаре, 00:01:10.302 --> 00:01:13.283 и все грамматические формы, которые они могут принимать, 00:01:13.283 --> 00:01:18.925 а также набор правил, которые определяют базовые языковые элементы исходного языка. 00:01:18.925 --> 00:01:22.396 Казалось бы, в таком простом предложении, например: «Дети едят маффины», 00:01:22.396 --> 00:01:27.050 программа вначале анализирует синтаксис или грамматическую структуру предложения, 00:01:27.050 --> 00:01:29.587 она определяет, что «дети» — это субъект, 00:01:29.587 --> 00:01:32.317 а остаток предложения — его предикат, 00:01:32.317 --> 00:01:34.368 который состоит из глагола «едят» 00:01:34.368 --> 00:01:37.422 и прямого дополнения «маффины». 00:01:37.422 --> 00:01:40.579 Затем ей необходимо вникнуть в английскую морфологическую структуру, 00:01:40.579 --> 00:01:44.681 или как язык можно разбить на небольшие значимые единицы, 00:01:44.681 --> 00:01:46.124 например, корень «маффин» 00:01:46.124 --> 00:01:49.755 и окончание «ы», указывающее на форму множественного числа. 00:01:49.755 --> 00:01:52.449 Наконец, программа должна понять семантику, 00:01:52.449 --> 00:01:56.178 что на самом деле означают различные части предложения. 00:01:56.178 --> 00:01:58.204 Чтобы правильно перевести это предложение, 00:01:58.204 --> 00:02:01.982 программа должна обладать определённым запасом словаря и правил 00:02:01.982 --> 00:02:05.166 для каждого элемента языка перевода. 00:02:05.166 --> 00:02:07.020 А вот здесь-то и кроется подвох. 00:02:07.020 --> 00:02:11.820 Синтаксис некоторых языков допускает свободный порядок слов в предложении, 00:02:11.820 --> 00:02:16.954 зато в других языках подобные перестановки могут означать, что маффины едят детей. 00:02:16.954 --> 00:02:19.647 С морфологией всё тоже не так просто. 00:02:19.647 --> 00:02:23.243 В словенском языке есть различия, едят ли двое детей, трое или более, 00:02:23.243 --> 00:02:27.097 это показывает суффикс парности, отсутствующий во многих других языках. 00:02:27.097 --> 00:02:30.532 В русском языке не существует определённого артикля, отчего непонятно, 00:02:30.532 --> 00:02:33.575 едят ли дети какие-то конкретные маффины в данный момент 00:02:33.575 --> 00:02:36.719 или просто едят маффины вообще. 00:02:36.719 --> 00:02:39.708 Наконец, даже если с семантикой и всё хорошо, 00:02:39.708 --> 00:02:42.757 программа может не понять некоторых тонкостей, 00:02:42.757 --> 00:02:45.809 например, едят ли дети маффины в смысле «mangiano» 00:02:45.809 --> 00:02:47.794 или они их «divorano». 00:02:47.794 --> 00:02:51.558 Вторым методом является статистический машинный перевод, 00:02:51.558 --> 00:02:55.762 который представляет собой анализ баз данных книг, статей, документов, 00:02:55.762 --> 00:02:58.978 которые уже переводились людьми. 00:02:58.978 --> 00:03:01.318 Благодаря тому, что находятся соответствия между 00:03:01.318 --> 00:03:03.419 текстами на исходном языке и языке перевода, 00:03:03.429 --> 00:03:05.683 такие совпадения вряд ли бывают случайными, 00:03:05.683 --> 00:03:09.345 это означает, что программа может выявлять фразы и конструкции 00:03:09.345 --> 00:03:12.429 и использовать их для будущих переводов. 00:03:12.429 --> 00:03:14.969 Однако качество такого типа переводов 00:03:14.969 --> 00:03:17.690 зависит от объёма исходной базы банных 00:03:17.690 --> 00:03:21.357 и наличия образцов для определённых языков 00:03:21.357 --> 00:03:23.383 или стилей письма. 00:03:23.383 --> 00:03:25.603 Трудности, с которыми сталкивается компьютер, 00:03:25.603 --> 00:03:27.850 когда ему попадаются исключения, нарушения норм 00:03:27.850 --> 00:03:30.994 или оттенки значений, которые люди интерпретируют интуитивно, 00:03:30.994 --> 00:03:35.045 заставило некоторых учёных предполагать, что понимание языка людьми — 00:03:35.045 --> 00:03:39.251 это уникальное явление, свойственное биологической структуре нашего мозга. 00:03:39.251 --> 00:03:43.101 Собственно, самый знаменитый фантастический универсальный переводчик 00:03:43.101 --> 00:03:46.439 Вавилонская рыбка из романа «Автостопом по галактике» 00:03:46.439 --> 00:03:49.726 и вовсе не прибор, а крошечное создание, 00:03:49.726 --> 00:03:54.210 переводившее биотоки мозга и нервные сигналы разумных существ 00:03:54.210 --> 00:03:57.005 путём телепатии. 00:03:57.005 --> 00:03:59.726 На сегодняшний день старое доброе изучение другого языка 00:03:59.726 --> 00:04:05.106 по-прежнему результативнее любой из доступных программ-переводчиков. 00:04:05.106 --> 00:04:06.749 Но это не самый лёгкий путь, 00:04:06.749 --> 00:04:09.014 а само число существующих в мире языков, 00:04:09.014 --> 00:04:12.989 а также всё возрастающее число контактов между говорящими на разных языках людьми 00:04:12.989 --> 00:04:18.004 будут только способствовать дальнейшему улучшению машинного перевода. 00:04:18.004 --> 00:04:19.514 Возможно, что к моменту встречи 00:04:19.514 --> 00:04:21.719 с представителями межгалактических цивилизаций 00:04:21.719 --> 00:04:24.660 мы сможем общаться с ними посредством крохотных девайсов, 00:04:24.660 --> 00:04:29.026 или же нам придётся по старинке садиться за составление словаря.