WEBVTT

00:00:06.677 --> 00:00:11.306
為何電影、電視中星際間的不同物種

00:00:11.306 --> 00:00:14.483
恰巧能講一口流利的英語？

00:00:14.483 --> 00:00:17.886
答案是：沒人想看太空船員在影片中

00:00:17.886 --> 00:00:21.774
花費數年來編撰外星人字典。

00:00:21.774 --> 00:00:23.392
但為保持一致性，

00:00:23.392 --> 00:00:26.789
「星際迷航」和其他科幻小說創作者

00:00:26.789 --> 00:00:30.514
引進「萬能翻譯器」的概念：

00:00:30.514 --> 00:00:35.012
一種攜帶式裝置，可即時翻譯任何語言。

00:00:35.012 --> 00:00:38.539
那麼，「萬能翻譯器」可能存在於現實嗎？

00:00:38.539 --> 00:00:42.137
已有很多個程式宣稱做得到：

00:00:42.137 --> 00:00:45.954
從一種語言中選取單字、句子，或整本書，

00:00:45.954 --> 00:00:49.004
幾乎可以將它們翻譯成任何語言，

00:00:49.004 --> 00:00:52.337
不論是現代英語，或是古梵語。

00:00:52.337 --> 00:00:55.913
如果翻譯只是在詞典中查找單字，

00:00:55.913 --> 00:00:59.825
那麼，這些程式早就普及了。

00:00:59.825 --> 00:01:03.299
然而，現實複雜許多。

00:01:03.299 --> 00:01:07.349
基於「規則」的翻譯程式使用字彙資料庫，

00:01:07.349 --> 00:01:10.302
包含字典找到的單字、

00:01:10.302 --> 00:01:13.283
套用的文法型式、

00:01:13.283 --> 00:01:18.925
以及「辨認基本語言元素」的規則。

00:01:18.925 --> 00:01:22.396
這個看似簡單的句子為例：「孩子們吃松餅」，

00:01:22.396 --> 00:01:27.050
程式首先分析「語法」或「文法結構」，

00:01:27.050 --> 00:01:29.587
辨識出「孩子們」為主詞，

00:01:29.587 --> 00:01:34.337
剩下的句子為「述語」－
由動詞「吃」構成。

00:01:34.368 --> 00:01:37.422
和直接受詞 「松餅」。

00:01:37.422 --> 00:01:40.249
程式需要辨識出「英語構詞學」，

00:01:40.249 --> 00:01:44.681
也就是將該語言拆分成
有意義的最小單元，

00:01:44.681 --> 00:01:46.124
例如單字 「松餅」

00:01:46.124 --> 00:01:49.755
及字尾加「s」表示複數型。

00:01:49.755 --> 00:01:56.039
最後，程式還需要理解「語意」－
各別部份所表達的意思。

00:01:56.039 --> 00:01:58.074
為了正確翻譯句子，

00:01:58.074 --> 00:02:01.982
程式會參考不同語言的字彙與規則

00:02:01.982 --> 00:02:05.166
來處理目標語言的每個元素。

00:02:05.166 --> 00:02:07.020
這卻是棘手的地方。

00:02:07.020 --> 00:02:11.820
某些語言允許單字以任何順序排列，

00:02:11.820 --> 00:02:16.954
但在其它語言，這樣做會出現
「松餅吃孩子們」的句子。

00:02:16.954 --> 00:02:19.647
「構詞學」也有同樣問題。

00:02:19.647 --> 00:02:23.243
「斯拉維尼亞語」可區分是
兩個、三個、或更多孩子－

00:02:23.243 --> 00:02:27.097
「雙字尾」的用法未見於其它語言中。

00:02:27.097 --> 00:02:30.532
而 俄語 則缺少「定冠詞」，你可能會困惑

00:02:30.532 --> 00:02:33.575
孩子們是在吃某種特定的松餅，

00:02:33.575 --> 00:02:36.719
還是泛指一般松餅。

00:02:36.719 --> 00:02:39.708
最後，即使「語意」技術上正確，

00:02:39.708 --> 00:02:42.757
程式也可能遺失細微部分，

00:02:42.757 --> 00:02:45.809
例如，孩子們是在「吃」松餅，

00:02:45.809 --> 00:02:47.794
還是在「吞」松餅？

00:02:47.794 --> 00:02:51.558
另一種方法是基於「統計」的機器翻譯，

00:02:51.558 --> 00:02:59.238
該方法分析「已翻譯的書籍、文章、文件」
所建立的資料庫。

00:02:59.488 --> 00:03:05.143
從「原文」與「譯文」之間，
尋找非偶然的匹配模式，

00:03:05.393 --> 00:03:09.345
程式就可以辨識出對應的片語和句型，

00:03:09.345 --> 00:03:12.429
以便使用在未來的翻譯上。

00:03:12.429 --> 00:03:14.969
然而，這種翻譯的品質

00:03:14.969 --> 00:03:17.690
決定於資料庫的大小

00:03:17.690 --> 00:03:23.133
以及能否應用於特定語言或
寫作風格的翻譯上。

00:03:23.383 --> 00:03:27.140
電腦的困難：會遇到異常、非常規情況、

00:03:27.140 --> 00:03:30.994
以及無法呈現人類「直覺本能」可以了解的意函－

00:03:30.994 --> 00:03:35.045
這些令研究者相信「語言的理解能力」

00:03:35.045 --> 00:03:39.251
是我們大腦生理結構的獨特產物。

00:03:39.251 --> 00:03:43.101
實際上，小說中最著名的萬能翻譯器之一，

00:03:43.101 --> 00:03:46.439
出自《星際大奇航》的 「寶貝魚」，

00:03:46.439 --> 00:03:49.726
根本就不是機器，而是小生物－

00:03:49.726 --> 00:03:56.905
是一隻能透過心靈感應，翻譯腦波和
神經信號的 「有感知」的生物 。

00:03:56.905 --> 00:03:59.726
目前傳統的語言學習

00:03:59.726 --> 00:04:05.106
仍然會優於利用電腦程式的翻譯。

00:04:05.106 --> 00:04:06.749
但這不是簡單的任務，

00:04:06.749 --> 00:04:09.014
世界上語言的數量，

00:04:09.014 --> 00:04:12.989
和人與人之間逐漸增加的語言互動，

00:04:12.989 --> 00:04:18.004
都會繼續激發「自動翻譯」的進步。

00:04:18.004 --> 00:04:21.409
也許，遇到星際間的其他生物時，

00:04:21.409 --> 00:04:24.660
我們已經能夠透過小裝置來溝通，

00:04:24.660 --> 00:04:29.026
也或許最終，我們還是得著手編寫那部字典。