1 00:00:06,677 --> 00:00:11,306 Hogyan lehetséges, hogy sok, filmekben és tévében szereplő intergalaktikus faj 2 00:00:11,306 --> 00:00:14,483 tökéletesen beszél angolul? 3 00:00:14,483 --> 00:00:17,956 A rövid válasz az, hogy senki nem akarja végignézni, 4 00:00:17,956 --> 00:00:21,774 ahogy egy csillaghajó legénysége éveket tölt egy szótár összeállításával. 5 00:00:21,774 --> 00:00:24,252 De hogy következetesek maradjanak, a Star Trek 6 00:00:24,252 --> 00:00:26,789 és más tudományos-fantasztikus világok alkotói, 7 00:00:26,789 --> 00:00:30,514 bevezették az univerzális fordítóeszköz fogalmát. 8 00:00:30,514 --> 00:00:35,012 Ez egy hordozható eszköz, amely azonnal fordít bármely két nyelv között. 9 00:00:35,012 --> 00:00:38,539 Létezik ilyen univerzális fordítóeszköz a valóságban? 10 00:00:38,539 --> 00:00:42,137 Sok program tudja elvileg megcsinálni azt, 11 00:00:42,137 --> 00:00:45,954 hogy vesz egy szót, mondatot, vagy egy egész könyvet egy nyelven 12 00:00:45,954 --> 00:00:49,004 és lefordítja szinte bármely másikra, 13 00:00:49,004 --> 00:00:52,337 legyen az mai angol vagy ősi szanszkrit. 14 00:00:52,337 --> 00:00:56,433 És ha a fordítás csak annyiból állna, hogy megtaláljunk szavakat a szótárban, 15 00:00:56,433 --> 00:00:59,825 ezek a programok leköröznék az embereket. 16 00:00:59,825 --> 00:01:03,299 A valóság azonban egy kicsit bonyolultabb. 17 00:01:03,299 --> 00:01:07,349 A szabályokon alapuló fordítóprogram lexikális adatbázist használ, 18 00:01:07,349 --> 00:01:10,302 ami tartalmaz minden szótárban megtalálható szót, 19 00:01:10,302 --> 00:01:14,413 annak minden lehetséges nyelvtani alakjával, és egy szabályhalmazt, 20 00:01:14,413 --> 00:01:18,925 amivel felismeri a nyelvészeti alkotóelemeket a bemeneti nyelvben. 21 00:01:18,925 --> 00:01:22,396 Egy olyan egyszerűnek tűnő mondatot, mint "The children eat the muffins," 22 00:01:22,396 --> 00:01:27,050 a program először szintaktikailag elemez, vagyis a nyelvtani struktúrát nézi, 23 00:01:27,050 --> 00:01:29,587 és azonosítja, hogy a "the children" az alany, 24 00:01:29,587 --> 00:01:32,317 és a mondat további része az állítmány, 25 00:01:32,317 --> 00:01:34,368 ami az "eat" igéből 26 00:01:34,368 --> 00:01:37,422 és a "the muffins" tárgyból áll. 27 00:01:37,422 --> 00:01:40,249 Ezután következik az angol morfológiai elemzés, 28 00:01:40,249 --> 00:01:44,681 avagy hogyan lehet a nyelvet a legkisebb értelmes egységekre bontani, 29 00:01:44,681 --> 00:01:46,124 mint például a "muffin" szó 30 00:01:46,124 --> 00:01:49,755 és az "s" utótag, ami [az angolban] a többesszámot jelenti. 31 00:01:49,755 --> 00:01:52,449 Végül értenie kell a szemantikát, 32 00:01:52,449 --> 00:01:56,178 vagyis a mondat különböző részeinek jelentését. 33 00:01:56,178 --> 00:01:58,074 A mondat megfelelő lefordításához 34 00:01:58,074 --> 00:02:01,982 a program a célnyelv minden egyes elemére 35 00:02:01,982 --> 00:02:05,166 egy másik szó- és szabályhalmazt alkalmaz. 36 00:02:05,166 --> 00:02:07,020 És itt válik trükkössé a dolog. 37 00:02:07,020 --> 00:02:11,820 Pár nyelv szintaxisa lehetővé teszi, hogy a szavak bármilyen sorrendben legyenek, 38 00:02:11,820 --> 00:02:16,954 míg más nyelveken, ha így teszünk, akkor a muffin eszi meg a gyereket. 39 00:02:16,954 --> 00:02:19,647 A morfológia is problémás lehet. 40 00:02:19,647 --> 00:02:23,243 A szlovén különbséget tesz kettő, és három vagy több gyerek között 41 00:02:23,243 --> 00:02:27,097 a más nyelveken nem létező dupla utótag használatával. 42 00:02:27,097 --> 00:02:30,532 Az oroszban pedig a határozott névelők hiánya miatt azon gondolkodsz, 43 00:02:30,532 --> 00:02:33,575 hogy a gyerekek néhány konkrét muffint esznek 44 00:02:33,575 --> 00:02:36,719 vagy csak általában esznek muffint. 45 00:02:36,719 --> 00:02:39,708 Végül, még ha a szemantika gyakorlatilag helyes is, 46 00:02:39,708 --> 00:02:42,757 a program eltévesztheti a finomabb részleteket, 47 00:02:42,757 --> 00:02:45,809 mint például, hogy a gyerekek "mangiano" (megeszik) a muffinokat, 48 00:02:45,809 --> 00:02:47,794 vagy "divorano" (felfalják) azokat. 49 00:02:47,794 --> 00:02:51,558 Egy másik módszer a statisztikai gépi fordítás, 50 00:02:51,558 --> 00:02:55,762 ami egy olyan könyvekből, cikkekből és dokumentumokból álló adatbázist elemez, 51 00:02:55,762 --> 00:02:59,488 amit emberek már lefordítottak. 52 00:02:59,488 --> 00:03:02,959 Ha egyezéseket talál a forrás- és a célszövegek között, 53 00:03:02,959 --> 00:03:05,393 amik nem valószínű, hogy véletlenül fordulnak elő, 54 00:03:05,393 --> 00:03:09,345 a program összetartozó frázisokat és mintázatokat azonosíthat, 55 00:03:09,345 --> 00:03:12,429 és használhatja őket jövőbeni fordításokban. 56 00:03:12,429 --> 00:03:14,969 Viszont az effajta fordítás minősége 57 00:03:14,969 --> 00:03:17,690 függ a kezdeti adatbázis nagyságától, 58 00:03:17,690 --> 00:03:21,357 és attól, hogy mennyi minta áll rendelkezésre bizonyos nyelveken 59 00:03:21,357 --> 00:03:23,383 illetve bizonyos stílusú írásokból. 60 00:03:23,383 --> 00:03:27,140 Az emberek számára ösztönösen érezhető kivételek, 61 00:03:27,140 --> 00:03:30,994 szabálytalanságok és jelentésárnyalatok, amik a gépeknek nehézséget okoznak, 62 00:03:30,994 --> 00:03:35,045 azt a benyomást keltik a kutatókban, hogy a nyelv megértése 63 00:03:35,045 --> 00:03:39,251 biológiai agyunk struktúrájának egyedi terméke. 64 00:03:39,251 --> 00:03:43,101 Az egyik legismertebb kitalált univerzális fordítóeszköz, 65 00:03:43,101 --> 00:03:46,439 a Bábel-hal, a Galaxis útikalauz stopposoknak című alkotásból, 66 00:03:46,439 --> 00:03:49,726 valójában nem is egy gép, hanem egy apró teremtmény, 67 00:03:49,726 --> 00:03:54,210 amely az élőlények agyhullámait 68 00:03:54,210 --> 00:03:57,005 és idegjelzéseit egyféle telepátián keresztül fordítja le. 69 00:03:57,005 --> 00:04:01,466 Egyelőre a régimódi nyelvtanulás még mindig jobb eredményeket hoz, 70 00:04:01,466 --> 00:04:05,106 mint bármelyik jelenleg elérhető számítógépes program. 71 00:04:05,106 --> 00:04:06,749 De ez nem egyszerű feladat, 72 00:04:06,749 --> 00:04:09,014 a világ nyelveinek puszta száma, 73 00:04:09,014 --> 00:04:12,989 illetve a növekvő interakció a nyelveket beszélők között, 74 00:04:12,989 --> 00:04:18,004 továbbra is viszi előre az automatizált fordítás fejlesztését. 75 00:04:18,004 --> 00:04:21,409 Talán mire találkozunk az intergalaktikus életformákkal, 76 00:04:21,409 --> 00:04:24,660 tudunk majd kommunikálni velük egy apró kütyüvel. 77 00:04:24,660 --> 00:04:29,026 Vagy lehet mégis el kell kezdenünk összeállítani azt a szótárat.