1 00:00:05,734 --> 00:00:08,234 Whitelaw: Ahoj. Jmenuji se Casey Whitelaw. 2 00:00:08,234 --> 00:00:09,234 Jsem vedoucí programátor 3 00:00:09,234 --> 00:00:10,567 Skupiny Zpracování Přirozeného Jazyka 4 00:00:10,567 --> 00:00:12,501 tady v Sydney, a dnes bych Vám 5 00:00:12,501 --> 00:00:13,901 chtěl povykládat něco málo 6 00:00:13,901 --> 00:00:16,601 o pár cool věcech, které jsme přidali do Google Wave. 7 00:00:16,601 --> 00:00:18,834 Jednou z hlavních věcí, 8 00:00:18,834 --> 00:00:21,834 na které se chceme v Google Wave soustředit, je výkonnost. 9 00:00:21,834 --> 00:00:23,634 Chceme, aby uživatelé mohli zůstat produktivní, 10 00:00:23,634 --> 00:00:25,734 ať už čtou nebo píšou. 11 00:00:25,734 --> 00:00:27,601 Jednou z možností jak jsme toho dosáhli 12 00:00:27,601 --> 00:00:29,267 je naš systém opravy psaní. 13 00:00:29,267 --> 00:00:32,234 Chtěli bychom, aby se uživatel mohl soustředit 14 00:00:32,234 --> 00:00:34,534 jen na to, co píše, a ne se starat, 15 00:00:34,534 --> 00:00:36,801 jestli udělal nějaké chyby. 16 00:00:36,801 --> 00:00:39,000 Myslíme, že kdyby se lidi mohli trochu uvolnit, 17 00:00:39,000 --> 00:00:41,100 a psát třeba o 5% rychleji, 18 00:00:41,100 --> 00:00:43,400 tak by ušetřili 5% času stráveného psaním. 19 00:00:43,400 --> 00:00:45,734 Dám Vám příklad. 20 00:00:45,734 --> 00:00:47,801 Tak to asi nejlépe vysvětlím. 21 00:00:47,801 --> 00:00:51,133 Řekněme, že se chcete sejít s jedním ze svých přátel. 22 00:00:51,133 --> 00:00:52,300 Píšete si spolu. 23 00:00:52,300 --> 00:00:54,534 Takže napíšete... 24 00:00:54,534 --> 00:00:56,467 Sejdeme... 25 00:00:56,467 --> 00:00:58,434 s... 26 00:00:58,434 --> 00:01:00,067 jejda... 27 00:01:00,067 --> 00:01:03,767 zítra. 28 00:01:03,767 --> 00:01:05,567 Tady vidíte, že jsem udělal chybu. 29 00:01:05,567 --> 00:01:07,400 Napsal jsem "s" místo "se". 30 00:01:07,400 --> 00:01:09,501 Ujel mi prst u "e". 31 00:01:09,501 --> 00:01:13,534 Kontrolu pravopisu jsem zavedli pomocí 32 00:01:13,534 --> 00:01:16,968 automatického účastníka zvaného Spelly 33 00:01:16,968 --> 00:01:19,767 který se chová stejně jako jiný uživatel, 34 00:01:19,767 --> 00:01:21,767 který se účastní vaší vlny. 35 00:01:21,767 --> 00:01:24,334 Takže, Spelly je na vaší vlně 36 00:01:24,334 --> 00:01:29,267 a vidí, že jste napsali "Uvidíme s zítra". 37 00:01:29,267 --> 00:01:31,367 a teď to zkusí opravit. 38 00:01:31,367 --> 00:01:32,901 Pro každé slovo... 39 00:01:32,901 --> 00:01:35,534 Nemá žádný slovník 40 00:01:35,534 --> 00:01:39,534 a tak neví, jestli "s" je správně 41 00:01:39,534 --> 00:01:40,834 nebo špatně. 42 00:01:40,834 --> 00:01:43,100 Takže pro začátek přijde se seznamem 43 00:01:43,100 --> 00:01:46,634 možných verzí tohoto slova. 44 00:01:46,634 --> 00:01:50,367 Například 45 00:01:50,367 --> 00:01:53,400 "si" 46 00:01:53,400 --> 00:01:56,868 nebo "se", správná verze. 47 00:01:56,868 --> 00:01:59,367 A vymysleli byste spoustu dalších 48 00:01:59,367 --> 00:02:02,200 jako "že" nebo "ne" 49 00:02:02,200 --> 00:02:05,367 různá další slova u kterých váháme 50 00:02:05,367 --> 00:02:09,199 jestli nejsou to, co jste chtěli napsat. 51 00:02:09,199 --> 00:02:12,734 Díky internetu jsme poznali 52 00:02:12,734 --> 00:02:14,934 jaké typy překlepů lidé dělají 53 00:02:14,934 --> 00:02:17,200 a které věci nejspíš napsat nechtěli. 54 00:02:17,200 --> 00:02:18,834 Například víme, 55 00:02:18,834 --> 00:02:20,634 že náhodné vložení písmene "A" 56 00:02:20,634 --> 00:02:22,300 je pravděpodobnější, 57 00:02:22,300 --> 00:02:25,434 než překlep v prvním písmeně slova. 58 00:02:25,434 --> 00:02:28,467 59 00:02:28,467 --> 00:02:32,667 Takže, máme pár návrhů 60 00:02:32,667 --> 00:02:34,667 a teď je podle kontextu zhodnotíme. 61 00:02:34,667 --> 00:02:38,067 Google má další systémy, které využívají 62 00:02:38,067 --> 00:02:40,434 statistický model zpracovaní jazyka, 63 00:02:40,434 --> 00:02:42,467 např. Google translation system, 64 00:02:42,467 --> 00:02:44,367 který zakódovává informace o tom, 65 00:02:44,367 --> 00:02:46,133 jak je jazyk používán. 66 00:02:46,133 --> 00:02:47,968 Vzorce získává z webu, 67 00:02:47,968 --> 00:02:49,734 z miliard internetových stránek, 68 00:02:49,734 --> 00:02:51,167 takže máme slušnou představu 69 00:02:51,167 --> 00:02:53,734 o tom, jak lidé jazyk v praxi používají. 70 00:02:53,734 --> 00:02:55,434 Potom porovnáme verze 71 00:02:55,434 --> 00:02:58,834 "Uvidíme s zítra." 72 00:02:58,834 --> 00:03:02,067 "Uvidíme si zítra." 73 00:03:02,067 --> 00:03:03,767 a "Uvidíme se zítra." 74 00:03:03,767 --> 00:03:06,267 a vyhodnotíme, co jste asi chtěli napsat. 75 00:03:06,267 --> 00:03:08,067 Zkombinujeme to s chybovým modelem, 76 00:03:08,067 --> 00:03:10,200 který říká, jaké jsou možné překlepy 77 00:03:10,200 --> 00:03:13,834 bez kontextu a nakonec dostaneme 78 00:03:13,834 --> 00:03:15,901 nejpravděpodobnější slova, 79 00:03:15,901 --> 00:03:19,200 které jste chtěli napsat. 80 00:03:19,200 --> 00:03:22,000 V tomto případě navrhneme "se." 81 00:03:22,000 --> 00:03:25,467 Když si myslíme, že došlo k překlepu, 82 00:03:25,467 --> 00:03:29,100 musíme to dostat do Google Wave klienta, 83 00:03:29,100 --> 00:03:31,667 aby to uživatel mohl vidět 84 00:03:31,667 --> 00:03:34,701 a automaticky nebo manuálně chybu opravit. 85 00:03:34,701 --> 00:03:36,067 Jsou dva způsoby, 86 00:03:36,067 --> 00:03:38,834 které se liší podle systému pravopisu. 87 00:03:38,834 --> 00:03:42,000 Jeden z nich je online 88 00:03:42,000 --> 00:03:44,100 a to znamená, že můžeme poskytnout 89 00:03:44,100 --> 00:03:46,033 stejné návrhy nehledě na zařízení, 90 00:03:46,033 --> 00:03:49,434 ze kterého se připojujete. 91 00:03:49,434 --> 00:03:52,767 Takže i když jste na notebooku nebo mobilu 92 00:03:52,767 --> 00:03:56,000 můžeme vám dát stejně kvalitní návrhy. 93 00:03:56,000 --> 00:03:57,901 A to platí i napříč různými jazyky. 94 00:03:57,901 --> 00:03:59,467 95 00:03:59,467 --> 00:04:01,267 Jak víte, využíváme velký 96 00:04:01,267 --> 00:04:06,667 statistický model zpracování jazyka. 97 00:04:06,667 --> 00:04:07,801 Když říkám velký, 98 00:04:07,801 --> 00:04:09,801 znamená to data z miliard slov. 99 00:04:09,801 --> 00:04:12,033 Jsou jich hromady gigabytů. 100 00:04:12,033 --> 00:04:15,501 Je nemožné je zpracovat jedním počítačem, 101 00:04:15,501 --> 00:04:17,601 což v datacentru, kde můžete mít 102 00:04:17,601 --> 00:04:19,233 mnoho strojů, není takový problém 103 00:04:19,233 --> 00:04:22,200 spustit naráz jazykový a pravopisný model. 104 00:04:22,200 --> 00:04:27,167 A tak můžeme model kontroly pravopisu 105 00:04:27,167 --> 00:04:28,734 sdílet mezi mnoha uživateli, 106 00:04:28,734 --> 00:04:30,667 aby náklady na jednoho byly velmi nízké. 107 00:04:30,667 --> 00:04:33,534 Takhle je to pro nás velmi efektivní. 108 00:04:33,534 --> 00:04:35,667 Jakmile máte systém, 109 00:04:35,667 --> 00:04:37,801 který podporuje společné úpravy, 110 00:04:37,801 --> 00:04:39,501 které mají strukturovaná data 111 00:04:39,501 --> 00:04:42,667 a když můžete změnit uživatelské rozhraní 112 00:04:42,667 --> 00:04:45,167 tím, že máte vzdálené účastníky, 113 00:04:45,167 --> 00:04:47,200 už vám nic nebrání. 114 00:04:47,200 --> 00:04:49,434 Existuje spousta druhů 115 00:04:49,434 --> 00:04:51,400 přirozených jazykových technologií, 116 00:04:51,400 --> 00:04:53,100 jako kontrola pravopisu a překlad, 117 00:04:53,100 --> 00:04:55,667 kde tohle můžeme využít a mnoho nových 118 00:04:55,667 --> 00:04:57,667 aplikací, jak se mění způsoby komunikace. 119 00:04:57,667 --> 00:05:00,868 Před námi jsou zajímavé časy.