WEBVTT 00:00:05.734 --> 00:00:08.234 Whitelaw: Ahoj. Jmenuji se Casey Whitelaw. 00:00:08.234 --> 00:00:09.234 Jsem vedoucí programátor 00:00:09.234 --> 00:00:10.567 Skupiny Zpracování Přirozeného Jazyka 00:00:10.567 --> 00:00:12.501 tady v Sydney, a dnes bych Vám 00:00:12.501 --> 00:00:13.901 chtěl povykládat něco málo 00:00:13.901 --> 00:00:16.601 o pár cool věcech, které jsme přidali do Google Wave. 00:00:16.601 --> 00:00:18.834 Jednou z hlavních věcí, 00:00:18.834 --> 00:00:21.834 na které se chceme v Google Wave soustředit, je výkonnost. 00:00:21.834 --> 00:00:23.634 Chceme, aby uživatelé mohli zůstat produktivní, 00:00:23.634 --> 00:00:25.734 ať už čtou nebo píšou. 00:00:25.734 --> 00:00:27.601 Jednou z možností jak jsme toho dosáhli 00:00:27.601 --> 00:00:29.267 je naš systém opravy psaní. 00:00:29.267 --> 00:00:32.234 Chtěli bychom, aby se uživatel mohl soustředit 00:00:32.234 --> 00:00:34.534 jen na to, co píše, a ne se starat, 00:00:34.534 --> 00:00:36.801 jestli udělal nějaké chyby. 00:00:36.801 --> 00:00:39.000 Myslíme, že kdyby se lidi mohli trochu uvolnit, 00:00:39.000 --> 00:00:41.100 a psát třeba o 5% rychleji, 00:00:41.100 --> 00:00:43.400 tak by ušetřili 5% času stráveného psaním. 00:00:43.400 --> 00:00:45.734 Dám Vám příklad. 00:00:45.734 --> 00:00:47.801 Tak to asi nejlépe vysvětlím. 00:00:47.801 --> 00:00:51.133 Řekněme, že se chcete sejít s jedním ze svých přátel. 00:00:51.133 --> 00:00:52.300 Píšete si spolu. 00:00:52.300 --> 00:00:54.534 Takže napíšete... 00:00:54.534 --> 00:00:56.467 Sejdeme... 00:00:56.467 --> 00:00:58.434 s... 00:00:58.434 --> 00:01:00.067 jejda... 00:01:00.067 --> 00:01:03.767 zítra. 00:01:03.767 --> 00:01:05.567 Tady vidíte, že jsem udělal chybu. 00:01:05.567 --> 00:01:07.400 Napsal jsem "s" místo "se". 00:01:07.400 --> 00:01:09.501 Ujel mi prst u "e". 00:01:09.501 --> 00:01:13.534 Kontrolu pravopisu jsem zavedli pomocí 00:01:13.534 --> 00:01:16.968 automatického účastníka zvaného Spelly 00:01:16.968 --> 00:01:19.767 který se chová stejně jako jiný uživatel, 00:01:19.767 --> 00:01:21.767 který se účastní vaší vlny. 00:01:21.767 --> 00:01:24.334 Takže, Spelly je na vaší vlně 00:01:24.334 --> 00:01:29.267 a vidí, že jste napsali "Uvidíme s zítra". 00:01:29.267 --> 00:01:31.367 a teď to zkusí opravit. 00:01:31.367 --> 00:01:32.901 Pro každé slovo... 00:01:32.901 --> 00:01:35.534 Nemá žádný slovník 00:01:35.534 --> 00:01:39.534 a tak neví, jestli "s" je správně 00:01:39.534 --> 00:01:40.834 nebo špatně. 00:01:40.834 --> 00:01:43.100 Takže pro začátek přijde se seznamem 00:01:43.100 --> 00:01:46.634 možných verzí tohoto slova. 00:01:46.634 --> 00:01:50.367 Například 00:01:50.367 --> 00:01:53.400 "si" 00:01:53.400 --> 00:01:56.868 nebo "se", správná verze. 00:01:56.868 --> 00:01:59.367 A vymysleli byste spoustu dalších 00:01:59.367 --> 00:02:02.200 jako "že" nebo "ne" 00:02:02.200 --> 00:02:05.367 různá další slova u kterých váháme 00:02:05.367 --> 00:02:09.199 jestli nejsou to, co jste chtěli napsat. 00:02:09.199 --> 00:02:12.734 Díky internetu jsme poznali 00:02:12.734 --> 00:02:14.934 jaké typy překlepů lidé dělají 00:02:14.934 --> 00:02:17.200 a které věci nejspíš napsat nechtěli. 00:02:17.200 --> 00:02:18.834 Například víme, 00:02:18.834 --> 00:02:20.634 že náhodné vložení písmene "A" 00:02:20.634 --> 00:02:22.300 je pravděpodobnější, 00:02:22.300 --> 00:02:25.434 než překlep v prvním písmeně slova. 00:02:25.434 --> 00:02:28.467 00:02:28.467 --> 00:02:32.667 Takže, máme pár návrhů 00:02:32.667 --> 00:02:34.667 a teď je podle kontextu zhodnotíme. 00:02:34.667 --> 00:02:38.067 Google má další systémy, které využívají 00:02:38.067 --> 00:02:40.434 statistický model zpracovaní jazyka, 00:02:40.434 --> 00:02:42.467 např. Google translation system, 00:02:42.467 --> 00:02:44.367 který zakódovává informace o tom, 00:02:44.367 --> 00:02:46.133 jak je jazyk používán. 00:02:46.133 --> 00:02:47.968 Vzorce získává z webu, 00:02:47.968 --> 00:02:49.734 z miliard internetových stránek, 00:02:49.734 --> 00:02:51.167 takže máme slušnou představu 00:02:51.167 --> 00:02:53.734 o tom, jak lidé jazyk v praxi používají. 00:02:53.734 --> 00:02:55.434 Potom porovnáme verze 00:02:55.434 --> 00:02:58.834 "Uvidíme s zítra." 00:02:58.834 --> 00:03:02.067 "Uvidíme si zítra." 00:03:02.067 --> 00:03:03.767 a "Uvidíme se zítra." 00:03:03.767 --> 00:03:06.267 a vyhodnotíme, co jste asi chtěli napsat. 00:03:06.267 --> 00:03:08.067 Zkombinujeme to s chybovým modelem, 00:03:08.067 --> 00:03:10.200 který říká, jaké jsou možné překlepy 00:03:10.200 --> 00:03:13.834 bez kontextu a nakonec dostaneme 00:03:13.834 --> 00:03:15.901 nejpravděpodobnější slova, 00:03:15.901 --> 00:03:19.200 které jste chtěli napsat. 00:03:19.200 --> 00:03:22.000 V tomto případě navrhneme "se." 00:03:22.000 --> 00:03:25.467 Když si myslíme, že došlo k překlepu, 00:03:25.467 --> 00:03:29.100 musíme to dostat do Google Wave klienta, 00:03:29.100 --> 00:03:31.667 aby to uživatel mohl vidět 00:03:31.667 --> 00:03:34.701 a automaticky nebo manuálně chybu opravit. 00:03:34.701 --> 00:03:36.067 Jsou dva způsoby, 00:03:36.067 --> 00:03:38.834 které se liší podle systému pravopisu. 00:03:38.834 --> 00:03:42.000 Jeden z nich je online 00:03:42.000 --> 00:03:44.100 a to znamená, že můžeme poskytnout 00:03:44.100 --> 00:03:46.033 stejné návrhy nehledě na zařízení, 00:03:46.033 --> 00:03:49.434 ze kterého se připojujete. 00:03:49.434 --> 00:03:52.767 Takže i když jste na notebooku nebo mobilu 00:03:52.767 --> 00:03:56.000 můžeme vám dát stejně kvalitní návrhy. 00:03:56.000 --> 00:03:57.901 A to platí i napříč různými jazyky. 00:03:57.901 --> 00:03:59.467 00:03:59.467 --> 00:04:01.267 Jak víte, využíváme velký 00:04:01.267 --> 00:04:06.667 statistický model zpracování jazyka. 00:04:06.667 --> 00:04:07.801 Když říkám velký, 00:04:07.801 --> 00:04:09.801 znamená to data z miliard slov. 00:04:09.801 --> 00:04:12.033 Jsou jich hromady gigabytů. 00:04:12.033 --> 00:04:15.501 Je nemožné je zpracovat jedním počítačem, 00:04:15.501 --> 00:04:17.601 což v datacentru, kde můžete mít 00:04:17.601 --> 00:04:19.233 mnoho strojů, není takový problém 00:04:19.233 --> 00:04:22.200 spustit naráz jazykový a pravopisný model. 00:04:22.200 --> 00:04:27.167 A tak můžeme model kontroly pravopisu 00:04:27.167 --> 00:04:28.734 sdílet mezi mnoha uživateli, 00:04:28.734 --> 00:04:30.667 aby náklady na jednoho byly velmi nízké. 00:04:30.667 --> 00:04:33.534 Takhle je to pro nás velmi efektivní. 00:04:33.534 --> 00:04:35.667 Jakmile máte systém, 00:04:35.667 --> 00:04:37.801 který podporuje společné úpravy, 00:04:37.801 --> 00:04:39.501 které mají strukturovaná data 00:04:39.501 --> 00:04:42.667 a když můžete změnit uživatelské rozhraní 00:04:42.667 --> 00:04:45.167 tím, že máte vzdálené účastníky, 00:04:45.167 --> 00:04:47.200 už vám nic nebrání. 00:04:47.200 --> 00:04:49.434 Existuje spousta druhů 00:04:49.434 --> 00:04:51.400 přirozených jazykových technologií, 00:04:51.400 --> 00:04:53.100 jako kontrola pravopisu a překlad, 00:04:53.100 --> 00:04:55.667 kde tohle můžeme využít a mnoho nových 00:04:55.667 --> 00:04:57.667 aplikací, jak se mění způsoby komunikace. 00:04:57.667 --> 00:05:00.868 Před námi jsou zajímavé časy.