WEBVTT

00:00:05.734 --> 00:00:08.234
Whitelaw: Ahoj. Jmenuji
se Casey Whitelaw.

00:00:08.234 --> 00:00:09.234
Jsem vedoucí programátor

00:00:09.234 --> 00:00:10.567
Skupiny Zpracování Přirozeného Jazyka

00:00:10.567 --> 00:00:12.501
tady v Sydney,
a dnes bych Vám

00:00:12.501 --> 00:00:13.901
chtěl povykládat něco málo

00:00:13.901 --> 00:00:16.601
o pár cool věcech,
které jsme přidali do Google Wave.

00:00:16.601 --> 00:00:18.834
Jednou z hlavních věcí,

00:00:18.834 --> 00:00:21.834
na které se chceme v Google Wave
soustředit, je výkonnost.

00:00:21.834 --> 00:00:23.634
Chceme, aby uživatelé
mohli zůstat produktivní,

00:00:23.634 --> 00:00:25.734
ať už čtou nebo píšou.

00:00:25.734 --> 00:00:27.601
Jednou z možností
jak jsme toho dosáhli

00:00:27.601 --> 00:00:29.267
je naš systém opravy psaní.

00:00:29.267 --> 00:00:32.234
Chtěli bychom, aby se
uživatel mohl soustředit

00:00:32.234 --> 00:00:34.534
jen na to, co píše,
a ne se starat,

00:00:34.534 --> 00:00:36.801
jestli udělal nějaké chyby.

00:00:36.801 --> 00:00:39.000
Myslíme, že kdyby se lidi
mohli trochu uvolnit,

00:00:39.000 --> 00:00:41.100
a psát třeba
o 5% rychleji,

00:00:41.100 --> 00:00:43.400
tak by ušetřili 5% času
stráveného psaním.

00:00:43.400 --> 00:00:45.734
Dám Vám příklad.

00:00:45.734 --> 00:00:47.801
Tak to asi nejlépe vysvětlím.

00:00:47.801 --> 00:00:51.133
Řekněme, že se chcete sejít
s jedním ze svých přátel.

00:00:51.133 --> 00:00:52.300
Píšete si spolu.

00:00:52.300 --> 00:00:54.534
Takže napíšete...

00:00:54.534 --> 00:00:56.467
Sejdeme...

00:00:56.467 --> 00:00:58.434
s...

00:00:58.434 --> 00:01:00.067
jejda...

00:01:00.067 --> 00:01:03.767
zítra.

00:01:03.767 --> 00:01:05.567
Tady vidíte, že
jsem udělal chybu.

00:01:05.567 --> 00:01:07.400
Napsal jsem "s"
místo "se".

00:01:07.400 --> 00:01:09.501
Ujel mi prst u "e".

00:01:09.501 --> 00:01:13.534
Kontrolu pravopisu jsem zavedli pomocí

00:01:13.534 --> 00:01:16.968
automatického účastníka zvaného Spelly

00:01:16.968 --> 00:01:19.767
který se chová stejně jako jiný uživatel,

00:01:19.767 --> 00:01:21.767
který se účastní vaší vlny.

00:01:21.767 --> 00:01:24.334
Takže, Spelly je na vaší vlně

00:01:24.334 --> 00:01:29.267
a vidí, že jste napsali "Uvidíme s zítra".

00:01:29.267 --> 00:01:31.367
a teď to zkusí opravit.

00:01:31.367 --> 00:01:32.901
Pro každé slovo...

00:01:32.901 --> 00:01:35.534
Nemá žádný slovník

00:01:35.534 --> 00:01:39.534
a tak neví, jestli "s" je správně

00:01:39.534 --> 00:01:40.834
nebo špatně.

00:01:40.834 --> 00:01:43.100
Takže pro začátek přijde se seznamem

00:01:43.100 --> 00:01:46.634
možných verzí tohoto slova.

00:01:46.634 --> 00:01:50.367
Například

00:01:50.367 --> 00:01:53.400
"si"

00:01:53.400 --> 00:01:56.868
nebo "se", správná verze.

00:01:56.868 --> 00:01:59.367
A vymysleli byste spoustu dalších

00:01:59.367 --> 00:02:02.200
jako "že" nebo "ne"

00:02:02.200 --> 00:02:05.367
různá další slova u kterých váháme

00:02:05.367 --> 00:02:09.199
jestli nejsou to, co jste chtěli napsat.

00:02:09.199 --> 00:02:12.734
Díky internetu jsme poznali

00:02:12.734 --> 00:02:14.934
jaké typy překlepů lidé dělají

00:02:14.934 --> 00:02:17.200
a které věci nejspíš napsat nechtěli.

00:02:17.200 --> 00:02:18.834
Například víme,

00:02:18.834 --> 00:02:20.634
že náhodné vložení písmene "A"

00:02:20.634 --> 00:02:22.300
je pravděpodobnější,

00:02:22.300 --> 00:02:25.434
než překlep v prvním písmeně slova.

00:02:25.434 --> 00:02:28.467


00:02:28.467 --> 00:02:32.667
Takže, máme pár návrhů

00:02:32.667 --> 00:02:34.667
a teď je podle kontextu zhodnotíme.

00:02:34.667 --> 00:02:38.067
Google má další systémy, které využívají

00:02:38.067 --> 00:02:40.434
statistický model zpracovaní jazyka,

00:02:40.434 --> 00:02:42.467
např. Google translation system,

00:02:42.467 --> 00:02:44.367
který zakódovává informace o tom,

00:02:44.367 --> 00:02:46.133
jak je jazyk používán.

00:02:46.133 --> 00:02:47.968
Vzorce získává z webu,

00:02:47.968 --> 00:02:49.734
z miliard internetových stránek,

00:02:49.734 --> 00:02:51.167
takže máme slušnou představu

00:02:51.167 --> 00:02:53.734
o tom, jak lidé jazyk v praxi používají.

00:02:53.734 --> 00:02:55.434
Potom porovnáme verze

00:02:55.434 --> 00:02:58.834
"Uvidíme s zítra."

00:02:58.834 --> 00:03:02.067
"Uvidíme si zítra."

00:03:02.067 --> 00:03:03.767
a "Uvidíme se zítra."

00:03:03.767 --> 00:03:06.267
a vyhodnotíme, co jste asi chtěli napsat.

00:03:06.267 --> 00:03:08.067
Zkombinujeme to s chybovým modelem,

00:03:08.067 --> 00:03:10.200
který říká, jaké jsou možné překlepy

00:03:10.200 --> 00:03:13.834
bez kontextu a nakonec dostaneme

00:03:13.834 --> 00:03:15.901
nejpravděpodobnější slova,

00:03:15.901 --> 00:03:19.200
které jste chtěli napsat.

00:03:19.200 --> 00:03:22.000
V tomto případě navrhneme "se."

00:03:22.000 --> 00:03:25.467
Když si myslíme, že došlo k překlepu,

00:03:25.467 --> 00:03:29.100
musíme to dostat do Google Wave klienta,

00:03:29.100 --> 00:03:31.667
aby to uživatel mohl vidět

00:03:31.667 --> 00:03:34.701
a automaticky nebo manuálně chybu opravit.

00:03:34.701 --> 00:03:36.067
Jsou dva způsoby,

00:03:36.067 --> 00:03:38.834
které se liší podle systému pravopisu.

00:03:38.834 --> 00:03:42.000
Jeden z nich je online

00:03:42.000 --> 00:03:44.100
a to znamená, že můžeme poskytnout

00:03:44.100 --> 00:03:46.033
stejné návrhy nehledě na zařízení,

00:03:46.033 --> 00:03:49.434
ze kterého se připojujete.

00:03:49.434 --> 00:03:52.767
Takže i když jste na notebooku nebo mobilu

00:03:52.767 --> 00:03:56.000
můžeme vám dát stejně kvalitní návrhy.

00:03:56.000 --> 00:03:57.901
A to platí i napříč různými jazyky.

00:03:57.901 --> 00:03:59.467


00:03:59.467 --> 00:04:01.267
Jak víte, využíváme velký

00:04:01.267 --> 00:04:06.667
statistický model zpracování jazyka.

00:04:06.667 --> 00:04:07.801
Když říkám velký,

00:04:07.801 --> 00:04:09.801
znamená to data z miliard slov.

00:04:09.801 --> 00:04:12.033
Jsou jich hromady gigabytů.

00:04:12.033 --> 00:04:15.501
Je nemožné je zpracovat jedním počítačem,

00:04:15.501 --> 00:04:17.601
což v datacentru, kde můžete mít

00:04:17.601 --> 00:04:19.233
mnoho strojů, není takový problém

00:04:19.233 --> 00:04:22.200
spustit naráz jazykový a pravopisný model.

00:04:22.200 --> 00:04:27.167
A tak můžeme model kontroly pravopisu

00:04:27.167 --> 00:04:28.734
sdílet mezi mnoha uživateli,

00:04:28.734 --> 00:04:30.667
aby náklady na jednoho byly velmi nízké.

00:04:30.667 --> 00:04:33.534
Takhle je to pro nás velmi efektivní.

00:04:33.534 --> 00:04:35.667
Jakmile máte systém,

00:04:35.667 --> 00:04:37.801
který podporuje společné úpravy,

00:04:37.801 --> 00:04:39.501
které mají strukturovaná data

00:04:39.501 --> 00:04:42.667
a když můžete změnit uživatelské rozhraní

00:04:42.667 --> 00:04:45.167
tím, že máte vzdálené účastníky,

00:04:45.167 --> 00:04:47.200
už vám nic nebrání.

00:04:47.200 --> 00:04:49.434
Existuje spousta druhů

00:04:49.434 --> 00:04:51.400
přirozených jazykových technologií,

00:04:51.400 --> 00:04:53.100
jako kontrola pravopisu a překlad,

00:04:53.100 --> 00:04:55.667
kde tohle můžeme využít a mnoho nových

00:04:55.667 --> 00:04:57.667
aplikací, jak se mění způsoby komunikace.

00:04:57.667 --> 00:05:00.868
Před námi jsou zajímavé časy.