-
Whitelaw: Ahoj. Jmenuji
se Casey Whitelaw.
-
Jsem vedoucí programátor
-
Skupiny Zpracování Přirozeného Jazyka
-
tady v Sydney,
a dnes bych Vám
-
chtěl povykládat něco málo
-
o pár cool věcech,
které jsme přidali do Google Wave.
-
Jednou z hlavních věcí,
-
na které se chceme v Google Wave
soustředit, je výkonnost.
-
Chceme, aby uživatelé
mohli zůstat produktivní,
-
ať už čtou nebo píšou.
-
Jednou z možností
jak jsme toho dosáhli
-
je naš systém opravy psaní.
-
Chtěli bychom, aby se
uživatel mohl soustředit
-
jen na to, co píše,
a ne se starat,
-
jestli udělal nějaké chyby.
-
Myslíme, že kdyby se lidi
mohli trochu uvolnit,
-
a psát třeba
o 5% rychleji,
-
tak by ušetřili 5% času
stráveného psaním.
-
Dám Vám příklad.
-
Tak to asi nejlépe vysvětlím.
-
Řekněme, že se chcete sejít
s jedním ze svých přátel.
-
Píšete si spolu.
-
Takže napíšete...
-
Sejdeme...
-
s...
-
jejda...
-
zítra.
-
Tady vidíte, že
jsem udělal chybu.
-
Napsal jsem "s"
místo "se".
-
Ujel mi prst u "e".
-
Kontrolu pravopisu jsem zavedli pomocí
-
automatického účastníka zvaného Spelly
-
který se chová stejně jako jiný uživatel,
-
který se účastní vaší vlny.
-
Takže, Spelly je na vaší vlně
-
a vidí, že jste napsali "Uvidíme s zítra".
-
a teď to zkusí opravit.
-
Pro každé slovo...
-
Nemá žádný slovník
-
a tak neví, jestli "s" je správně
-
nebo špatně.
-
Takže pro začátek přijde se seznamem
-
možných verzí tohoto slova.
-
Například
-
"si"
-
nebo "se", správná verze.
-
A vymysleli byste spoustu dalších
-
jako "že" nebo "ne"
-
různá další slova u kterých váháme
-
jestli nejsou to, co jste chtěli napsat.
-
Díky internetu jsme poznali
-
jaké typy překlepů lidé dělají
-
a které věci nejspíš napsat nechtěli.
-
Například víme,
-
že náhodné vložení písmene "A"
-
je pravděpodobnější,
-
než překlep v prvním písmeně slova.
-
-
Takže, máme pár návrhů
-
a teď je podle kontextu zhodnotíme.
-
Google má další systémy, které využívají
-
statistický model zpracovaní jazyka,
-
např. Google translation system,
-
který zakódovává informace o tom,
-
jak je jazyk používán.
-
Vzorce získává z webu,
-
z miliard internetových stránek,
-
takže máme slušnou představu
-
o tom, jak lidé jazyk v praxi používají.
-
Potom porovnáme verze
-
"Uvidíme s zítra."
-
"Uvidíme si zítra."
-
a "Uvidíme se zítra."
-
a vyhodnotíme, co jste asi chtěli napsat.
-
Zkombinujeme to s chybovým modelem,
-
který říká, jaké jsou možné překlepy
-
bez kontextu a nakonec dostaneme
-
nejpravděpodobnější slova,
-
které jste chtěli napsat.
-
V tomto případě navrhneme "se."
-
Když si myslíme, že došlo k překlepu,
-
musíme to dostat do Google Wave klienta,
-
aby to uživatel mohl vidět
-
a automaticky nebo manuálně chybu opravit.
-
Jsou dva způsoby,
-
které se liší podle systému pravopisu.
-
Jeden z nich je online
-
a to znamená, že můžeme poskytnout
-
stejné návrhy nehledě na zařízení,
-
ze kterého se připojujete.
-
Takže i když jste na notebooku nebo mobilu
-
můžeme vám dát stejně kvalitní návrhy.
-
A to platí i napříč různými jazyky.
-
-
Jak víte, využíváme velký
-
statistický model zpracování jazyka.
-
Když říkám velký,
-
znamená to data z miliard slov.
-
Jsou jich hromady gigabytů.
-
Je nemožné je zpracovat jedním počítačem,
-
což v datacentru, kde můžete mít
-
mnoho strojů, není takový problém
-
spustit naráz jazykový a pravopisný model.
-
A tak můžeme model kontroly pravopisu
-
sdílet mezi mnoha uživateli,
-
aby náklady na jednoho byly velmi nízké.
-
Takhle je to pro nás velmi efektivní.
-
Jakmile máte systém,
-
který podporuje společné úpravy,
-
které mají strukturovaná data
-
a když můžete změnit uživatelské rozhraní
-
tím, že máte vzdálené účastníky,
-
už vám nic nebrání.
-
Existuje spousta druhů
-
přirozených jazykových technologií,
-
jako kontrola pravopisu a překlad,
-
kde tohle můžeme využít a mnoho nových
-
aplikací, jak se mění způsoby komunikace.
-
Před námi jsou zajímavé časy.