Whitelaw: Ahoj. Jmenuji
se Casey Whitelaw.

Jsem vedoucí programátor

Skupiny Zpracování Přirozeného Jazyka

tady v Sydney,
a dnes bych Vám

chtěl povykládat něco málo

o pár cool věcech,
které jsme přidali do Google Wave.

Jednou z hlavních věcí,

na které se chceme v Google Wave
soustředit, je výkonnost.

Chceme, aby uživatelé
mohli zůstat produktivní,

ať už čtou nebo píšou.

Jednou z možností
jak jsme toho dosáhli

je naš systém opravy psaní.

Chtěli bychom, aby se
uživatel mohl soustředit

jen na to, co píše,
a ne se starat,

jestli udělal nějaké chyby.

Myslíme, že kdyby se lidi
mohli trochu uvolnit,

a psát třeba
o 5% rychleji,

tak by ušetřili 5% času
stráveného psaním.

Dám Vám příklad.

Tak to asi nejlépe vysvětlím.

Řekněme, že se chcete sejít
s jedním ze svých přátel.

Píšete si spolu.

Takže napíšete...

Sejdeme...

s...

jejda...

zítra.

Tady vidíte, že
jsem udělal chybu.

Napsal jsem "s"
místo "se".

Ujel mi prst u "e".

Kontrolu pravopisu jsem zavedli pomocí

automatického účastníka zvaného Spelly

který se chová stejně jako jiný uživatel,

který se účastní vaší vlny.

Takže, Spelly je na vaší vlně

a vidí, že jste napsali "Uvidíme s zítra".

a teď to zkusí opravit.

Pro každé slovo...

Nemá žádný slovník

a tak neví, jestli "s" je správně

nebo špatně.

Takže pro začátek přijde se seznamem

možných verzí tohoto slova.

Například

"si"

nebo "se", správná verze.

A vymysleli byste spoustu dalších

jako "že" nebo "ne"

různá další slova u kterých váháme

jestli nejsou to, co jste chtěli napsat.

Díky internetu jsme poznali

jaké typy překlepů lidé dělají

a které věci nejspíš napsat nechtěli.

Například víme,

že náhodné vložení písmene "A"

je pravděpodobnější,

než překlep v prvním písmeně slova.

Takže, máme pár návrhů

a teď je podle kontextu zhodnotíme.

Google má další systémy, které využívají

statistický model zpracovaní jazyka,

např. Google translation system,

který zakódovává informace o tom,

jak je jazyk používán.

Vzorce získává z webu,

z miliard internetových stránek,

takže máme slušnou představu

o tom, jak lidé jazyk v praxi používají.

Potom porovnáme verze

"Uvidíme s zítra."

"Uvidíme si zítra."

a "Uvidíme se zítra."

a vyhodnotíme, co jste asi chtěli napsat.

Zkombinujeme to s chybovým modelem,

který říká, jaké jsou možné překlepy

bez kontextu a nakonec dostaneme

nejpravděpodobnější slova,

které jste chtěli napsat.

V tomto případě navrhneme "se."

Když si myslíme, že došlo k překlepu,

musíme to dostat do Google Wave klienta,

aby to uživatel mohl vidět

a automaticky nebo manuálně chybu opravit.

Jsou dva způsoby,

které se liší podle systému pravopisu.

Jeden z nich je online

a to znamená, že můžeme poskytnout

stejné návrhy nehledě na zařízení,

ze kterého se připojujete.

Takže i když jste na notebooku nebo mobilu

můžeme vám dát stejně kvalitní návrhy.

A to platí i napříč různými jazyky.

Jak víte, využíváme velký

statistický model zpracování jazyka.

Když říkám velký,

znamená to data z miliard slov.

Jsou jich hromady gigabytů.

Je nemožné je zpracovat jedním počítačem,

což v datacentru, kde můžete mít

mnoho strojů, není takový problém

spustit naráz jazykový a pravopisný model.

A tak můžeme model kontroly pravopisu

sdílet mezi mnoha uživateli,

aby náklady na jednoho byly velmi nízké.

Takhle je to pro nás velmi efektivní.

Jakmile máte systém,

který podporuje společné úpravy,

které mají strukturovaná data

a když můžete změnit uživatelské rozhraní

tím, že máte vzdálené účastníky,

už vám nic nebrání.

Existuje spousta druhů

přirozených jazykových technologií,

jako kontrola pravopisu a překlad,

kde tohle můžeme využít a mnoho nových

aplikací, jak se mění způsoby komunikace.

Před námi jsou zajímavé časy.