< Return to Video

Google Wave: Natural Language Processing

  • 0:06 - 0:08
    Whitelaw: Ahoj. Jmenuji
    se Casey Whitelaw.
  • 0:08 - 0:09
    Jsem vedoucí programátor
  • 0:09 - 0:11
    Skupiny Zpracování Přirozeného Jazyka
  • 0:11 - 0:13
    tady v Sydney,
    a dnes bych Vám
  • 0:13 - 0:14
    chtěl povykládat něco málo
  • 0:14 - 0:17
    o pár cool věcech,
    které jsme přidali do Google Wave.
  • 0:17 - 0:19
    Jednou z hlavních věcí,
  • 0:19 - 0:22
    na které se chceme v Google Wave
    soustředit, je výkonnost.
  • 0:22 - 0:24
    Chceme, aby uživatelé
    mohli zůstat produktivní,
  • 0:24 - 0:26
    ať už čtou nebo píšou.
  • 0:26 - 0:28
    Jednou z možností
    jak jsme toho dosáhli
  • 0:28 - 0:29
    je naš systém opravy psaní.
  • 0:29 - 0:32
    Chtěli bychom, aby se
    uživatel mohl soustředit
  • 0:32 - 0:35
    jen na to, co píše,
    a ne se starat,
  • 0:35 - 0:37
    jestli udělal nějaké chyby.
  • 0:37 - 0:39
    Myslíme, že kdyby se lidi
    mohli trochu uvolnit,
  • 0:39 - 0:41
    a psát třeba
    o 5% rychleji,
  • 0:41 - 0:43
    tak by ušetřili 5% času
    stráveného psaním.
  • 0:43 - 0:46
    Dám Vám příklad.
  • 0:46 - 0:48
    Tak to asi nejlépe vysvětlím.
  • 0:48 - 0:51
    Řekněme, že se chcete sejít
    s jedním ze svých přátel.
  • 0:51 - 0:52
    Píšete si spolu.
  • 0:52 - 0:55
    Takže napíšete...
  • 0:55 - 0:56
    Sejdeme...
  • 0:56 - 0:58
    s...
  • 0:58 - 1:00
    jejda...
  • 1:00 - 1:04
    zítra.
  • 1:04 - 1:06
    Tady vidíte, že
    jsem udělal chybu.
  • 1:06 - 1:07
    Napsal jsem "s"
    místo "se".
  • 1:07 - 1:10
    Ujel mi prst u "e".
  • 1:10 - 1:14
    Kontrolu pravopisu jsem zavedli pomocí
  • 1:14 - 1:17
    automatického účastníka zvaného Spelly
  • 1:17 - 1:20
    který se chová stejně jako jiný uživatel,
  • 1:20 - 1:22
    který se účastní vaší vlny.
  • 1:22 - 1:24
    Takže, Spelly je na vaší vlně
  • 1:24 - 1:29
    a vidí, že jste napsali "Uvidíme s zítra".
  • 1:29 - 1:31
    a teď to zkusí opravit.
  • 1:31 - 1:33
    Pro každé slovo...
  • 1:33 - 1:36
    Nemá žádný slovník
  • 1:36 - 1:40
    a tak neví, jestli "s" je správně
  • 1:40 - 1:41
    nebo špatně.
  • 1:41 - 1:43
    Takže pro začátek přijde se seznamem
  • 1:43 - 1:47
    možných verzí tohoto slova.
  • 1:47 - 1:50
    Například
  • 1:50 - 1:53
    "si"
  • 1:53 - 1:57
    nebo "se", správná verze.
  • 1:57 - 1:59
    A vymysleli byste spoustu dalších
  • 1:59 - 2:02
    jako "že" nebo "ne"
  • 2:02 - 2:05
    různá další slova u kterých váháme
  • 2:05 - 2:09
    jestli nejsou to, co jste chtěli napsat.
  • 2:09 - 2:13
    Díky internetu jsme poznali
  • 2:13 - 2:15
    jaké typy překlepů lidé dělají
  • 2:15 - 2:17
    a které věci nejspíš napsat nechtěli.
  • 2:17 - 2:19
    Například víme,
  • 2:19 - 2:21
    že náhodné vložení písmene "A"
  • 2:21 - 2:22
    je pravděpodobnější,
  • 2:22 - 2:25
    než překlep v prvním písmeně slova.
  • 2:25 - 2:28
  • 2:28 - 2:33
    Takže, máme pár návrhů
  • 2:33 - 2:35
    a teď je podle kontextu zhodnotíme.
  • 2:35 - 2:38
    Google má další systémy, které využívají
  • 2:38 - 2:40
    statistický model zpracovaní jazyka,
  • 2:40 - 2:42
    např. Google translation system,
  • 2:42 - 2:44
    který zakódovává informace o tom,
  • 2:44 - 2:46
    jak je jazyk používán.
  • 2:46 - 2:48
    Vzorce získává z webu,
  • 2:48 - 2:50
    z miliard internetových stránek,
  • 2:50 - 2:51
    takže máme slušnou představu
  • 2:51 - 2:54
    o tom, jak lidé jazyk v praxi používají.
  • 2:54 - 2:55
    Potom porovnáme verze
  • 2:55 - 2:59
    "Uvidíme s zítra."
  • 2:59 - 3:02
    "Uvidíme si zítra."
  • 3:02 - 3:04
    a "Uvidíme se zítra."
  • 3:04 - 3:06
    a vyhodnotíme, co jste asi chtěli napsat.
  • 3:06 - 3:08
    Zkombinujeme to s chybovým modelem,
  • 3:08 - 3:10
    který říká, jaké jsou možné překlepy
  • 3:10 - 3:14
    bez kontextu a nakonec dostaneme
  • 3:14 - 3:16
    nejpravděpodobnější slova,
  • 3:16 - 3:19
    které jste chtěli napsat.
  • 3:19 - 3:22
    V tomto případě navrhneme "se."
  • 3:22 - 3:25
    Když si myslíme, že došlo k překlepu,
  • 3:25 - 3:29
    musíme to dostat do Google Wave klienta,
  • 3:29 - 3:32
    aby to uživatel mohl vidět
  • 3:32 - 3:35
    a automaticky nebo manuálně chybu opravit.
  • 3:35 - 3:36
    Jsou dva způsoby,
  • 3:36 - 3:39
    které se liší podle systému pravopisu.
  • 3:39 - 3:42
    Jeden z nich je online
  • 3:42 - 3:44
    a to znamená, že můžeme poskytnout
  • 3:44 - 3:46
    stejné návrhy nehledě na zařízení,
  • 3:46 - 3:49
    ze kterého se připojujete.
  • 3:49 - 3:53
    Takže i když jste na notebooku nebo mobilu
  • 3:53 - 3:56
    můžeme vám dát stejně kvalitní návrhy.
  • 3:56 - 3:58
    A to platí i napříč různými jazyky.
  • 3:58 - 3:59
  • 3:59 - 4:01
    Jak víte, využíváme velký
  • 4:01 - 4:07
    statistický model zpracování jazyka.
  • 4:07 - 4:08
    Když říkám velký,
  • 4:08 - 4:10
    znamená to data z miliard slov.
  • 4:10 - 4:12
    Jsou jich hromady gigabytů.
  • 4:12 - 4:16
    Je nemožné je zpracovat jedním počítačem,
  • 4:16 - 4:18
    což v datacentru, kde můžete mít
  • 4:18 - 4:19
    mnoho strojů, není takový problém
  • 4:19 - 4:22
    spustit naráz jazykový a pravopisný model.
  • 4:22 - 4:27
    A tak můžeme model kontroly pravopisu
  • 4:27 - 4:29
    sdílet mezi mnoha uživateli,
  • 4:29 - 4:31
    aby náklady na jednoho byly velmi nízké.
  • 4:31 - 4:34
    Takhle je to pro nás velmi efektivní.
  • 4:34 - 4:36
    Jakmile máte systém,
  • 4:36 - 4:38
    který podporuje společné úpravy,
  • 4:38 - 4:40
    které mají strukturovaná data
  • 4:40 - 4:43
    a když můžete změnit uživatelské rozhraní
  • 4:43 - 4:45
    tím, že máte vzdálené účastníky,
  • 4:45 - 4:47
    už vám nic nebrání.
  • 4:47 - 4:49
    Existuje spousta druhů
  • 4:49 - 4:51
    přirozených jazykových technologií,
  • 4:51 - 4:53
    jako kontrola pravopisu a překlad,
  • 4:53 - 4:56
    kde tohle můžeme využít a mnoho nových
  • 4:56 - 4:58
    aplikací, jak se mění způsoby komunikace.
  • 4:58 - 5:01
    Před námi jsou zajímavé časy.
Title:
Google Wave: Natural Language Processing
Description:

more » « less
Video Language:
English
Duration:
05:05

Czech subtitles

Incomplete

Revisions