1
00:00:05,734 --> 00:00:08,234
Whitelaw: Ahoj. Jmenuji
se Casey Whitelaw.

2
00:00:08,234 --> 00:00:09,234
Jsem vedoucí programátor

3
00:00:09,234 --> 00:00:10,567
Skupiny Zpracování Přirozeného Jazyka

4
00:00:10,567 --> 00:00:12,501
tady v Sydney,
a dnes bych Vám

5
00:00:12,501 --> 00:00:13,901
chtěl povykládat něco málo

6
00:00:13,901 --> 00:00:16,601
o pár cool věcech,
které jsme přidali do Google Wave.

7
00:00:16,601 --> 00:00:18,834
Jednou z hlavních věcí,

8
00:00:18,834 --> 00:00:21,834
na které se chceme v Google Wave
soustředit, je výkonnost.

9
00:00:21,834 --> 00:00:23,634
Chceme, aby uživatelé
mohli zůstat produktivní,

10
00:00:23,634 --> 00:00:25,734
ať už čtou nebo píšou.

11
00:00:25,734 --> 00:00:27,601
Jednou z možností
jak jsme toho dosáhli

12
00:00:27,601 --> 00:00:29,267
je naš systém opravy psaní.

13
00:00:29,267 --> 00:00:32,234
Chtěli bychom, aby se
uživatel mohl soustředit

14
00:00:32,234 --> 00:00:34,534
jen na to, co píše,
a ne se starat,

15
00:00:34,534 --> 00:00:36,801
jestli udělal nějaké chyby.

16
00:00:36,801 --> 00:00:39,000
Myslíme, že kdyby se lidi
mohli trochu uvolnit,

17
00:00:39,000 --> 00:00:41,100
a psát třeba
o 5% rychleji,

18
00:00:41,100 --> 00:00:43,400
tak by ušetřili 5% času
stráveného psaním.

19
00:00:43,400 --> 00:00:45,734
Dám Vám příklad.

20
00:00:45,734 --> 00:00:47,801
Tak to asi nejlépe vysvětlím.

21
00:00:47,801 --> 00:00:51,133
Řekněme, že se chcete sejít
s jedním ze svých přátel.

22
00:00:51,133 --> 00:00:52,300
Píšete si spolu.

23
00:00:52,300 --> 00:00:54,534
Takže napíšete...

24
00:00:54,534 --> 00:00:56,467
Sejdeme...

25
00:00:56,467 --> 00:00:58,434
s...

26
00:00:58,434 --> 00:01:00,067
jejda...

27
00:01:00,067 --> 00:01:03,767
zítra.

28
00:01:03,767 --> 00:01:05,567
Tady vidíte, že
jsem udělal chybu.

29
00:01:05,567 --> 00:01:07,400
Napsal jsem "s"
místo "se".

30
00:01:07,400 --> 00:01:09,501
Ujel mi prst u "e".

31
00:01:09,501 --> 00:01:13,534
Kontrolu pravopisu jsem zavedli pomocí

32
00:01:13,534 --> 00:01:16,968
automatického účastníka zvaného Spelly

33
00:01:16,968 --> 00:01:19,767
který se chová stejně jako jiný uživatel,

34
00:01:19,767 --> 00:01:21,767
který se účastní vaší vlny.

35
00:01:21,767 --> 00:01:24,334
Takže, Spelly je na vaší vlně

36
00:01:24,334 --> 00:01:29,267
a vidí, že jste napsali "Uvidíme s zítra".

37
00:01:29,267 --> 00:01:31,367
a teď to zkusí opravit.

38
00:01:31,367 --> 00:01:32,901
Pro každé slovo...

39
00:01:32,901 --> 00:01:35,534
Nemá žádný slovník

40
00:01:35,534 --> 00:01:39,534
a tak neví, jestli "s" je správně

41
00:01:39,534 --> 00:01:40,834
nebo špatně.

42
00:01:40,834 --> 00:01:43,100
Takže pro začátek přijde se seznamem

43
00:01:43,100 --> 00:01:46,634
možných verzí tohoto slova.

44
00:01:46,634 --> 00:01:50,367
Například

45
00:01:50,367 --> 00:01:53,400
"si"

46
00:01:53,400 --> 00:01:56,868
nebo "se", správná verze.

47
00:01:56,868 --> 00:01:59,367
A vymysleli byste spoustu dalších

48
00:01:59,367 --> 00:02:02,200
jako "že" nebo "ne"

49
00:02:02,200 --> 00:02:05,367
různá další slova u kterých váháme

50
00:02:05,367 --> 00:02:09,199
jestli nejsou to, co jste chtěli napsat.

51
00:02:09,199 --> 00:02:12,734
Díky internetu jsme poznali

52
00:02:12,734 --> 00:02:14,934
jaké typy překlepů lidé dělají

53
00:02:14,934 --> 00:02:17,200
a které věci nejspíš napsat nechtěli.

54
00:02:17,200 --> 00:02:18,834
Například víme,

55
00:02:18,834 --> 00:02:20,634
že náhodné vložení písmene "A"

56
00:02:20,634 --> 00:02:22,300
je pravděpodobnější,

57
00:02:22,300 --> 00:02:25,434
než překlep v prvním písmeně slova.

58
00:02:25,434 --> 00:02:28,467


59
00:02:28,467 --> 00:02:32,667
Takže, máme pár návrhů

60
00:02:32,667 --> 00:02:34,667
a teď je podle kontextu zhodnotíme.

61
00:02:34,667 --> 00:02:38,067
Google má další systémy, které využívají

62
00:02:38,067 --> 00:02:40,434
statistický model zpracovaní jazyka,

63
00:02:40,434 --> 00:02:42,467
např. Google translation system,

64
00:02:42,467 --> 00:02:44,367
který zakódovává informace o tom,

65
00:02:44,367 --> 00:02:46,133
jak je jazyk používán.

66
00:02:46,133 --> 00:02:47,968
Vzorce získává z webu,

67
00:02:47,968 --> 00:02:49,734
z miliard internetových stránek,

68
00:02:49,734 --> 00:02:51,167
takže máme slušnou představu

69
00:02:51,167 --> 00:02:53,734
o tom, jak lidé jazyk v praxi používají.

70
00:02:53,734 --> 00:02:55,434
Potom porovnáme verze

71
00:02:55,434 --> 00:02:58,834
"Uvidíme s zítra."

72
00:02:58,834 --> 00:03:02,067
"Uvidíme si zítra."

73
00:03:02,067 --> 00:03:03,767
a "Uvidíme se zítra."

74
00:03:03,767 --> 00:03:06,267
a vyhodnotíme, co jste asi chtěli napsat.

75
00:03:06,267 --> 00:03:08,067
Zkombinujeme to s chybovým modelem,

76
00:03:08,067 --> 00:03:10,200
který říká, jaké jsou možné překlepy

77
00:03:10,200 --> 00:03:13,834
bez kontextu a nakonec dostaneme

78
00:03:13,834 --> 00:03:15,901
nejpravděpodobnější slova,

79
00:03:15,901 --> 00:03:19,200
které jste chtěli napsat.

80
00:03:19,200 --> 00:03:22,000
V tomto případě navrhneme "se."

81
00:03:22,000 --> 00:03:25,467
Když si myslíme, že došlo k překlepu,

82
00:03:25,467 --> 00:03:29,100
musíme to dostat do Google Wave klienta,

83
00:03:29,100 --> 00:03:31,667
aby to uživatel mohl vidět

84
00:03:31,667 --> 00:03:34,701
a automaticky nebo manuálně chybu opravit.

85
00:03:34,701 --> 00:03:36,067
Jsou dva způsoby,

86
00:03:36,067 --> 00:03:38,834
které se liší podle systému pravopisu.

87
00:03:38,834 --> 00:03:42,000
Jeden z nich je online

88
00:03:42,000 --> 00:03:44,100
a to znamená, že můžeme poskytnout

89
00:03:44,100 --> 00:03:46,033
stejné návrhy nehledě na zařízení,

90
00:03:46,033 --> 00:03:49,434
ze kterého se připojujete.

91
00:03:49,434 --> 00:03:52,767
Takže i když jste na notebooku nebo mobilu

92
00:03:52,767 --> 00:03:56,000
můžeme vám dát stejně kvalitní návrhy.

93
00:03:56,000 --> 00:03:57,901
A to platí i napříč různými jazyky.

94
00:03:57,901 --> 00:03:59,467


95
00:03:59,467 --> 00:04:01,267
Jak víte, využíváme velký

96
00:04:01,267 --> 00:04:06,667
statistický model zpracování jazyka.

97
00:04:06,667 --> 00:04:07,801
Když říkám velký,

98
00:04:07,801 --> 00:04:09,801
znamená to data z miliard slov.

99
00:04:09,801 --> 00:04:12,033
Jsou jich hromady gigabytů.

100
00:04:12,033 --> 00:04:15,501
Je nemožné je zpracovat jedním počítačem,

101
00:04:15,501 --> 00:04:17,601
což v datacentru, kde můžete mít

102
00:04:17,601 --> 00:04:19,233
mnoho strojů, není takový problém

103
00:04:19,233 --> 00:04:22,200
spustit naráz jazykový a pravopisný model.

104
00:04:22,200 --> 00:04:27,167
A tak můžeme model kontroly pravopisu

105
00:04:27,167 --> 00:04:28,734
sdílet mezi mnoha uživateli,

106
00:04:28,734 --> 00:04:30,667
aby náklady na jednoho byly velmi nízké.

107
00:04:30,667 --> 00:04:33,534
Takhle je to pro nás velmi efektivní.

108
00:04:33,534 --> 00:04:35,667
Jakmile máte systém,

109
00:04:35,667 --> 00:04:37,801
který podporuje společné úpravy,

110
00:04:37,801 --> 00:04:39,501
které mají strukturovaná data

111
00:04:39,501 --> 00:04:42,667
a když můžete změnit uživatelské rozhraní

112
00:04:42,667 --> 00:04:45,167
tím, že máte vzdálené účastníky,

113
00:04:45,167 --> 00:04:47,200
už vám nic nebrání.

114
00:04:47,200 --> 00:04:49,434
Existuje spousta druhů

115
00:04:49,434 --> 00:04:51,400
přirozených jazykových technologií,

116
00:04:51,400 --> 00:04:53,100
jako kontrola pravopisu a překlad,

117
00:04:53,100 --> 00:04:55,667
kde tohle můžeme využít a mnoho nových

118
00:04:55,667 --> 00:04:57,667
aplikací, jak se mění způsoby komunikace.

119
00:04:57,667 --> 00:05:00,868
Před námi jsou zajímavé časy.