< Return to Video

Google Wave: Natural Language Processing

  • 0:00 - 0:06
    Google Wave: Обработка естественных языков.
  • 0:06 - 0:08
    Вайтлоу: Привет. Я Кэйси Вайтлоу.
  • 0:08 - 0:09
    Я технический руководитель
  • 0:09 - 0:11
    группы обработки естественных языков
  • 0:11 - 0:13
    здесь в Сиднее,
    и сегодня я собираюсь немного
  • 0:13 - 0:14
    поговорить с вами
  • 0:14 - 0:17
    о тех крутых вещах,
    которые мы внедрили в Google Wave.
  • 0:17 - 0:19
    Одна из главных целей,
  • 0:19 - 0:22
    преследуемых нами в Google Wave -
    это эффективность.
  • 0:22 - 0:24
    Мы хотим, чтобы пользователи
    продолжали эффективно работать
  • 0:24 - 0:26
    как при чтении,
    так и при наборе текста.
  • 0:26 - 0:28
    Один из способов,
    который мы разработали для этой цели
  • 0:28 - 0:29
    - это наша
    система проверки орфографии.
  • 0:29 - 0:32
    Мы бы хотели, чтобы
    пользователи могли
  • 0:32 - 0:35
    сосредоточиться на том, что они пишут
    и не беспокоиться
  • 0:35 - 0:37
    опечатались они где-нибудь,
    или нет.
  • 0:37 - 0:39
    Мы считаем, что если люди
    могли бы чуть-чуть расслабиться
  • 0:39 - 0:41
    или просто печатать на 5% быстрее,
  • 0:41 - 0:43
    то они бы тратили
    на 5% меньше времени на набор текста.
  • 0:43 - 0:46
    Итак, я приведу пример.
  • 0:46 - 0:48
    Это, наверное,
    самый легкий способ для объяснения.
  • 0:48 - 0:51
    Представим, что Вы хотите встретиться
    с кем-то из друзей.
  • 0:51 - 0:52
    Вы договариваетесь о встрече.
  • 0:52 - 0:55
    И пишете...
  • 0:55 - 0:56
    [пишет]
    Let's [Давай]
  • 0:56 - 0:58
    met [встретились]...
  • 0:58 - 1:00
    упс...
  • 1:00 - 1:04
    tomorrow [завтра].
  • 1:04 - 1:06
    Вы видите, что
    я допустил ошибку
  • 1:06 - 1:08
    Я тут написал "met" [встретились],
    вместо "meet" [встретимся].
  • 1:08 - 1:10
    Мой палец пропустил букву "e".
  • 1:10 - 1:14
    Мы реализовали проверку орфографии
  • 1:14 - 1:17
    путем создания автоматизированного
    участника и назвали его Спелли.
  • 1:17 - 1:20
    Он работает прямо как
    ещё один пользователь,
  • 1:20 - 1:22
    который участвует
    в волне наравне с вами
  • 1:22 - 1:24
    Итак, Спелли на волне
    с вами,
  • 1:24 - 1:29
    и он может увидеть, что вы
    написали "Let's met tomorrow"
    [Давай встретились завтра]
  • 1:29 - 1:31
    и попробует проверить
    правильность написанного.
  • 1:31 - 1:33
    По каждому слову...
  • 1:33 - 1:36
    У него нет никаких
    словарей,
  • 1:36 - 1:40
    так что он не может знать,
    правильное ли слово "met" [встретились]
  • 1:40 - 1:41
    или ошибка.
  • 1:41 - 1:43
    Для начала он
    предлагает список
  • 1:43 - 1:47
    возможных кандидатов
    для исправления этого слова.
  • 1:47 - 1:50
    Например, это могут быть
  • 1:50 - 1:53
    "meat" [мясо], т.е. еда...
  • 1:53 - 1:57
    или "meet" [встретимся], правильный
    вариант в нашем случае.
  • 1:57 - 1:59
    Вы можете придумать ещё
    множество подобных вариантов.
  • 1:59 - 2:02
    Например "set" [установим],
    или "net" [сеть],
    или "me" [мне] —
  • 2:02 - 2:05
    все варианты слов,
    какие мы могли бы рассматривать,
  • 2:05 - 2:09
    чтоб понять, что же вы
    на самом деле хотели написать.
  • 2:09 - 2:13
    Мы научились у Интернета,
  • 2:13 - 2:15
    какого рода опечатки
    допускают люди,
  • 2:15 - 2:17
    и какие варианты более
    или менее подходят.
  • 2:17 - 2:19
    Итак мы понимаем, что,
    к примеру,
  • 2:19 - 2:21
    случайная вставка буквы "a"
  • 2:21 - 2:22
    вполне вероятна,
  • 2:22 - 2:25
    а пропуск самой первой буквы слова
  • 2:25 - 2:28
    менее вероятен
    в данном случае.
  • 2:28 - 2:33
    Итак, у нас есть некие предположения,
    и далее мы собираемся
  • 2:33 - 2:35
    оценить наши предположения
    в контексте.
  • 2:35 - 2:38
    Некоторые сервисы Google уже используют
  • 2:38 - 2:40
    подобную статистическую
    языковую модель,
  • 2:40 - 2:42
    например, Google Переводчик,
  • 2:42 - 2:44
    который обрабатывает информацию
  • 2:44 - 2:46
    о том, как используется язык.
  • 2:46 - 2:48
    Данные системы обучались Интернетом,
  • 2:48 - 2:50
    прорабатывая миллиарды веб-страниц,
  • 2:50 - 2:51
    и дали нам по-настоящему хорошее представление
  • 2:51 - 2:54
    о том, как же на самом деле
    общаются люди.
  • 2:54 - 2:55
    Далее мы бы оценивали
  • 2:55 - 2:59
    вероятность правильности предложений
    типа "Давай встретились завтра"
  • 2:59 - 3:02
    и "Давай мясо завтра" - они менее вероятны,
  • 3:02 - 3:04
    и "Давай встретимся завтра"
  • 3:04 - 3:06
    которое больше похоже на правду,
    нежели предыдущие.
  • 3:06 - 3:08
    Для этого мы совмещаем статистическую модель
    с нашей моделью ошибок,
  • 3:08 - 3:10
    которая высчитает вероятность каждой
    опечатки,
  • 3:10 - 3:14
    не учитывая контекст, для финального определения
  • 3:14 - 3:16
    тех слов,
  • 3:16 - 3:19
    которые вы могли подразумевать при написании.
  • 3:19 - 3:22
    Так, в данном случае мы бы предложили
    "встретимся" [meet].
  • 3:22 - 3:25
    Как только мы поняли, что в слове ошибка,
  • 3:25 - 3:29
    мы должны отобразить
    эту информацию в Google Wave-клиенте,
  • 3:29 - 3:32
    чтобы пользователь мог увидеть ее
  • 3:32 - 3:35
    и исправить ее вручную, либо же автоматически.
  • 3:35 - 3:36
    Наша система проверки орфографии
  • 3:36 - 3:39
    несколько отличается от существующих систем.
  • 3:39 - 3:42
    Одно из отличий в том,
    что система работает на сервере.
  • 3:42 - 3:44
    А это значит, что качество проверки
  • 3:44 - 3:46
    орфографии не зависит
  • 3:46 - 3:49
    от того, с какого устройства Вы работаете.
  • 3:49 - 3:53
    Так что независимо от того, используете ли Вы
    стационарный компьютер
  • 3:53 - 3:56
    или же ноутбук - вы получите такую же
    качественную проверку орфографии.
  • 3:56 - 3:58
    Это же справедливо и в языковом плане,
  • 3:58 - 3:59
    то есть мы реализовали это
  • 3:59 - 4:01
    и для других алфавитных языков.
  • 4:01 - 4:07
    Как я говорил, мы используем огромные
    статистические языковые модели.
  • 4:07 - 4:08
    Под огромными я подразумеваю
  • 4:08 - 4:10
    модели с миллиардами слов.
  • 4:10 - 4:12
    Которые вылились в много-много гигабайт данных.
  • 4:12 - 4:16
    Их невозможно запустить на одной машине,
  • 4:16 - 4:18
    но это совсем не проблематично в датацентре,
  • 4:18 - 4:19
    где множество машин работают
  • 4:19 - 4:22
    над языковой и орфографической моделью вместе.
  • 4:22 - 4:27
    Более того, мы можем сделать эту орфографическую
    систему
  • 4:27 - 4:29
    доступной всем пользователям,
  • 4:29 - 4:31
    поэтому стоимость в расчете на пользователя
    очень незначительна.
  • 4:31 - 4:34
    Поэтому для нас это очень выгодно.
  • 4:34 - 4:36
    После того, как приходит осознание, что
    у вас есть система,
  • 4:36 - 4:38
    которая поддерживает совместное одновременное
    редактирование,
  • 4:38 - 4:40
    которая обладает структурированной моделью
    данных,
  • 4:40 - 4:43
    и что вы можете менять
    пользовательский интерфейс,
  • 4:43 - 4:45
    приглашая удаленных участников,
  • 4:45 - 4:47
    тогда действительно понимаешь, что
    нет предела совершенству.
  • 4:47 - 4:49
    Я имею ввиду,
    что мы можем применять
  • 4:49 - 4:51
    все существующие технологии обработки
    естественных языков,
  • 4:51 - 4:53
    типа проверки орфографии
    или перевода
  • 4:53 - 4:56
    и продолжаем искать
    новые приложения,
  • 4:56 - 4:58
    так как наши способы и методы
    общения постоянно меняются.
  • 4:58 - 5:01
    Я считаю, нас ждут
    по-настоящему удивительные времена.
Title:
Google Wave: Natural Language Processing
Description:

more » « less
Video Language:
English
Duration:
05:05

Russian subtitles

Revisions