-
Google Wave: Обработка естественных языков.
-
Вайтлоу: Привет. Я Кэйси Вайтлоу.
-
Я технический руководитель
-
группы обработки естественных языков
-
здесь в Сиднее,
и сегодня я собираюсь немного
-
поговорить с вами
-
о тех крутых вещах,
которые мы внедрили в Google Wave.
-
Одна из главных целей,
-
преследуемых нами в Google Wave -
это эффективность.
-
Мы хотим, чтобы пользователи
продолжали эффективно работать
-
как при чтении,
так и при наборе текста.
-
Один из способов,
который мы разработали для этой цели
-
- это наша
система проверки орфографии.
-
Мы бы хотели, чтобы
пользователи могли
-
сосредоточиться на том, что они пишут
и не беспокоиться
-
опечатались они где-нибудь,
или нет.
-
Мы считаем, что если люди
могли бы чуть-чуть расслабиться
-
или просто печатать на 5% быстрее,
-
то они бы тратили
на 5% меньше времени на набор текста.
-
Итак, я приведу пример.
-
Это, наверное,
самый легкий способ для объяснения.
-
Представим, что Вы хотите встретиться
с кем-то из друзей.
-
Вы договариваетесь о встрече.
-
И пишете...
-
[пишет]
Let's [Давай]
-
met [встретились]...
-
упс...
-
tomorrow [завтра].
-
Вы видите, что
я допустил ошибку
-
Я тут написал "met" [встретились],
вместо "meet" [встретимся].
-
Мой палец пропустил букву "e".
-
Мы реализовали проверку орфографии
-
путем создания автоматизированного
участника и назвали его Спелли.
-
Он работает прямо как
ещё один пользователь,
-
который участвует
в волне наравне с вами
-
Итак, Спелли на волне
с вами,
-
и он может увидеть, что вы
написали "Let's met tomorrow"
[Давай встретились завтра]
-
и попробует проверить
правильность написанного.
-
По каждому слову...
-
У него нет никаких
словарей,
-
так что он не может знать,
правильное ли слово "met" [встретились]
-
или ошибка.
-
Для начала он
предлагает список
-
возможных кандидатов
для исправления этого слова.
-
Например, это могут быть
-
"meat" [мясо], т.е. еда...
-
или "meet" [встретимся], правильный
вариант в нашем случае.
-
Вы можете придумать ещё
множество подобных вариантов.
-
Например "set" [установим],
или "net" [сеть],
или "me" [мне] —
-
все варианты слов,
какие мы могли бы рассматривать,
-
чтоб понять, что же вы
на самом деле хотели написать.
-
Мы научились у Интернета,
-
какого рода опечатки
допускают люди,
-
и какие варианты более
или менее подходят.
-
Итак мы понимаем, что,
к примеру,
-
случайная вставка буквы "a"
-
вполне вероятна,
-
а пропуск самой первой буквы слова
-
менее вероятен
в данном случае.
-
Итак, у нас есть некие предположения,
и далее мы собираемся
-
оценить наши предположения
в контексте.
-
Некоторые сервисы Google уже используют
-
подобную статистическую
языковую модель,
-
например, Google Переводчик,
-
который обрабатывает информацию
-
о том, как используется язык.
-
Данные системы обучались Интернетом,
-
прорабатывая миллиарды веб-страниц,
-
и дали нам по-настоящему хорошее представление
-
о том, как же на самом деле
общаются люди.
-
Далее мы бы оценивали
-
вероятность правильности предложений
типа "Давай встретились завтра"
-
и "Давай мясо завтра" - они менее вероятны,
-
и "Давай встретимся завтра"
-
которое больше похоже на правду,
нежели предыдущие.
-
Для этого мы совмещаем статистическую модель
с нашей моделью ошибок,
-
которая высчитает вероятность каждой
опечатки,
-
не учитывая контекст, для финального определения
-
тех слов,
-
которые вы могли подразумевать при написании.
-
Так, в данном случае мы бы предложили
"встретимся" [meet].
-
Как только мы поняли, что в слове ошибка,
-
мы должны отобразить
эту информацию в Google Wave-клиенте,
-
чтобы пользователь мог увидеть ее
-
и исправить ее вручную, либо же автоматически.
-
Наша система проверки орфографии
-
несколько отличается от существующих систем.
-
Одно из отличий в том,
что система работает на сервере.
-
А это значит, что качество проверки
-
орфографии не зависит
-
от того, с какого устройства Вы работаете.
-
Так что независимо от того, используете ли Вы
стационарный компьютер
-
или же ноутбук - вы получите такую же
качественную проверку орфографии.
-
Это же справедливо и в языковом плане,
-
то есть мы реализовали это
-
и для других алфавитных языков.
-
Как я говорил, мы используем огромные
статистические языковые модели.
-
Под огромными я подразумеваю
-
модели с миллиардами слов.
-
Которые вылились в много-много гигабайт данных.
-
Их невозможно запустить на одной машине,
-
но это совсем не проблематично в датацентре,
-
где множество машин работают
-
над языковой и орфографической моделью вместе.
-
Более того, мы можем сделать эту орфографическую
систему
-
доступной всем пользователям,
-
поэтому стоимость в расчете на пользователя
очень незначительна.
-
Поэтому для нас это очень выгодно.
-
После того, как приходит осознание, что
у вас есть система,
-
которая поддерживает совместное одновременное
редактирование,
-
которая обладает структурированной моделью
данных,
-
и что вы можете менять
пользовательский интерфейс,
-
приглашая удаленных участников,
-
тогда действительно понимаешь, что
нет предела совершенству.
-
Я имею ввиду,
что мы можем применять
-
все существующие технологии обработки
естественных языков,
-
типа проверки орфографии
или перевода
-
и продолжаем искать
новые приложения,
-
так как наши способы и методы
общения постоянно меняются.
-
Я считаю, нас ждут
по-настоящему удивительные времена.