Palestra de Reconhecimento da Fala - Google e AAAI 2011

0:01 - 0:03

Obrigado, Franz.
0:03 - 0:06

O meu nome é Vincent Vanuk. Eu trabalho na
0:06 - 0:08

equipe de tecnologia da fala aqui, no Google,
0:08 - 0:11

e eu acho que gostaria de compartilhar
0:11 - 0:15

com vocês uma visão que tivemos ao
0:15 - 0:18

trabalhar com a tecnologia da fala no Google Scale.
0:18 - 0:21

Esta visão pode ser resumida basicamente como:
0:21 - 0:28

se nós quiséssemos construir uma máquina com um desempenho sobre-humano,
0:28 - 0:30

a primeira coisa que talvez devêssemos fazer
0:30 - 0:31

é livrarmo-nos dos seres humanos.
0:31 - 0:32

(o público ri)
0:32 - 0:36

Então, talvez você se pergunte (sendo essa a minha suposição)
0:36 - 0:39

Talvez você esteja se pensando: "Eu estou falando sobre um reconhecimento de fala
0:39 - 0:42

sobre-humano. Tudo o que sabemos é que
0:42 - 0:45

o reconhecimento de fala não é como o dos seres humanos ainda."
0:45 - 0:47

O ponto é que esse reconhecimento está ficando cada vez mais perto.
0:47 - 0:50

Vejam apenas um exemplo.
0:50 - 0:55

Imaginem que - um dos produtos é a busca por voz, de modo que seja
0:55 - 0:57

possível falar à ferramenta de busca o que você quer e ela vai buscar isso para você.
0:57 - 1:00

Você pode simplesmente falar. Então, imagine que seja possível falar para o seu telefone,
1:00 - 1:03

e gravar este . . .
1:03 - 1:06

este comando e tocá-lo novamente. Nós o tocamos novamente,
1:06 - 1:09

seja para você mesmo ou para a ferramenta de busca
1:09 - 1:13

que encontrarmos na pesquisa, certo? E nós pedimos a transcrição.
1:13 - 1:16

Não há a menor dúvida de que você vai
1:16 - 1:19

se sair muito melhor do que a ferramenta de reconhecimento da fala
1:19 - 1:21

em reconhecer a sua própria voz.
1:22 - 1:28

A situação é diferente quando se altera essa situação
1:28 - 1:32

e tocamos o áudio para um humano inocente.
1:32 - 1:35

Por humano inocente, me refiro a alguém que não conhece você,
1:35 - 1:40

que não necessariamente tem as mesmas referencias culturais que você,
1:40 - 1:43

que não vive na mesma vizinhança que você,
1:43 - 1:44

que não tem o mesmo contexto . . .
1:46 - 1:47

Na verdade, a situação se torna incerta.
1:47 - 1:51

Se você tocar a gravação uma vez para um usuário e então lhe pedir para transcrevê-la e
1:51 - 1:56

ele não vai se sair muito melhor do que a ferramenta de reconhecimento da fala.
1:56 - 1:58

Por que isso acontece?
1:58 - 2:02

De maneira simples, sem entrar em muitos detalhes, o reconhecimento da fala é
2:02 - 2:04

muito complexo. Existe um modelo de acústica e uma modelo em inglês.
2:04 - 2:08

O modelo de acústica é o que reconhece os sons
2:08 - 2:13

e ele ainda não tem o mesmo desempenho que os seres humanos ainda,
2:13 - 2:16

no que se refere ao modelo acústico. Na verdade, a fidelidade ainda não está
2:16 - 2:22

no nível de uma falante nativo humano.
2:22 - 2:25

Mas nós temos este modelo de idioma, e o modelo de idioma
2:25 - 2:28

é o que prediz quais palavras a pessoa está dizendo e
2:28 - 2:31

em que ordem ela vai dizer. Nós treinamos de maneira parecida com
2:31 - 2:35

uma máquina de tradução . . . Uma enorme, enorme coleção de escritos.
2:35 - 2:39

Nós treinamos com 240 bilhões de palavras no caso da busca por voz
2:39 - 2:44

e isso nos dá uma vantagem que um único usuário pode não ter.
2:44 - 2:50

Então, se um usuário inocente, um humano inocente, que não for do Canadá,
2:50 - 2:53

pode não saber como soletrar "Scatchwood".
2:53 - 2:57

Se uma pessoa não for de Nova York, ela pode não saber como
2:57 - 2:59

pronunciar "Schenectady, Nova York".
2:59 - 3:01

Eu mesmo não estou muito seguro de estar pronunciando isso corretamente agora.
3:01 - 3:03

(o público ri)
3:03 - 3:05

Mas essa vantagem faz a diferença.
3:05 - 3:07

Então, por que isso é um problema para nós?
3:07 - 3:11

Os seres humanos acordaram. Franz acabou de dizer que
3:11 - 3:15

as avaliações humanas mudam os volumes na transcrição.
3:15 - 3:17

O mesmo acontece com o reconhecimento da fala.
3:17 - 3:21

A verdade, o padrão, a regra de ouro -
3:21 - 3:23

o padrão dourado para o reconhecimento da fala é
3:23 - 3:26

a atuação humana. Nós temos alguns humanos transcrevendo estes
3:26 - 3:29

reconhecimento da fala e esta é a referência
3:29 - 3:34

contra nós mesmos. E se a referência for um pouquinho melhor
3:34 - 3:37

do que o sistema atual, então teremos um problema.
3:37 - 3:43

O outro problema é que, com o tipo de crescimento que
3:43 - 3:45

vimos em termos de pesquisa, nós estamos obtendo
3:45 - 3:47

muita informação fluindo pelo sistema.
3:47 - 3:50

Todo dia nós obtemos cerca de 2 anos de informação.
3:50 - 3:54

Não é possível nem sequer pensar em transcrever tudo isso.
3:54 - 3:58

Estas são a base de 27 idiomas.
3:58 - 4:01

A internacionalização é uma ênfase muito grande para nós
4:01 - 4:04

e estamos tentando expandir para todos os idiomas do mundo.
4:04 - 4:07

Então . . .
4:07 - 4:09

Isso é uma piada, mas . . .
4:09 - 4:12

Fred Jilinek é uma pessoa muito famosa no reconhecimento da fala.
4:12 - 4:16

Ele costumava dizer que toda vez que ele demitia um linguista, o nível de desempenho melhorava.
4:16 - 4:17

(o público ri)
4:17 - 4:20

Eu quero demitir todos os humanos.
4:21 - 4:26

Então, o objetivo principal para nós tem sido . . . o reconhecimento da fala,
4:26 - 4:30

como eu disse, é formada por dois componentes diferentes e estes dois componentes
4:30 - 4:31

meio que tentam compensar
4:31 - 4:36

as deficiências de cada um. Assim, o modelo acústico
4:36 - 4:39

pode compensar pela deficiência do modelo de idioma e vice-versa.
4:39 - 4:43

A maneira tradicional de fazer isso é por ter a Verdade
4:43 - 4:47

que é estabelecida por um transcritor humano. Este é o padrão dourado.
4:47 - 4:50

E o seu sistema é tido como referência contra a verdade.
4:50 - 4:53

O seu melhor sistema é comparado com a verdade e aí você tenta força-lo,
4:53 - 4:55

e aprender com esse objetivo.
4:55 - 4:59

Se não houver a verdade, você vai se dar mal.
4:59 - 5:00

Não haverá nada com o que comparar.
5:01 - 5:06

O truque aqui é que é possível trapacear, e
5:06 - 5:10

nós podemos dificultar artificialmente para que algumas parte do nosso sistema funcione.
5:10 - 5:12

Nós podemos enfraquecer algumas partes do nosso sistema.
5:12 - 5:15

Por exemplo, se eu enfraquecer o meu modelo de idiomas
5:15 - 5:18

o resultado é um sistema que é, na verdade . . .
5:18 - 5:22

menos potente e será possível compará-lo com o melhor sistema.
5:22 - 5:26

Se treinarmos nosso sistema e tentar melhorar o nosso modelo idiomático baseado nisso,
5:26 - 5:27

estaremos no caminho de algo melhor.
5:27 - 5:30

Então, o mesmo pode ser feito
5:30 - 5:33

com um modelo idiomático usando um modelo acústico enfraquecido
5:33 - 5:37

e, então, melhorar os nossos modelos idiomáticos. O resultado é que
5:37 - 5:41

teremos um sistema melhor, na esperança
5:41 - 5:46

de que este se torne um padrão dourado do qual poderemos nos aproveitar.
5:47 - 5:48

Então,
5:50 - 5:52

a mensagem é que existem maneiras de fazer isso
5:52 - 5:56

e sem a ajuda de um ser humano.
5:58 - 6:03

O aprendizado não-supervisionado não é novo, e tem sido realizado por
6:03 - 6:06

um período muito longo, sendo conduzido de modo que seja possível
6:06 - 6:12

realizar treinamentos, avaliações e ajustes completamente não-supervisionados,
6:12 - 6:15

sem o menor envolvimento humano. Um reconhecimento da fala distante.
6:15 - 6:17

Isso é novo e excitante. Essa é exatamente
6:17 - 6:19

o tipo de coisa que nos entusiasma
6:19 - 6:23

porque isso nos permite crescer - níveis de crescimento
6:23 - 6:26

que não eram possíveis alcançar antes.
6:26 - 6:30

E então, enquanto ainda não é possível obter uma realização sobre-humana
6:30 - 6:38

é possível que, por remover o limite das realizações humanas, talvez isso nos permita caminhar
6:38 - 6:45

mais rápido com o objetivo de obter a verdadeira performance humana que vemos.
6:46 - 6:50

Este era o meu pouquinho de sabedoria no qual estávamos trabalhando
6:50 - 6:53

recentemente e . . .
6:53 - 6:59

este é um projeto muito emocionante para nós e nós podemos
6:59 - 7:02

nos aprofundar mais no estudo citado.

Title:: Palestra de Reconhecimento da Fala - Google e AAAI 2011
Description:: Palestra da Google Tech (veja mais informação abaixo) 9 de agosto de 2011 Apresentado por Vincent Vanhoucke. RESUMO: A Google recebeu 100 participantes da conferência de 2011 para a Associação do Avança da Inteligência Artificial (AAAI - sigla em inglês) no nosso escritório em São Francisco. O programa apresentou uma palestra feita pelo Diretor de Pesquisas, Peter Norvig e varias palestras sobre projetos relevantes ao campo da inteligência artificial e das suas aplicações. Sobre o palestrante: Vincent Vanhoucke é um Cientista de Pesquisa na Google. Ele está liderando a pesquisa do modelo de acústica para o sistema de Busca por Voz da Google.

more » « less
Video Language:: English
Team:: Captions Requested
Duration:: 07:06

	Renan Amorim dos Santos edited Portuguese subtitles for Speech Recognition Lightning Talk - Google and AAAI 2011
	Renan Amorim dos Santos edited Portuguese subtitles for Speech Recognition Lightning Talk - Google and AAAI 2011

Portuguese subtitles

Revisions Compare revisions

Revision 2 Edited (legacy editor)

Renan Amorim dos Santos
Revision 1 Edited (legacy editor)

Renan Amorim dos Santos

	Revision Number	Author	Created
	2	Renan Amorim dos Santos
	1	Renan Amorim dos Santos

Palestra de Reconhecimento da Fala - Google e AAAI 2011

Revisions Compare revisions

Our website uses cookies

Operating cookies (Required)