Palestra de Reconhecimento da Fala - Google e AAAI 2011
-
0:01 - 0:03Obrigado, Franz.
-
0:03 - 0:06O meu nome é Vincent Vanuk. Eu trabalho na
-
0:06 - 0:08equipe de tecnologia da fala aqui, no Google,
-
0:08 - 0:11e eu acho que gostaria de compartilhar
-
0:11 - 0:15com vocês uma visão que tivemos ao
-
0:15 - 0:18trabalhar com a tecnologia da fala no Google Scale.
-
0:18 - 0:21Esta visão pode ser resumida basicamente como:
-
0:21 - 0:28se nós quiséssemos construir uma máquina com um desempenho sobre-humano,
-
0:28 - 0:30a primeira coisa que talvez devêssemos fazer
-
0:30 - 0:31é livrarmo-nos dos seres humanos.
-
0:31 - 0:32(o público ri)
-
0:32 - 0:36Então, talvez você se pergunte (sendo essa a minha suposição)
-
0:36 - 0:39Talvez você esteja se pensando: "Eu estou falando sobre um reconhecimento de fala
-
0:39 - 0:42sobre-humano. Tudo o que sabemos é que
-
0:42 - 0:45o reconhecimento de fala não é como o dos seres humanos ainda."
-
0:45 - 0:47O ponto é que esse reconhecimento está ficando cada vez mais perto.
-
0:47 - 0:50Vejam apenas um exemplo.
-
0:50 - 0:55Imaginem que - um dos produtos é a busca por voz, de modo que seja
-
0:55 - 0:57possível falar à ferramenta de busca o que você quer e ela vai buscar isso para você.
-
0:57 - 1:00Você pode simplesmente falar. Então, imagine que seja possível falar para o seu telefone,
-
1:00 - 1:03e gravar este . . .
-
1:03 - 1:06este comando e tocá-lo novamente. Nós o tocamos novamente,
-
1:06 - 1:09seja para você mesmo ou para a ferramenta de busca
-
1:09 - 1:13que encontrarmos na pesquisa, certo? E nós pedimos a transcrição.
-
1:13 - 1:16Não há a menor dúvida de que você vai
-
1:16 - 1:19se sair muito melhor do que a ferramenta de reconhecimento da fala
-
1:19 - 1:21em reconhecer a sua própria voz.
-
1:22 - 1:28A situação é diferente quando se altera essa situação
-
1:28 - 1:32e tocamos o áudio para um humano inocente.
-
1:32 - 1:35Por humano inocente, me refiro a alguém que não conhece você,
-
1:35 - 1:40que não necessariamente tem as mesmas referencias culturais que você,
-
1:40 - 1:43que não vive na mesma vizinhança que você,
-
1:43 - 1:44que não tem o mesmo contexto . . .
-
1:46 - 1:47Na verdade, a situação se torna incerta.
-
1:47 - 1:51Se você tocar a gravação uma vez para um usuário e então lhe pedir para transcrevê-la e
-
1:51 - 1:56ele não vai se sair muito melhor do que a ferramenta de reconhecimento da fala.
-
1:56 - 1:58Por que isso acontece?
-
1:58 - 2:02De maneira simples, sem entrar em muitos detalhes, o reconhecimento da fala é
-
2:02 - 2:04muito complexo. Existe um modelo de acústica e uma modelo em inglês.
-
2:04 - 2:08O modelo de acústica é o que reconhece os sons
-
2:08 - 2:13e ele ainda não tem o mesmo desempenho que os seres humanos ainda,
-
2:13 - 2:16no que se refere ao modelo acústico. Na verdade, a fidelidade ainda não está
-
2:16 - 2:22no nível de uma falante nativo humano.
-
2:22 - 2:25Mas nós temos este modelo de idioma, e o modelo de idioma
-
2:25 - 2:28é o que prediz quais palavras a pessoa está dizendo e
-
2:28 - 2:31em que ordem ela vai dizer. Nós treinamos de maneira parecida com
-
2:31 - 2:35uma máquina de tradução . . . Uma enorme, enorme coleção de escritos.
-
2:35 - 2:39Nós treinamos com 240 bilhões de palavras no caso da busca por voz
-
2:39 - 2:44e isso nos dá uma vantagem que um único usuário pode não ter.
-
2:44 - 2:50Então, se um usuário inocente, um humano inocente, que não for do Canadá,
-
2:50 - 2:53pode não saber como soletrar "Scatchwood".
-
2:53 - 2:57Se uma pessoa não for de Nova York, ela pode não saber como
-
2:57 - 2:59pronunciar "Schenectady, Nova York".
-
2:59 - 3:01Eu mesmo não estou muito seguro de estar pronunciando isso corretamente agora.
-
3:01 - 3:03(o público ri)
-
3:03 - 3:05Mas essa vantagem faz a diferença.
-
3:05 - 3:07Então, por que isso é um problema para nós?
-
3:07 - 3:11Os seres humanos acordaram. Franz acabou de dizer que
-
3:11 - 3:15as avaliações humanas mudam os volumes na transcrição.
-
3:15 - 3:17O mesmo acontece com o reconhecimento da fala.
-
3:17 - 3:21A verdade, o padrão, a regra de ouro -
-
3:21 - 3:23o padrão dourado para o reconhecimento da fala é
-
3:23 - 3:26a atuação humana. Nós temos alguns humanos transcrevendo estes
-
3:26 - 3:29reconhecimento da fala e esta é a referência
-
3:29 - 3:34contra nós mesmos. E se a referência for um pouquinho melhor
-
3:34 - 3:37do que o sistema atual, então teremos um problema.
-
3:37 - 3:43O outro problema é que, com o tipo de crescimento que
-
3:43 - 3:45vimos em termos de pesquisa, nós estamos obtendo
-
3:45 - 3:47muita informação fluindo pelo sistema.
-
3:47 - 3:50Todo dia nós obtemos cerca de 2 anos de informação.
-
3:50 - 3:54Não é possível nem sequer pensar em transcrever tudo isso.
-
3:54 - 3:58Estas são a base de 27 idiomas.
-
3:58 - 4:01A internacionalização é uma ênfase muito grande para nós
-
4:01 - 4:04e estamos tentando expandir para todos os idiomas do mundo.
-
4:04 - 4:07Então . . .
-
4:07 - 4:09Isso é uma piada, mas . . .
-
4:09 - 4:12Fred Jilinek é uma pessoa muito famosa no reconhecimento da fala.
-
4:12 - 4:16Ele costumava dizer que toda vez que ele demitia um linguista, o nível de desempenho melhorava.
-
4:16 - 4:17(o público ri)
-
4:17 - 4:20Eu quero demitir todos os humanos.
-
4:21 - 4:26Então, o objetivo principal para nós tem sido . . . o reconhecimento da fala,
-
4:26 - 4:30como eu disse, é formada por dois componentes diferentes e estes dois componentes
-
4:30 - 4:31meio que tentam compensar
-
4:31 - 4:36as deficiências de cada um. Assim, o modelo acústico
-
4:36 - 4:39pode compensar pela deficiência do modelo de idioma e vice-versa.
-
4:39 - 4:43A maneira tradicional de fazer isso é por ter a Verdade
-
4:43 - 4:47que é estabelecida por um transcritor humano. Este é o padrão dourado.
-
4:47 - 4:50E o seu sistema é tido como referência contra a verdade.
-
4:50 - 4:53O seu melhor sistema é comparado com a verdade e aí você tenta força-lo,
-
4:53 - 4:55e aprender com esse objetivo.
-
4:55 - 4:59Se não houver a verdade, você vai se dar mal.
-
4:59 - 5:00Não haverá nada com o que comparar.
-
5:01 - 5:06O truque aqui é que é possível trapacear, e
-
5:06 - 5:10nós podemos dificultar artificialmente para que algumas parte do nosso sistema funcione.
-
5:10 - 5:12Nós podemos enfraquecer algumas partes do nosso sistema.
-
5:12 - 5:15Por exemplo, se eu enfraquecer o meu modelo de idiomas
-
5:15 - 5:18o resultado é um sistema que é, na verdade . . .
-
5:18 - 5:22menos potente e será possível compará-lo com o melhor sistema.
-
5:22 - 5:26Se treinarmos nosso sistema e tentar melhorar o nosso modelo idiomático baseado nisso,
-
5:26 - 5:27estaremos no caminho de algo melhor.
-
5:27 - 5:30Então, o mesmo pode ser feito
-
5:30 - 5:33com um modelo idiomático usando um modelo acústico enfraquecido
-
5:33 - 5:37e, então, melhorar os nossos modelos idiomáticos. O resultado é que
-
5:37 - 5:41teremos um sistema melhor, na esperança
-
5:41 - 5:46de que este se torne um padrão dourado do qual poderemos nos aproveitar.
-
5:47 - 5:48Então,
-
5:50 - 5:52a mensagem é que existem maneiras de fazer isso
-
5:52 - 5:56e sem a ajuda de um ser humano.
-
5:58 - 6:03O aprendizado não-supervisionado não é novo, e tem sido realizado por
-
6:03 - 6:06um período muito longo, sendo conduzido de modo que seja possível
-
6:06 - 6:12realizar treinamentos, avaliações e ajustes completamente não-supervisionados,
-
6:12 - 6:15sem o menor envolvimento humano. Um reconhecimento da fala distante.
-
6:15 - 6:17Isso é novo e excitante. Essa é exatamente
-
6:17 - 6:19o tipo de coisa que nos entusiasma
-
6:19 - 6:23porque isso nos permite crescer - níveis de crescimento
-
6:23 - 6:26que não eram possíveis alcançar antes.
-
6:26 - 6:30E então, enquanto ainda não é possível obter uma realização sobre-humana
-
6:30 - 6:38é possível que, por remover o limite das realizações humanas, talvez isso nos permita caminhar
-
6:38 - 6:45mais rápido com o objetivo de obter a verdadeira performance humana que vemos.
-
6:46 - 6:50Este era o meu pouquinho de sabedoria no qual estávamos trabalhando
-
6:50 - 6:53recentemente e . . .
-
6:53 - 6:59este é um projeto muito emocionante para nós e nós podemos
-
6:59 - 7:02nos aprofundar mais no estudo citado.
- Title:
- Palestra de Reconhecimento da Fala - Google e AAAI 2011
- Description:
-
Palestra da Google Tech (veja mais informação abaixo) 9 de agosto de 2011 Apresentado por Vincent Vanhoucke. RESUMO: A Google recebeu 100 participantes da conferência de 2011 para a Associação do Avança da Inteligência Artificial (AAAI - sigla em inglês) no nosso escritório em São Francisco. O programa apresentou uma palestra feita pelo Diretor de Pesquisas, Peter Norvig e varias palestras sobre projetos relevantes ao campo da inteligência artificial e das suas aplicações. Sobre o palestrante: Vincent Vanhoucke é um Cientista de Pesquisa na Google. Ele está liderando a pesquisa do modelo de acústica para o sistema de Busca por Voz da Google.
- Video Language:
- English
- Team:
- Captions Requested
- Duration:
- 07:06
Renan Amorim dos Santos edited Portuguese subtitles for Speech Recognition Lightning Talk - Google and AAAI 2011 | ||
Renan Amorim dos Santos edited Portuguese subtitles for Speech Recognition Lightning Talk - Google and AAAI 2011 |