Return to Video

Palestra de Reconhecimento da Fala - Google e AAAI 2011

  • 0:01 - 0:03
    Obrigado, Franz.
  • 0:03 - 0:06
    O meu nome é Vincent Vanuk. Eu trabalho na
  • 0:06 - 0:08
    equipe de tecnologia da fala aqui, no Google,
  • 0:08 - 0:11
    e eu acho que gostaria de compartilhar
  • 0:11 - 0:15
    com vocês uma visão que tivemos ao
  • 0:15 - 0:18
    trabalhar com a tecnologia da fala no Google Scale.
  • 0:18 - 0:21
    Esta visão pode ser resumida basicamente como:
  • 0:21 - 0:28
    se nós quiséssemos construir uma máquina com um desempenho sobre-humano,
  • 0:28 - 0:30
    a primeira coisa que talvez devêssemos fazer
  • 0:30 - 0:31
    é livrarmo-nos dos seres humanos.
  • 0:31 - 0:32
    (o público ri)
  • 0:32 - 0:36
    Então, talvez você se pergunte (sendo essa a minha suposição)
  • 0:36 - 0:39
    Talvez você esteja se pensando: "Eu estou falando sobre um reconhecimento de fala
  • 0:39 - 0:42
    sobre-humano. Tudo o que sabemos é que
  • 0:42 - 0:45
    o reconhecimento de fala não é como o dos seres humanos ainda."
  • 0:45 - 0:47
    O ponto é que esse reconhecimento está ficando cada vez mais perto.
  • 0:47 - 0:50
    Vejam apenas um exemplo.
  • 0:50 - 0:55
    Imaginem que - um dos produtos é a busca por voz, de modo que seja
  • 0:55 - 0:57
    possível falar à ferramenta de busca o que você quer e ela vai buscar isso para você.
  • 0:57 - 1:00
    Você pode simplesmente falar. Então, imagine que seja possível falar para o seu telefone,
  • 1:00 - 1:03
    e gravar este . . .
  • 1:03 - 1:06
    este comando e tocá-lo novamente. Nós o tocamos novamente,
  • 1:06 - 1:09
    seja para você mesmo ou para a ferramenta de busca
  • 1:09 - 1:13
    que encontrarmos na pesquisa, certo? E nós pedimos a transcrição.
  • 1:13 - 1:16
    Não há a menor dúvida de que você vai
  • 1:16 - 1:19
    se sair muito melhor do que a ferramenta de reconhecimento da fala
  • 1:19 - 1:21
    em reconhecer a sua própria voz.
  • 1:22 - 1:28
    A situação é diferente quando se altera essa situação
  • 1:28 - 1:32
    e tocamos o áudio para um humano inocente.
  • 1:32 - 1:35
    Por humano inocente, me refiro a alguém que não conhece você,
  • 1:35 - 1:40
    que não necessariamente tem as mesmas referencias culturais que você,
  • 1:40 - 1:43
    que não vive na mesma vizinhança que você,
  • 1:43 - 1:44
    que não tem o mesmo contexto . . .
  • 1:46 - 1:47
    Na verdade, a situação se torna incerta.
  • 1:47 - 1:51
    Se você tocar a gravação uma vez para um usuário e então lhe pedir para transcrevê-la e
  • 1:51 - 1:56
    ele não vai se sair muito melhor do que a ferramenta de reconhecimento da fala.
  • 1:56 - 1:58
    Por que isso acontece?
  • 1:58 - 2:02
    De maneira simples, sem entrar em muitos detalhes, o reconhecimento da fala é
  • 2:02 - 2:04
    muito complexo. Existe um modelo de acústica e uma modelo em inglês.
  • 2:04 - 2:08
    O modelo de acústica é o que reconhece os sons
  • 2:08 - 2:13
    e ele ainda não tem o mesmo desempenho que os seres humanos ainda,
  • 2:13 - 2:16
    no que se refere ao modelo acústico. Na verdade, a fidelidade ainda não está
  • 2:16 - 2:22
    no nível de uma falante nativo humano.
  • 2:22 - 2:25
    Mas nós temos este modelo de idioma, e o modelo de idioma
  • 2:25 - 2:28
    é o que prediz quais palavras a pessoa está dizendo e
  • 2:28 - 2:31
    em que ordem ela vai dizer. Nós treinamos de maneira parecida com
  • 2:31 - 2:35
    uma máquina de tradução . . . Uma enorme, enorme coleção de escritos.
  • 2:35 - 2:39
    Nós treinamos com 240 bilhões de palavras no caso da busca por voz
  • 2:39 - 2:44
    e isso nos dá uma vantagem que um único usuário pode não ter.
  • 2:44 - 2:50
    Então, se um usuário inocente, um humano inocente, que não for do Canadá,
  • 2:50 - 2:53
    pode não saber como soletrar "Scatchwood".
  • 2:53 - 2:57
    Se uma pessoa não for de Nova York, ela pode não saber como
  • 2:57 - 2:59
    pronunciar "Schenectady, Nova York".
  • 2:59 - 3:01
    Eu mesmo não estou muito seguro de estar pronunciando isso corretamente agora.
  • 3:01 - 3:03
    (o público ri)
  • 3:03 - 3:05
    Mas essa vantagem faz a diferença.
  • 3:05 - 3:07
    Então, por que isso é um problema para nós?
  • 3:07 - 3:11
    Os seres humanos acordaram. Franz acabou de dizer que
  • 3:11 - 3:15
    as avaliações humanas mudam os volumes na transcrição.
  • 3:15 - 3:17
    O mesmo acontece com o reconhecimento da fala.
  • 3:17 - 3:21
    A verdade, o padrão, a regra de ouro -
  • 3:21 - 3:23
    o padrão dourado para o reconhecimento da fala é
  • 3:23 - 3:26
    a atuação humana. Nós temos alguns humanos transcrevendo estes
  • 3:26 - 3:29
    reconhecimento da fala e esta é a referência
  • 3:29 - 3:34
    contra nós mesmos. E se a referência for um pouquinho melhor
  • 3:34 - 3:37
    do que o sistema atual, então teremos um problema.
  • 3:37 - 3:43
    O outro problema é que, com o tipo de crescimento que
  • 3:43 - 3:45
    vimos em termos de pesquisa, nós estamos obtendo
  • 3:45 - 3:47
    muita informação fluindo pelo sistema.
  • 3:47 - 3:50
    Todo dia nós obtemos cerca de 2 anos de informação.
  • 3:50 - 3:54
    Não é possível nem sequer pensar em transcrever tudo isso.
  • 3:54 - 3:58
    Estas são a base de 27 idiomas.
  • 3:58 - 4:01
    A internacionalização é uma ênfase muito grande para nós
  • 4:01 - 4:04
    e estamos tentando expandir para todos os idiomas do mundo.
  • 4:04 - 4:07
    Então . . .
  • 4:07 - 4:09
    Isso é uma piada, mas . . .
  • 4:09 - 4:12
    Fred Jilinek é uma pessoa muito famosa no reconhecimento da fala.
  • 4:12 - 4:16
    Ele costumava dizer que toda vez que ele demitia um linguista, o nível de desempenho melhorava.
  • 4:16 - 4:17
    (o público ri)
  • 4:17 - 4:20
    Eu quero demitir todos os humanos.
  • 4:21 - 4:26
    Então, o objetivo principal para nós tem sido . . . o reconhecimento da fala,
  • 4:26 - 4:30
    como eu disse, é formada por dois componentes diferentes e estes dois componentes
  • 4:30 - 4:31
    meio que tentam compensar
  • 4:31 - 4:36
    as deficiências de cada um. Assim, o modelo acústico
  • 4:36 - 4:39
    pode compensar pela deficiência do modelo de idioma e vice-versa.
  • 4:39 - 4:43
    A maneira tradicional de fazer isso é por ter a Verdade
  • 4:43 - 4:47
    que é estabelecida por um transcritor humano. Este é o padrão dourado.
  • 4:47 - 4:50
    E o seu sistema é tido como referência contra a verdade.
  • 4:50 - 4:53
    O seu melhor sistema é comparado com a verdade e aí você tenta força-lo,
  • 4:53 - 4:55
    e aprender com esse objetivo.
  • 4:55 - 4:59
    Se não houver a verdade, você vai se dar mal.
  • 4:59 - 5:00
    Não haverá nada com o que comparar.
  • 5:01 - 5:06
    O truque aqui é que é possível trapacear, e
  • 5:06 - 5:10
    nós podemos dificultar artificialmente para que algumas parte do nosso sistema funcione.
  • 5:10 - 5:12
    Nós podemos enfraquecer algumas partes do nosso sistema.
  • 5:12 - 5:15
    Por exemplo, se eu enfraquecer o meu modelo de idiomas
  • 5:15 - 5:18
    o resultado é um sistema que é, na verdade . . .
  • 5:18 - 5:22
    menos potente e será possível compará-lo com o melhor sistema.
  • 5:22 - 5:26
    Se treinarmos nosso sistema e tentar melhorar o nosso modelo idiomático baseado nisso,
  • 5:26 - 5:27
    estaremos no caminho de algo melhor.
  • 5:27 - 5:30
    Então, o mesmo pode ser feito
  • 5:30 - 5:33
    com um modelo idiomático usando um modelo acústico enfraquecido
  • 5:33 - 5:37
    e, então, melhorar os nossos modelos idiomáticos. O resultado é que
  • 5:37 - 5:41
    teremos um sistema melhor, na esperança
  • 5:41 - 5:46
    de que este se torne um padrão dourado do qual poderemos nos aproveitar.
  • 5:47 - 5:48
    Então,
  • 5:50 - 5:52
    a mensagem é que existem maneiras de fazer isso
  • 5:52 - 5:56
    e sem a ajuda de um ser humano.
  • 5:58 - 6:03
    O aprendizado não-supervisionado não é novo, e tem sido realizado por
  • 6:03 - 6:06
    um período muito longo, sendo conduzido de modo que seja possível
  • 6:06 - 6:12
    realizar treinamentos, avaliações e ajustes completamente não-supervisionados,
  • 6:12 - 6:15
    sem o menor envolvimento humano. Um reconhecimento da fala distante.
  • 6:15 - 6:17
    Isso é novo e excitante. Essa é exatamente
  • 6:17 - 6:19
    o tipo de coisa que nos entusiasma
  • 6:19 - 6:23
    porque isso nos permite crescer - níveis de crescimento
  • 6:23 - 6:26
    que não eram possíveis alcançar antes.
  • 6:26 - 6:30
    E então, enquanto ainda não é possível obter uma realização sobre-humana
  • 6:30 - 6:38
    é possível que, por remover o limite das realizações humanas, talvez isso nos permita caminhar
  • 6:38 - 6:45
    mais rápido com o objetivo de obter a verdadeira performance humana que vemos.
  • 6:46 - 6:50
    Este era o meu pouquinho de sabedoria no qual estávamos trabalhando
  • 6:50 - 6:53
    recentemente e . . .
  • 6:53 - 6:59
    este é um projeto muito emocionante para nós e nós podemos
  • 6:59 - 7:02
    nos aprofundar mais no estudo citado.
Title:
Palestra de Reconhecimento da Fala - Google e AAAI 2011
Description:

Palestra da Google Tech (veja mais informação abaixo) 9 de agosto de 2011 Apresentado por Vincent Vanhoucke. RESUMO: A Google recebeu 100 participantes da conferência de 2011 para a Associação do Avança da Inteligência Artificial (AAAI - sigla em inglês) no nosso escritório em São Francisco. O programa apresentou uma palestra feita pelo Diretor de Pesquisas, Peter Norvig e varias palestras sobre projetos relevantes ao campo da inteligência artificial e das suas aplicações. Sobre o palestrante: Vincent Vanhoucke é um Cientista de Pesquisa na Google. Ele está liderando a pesquisa do modelo de acústica para o sistema de Busca por Voz da Google.

more » « less
Video Language:
English
Team:
Captions Requested
Duration:
07:06

Portuguese subtitles

Revisions Compare revisions

  • Revision 2 Edited (legacy editor)
    Renan Amorim dos Santos
  • Revision 1 Edited (legacy editor)
    Renan Amorim dos Santos