< Return to Video

cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

  • 0:06 - 0:09
    Existem aproximadamente 7.500 línguas
  • 0:09 - 0:11
    a serem faladas no planeta hoje.
  • 0:12 - 0:14
    Destas, estima-se
  • 0:14 - 0:18
    que cerca de 70%
    estão em risco de não sobreviver
  • 0:18 - 0:20
    até ao fim do século XXI.
  • 0:22 - 0:24
    Sempre que uma língua morre,
  • 0:25 - 0:27
    é como cortar uma ligação
  • 0:27 - 0:31
    que durou centenas ou milhares de anos,
  • 0:31 - 0:35
    com cultura, com história,
  • 0:35 - 0:38
    tradições, e conhecimento.
  • 0:39 - 0:42
    O linguista Kenneth Hale disse uma vez
  • 0:42 - 0:44
    que toda vez que uma língua morre,
  • 0:44 - 0:47
    é como lançar uma bomba atómica no Louvre.
  • 0:51 - 0:52
    A pergunta é,
  • 0:53 - 0:55
    por que é que as línguas morrem?
  • 0:58 - 1:00
    Talvez a resposta mais simples seja
  • 1:00 - 1:03
    que alguém possa imaginar
    governos autoritários
  • 1:03 - 1:05
    a impedir que as pessoas
    falassem o idioma nativo,
  • 1:06 - 1:10
    crianças a ser punidas
    por falarem a sua língua na escola,
  • 1:10 - 1:13
    ou o governo a fechar estações de rádio
  • 1:13 - 1:15
    do idioma da minoria.
  • 1:15 - 1:17
    Isso aconteceu definitivamente no passado,
  • 1:17 - 1:19
    e ainda acontece hoje, de certo modo.
  • 1:20 - 1:23
    Mas a resposta honesta
  • 1:23 - 1:27
    é que na maioria dos casos
    de extinção de uma língua,
  • 1:27 - 1:29
    é uma muito mais simples
  • 1:29 - 1:33
    e facílima resposta.
  • 1:34 - 1:36
    As línguas acabam extintas
  • 1:36 - 1:38
    porque não são passadas
  • 1:38 - 1:40
    de uma geração para a outra.
  • 1:42 - 1:44
    Cada vez que uma pessoa que fala
  • 1:44 - 1:46
    uma língua minoritária tem um filho,
  • 1:47 - 1:50
    passa por um dilema.
  • 1:51 - 1:53
    As pessoas perguntam-se:
  • 1:54 - 1:56
    "Será que ensino
    a minha língua para o meu filho,
  • 1:57 - 2:01
    ou ensino-lhe a língua da maioria?"
  • 2:01 - 2:03
    Essencialmente, essa é a ideia
  • 2:04 - 2:06
    que lhes passa pela cabeça.
  • 2:07 - 2:08
    Em que, por um lado,
  • 2:10 - 2:12
    cada vez que nas suas vidas
  • 2:12 - 2:14
    que tiveram a oportunidade
    de usar a língua nativa
  • 2:15 - 2:18
    para comunicação,
    para aceder a cultura tradicional,
  • 2:20 - 2:22
    uma pedra é colocada no lado esquerdo.
  • 2:22 - 2:24
    E cada vez que se encontram
  • 2:24 - 2:26
    incapacitados de usarem a língua nativa,
  • 2:26 - 2:28
    e tiveram de se relegar
    à língua da maioria,
  • 2:28 - 2:30
    uma pedra é colocada no lado direito.
  • 2:32 - 2:35
    Agora, pela força e pela dignidade
  • 2:35 - 2:37
    de ser capaz de falar a língua materna,
  • 2:37 - 2:39
    as pedras do lado esquerdo
    costumam ser mais pesadas.
  • 2:39 - 2:42
    Mas com pedras
    suficientes no lado direito,
  • 2:43 - 2:45
    eventualmente a balança inverte
  • 2:45 - 2:47
    e quando uma pessoa toma a decisão
  • 2:47 - 2:49
    de ensinar a sua língua,
  • 2:49 - 2:51
    eles veem a própria linguagem
  • 2:51 - 2:53
    mais como um fardo do que uma benção.
  • 2:56 - 2:59
    A pergunta é, como revertemos isto?
  • 2:59 - 3:02
    Primeiro, precisamos pensar
    sobre o facto de,
  • 3:04 - 3:05
    que para qualquer língua existente
  • 3:05 - 3:08
    existem esferas sociais
    onde podem ser usadas.
  • 3:08 - 3:09
    Então, qualquer língua
  • 3:09 - 3:11
    que é uma língua materna falada hoje,
  • 3:11 - 3:13
    pode ser usada na família de alguém.
  • 3:14 - 3:17
    Um número menor de línguas
    podem ser usadas dentro de uma comunidade,
  • 3:17 - 3:19
    um número ainda menor, talvez numa região,
  • 3:19 - 3:22
    e um pequeno punhado de línguas,
  • 3:23 - 3:25
    podem ser usados
    na comunicação internacional.
  • 3:26 - 3:29
    E mesmo através destas esferas,
  • 3:29 - 3:32
    existe a pergunta se alguém
    é capaz de usar a sua língua,
  • 3:32 - 3:36
    para propósitos
    educacionais ou de negócio,
  • 3:36 - 3:38
    ou tecnológicos?
  • 3:39 - 3:42
    Então, para explicar melhor
  • 3:43 - 3:45
    o que estou a falar aqui,
  • 3:45 - 3:46
    vou usar uma anedota.
  • 3:48 - 3:50
    Vamos dizer que está prestes a ir
  • 3:50 - 3:52
    para as suas férias de sonho na Índia,
  • 3:53 - 3:56
    e tem uma escala
    de oito horas em Istambul.
  • 3:58 - 4:01
    Agora, não estava necessariamente
    a pensar em visitar a Turquia,
  • 4:01 - 4:04
    mas com a escala, e com seu amigo turco
  • 4:04 - 4:06
    a falar-lhe de um restaurante incrível,
  • 4:06 - 4:07
    que não é longe do aeroporto,
  • 4:08 - 4:11
    você diz: "Sabes, se calhar,
    passo por lá durante a escala."
  • 4:11 - 4:13
    Então, sai do aeroporto,
  • 4:14 - 4:15
    vai até o restaurante,
  • 4:15 - 4:17
    entregam-lhe o menu,
  • 4:17 - 4:19
    e está todo em turco.
  • 4:20 - 4:23
    Agora, vamos supor, para este exemplo,
  • 4:23 - 4:24
    que não fala turco.
  • 4:25 - 4:27
    O que faz?
  • 4:28 - 4:30
    Bem, na melhor das hipóteses,
  • 4:30 - 4:32
    encontra alguém, talvez,
    que fala a sua língua materna,
  • 4:32 - 4:34
    alemão, inglês, etc.
  • 4:36 - 4:38
    Mas vamos dizer
    que não é o seu dia de sorte
  • 4:38 - 4:41
    e ninguém no restaurante
    fala alemão ou inglês.
  • 4:42 - 4:43
    Então, o que faz?
  • 4:43 - 4:46
    Se for como eu,
    e imagino que a maioria aqui seja,
  • 4:46 - 4:48
    provavelmente recorre
    a uma solução tecnológica,
  • 4:50 - 4:52
    tradutor automático ou dicionário digital,
  • 4:53 - 4:54
    procura cada palavra individualmente,
  • 4:54 - 4:58
    e eventualmente faz o seu pedido
    de uma refeição turca deliciosa.
  • 5:00 - 5:03
    Agora, vamos imaginar outro cenário:
  • 5:04 - 5:06
    você é o orador nativo
    de uma língua minoritária.
  • 5:07 - 5:09
    Imaginemos, baixo sórbio.
  • 5:09 - 5:11
    Baixo sórbio é uma língua ameaçada
  • 5:11 - 5:12
    falada aqui na Alemanha,
  • 5:12 - 5:17
    a cerca de 130 quilómetros
    a sudeste daqui,
  • 5:18 - 5:21
    e que é falada apenas por alguns
    milhares de pessoas, a maioria idosos.
  • 5:23 - 5:25
    Imaginemos que
    a sua língua materna é o baixo sórbio.
  • 5:25 - 5:27
    Chega ao restaurante.
  • 5:27 - 5:29
    Claro que, a probabilidade
    de encontrar alguém
  • 5:29 - 5:31
    que fale a sua língua no restaurante
    é extraordinariamente baixa.
  • 5:32 - 5:36
    Mas, de novo, pode simplesmente
    recorrer a uma solução tecnológica.
  • 5:37 - 5:39
    Contudo, para a sua língua-mãe,
  • 5:39 - 5:42
    essas soluções tecnológicas não existem.
  • 5:42 - 5:45
    Precisaria depender do alemão ou do inglês
  • 5:45 - 5:47
    como sua língua auxiliar para o turco.
  • 5:49 - 5:52
    Claro que acaba por conseguir
    a sua deliciosa refeição turca,
  • 5:52 - 5:55
    mas começa a pensar
    no quão difícil isso seria
  • 5:55 - 5:57
    se você fosse o seu avô,
    que não falava alemão de todo.
  • 5:58 - 6:00
    Isto é só uma pequena situação,
  • 6:00 - 6:05
    mas colocaria uma pedra
    no lado direito da balança,
  • 6:05 - 6:07
    e faria-o talvez pensar
  • 6:07 - 6:10
    que quando tiver um filho
    ou quando tiver outro filho,
  • 6:11 - 6:15
    o fardo que carregou
    por ter passado por isto,
  • 6:15 - 6:17
    talvez não valha a pena
    para manter a sua língua-mãe.
  • 6:19 - 6:21
    E imagine se fosse uma situação
  • 6:21 - 6:26
    de importância consideravelmente maior,
  • 6:26 - 6:28
    como, por exemplo, estar num hospital.
  • 6:33 - 6:36
    Neste ponto podemos ajudar...
  • 6:37 - 6:40
    por nós, quero dizer eu e você
    nesta sala podemos ajudar.
  • 6:41 - 6:44
    Temos as ferramentas para ajudar com isto.
  • 6:45 - 6:47
    Se as ferramentas tecnológicas
    estiverem disponíveis
  • 6:47 - 6:50
    a falantes de línguas
    minoritárias e ignoradas,
  • 6:51 - 6:54
    colocamos um dedinho na balança,
    no lado esquerdo da balança.
  • 6:54 - 6:56
    Alguém não precisa
    necessariamente de pensar
  • 6:56 - 6:58
    que precisam de depender
    de uma língua minoritária
  • 6:58 - 7:00
    para poderem interagir
    com o mundo externo,
  • 7:00 - 7:05
    pois isso abre as esferas sociais
  • 7:05 - 7:06
    um pouco mais ainda.
  • 7:08 - 7:10
    Claro que, a solução ideal
  • 7:10 - 7:13
    é que tenhamos tradução automática
    para todas as línguas a nível mundial.
  • 7:13 - 7:17
    Mas, infelizmente, isso não é fazível.
  • 7:17 - 7:20
    Tradução automática requer
    grandes excertos de texto,
  • 7:20 - 7:21
    e para muitas destas línguas
  • 7:21 - 7:23
    ameaçadas ou sem muita informação,
  • 7:23 - 7:25
    esses dados não estão disponíveis.
  • 7:26 - 7:28
    Alguns nem são frequentemente escritos,
  • 7:29 - 7:33
    por isso conseguir dados suficientes para
    um sistema de tradução automática
  • 7:33 - 7:34
    é improvável.
  • 7:34 - 7:38
    Mas o que temos disponível
    são dados léxicos.
  • 7:40 - 7:43
    Pelo trabalho de muitos linguistas
  • 7:43 - 7:45
    nas últimas centenas de anos,
  • 7:48 - 7:50
    dicionários e gramáticas foram produzidas
  • 7:50 - 7:52
    para a maioria das línguas do mundo.
  • 7:54 - 7:57
    Mas, infelizmente,
    a maioria desses trabalhos
  • 7:57 - 8:01
    não está acessível
    ou disponível para o mundo,
  • 8:01 - 8:04
    ainda mais para quem fala
    estas línguas minoritárias.
  • 8:05 - 8:06
    E não é um processo intencional,
  • 8:06 - 8:08
    muitas vezes é simplesmente porque
  • 8:08 - 8:11
    a produção inicial
    destes dicionários era pequena,
  • 8:11 - 8:13
    e as poucas cópias
  • 8:13 - 8:16
    estão a ganhar bolor numa biblioteca
    de universidade algures.
  • 8:18 - 8:21
    Mas temos a habilidade
    de reunir estes dados
  • 8:21 - 8:23
    e torná-los acessíveis ao mundo.
  • 8:24 - 8:28
    A Fundação Wikimedia
    é uma das melhores organizações,
  • 8:28 - 8:31
    eu diria a melhor organização do mundo,
  • 8:31 - 8:33
    para reunir dados disponíveis
  • 8:33 - 8:37
    para a maioria da população deste planeta.
  • 8:39 - 8:40
    Então, vamos trabalhar nisso.
  • 8:41 - 8:43
    Para explicar um pouco
  • 8:43 - 8:45
    o que estivemos a fazer sobre isso,
  • 8:45 - 8:48
    gostaria de apresentar
    a minha organização, a PanLex,
  • 8:49 - 8:52
    que é uma organização que almeja
  • 8:52 - 8:54
    reunir dados léxicos para este propósito.
  • 8:55 - 8:57
    Começámos há cerca de 12 anos
  • 8:57 - 9:00
    como um projeto de pesquisa
    da Universidade de Washington.
  • 9:00 - 9:01
    A ideia por trás disto
  • 9:01 - 9:04
    era mostrar que as traduções inferidas
  • 9:04 - 9:07
    poderiam criar um dispositivo
    de tradução eficiente,
  • 9:07 - 9:09
    essencialmente um dispositivo
    de tradução léxica.
  • 9:09 - 9:12
    Este é um exemplo dos dados da PanLex.
  • 9:13 - 9:14
    Isto mostra como se traduz
  • 9:14 - 9:18
    da palavra "ev" em turco,
    que significa casa,
  • 9:18 - 9:20
    para baixo sórbio,
  • 9:20 - 9:21
    a língua a que me referi antes.
  • 9:21 - 9:23
    É improvável encontrarmos
  • 9:24 - 9:26
    um dicionário de turco para baixo sórbio,
  • 9:26 - 9:28
    mas passando isto por muitas
  • 9:28 - 9:30
    e muitas línguas intermédias diferentes,
  • 9:30 - 9:33
    podemos criar traduções eficientes.
  • 9:34 - 9:37
    Uma vez que isto foi mostrado
    nos projetos de pesquisa,
  • 9:37 - 9:40
    o fundador da PanLex, Dr. Jonathan Pool,
  • 9:41 - 9:44
    decidiu: "Por que não
    fazer simplesmente isto?"
  • 9:44 - 9:45
    Fundou uma empresa sem fins lucrativos
  • 9:45 - 9:49
    para reunir o máximo de dados léxicos
    possível, e torná-los acessíveis.
  • 9:49 - 9:51
    E é isso o que estamos a fazer há 12 anos.
  • 9:51 - 9:55
    Durante esse tempo, reunimos milhares
    e milhares de dicionários,
  • 9:55 - 9:56
    extraímos os dados léxicos deles
  • 9:56 - 10:01
    e elaborámos uma base de dados
    que permite inferir traduções léxicas
  • 10:01 - 10:04
    por entre qualquer...
  • 10:04 - 10:06
    A nossa contagem actual
    é aproximadamente 5.500
  • 10:06 - 10:08
    das 7.500 línguas do mundo.
  • 10:09 - 10:11
    E, claro,
  • 10:11 - 10:12
    estamos sempre a tentar aumentar isto
  • 10:12 - 10:15
    e expandir os dados
    de cada língua individual.
  • 10:17 - 10:21
    Então, a próxima pergunta é,
  • 10:22 - 10:26
    o que podemos fazer
    para trabalharmos juntos nisso?
  • 10:27 - 10:29
    Nós, na PanLex, estamos
    extremamente entusiasmados
  • 10:29 - 10:31
    em assistir ao desenvolvimento
    de dados léxicos
  • 10:31 - 10:34
    em que a Wikidata trabalhou recentemente.
  • 10:35 - 10:38
    É fascinante ver organizações
  • 10:38 - 10:39
    que estão a trabalhar
    em esferas muito similares,
  • 10:39 - 10:41
    mas em aspectos diferentes.
  • 10:42 - 10:44
    E estamos
    extremamente entusiasmados em ver
  • 10:45 - 10:46
    os resultados disso da Wikidata.
  • 10:46 - 10:51
    E também esperamos
    colaborar com a Wikidata.
  • 10:54 - 10:56
    Penso que as habilidades especiais
  • 10:56 - 10:58
    que desenvolvemos
    durante os últimos 12 anos,
  • 10:58 - 11:02
    não só a reunir dados léxicos,
    mas a elaborar bases de dados,
  • 11:02 - 11:04
    podem ser extremamente úteis
    para a Wikidata.
  • 11:04 - 11:07
    E por outro lado, penso que...
  • 11:08 - 11:11
    Estou especialmente entusiasmado
    pela a capacidade
  • 11:12 - 11:15
    da Wikidata
    em fazer crowdsourcing de dados.
  • 11:15 - 11:18
    Na PanLex atualmente
    as nossas fontes são inteiramente
  • 11:18 - 11:21
    provenientes de meios impressos
    ou outros tipos,
  • 11:21 - 11:23
    mas não temos nada em crowdsourcing.
  • 11:23 - 11:25
    Não temos simplesmente
    infraestrutura disponível para isso,
  • 11:25 - 11:27
    e claro, a Fundação Wikimedia
  • 11:27 - 11:29
    é referência mundial em crowdsourcing.
  • 11:31 - 11:34
    Eu espero realmente ver em como podemos
  • 11:34 - 11:36
    juntar estas habilidades.
  • 11:39 - 11:42
    Mas no geral, penso que
    a ideia principal a retirar disto
  • 11:42 - 11:44
    é que enquanto estávamos
    a trabalhar nestas coisas,
  • 11:44 - 11:45
    é minúcioso.
  • 11:45 - 11:48
    Estamos sentados à procura
    de formas gramaticais,
  • 11:48 - 11:52
    ou a folhear dicionários,
    dicionários antigos,
  • 11:52 - 11:54
    ou às vezes dicionários recém-publicados,
  • 11:54 - 11:57
    e a ver as formas escritas das palavras,
  • 11:57 - 12:00
    e parece tudo muito específico.
  • 12:00 - 12:02
    Mas ocasionalmente,
    precisamos de nos lembrar
  • 12:02 - 12:03
    de dar um passo atrás
  • 12:03 - 12:05
    e mesmo que o que fazemos pareça
  • 12:06 - 12:09
    algo mundano por vezes,
  • 12:10 - 12:12
    este trabalho é extremamente importante.
  • 12:13 - 12:16
    Essa, na minha opinião, é a melhor maneira
  • 12:16 - 12:19
    de apoiarmos línguas ameaçadas
  • 12:19 - 12:21
    e garantirmos que a diversidade
    linguística do planeta
  • 12:21 - 12:26
    seja preservada
    até ao fim do século, ou além.
  • 12:26 - 12:30
    É inteiramente possível
    que o trabalho que fazemos hoje
  • 12:30 - 12:33
    possa resultar em línguas
  • 12:33 - 12:35
    a ser preservadas e passadas adiante,
  • 12:35 - 12:37
    sem se tornarem extintas.
  • 12:39 - 12:41
    Apenas para recordar
  • 12:41 - 12:43
    que mesmo que esteja sentado
    em frente ao computador
  • 12:43 - 12:44
    editando uma entrada individual
  • 12:44 - 12:50
    e adicionando formas de dados
    de uma língua minoritária,
  • 12:50 - 12:52
    para cada um dos substantivos,
  • 12:52 - 12:55
    a pequena tarefa que está a fazer agora,
  • 12:55 - 12:58
    pode ser parcialmente responsável
  • 12:58 - 12:59
    em garantir que uma língua sobreviva
  • 12:59 - 13:01
    até ao final do século ou além.
  • 13:03 - 13:04
    Muito obrigado.
  • 13:04 - 13:06
    E gostaria de abrir o painel a perguntas.
  • 13:06 - 13:08
    (Aplausos)
  • 13:24 - 13:25
    (Pessoa 1) Obrigada.
  • 13:25 - 13:27
    - Obrigada pela sua palestra.
    - Obrigado.
  • 13:27 - 13:29
    (Pessoa 1) Tenho uma pergunta
    sobre dicionários.
  • 13:29 - 13:31
    Disse que trabalha
    com dicionários impressos?
  • 13:31 - 13:32
    - Sim.
    - Minha pergunta é
  • 13:32 - 13:35
    o que recolhe desses dicionários,
  • 13:35 - 13:38
    e se há algum direito de autor
    com que precisa de lidar?
  • 13:38 - 13:41
    Previ que esta seria a primeira pergunta.
  • 13:41 - 13:43
    (Risadas)
  • 13:43 - 13:46
    Primeiro, para a PanLex,
  • 13:46 - 13:50
    temos, de acordo
    com os recursos legais que consultámos,
  • 13:53 - 13:57
    embora a disposição e organização
    do dicionário possa ter esses direitos,
  • 13:57 - 14:03
    a tradução por si mesma
    não é passível de ter direitos de autor.
  • 14:04 - 14:06
    Um bom exemplo para isto é,
  • 14:06 - 14:11
    uma lista telefónica, pelo menos de acordo
    com a legislação dos Estados Unidos,
  • 14:11 - 14:12
    tem direitos de autor.
  • 14:12 - 14:17
    Mas dizer que o número
    da pessoa X são D dígitos
  • 14:17 - 14:19
    não tem direitos de autor.
  • 14:22 - 14:23
    Então, tal como disse,
  • 14:23 - 14:25
    de acordo com nossos
    representantes legais,
  • 14:25 - 14:27
    lidamos assim com isto.
  • 14:27 - 14:31
    Mas mesmo que isto não seja
    um argumento legal suficiente,
  • 14:31 - 14:32
    uma coisa importante para lembrar
  • 14:32 - 14:38
    é que a maioria destes dados léxicos
  • 14:39 - 14:41
    não têm direitos de autor.
  • 14:41 - 14:43
    Um número significativo deles
    não têm direitos de autor
  • 14:43 - 14:44
    e podem ser usados livremente.
  • 14:44 - 14:47
    E outra coisa, por exemplo,
    é que frequentemente,
  • 14:47 - 14:50
    se estamos a trabalhar
    com um dicionário recém-impresso,
  • 14:50 - 14:52
    ao invés de tentar
    escaneá-lo e digitalizá-lo,
  • 14:52 - 14:53
    nós apenas mandamos
    um e-mail para o autor.
  • 14:53 - 14:58
    E o que acontece é na maioria das vezes
    os linguistas ficarem entusiasmados
  • 14:58 - 15:00
    em tornarem os seus dados acessíveis.
  • 15:00 - 15:01
    Algo como: "Claro, por favor,
  • 15:01 - 15:03
    coloque tudo aí e faça isso acessível."
  • 15:04 - 15:05
    É extremamente raro que...
  • 15:06 - 15:08
    Então, como disse, temos,
    de acordo com nossas opiniões legais,
  • 15:08 - 15:09
    a possibilidade,
  • 15:09 - 15:11
    mas mesmo que não queira aceitar isso,
  • 15:11 - 15:16
    é muito fácil conseguir
    dados acessíveis publicamente.
  • 15:26 - 15:28
    - (Pessoa 2) Obrigado. Olá.
    - Olá.
  • 15:28 - 15:30
    Pode falar um pouco mais
  • 15:30 - 15:35
    sobre como a pessoa
    que fala baixo sórbio acessará os dados.
  • 15:35 - 15:38
    Especificamente como é que
    esta informação irá chegar-lhe
  • 15:38 - 15:41
    e como isso irá convencê-la
  • 15:41 - 15:43
    a usar...
  • 15:43 - 15:45
    Ótima pergunta e isto é uma das coisas
  • 15:45 - 15:46
    que tenho vindo a pensar muito, também,
  • 15:46 - 15:50
    porque penso que quando falamos
    sobre acesso de dados
  • 15:50 - 15:53
    há na verdade múltiplas etapas.
  • 15:53 - 15:56
    Uma, claro, é a preservação de dados,
    garantindo que os dados não desaparecem.
  • 15:56 - 15:59
    Segundo, é fazer com que
    seja interoperável
  • 15:59 - 16:02
    e possa ser usado.
  • 16:02 - 16:05
    E terceiro é garantir
    que esteja disponível.
  • 16:06 - 16:07
    No caso da PanLex,
  • 16:07 - 16:10
    temos uma API que pode ser usada,
  • 16:10 - 16:12
    mas, claro, não pode ser usada
    por um utilizador final.
  • 16:12 - 16:15
    Mas também desenvolvemos interfaces.
  • 16:16 - 16:20
    E também, por exemplo,
    se aceder a translate.panlex.org
  • 16:20 - 16:23
    pode fazer traduções
    na nossa base de dados.
  • 16:23 - 16:26
    Se quiser brincar com a API,
    aceda a dev.panlex.org,
  • 16:26 - 16:29
    e encontrará muitas coisas da API,
    ou aceda a api.panlex.org.
  • 16:31 - 16:33
    Mas há também outro passo,
  • 16:33 - 16:37
    que é mesmo que torne
    os seus dados completamente acessíveis
  • 16:37 - 16:41
    com ferramentas
    que sejam super úteis para o acesso,
  • 16:41 - 16:43
    se não promover as ferramentas,
  • 16:43 - 16:45
    então as pessoas
    não serão capazes de usá-las.
  • 16:45 - 16:47
    E isso, sinceramente, é...
  • 16:49 - 16:51
    uma coisa de que não se fala o suficiente,
  • 16:51 - 16:53
    e eu não tenho uma boa resposta para isso.
  • 16:53 - 16:55
    Como garantimos que...
  • 16:55 - 16:57
    por exemplo, eu só recentemente,
  • 16:57 - 17:00
    há alguns anos atrás,
    tomei conhecimento da Wikidata
  • 17:00 - 17:02
    e é exatamente o tipo de coisa
    com que fico entusiasmado.
  • 17:03 - 17:07
    Então, como nos promovemos para os outros?
  • 17:07 - 17:09
    Vou deixar esta pergunta em aberto.
  • 17:09 - 17:11
    Como disse, não tenho uma boa resposta.
  • 17:11 - 17:13
    Mas claro, para fazermos isto,
  • 17:13 - 17:15
    precisamos de completar
    as primeiras etapas.
  • 17:22 - 17:25
    (Pessoa 3) Se quisermos
    ter tradução automática,
  • 17:25 - 17:28
    não precisamos de uma memória de tradução?
  • 17:28 - 17:31
    Não sei se as palavras
  • 17:31 - 17:33
    que colocamos na Wikidata,
  • 17:33 - 17:37
    estas pequenas frases
    que colocamos na Wikidata,
  • 17:37 - 17:41
    como itens normais da Wikidata
    ou como lexemas da Wikidata,
  • 17:41 - 17:44
    são suficientes para fazer
    uma tradução adequada.
  • 17:44 - 17:47
    Precisamos de frases inteiras,
    por exemplo, para...
  • 17:47 - 17:48
    (Benjamin) Sim, realmente.
  • 17:49 - 17:51
    (Pessoa 3) E onde conseguimos
    esta estrutura de dados?
  • 17:51 - 17:55
    Não tenho certeza, se atualmente,
  • 17:55 - 18:00
    a Wikidata é capaz de lidar
    com isto de forma adequada,
  • 18:00 - 18:03
    com a questão da memória de tradução,
  • 18:04 - 18:06
    translatewiki.net,
  • 18:06 - 18:09
    para entrar no limiar da...
  • 18:12 - 18:15
    Devemos fazer algo
    a respeito disso, ou devemos...
  • 18:15 - 18:17
    Sim, e agradeço
    verdadeiramente a sua pergunta.
  • 18:17 - 18:19
    Falei disso superficialmente antes,
  • 18:19 - 18:21
    mas adoraria reiterar.
  • 18:21 - 18:25
    Esta é a razão principal do porquê
    da PanLex operar com dados léxicos
  • 18:25 - 18:27
    e o porquê
    de me empolgar com dados léxicos,
  • 18:27 - 18:30
    ao contrário de...
    não ao contrário, mas como complemento
  • 18:30 - 18:35
    aos motores de tradução automática
    e à tradução automática em geral.
  • 18:36 - 18:39
    Como disse, a tradução automática
    requer um tipo específico de dados,
  • 18:40 - 18:43
    e esses dados não estão disponíveis
    para a maior parte das línguas mundiais.
  • 18:43 - 18:45
    Para a grande maioria
    das línguas mundiais,
  • 18:45 - 18:47
    isso simplesmente não está disponível.
  • 18:47 - 18:48
    Mas isso não significa
    que devemos desistir.
  • 18:49 - 18:50
    Porquê?
  • 18:51 - 18:54
    Se eu precisar de traduzir
    o menu turco do restaurante,
  • 18:55 - 18:59
    a tradução léxica será provavelmente
    uma ferramenta excepcional para isto.
  • 18:59 - 19:02
    Não estou a dizer
    que pode usar tradução léxica
  • 19:02 - 19:05
    para ter um parágrafo perfeito
    ao traduzir um parágrafo.
  • 19:05 - 19:07
    Quando digo tradução léxica,
    digo palavra para palavra,
  • 19:07 - 19:10
    e traduções palavra para palavra
    podem ser extremamente úteis,
  • 19:12 - 19:15
    é engraçado pensar nisto,
    mas não tínhamos acesso
  • 19:15 - 19:17
    a tradução automática de qualidade.
  • 19:17 - 19:20
    Ninguém tinha acesso
    a isso até recentemente.
  • 19:20 - 19:24
    E sobrevivíamos com dicionários,
  • 19:24 - 19:28
    e são um recurso incrivelmente bom.
  • 19:28 - 19:31
    Os dados estão disponíveis,
    então por que não tornar disponível
  • 19:31 - 19:34
    para o mundo em geral
    e para os oradores dessas línguas?
  • 19:36 - 19:39
    (Pessoa 4) Olá,
    que mecanismos tem ao dispor
  • 19:39 - 19:41
    para quando a comunidade... estou aqui.
  • 19:41 - 19:43
    - Onde está? Ok, certo.
    - (Pessoa 4) Sim, desculpe. (risos)
  • 19:43 - 19:45
    ...quando a própria comunidade
  • 19:45 - 19:47
    não quiser parte dos seus dados na PanLex?
  • 19:47 - 19:49
    Ótima pergunta.
  • 19:50 - 19:52
    A forma como lidamos com isso
  • 19:52 - 19:56
    é que se um dicionário foi publicado,
    e estiver disponível publicamente,
  • 19:57 - 19:58
    é uma boa indicação.
  • 19:59 - 20:02
    Se o puder comprar numa loja
    ou numa biblioteca de uma universidade,
  • 20:02 - 20:05
    ou numa biblioteca pública
    que qualquer um pode aceder.
  • 20:05 - 20:08
    Isto é uma boa indicação
    que essa decisão foi tomada.
  • 20:08 - 20:12
    (Pessoa 4) [inaudível]
  • 20:16 - 20:18
    (Pessoa 5) Por favor, Kimberly,
    pode falar para o microfone?
  • 20:19 - 20:20
    Pode repetir?
  • 20:20 - 20:23
    (Pessoa 4) Os linguistas nem sempre têm
    a permissão da comunidade.
  • 20:23 - 20:24
    Para publicar coisas,
  • 20:24 - 20:28
    frequentemente publicam coisas
    sem o consentimento da comunidade.
  • 20:28 - 20:30
    E isso é totalmente verdade.
  • 20:30 - 20:33
    Eu diria que é um...
  • 20:33 - 20:34
    Que acontece.
  • 20:34 - 20:37
    Eu diria que acontece
    numa minoria de casos,
  • 20:37 - 20:41
    limitado geralmente à América do Norte,
  • 20:41 - 20:43
    mas às vezes também
    com línguas da América do Sul.
  • 20:45 - 20:46
    É algo que temos de levar em conta.
  • 20:46 - 20:49
    Se recebêssemos notificação, por exemplo,
  • 20:49 - 20:52
    de que os dados que estão na PanLex
  • 20:52 - 20:56
    não deveriam ser acedidos
    pelo resto do mundo,
  • 20:56 - 20:58
    então, é claro que removeríamos.
  • 20:58 - 20:59
    (Pessoa 4) Boa, boa.
  • 21:01 - 21:02
    Claro, que isso não significa
  • 21:02 - 21:04
    que iremos seguir
    as regras de direito de autor,
  • 21:04 - 21:07
    mas que vamos ouvir
    as comunidades tradicionais,
  • 21:07 - 21:08
    e essa é a diferença principal.
  • 21:08 - 21:10
    (Pessoa 4) Sim, era a isso que me referia.
  • 21:15 - 21:17
    Isso leva-nos a um ponto interessante
  • 21:17 - 21:18
    que é
  • 21:19 - 21:22
    às vezes uma grande pergunta
    para quem fala por aquela língua.
  • 21:23 - 21:28
    Tive uma experiência ao visitar
    o sudoeste americano
  • 21:28 - 21:30
    e ao trabalhar com alguns grupos,
  • 21:30 - 21:32
    que trabalhavam com indígenas,
    as línguas do "Pueblo" (povo).
  • 21:36 - 21:38
    Há aproximadamente
  • 21:38 - 21:40
    seis idiomas do Pueblo (povo),
    dependendo de como os divide,
  • 21:40 - 21:42
    faladas naquela região.
  • 21:42 - 21:44
    Mas estão divididos
    em 18 Pueblos diferentes
  • 21:44 - 21:47
    e cada um
    tem o seu próprio governo tribal,
  • 21:47 - 21:50
    e cada governo
    pode ter uma opinião diferente
  • 21:50 - 21:54
    sobre se a sua língua estar acessível
    ou não a estrangeiros.
  • 21:57 - 21:58
    Por exemplo, o Pueblo Zuni,
  • 21:58 - 22:01
    é um Pueblo único que fala o idioma Zuni.
  • 22:03 - 22:05
    E eles gostam que a sua língua
    esteja por todo o lado,
  • 22:05 - 22:08
    põe-na nos sinais
    de trânsito e tudo, é ótimo.
  • 22:08 - 22:11
    Mas para algumas das outras línguas,
  • 22:11 - 22:13
    pode ter um grupo que diz:
  • 22:13 - 22:16
    "Sim, não queremos a nossa língua
    acedida por estrangeiros."
  • 22:16 - 22:19
    Mas quando temos o Pueblo vizinho
    que fala a mesma língua e dizem:
  • 22:19 - 22:22
    "Queremos mesmo que a nossa língua
    esteja acessível a estrangeiros
  • 22:22 - 22:24
    ao usar estas ferramentas tecnológicas,
  • 22:24 - 22:27
    porque queremos
    que a nossa língua perdure."
  • 22:27 - 22:29
    Isso traz-nos uma questão
    ética bastante interessante.
  • 22:29 - 22:32
    Porque, se por defeito diz:
  • 22:32 - 22:35
    "Certo, vou removê-la
    porque o grupo diz que a deveria remover."
  • 22:35 - 22:37
    não está também
    a ignorar o segundo grupo
  • 22:37 - 22:39
    porque o primeiro
    quer remover as coisas?
  • 22:39 - 22:43
    Acho que é uma pergunta
    que não tem uma resposta fácil.
  • 22:43 - 22:45
    Mas diria que,
    pelo menos em relação à PanLex.
  • 22:45 - 22:49
    E oficialmente, ainda
    não passámos por isto,
  • 22:49 - 22:50
    que eu tenha conhecimento.
  • 22:51 - 22:53
    Agora, isso pode ser
    parcialmente porque...
  • 22:54 - 22:55
    voltando à pergunta,
  • 22:56 - 22:58
    talvez precisemos
    de nos promover um pouco mais.
  • 22:59 - 23:02
    Mas, no geral, até onde sei,
  • 23:02 - 23:04
    isto não aconteceu.
  • 23:04 - 23:07
    Mas o nosso plano para isto
  • 23:07 - 23:11
    é se a comunidade diz que não quer
    os seus dados na nossa base de dados,
  • 23:11 - 23:12
    então removemos.
  • 23:12 - 23:15
    (Pessoa 4) Porque aconteceu isso
    na Wikidata e na Wikipedia...
  • 23:15 - 23:16
    - Aconteceu?
    - ...nos comentários.
  • 23:16 - 23:17
    - A Sério?
    - Foi um problema.
  • 23:17 - 23:21
    Sim, consigo imaginar especialmente
    nos comentários de fotos ou certas coisas.
  • 23:21 - 23:22
    (Pessoa 4) Correto.
  • 23:27 - 23:33
    (Pessoa 5) Olá, tenho uma pergunta
    sobre o lado crowdsourcing disto.
  • 23:34 - 23:37
    Na medida em que se pede para a comunidade
  • 23:37 - 23:40
    para anotar ou adicionar dados
    num conjunto de dados,
  • 23:40 - 23:44
    uma das coisas
    que é um pouco intimidadora,
  • 23:45 - 23:49
    como editor, consigo olhar apenas
    para o que está em falta.
  • 23:49 - 23:53
    Mas se vou passar tempo
    com as coisas, tendo ideias,
  • 23:54 - 23:57
    há uma lista de itens de alta prioridade,
  • 23:58 - 24:01
    que penso que seja muito
    motivadora nesse aspecto.
  • 24:01 - 24:04
    Fiquei curioso em saber
    se têm um sistema
  • 24:04 - 24:08
    em que, essencialmente,
    sabem quais as lacunas nos próprios dados,
  • 24:08 - 24:12
    e em que têm evidência linguística
    e sabem quais são aqueles
  • 24:12 - 24:16
    em que se tivéssemos anotado,
    seriam impulsionadores de alto impacto.
  • 24:16 - 24:17
    Então posso imaginar
  • 24:18 - 24:21
    que ter o lexema
    para "casa" é muito impactante,
  • 24:21 - 24:25
    já o lexema de um dado
    ou outro não seja tanto.
  • 24:25 - 24:29
    Mas fiquei curioso
    se têm isso, e se é algo
  • 24:30 - 24:35
    que possa ser usado para conduzir
    os esforços da comunidade.
  • 24:36 - 24:37
    Ótima pergunta.
  • 24:37 - 24:41
    Uma coisa que a Wikidata tem bastante...
  • 24:41 - 24:45
    perdão, a PanLex,
    tem muitas Listas de Swadesh.
  • 24:45 - 24:48
    Aparentemente temos a maior coleção
    de Listas de Swadesh do mundo,
  • 24:48 - 24:49
    o que é interessante.
  • 24:49 - 24:50
    Se não sabe o que é uma Lista de Swadesh,
  • 24:50 - 24:56
    é essencialmente um lista
    de itens léxicos regularizados
  • 24:56 - 25:00
    que pode ser usada
    para a análise de línguas.
  • 25:00 - 25:03
    Contêm conjuntos bem básicos.
  • 25:03 - 25:05
    Há alguns diferentes tipos
    de Listas de Swadesh.
  • 25:05 - 25:07
    Mas existem cerca de 100 a 213 itens,
  • 25:07 - 25:09
    e podem conter
  • 25:09 - 25:13
    palavras como "casa", "olho" e "pele"
  • 25:13 - 25:14
    e basicamente palavras comuns
  • 25:14 - 25:16
    que deve encontrar em qualquer língua.
  • 25:16 - 25:20
    É realmente um bom ponto de partida
  • 25:20 - 25:23
    ter esses tipos de dados disponíveis.
  • 25:29 - 25:31
    Agora, como mencionei antes,
  • 25:31 - 25:34
    crowdsourcing é algo
    que ainda não fazemos
  • 25:34 - 25:36
    e estamos realmente
    muito entusiasmados em começar.
  • 25:36 - 25:38
    É uma das coisas que me entusiasma
  • 25:38 - 25:39
    ao falar com as pessoas
    nesta conferência,
  • 25:40 - 25:43
    é como o crowdsourcing pode ser usado
  • 25:43 - 25:46
    e a logística por trás disso,
  • 25:46 - 25:49
    e este é o tipo de perguntas
    que podem surgir.
  • 25:51 - 25:53
    Penso que a resposta que vou lhe dar é
  • 25:53 - 25:55
    que temos uma lista de prioridades...
  • 25:55 - 25:58
    Uma coisa que digo com certeza
    é que temos uma lista de prioridade
  • 25:58 - 26:00
    quando se trata
    das línguas que procuramos.
  • 26:00 - 26:02
    Fazemos isto ao procurar por línguas
  • 26:02 - 26:05
    que não sejam atualmente
    auxiliadas por soluções tecnológicas,
  • 26:05 - 26:07
    que são frequentemente
    línguas minoritárias,
  • 26:07 - 26:09
    ou habitualmente
    línguas minoritárias,
  • 26:09 - 26:12
    e priorizamos essas.
  • 26:14 - 26:17
    Mas em termos
    de itens léxicos individuais,
  • 26:17 - 26:20
    a forma comum de conseguir novos dados
  • 26:20 - 26:23
    é essencialmente ao consumir
    um dicionário inteiro.
  • 26:23 - 26:26
    Estamos a apoiar-nos
    na escolha do dicionário
  • 26:26 - 26:29
    de itens léxicos,
    ao invés de dizermos
  • 26:29 - 26:32
    que precisamos da palavra
    "casa" em todas as línguas.
  • 26:32 - 26:35
    Mas nos dados de crowdsourcing,
    precisaremos de algo assim.
  • 26:35 - 26:38
    Então é uma oportunidade
    para crescimento e pesquisa.
  • 26:40 - 26:43
    (Pessoa 6) Olá,
    chamo-me Victor, e isto é incrível.
  • 26:45 - 26:47
    Como tem slides aí,
  • 26:47 - 26:49
    será que poderia falar um pouco
    sobre os parâmetros técnicos
  • 26:49 - 26:51
    para os quais tem dados
  • 26:51 - 26:57
    ou fluxo de informação
    da Wikidata para a PanLex e vice-versa.
  • 26:57 - 27:00
    Se isto já está implementado
  • 27:00 - 27:03
    e como lida com
  • 27:04 - 27:07
    o vai e vem de informações,
    ou até mesmo com um loop de respostas
  • 27:07 - 27:10
    entre a PanLex e a Wikidata?
  • 27:10 - 27:14
    Não temos nenhuma ligação formal
    com a Wikidata neste momento,
  • 27:14 - 27:15
    e isto é algo que eu, novamente,
  • 27:15 - 27:18
    estou realmente entusiasmado
    para falar a audiência desta conferência.
  • 27:18 - 27:21
    Tivemos alguma interação
    com o Wikitionary,
  • 27:22 - 27:25
    mas, sinceramente,
    a Wikidata seria mais adequada,
  • 27:25 - 27:27
    para o que estamos à procura.
  • 27:27 - 27:29
    Ter material léxico direto
  • 27:29 - 27:32
    significa que teremos bem menos
    análise e extração de dados.
  • 27:33 - 27:37
    Então, a resposta é,
    ainda não temos, mas queremos.
  • 27:37 - 27:40
    (Pessoa 6) Se não têm,
    quais os obstáculos?
  • 27:40 - 27:44
    E como podemos ver, a Wikidata
    já suporta diversas línguas,
  • 27:44 - 27:47
    mas quando vejo o translate.panlex.org,
  • 27:47 - 27:49
    aparentemente suportam
    muitas, muitas variantes,
  • 27:49 - 27:51
    muito mais que a Wikidata.
  • 27:51 - 27:53
    Como vê se há uma lacuna
  • 27:53 - 27:57
    primeiro entre tradução
    ou tradução léxica,
  • 27:57 - 28:00
    utilização versus esforço
  • 28:00 - 28:04
    ao tentar mapear
    uma estrutura de conhecimento.
  • 28:04 - 28:06
    Mapear conhecimento
    pode ser muito interessante.
  • 28:06 - 28:08
    Tivemos algumas
    discussões bastante interessantes
  • 28:08 - 28:12
    sobre a maneira de como a Wikidata
    organiza os dados léxicos,
  • 28:12 - 28:14
    os seus dados léxicos,
  • 28:14 - 28:16
    e como nós organizamos
    os nossos dados léxicos.
  • 28:16 - 28:21
    E existem diferenças subtis que requerem
    estratégia de mapeamento,
  • 28:22 - 28:25
    algumas delas não seriam
    necessariamente automáticas,
  • 28:25 - 28:27
    mas podemos ser capazes de desenvolver
    técnicas para lidar com isto.
  • 28:28 - 28:31
    Deu o exemplo de variantes de língua.
  • 28:31 - 28:34
    Costumamos ser bem "separadores"
    quando se trata de variações de língua.
  • 28:34 - 28:36
    Por outras palavras,
    se temos uma fonte que diz
  • 28:36 - 28:39
    que este é o dialeto falado
  • 28:39 - 28:42
    do lado esquerdo do rio
    em Papua Nova Guiné, para esta língua,
  • 28:42 - 28:43
    e temos outra fonte que diz
  • 28:43 - 28:45
    que este é o dialeto falado
    no lado direito do rio,
  • 28:45 - 28:47
    então, consideramo-los dialetos distintos.
  • 28:47 - 28:51
    E fazemos isso para basicamente preservar
    o maior número de dados possível.
  • 28:52 - 28:54
    Ser capaz de mapear isso
    com o que a Wikidata faz...
  • 28:54 - 28:57
    Na verdade,
    o que gostaria era ter conversas
  • 28:57 - 29:01
    sobre como as línguas
  • 29:01 - 29:06
    são definidas na Wikidata.
  • 29:08 - 29:12
    Novamente, nós usamos
    uma estratégia bem "separadora".
  • 29:14 - 29:18
    Apoiamo-nos amplamente
    nos códigos ISO 6393,
  • 29:18 - 29:20
    que é fornecido pelo Ethnologue,
  • 29:20 - 29:24
    e para cada código individual,
    permitimos múltiplas variantes,
  • 29:24 - 29:29
    sejam variantes escritas, dialetos
    regionais, sociolectos (calão), etc.
  • 29:30 - 29:33
    Novamente, oportunidade
    para discussão e trabalho.
  • 29:36 - 29:39
    (Pessoa 7) Olá, gostaria de saber
    se têm um canal de OCR,
  • 29:39 - 29:45
    especialmente porque estamos
    tentando fazer OCR no Maya,
  • 29:45 - 29:48
    e não estamos tendo resultado.
  • 29:48 - 29:50
    Não entende nada.
  • 29:50 - 29:53
    - Sim!
    - E, é isto.
  • 29:53 - 29:56
    Se os seus canais estiverem disponíveis.
  • 29:56 - 30:00
    E outra coisa é se
    está a sobrepor os códigos ISO,
  • 30:00 - 30:02
    algumas vezes dizem:
  • 30:02 - 30:04
    "Oh, isto é uma língua,
    e isto é outra língua."
  • 30:04 - 30:07
    Mas existem fontes
    que dizem outras coisas,
  • 30:07 - 30:10
    como mencionou,
    mas tendem a sobrepor-se.
  • 30:10 - 30:13
    Então, como é que prosseguem?
  • 30:13 - 30:15
    Sim, é uma pergunta realmente fabulosa.
  • 30:15 - 30:17
    Gostei mesmo.
  • 30:17 - 30:20
    Não temos um canal OCR
    oficial, por assim dizer.
  • 30:20 - 30:24
    Fazemos numa base de fonte para fonte.
  • 30:24 - 30:26
    Uma das razões é porque
    frequentemente temos fontes
  • 30:26 - 30:28
    que não precisam necessariamente de OCR,
  • 30:28 - 30:30
    que estão disponíveis
    para algumas línguas,
  • 30:30 - 30:33
    e concentramo-nos nelas pois estas
    requerem a menor quantidade de trabalho.
  • 30:33 - 30:35
    Mas, obviamente,
    se quisermos aprofundar
  • 30:35 - 30:37
    algumas fontes que estão na nossa lista,
  • 30:37 - 30:41
    iremos precisar essencialmente de
    desenvolver fortes canais OCR.
  • 30:41 - 30:44
    Mas existe outro aspecto,
    tal como mencionou...
  • 30:46 - 30:49
    as pessoas que desenvolveram motores OCR
  • 30:49 - 30:53
    talvez não tenham percebido
    o quanto as pode stressar.
  • 30:53 - 30:55
    Sabe o que é divertido?
  • 30:55 - 30:58
    Tentar fazer OCR
    num dicionário russo-tibetano.
  • 30:59 - 31:00
    É muito difícil, pelo que parece...
  • 31:02 - 31:04
    Nós desistimos e contratámos
    alguém para digitar tudo,
  • 31:04 - 31:06
    o que foi completamente viável.
  • 31:06 - 31:07
    Na realidade, o que aconteceu
  • 31:07 - 31:10
    foi que esta incrível mulher russa
    foi capaz de aprender a ler tibetano
  • 31:10 - 31:13
    para conseguir escrever,
    o que foi muito fixe.
  • 31:15 - 31:18
    Penso que se está a lidar
    com material em caracteres Latinos,
  • 31:18 - 31:23
    penso que soluções OCR podem ser
    desenvolvidas, que sejam mais robustas,
  • 31:23 - 31:25
    do que lidar com estas
    fontes multilinguísticas
  • 31:25 - 31:27
    e esperar que acabe
    com um quatro aleatório,
  • 31:27 - 31:28
    se está a lidar com algo como
  • 31:28 - 31:31
    fontes Maias do século XVI,
    com o dígito quatro.
  • 31:32 - 31:38
    Mas existem algumas fontes
  • 31:38 - 31:40
    que o OCR provavelmente
    nunca irá conseguir apanhar,
  • 31:40 - 31:42
    ou que irá requerer
    uma imensa quantidade de trabalho,
  • 31:43 - 31:47
    e na verdade colocamos
    um pouco disso em uso agora.
  • 31:47 - 31:49
    Temos outro projeto em execução na PanLex
  • 31:49 - 31:54
    para transcrever toda
    a literatura tradicional de Bali,
  • 31:54 - 31:58
    e percebemos que em manuscritos balineses
  • 31:58 - 32:00
    não há a possibilidade de OCR.
  • 32:00 - 32:02
    Então arranjámos uma mão cheia
    de pessoas balinesas para digitar,
  • 32:02 - 32:05
    e acabou por se tornar
    um projeto cultural muito bom em Bali,
  • 32:05 - 32:07
    e tornou-se notícia.
  • 32:07 - 32:09
    Por isso eu diria
  • 32:09 - 32:11
    que não precisa necessariamente
    depender de OCR,
  • 32:11 - 32:13
    mas há muita coisa por aí.
  • 32:13 - 32:15
    Por isso, ter soluções OCR seria bom.
  • 32:17 - 32:21
    Aliás, se alguém aqui se interessa
    por OCR super multilínguas,
  • 32:21 - 32:23
    por favor, fale comigo.
  • 32:30 - 32:31
    (Pessoa 8) Obrigado pela sua apresentação.
  • 32:32 - 32:35
    Falou sobre integração
  • 32:35 - 32:37
    entre a PanLex e a Wikidata,
  • 32:37 - 32:39
    mas não especificou muito.
  • 32:39 - 32:43
    Estava a verificar a sua licença
    de dados, e vocês usam o CC0.
  • 32:43 - 32:44
    - Sim.
    - (Pessoa 8) Isso é ótimo.
  • 32:44 - 32:46
    Então, existem duas formas possíveis,
  • 32:46 - 32:49
    em que podemos importar os dados
  • 32:49 - 32:53
    ou podemos manter
    algo similar ao Freebase,
  • 32:53 - 32:56
    onde tínhamos a base
    de dados completa do Freebase,
  • 32:56 - 32:59
    importamo-la e fazemos um link,
  • 32:59 - 33:04
    um identificador externo
    para a base de dados do Freebase.
  • 33:04 - 33:08
    Tem algo assim em mente
    ou está a pensar em algo similar?
  • 33:08 - 33:10
    Ou só quer fazer...
  • 33:15 - 33:19
    uma base de dados independente
    que possa ser ligada à Wikidata?
  • 33:19 - 33:21
    Sim, essa é uma ótima pergunta
  • 33:21 - 33:23
    e na verdade penso que ela vai até além
  • 33:23 - 33:26
    de algumas das coisas
    em que estive a pensar sobre,
  • 33:26 - 33:30
    parcialmente porque, como eu disse,
  • 33:30 - 33:32
    fazer com que as duas
    bases de dados trabalhem juntas
  • 33:32 - 33:34
    é uma etapa por si só.
  • 33:34 - 33:35
    Penso que o primeiro passo
    que podemos dar
  • 33:35 - 33:38
    é literalmente partilhar
    as nossas habilidades.
  • 33:38 - 33:40
    Temos muita experiência
    em lidar com coisas
  • 33:40 - 33:43
    como classificações de propriedades
    de lexemas individuais
  • 33:43 - 33:45
    que eu adoraria partilhar.
  • 33:46 - 33:49
    Mas ser capaz de ligar
    as duas bases de dados seria maravilhoso.
  • 33:49 - 33:51
    Estou 100% a favor disso.
  • 33:51 - 33:54
    Acho que seria um pouco mais fácil
  • 33:54 - 33:56
    a Wikidata usar a forma da PanLex,
  • 33:56 - 33:59
    mas talvez seja tendencioso
    por ver como isso iria funcionar.
  • 34:02 - 34:06
    Sim, essencialmente,
    desde que a Wikidata esteja confortável,
  • 34:06 - 34:10
    com todas as licenças e coisas assim,
    ou encontraremos uma solução,
  • 34:10 - 34:12
    penso que seria uma ótima ideia.
  • 34:13 - 34:16
    Só temos que pensar
    em maneiras de ligar os dados.
  • 34:16 - 34:22
    Algo que imagino seria, essencialmente,
    que as edições do Wikidata fossem
  • 34:23 - 34:26
    imediatamente preenchidas
    no banco de dados PanLex,
  • 34:26 - 34:29
    sem precisar, essencialmente,
  • 34:29 - 34:31
    consumir novamente tudo outra vez.
  • 34:31 - 34:36
    Tornar essencialmente a Wikidata
    numa interface de crowdsourcing da PanLex,
  • 34:36 - 34:37
    seria realmente incrível.
  • 34:37 - 34:40
    E depois ser capaz de usar
    a PanLex em traduções imediatas,
  • 34:40 - 34:42
    para ser capaz de traduzir
    pelos itens léxicos da Wikidata,
  • 34:42 - 34:44
    isso seria glorioso.
  • 34:55 - 35:00
    (Pessoa 9) Isto parece o processo
    de fiscalização semântica da web,
  • 35:00 - 35:04
    tapar buracos por inferência.
  • 35:06 - 35:10
    Se pensarmos assim, este tipo de tradução,
  • 35:10 - 35:13
    como é que lida
    com incompatibilidade semântica
  • 35:13 - 35:16
    e gramatical?
  • 35:16 - 35:19
    Por exemplo, se tenta
    traduzir algo para o alemão,
  • 35:19 - 35:22
    pode simplesmente
    colocar várias palavras juntas
  • 35:22 - 35:26
    e encontrar algo sensato,
  • 35:26 - 35:29
    por outro lado,
    acho que já li em algum lugar
  • 35:31 - 35:38
    que nem toda a língua tem
    o mesmo sistema granular
  • 35:38 - 35:40
    para cores, por exemplo.
  • 35:42 - 35:43
    Disse que todos
  • 35:43 - 35:45
    usam um sistema diferente
    para cores ou o mesmo?
  • 35:46 - 35:48
    (Pessoa 8) Eu lembro-me apenas
    que sobre a evolução da língua,
  • 35:48 - 35:52
    que começaram
    com o preto e branco, e depois...
  • 35:52 - 35:53
    Sim, a hierarquia das cores.
  • 35:53 - 35:54
    A hierarquia das cores
  • 35:54 - 35:57
    é uma ótima forma
    de ilustrar como isto funciona, certo?
  • 35:58 - 36:01
    Essencialmente, quando
    tem uma única língua pivot...
  • 36:02 - 36:05
    é bem interessante quando se lê
    documentos traduzidos automaticamente
  • 36:05 - 36:08
    porque é frequente falar
    sobre uma língua pivot hipotética,
  • 36:08 - 36:10
    em que dizem:
    "Ah sim, há uma língua pivot,"
  • 36:10 - 36:12
    e depois lê o documento
    e diz: "É inglês."
  • 36:12 - 36:17
    Então o que essa forma
    de tradução léxica faz,
  • 36:17 - 36:20
    é passar o termo
    por muitas línguas intermédias diferentes,
  • 36:21 - 36:26
    tem o efeito de ser capaz de lidar
    com muita ambiguidade semântica.
  • 36:26 - 36:28
    Porque à medida que
    passa por outras línguas
  • 36:28 - 36:33
    que contêm limites semânticos similares
    razoáveis para uma palavra,
  • 36:33 - 36:37
    pode essencialmente evitar o problema
  • 36:37 - 36:40
    de introduzir ambiguidade semântica
    através da língua pivot.
  • 36:40 - 36:43
    Então, ao usar a hierarquia
    de cores como exemplo,
  • 36:43 - 36:46
    se tomar uma língua que tem
    uma palavra única para azul e verde
  • 36:46 - 36:51
    e a traduz para azul
  • 36:51 - 36:53
    na sua língua pivot
  • 36:53 - 36:54
    e então para outra língua
  • 36:54 - 36:57
    que tem ambiguidades diferentes
    para essas coisas,
  • 36:57 - 37:00
    acaba por introduzir
    ambiguidade semântica.
  • 37:00 - 37:02
    Mas se passar por mais línguas
  • 37:02 - 37:06
    que também tenham
    um item léxico único para verde e azul,
  • 37:06 - 37:11
    então, essencialmente,
    a especificidade semântica
  • 37:11 - 37:17
    é passada adiante
    para a língua resultante.
  • 37:18 - 37:21
    No que se trata de aspectos gramáticos,
  • 37:21 - 37:23
    a PanLex tem estado primeiramente,
    na sua história,
  • 37:23 - 37:29
    a recolher lexemas essenciais,
    formas léxicas essenciais.
  • 37:30 - 37:32
    E com isso, quero dizer, basicamente,
  • 37:32 - 37:34
    o que encontraria num termo de dicionário.
  • 37:35 - 37:38
    Então não nos concentramos nesta altura
  • 37:39 - 37:41
    em reunir variantes
    de formas gramaticais,
  • 37:41 - 37:43
    coisas como dados nominais, etc.
  • 37:43 - 37:45
    ou pretérito passado e presente.
  • 37:45 - 37:46
    Mas é algo que procuramos fazer.
  • 37:46 - 37:48
    Uma coisa que é sempre importante lembrar
  • 37:48 - 37:51
    é que, como o nosso foco é...
  • 37:51 - 37:54
    está em apoiar línguas minoritárias
    que estão ameaçadas ou sem apoio,
  • 37:55 - 37:58
    queremos garantir que algo está disponível
  • 37:58 - 38:00
    antes de torná-lo perfeito.
  • 38:02 - 38:03
    Uma frase que eu adoro é:
  • 38:03 - 38:05
    "Não deixe o perfeito ser inimigo do bom."
  • 38:05 - 38:07
    E é algo que almejamos.
  • 38:07 - 38:09
    Mas estamos super interessados na ideia
  • 38:09 - 38:12
    de lidar com formas gramaticais,
  • 38:12 - 38:14
    e poder traduzir
    através de formas gramaticais,
  • 38:14 - 38:16
    e é algo em que já fizemos pesquisa
  • 38:16 - 38:18
    mas que ainda não foi
    totalmente implementado.
  • 38:25 - 38:29
    (Pessoa 9) Então dos 7.500 idiomas,
  • 38:30 - 38:33
    presumo que se baseiem em dicionários
    que foram escritos para nós,
  • 38:33 - 38:36
    mas todas estas idiomas têm
    formas de escrita tradicional?
  • 38:36 - 38:38
    E como lidam com isso?
  • 38:38 - 38:40
    É uma ótima pergunta.
  • 38:42 - 38:45
    Essencialmente, sim, muitas destas línguas
  • 38:45 - 38:48
    como todos sabem, não são escritas.
  • 38:48 - 38:51
    Contudo, qualquer língua
    para a qual um dicionário foi produzido
  • 38:51 - 38:52
    contém algum tipo de ortografia,
  • 38:52 - 38:57
    logo, baseamo-nos na ortografia
    produzida para o dicionário.
  • 38:57 - 39:00
    Ocasionalmente fazemos
    uma ligeira manipulação de ortografia
  • 39:01 - 39:03
    se pudermos, basicamente,
    garantir que não há danos.
  • 39:03 - 39:05
    Mas tentamos evitar,
    tanto quanto possível.
  • 39:09 - 39:11
    Essencialmente, não nos intrometemos
  • 39:11 - 39:13
    em desenvolver ortografia para as línguas,
  • 39:13 - 39:15
    porque frequentemente
    não foi desenvolvida,
  • 39:15 - 39:17
    mesmo que não esteja amplamente publicada.
  • 39:19 - 39:22
    Por exemplo,
  • 39:22 - 39:26
    muitas línguas faladas na Nova Guiné,
  • 39:26 - 39:29
    pode não haver uma forma
    ortográfica comum utilizada,
  • 39:29 - 39:31
    mas alguns linguistas
    conseguiram fazer algo
  • 39:31 - 39:33
    e já é um bom primeiro passo.
  • 39:33 - 39:37
    Também reunimos formas fonéticas
    quando estão disponíveis nos dicionários,
  • 39:37 - 39:38
    e esta é outra forma,
  • 39:38 - 39:41
    essencialmente
    uma representação IPA da palavra,
  • 39:41 - 39:42
    se estiver disponível.
  • 39:42 - 39:43
    Isso também pode ser usado.
  • 39:43 - 39:46
    Mas geralmente
    não usamos isso como auxílio,
  • 39:46 - 39:48
    pois pode introduzir certas ambiguidades.
  • 39:53 - 39:55
    (Pessoa 10) Obrigada, talvez
    não seja uma pergunta muito pertinente.
  • 39:56 - 40:01
    Mas só trabalham
    com as línguas intermediárias?
  • 40:01 - 40:02
    Não, não.
  • 40:02 - 40:04
    (Pessoa 10) Ok, certo. Obrigada.
  • 40:04 - 40:06
    Fico feliz que tenha feito essa pergunta.
  • 40:06 - 40:11
    Isto é uma foto
    do ecrã do translate.panlex.org.
  • 40:11 - 40:13
    Se fizer uma tradução,
  • 40:13 - 40:15
    terá uma lista
    de traduções no lado direito.
  • 40:15 - 40:18
    Clica no botão de reticências
    e há um gráfico assim.
  • 40:18 - 40:22
    E o que isto mostra
    são as línguas intermediárias,
  • 40:22 - 40:24
    as 20 principais, por pontuação.
  • 40:24 - 40:26
    Daria mais detalhes de como pontuamos,
  • 40:26 - 40:27
    mas não é muito importante agora.
  • 40:27 - 40:30
    Por pontos que estão a sendo usados.
  • 40:30 - 40:33
    Mas para fazer a tradução,
    estamos a usar bem mais que 20.
  • 40:33 - 40:36
    O motivo de mostrarmos 20,
    é porque se forem mais de 20...
  • 40:36 - 40:38
    é como se fosse uma simulação de física.
  • 40:38 - 40:40
    Podem mover as coisas e elas reagem.
  • 40:40 - 40:42
    Mas se tiver mais de 20,
    o computador fica muito irritado.
  • 40:45 - 40:47
    É mais uma demonstração, sim.
  • 40:56 - 40:58
    (Pessoa 11) Leila, da Fundação Wikimedia.
  • 40:58 - 41:00
    Apenas uma nota na...
  • 41:00 - 41:03
    Mencionou a Fundação Wikimedia
    algumas vezes durante a apresentação,
  • 41:03 - 41:07
    gostaria de dizer se quiser
    realizar qualquer tipo de consumo de dados
  • 41:07 - 41:08
    ou colaboração com a Wikidata,
  • 41:09 - 41:11
    talvez a Wikimedia Alemanha
    seja um local melhor
  • 41:11 - 41:13
    com quem ter essas conversas?
  • 41:13 - 41:16
    Porque a Wikidata vive praticamente
    dentro da Wikimedia Alemanha,
  • 41:16 - 41:18
    e a equipa está lá,
  • 41:18 - 41:20
    como também a comunidade
    de voluntários da Wikidata,
  • 41:20 - 41:24
    seria o local perfeito para conversar
  • 41:24 - 41:26
    sobre qualquer tipo de consumo
  • 41:26 - 41:31
    ou trabalhar para aproximar
    a PanLex da Wikidata.
  • 41:32 - 41:33
    Ótimo, muito obrigado!
  • 41:33 - 41:35
    Porque sinceramente
    não estou muito familiarizado
  • 41:35 - 41:38
    com as complexidades de arquitectura
  • 41:38 - 41:40
    de como todos os projetos se relacionam.
  • 41:40 - 41:42
    Adivinho pelas gargalhadas
    que seja complicado.
  • 41:42 - 41:44
    Mas sim, basicamente queremos conversar
  • 41:44 - 41:48
    com quem for responsável pela Wikidata.
  • 41:48 - 41:52
    Como tal, é só fazermos
    um pequeno encontro
  • 41:53 - 41:56
    com quem for responsável pela Wikidata,
    aí está com quem nos interessa conversar,
  • 41:56 - 41:58
    que é com todos vocês que são voluntários.
  • 42:04 - 42:05
    Existem mais perguntas?
  • 42:10 - 42:14
    Ok, se alguém tiver mais alguma pergunta
  • 42:14 - 42:18
    sobre algo que falei, ou dos detalhes
    e especificidades destas coisas,
  • 42:18 - 42:20
    por favor fale comigo,
    estou super entusiasmado.
  • 42:21 - 42:24
    E especialmente se está a lidar
    com algo que envolva material léxico,
  • 42:24 - 42:29
    algo que envolva
    línguas minoritárias ameaçados,
  • 42:29 - 42:30
    e idiomas desamparados,
  • 42:30 - 42:34
    e também Unicode,
    que é algo que também faço.
  • 42:37 - 42:38
    Obrigado a todos
  • 42:38 - 42:40
    e obrigado por me terem convidado a falar,
  • 42:40 - 42:42
    espero que tenham gostado!
  • 42:42 - 42:44
    (Aplausos)
Title:
cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4
Video Language:
English
Duration:
42:53

Portuguese subtitles

Revisions