-
Existem aproximadamente 7.500 línguas
-
a serem faladas no planeta hoje.
-
Destas, estima-se
-
que cerca de 70%
estão em risco de não sobreviver
-
até ao fim do século XXI.
-
Sempre que uma língua morre,
-
é como cortar uma ligação
-
que durou centenas ou milhares de anos,
-
com cultura, com história,
-
tradições, e conhecimento.
-
O linguista Kenneth Hale disse uma vez
-
que toda vez que uma língua morre,
-
é como lançar uma bomba atómica no Louvre.
-
A pergunta é,
-
por que é que as línguas morrem?
-
Talvez a resposta mais simples seja
-
que alguém possa imaginar
governos autoritários
-
a impedir que as pessoas
falassem o idioma nativo,
-
crianças a ser punidas
por falarem a sua língua na escola,
-
ou o governo a fechar estações de rádio
-
do idioma da minoria.
-
Isso aconteceu definitivamente no passado,
-
e ainda acontece hoje, de certo modo.
-
Mas a resposta honesta
-
é que na maioria dos casos
de extinção de uma língua,
-
é uma muito mais simples
-
e facílima resposta.
-
As línguas acabam extintas
-
porque não são passadas
-
de uma geração para a outra.
-
Cada vez que uma pessoa que fala
-
uma língua minoritária tem um filho,
-
passa por um dilema.
-
As pessoas perguntam-se:
-
"Será que ensino
a minha língua para o meu filho,
-
ou ensino-lhe a língua da maioria?"
-
Essencialmente, essa é a ideia
-
que lhes passa pela cabeça.
-
Em que, por um lado,
-
cada vez que nas suas vidas
-
que tiveram a oportunidade
de usar a língua nativa
-
para comunicação,
para aceder a cultura tradicional,
-
uma pedra é colocada no lado esquerdo.
-
E cada vez que se encontram
-
incapacitados de usarem a língua nativa,
-
e tiveram de se relegar
à língua da maioria,
-
uma pedra é colocada no lado direito.
-
Agora, pela força e pela dignidade
-
de ser capaz de falar a língua materna,
-
as pedras do lado esquerdo
costumam ser mais pesadas.
-
Mas com pedras
suficientes no lado direito,
-
eventualmente a balança inverte
-
e quando uma pessoa toma a decisão
-
de ensinar a sua língua,
-
eles veem a própria linguagem
-
mais como um fardo do que uma benção.
-
A pergunta é, como revertemos isto?
-
Primeiro, precisamos pensar
sobre o facto de,
-
que para qualquer língua existente
-
existem esferas sociais
onde podem ser usadas.
-
Então, qualquer língua
-
que é uma língua materna falada hoje,
-
pode ser usada na família de alguém.
-
Um número menor de línguas
podem ser usadas dentro de uma comunidade,
-
um número ainda menor, talvez numa região,
-
e um pequeno punhado de línguas,
-
podem ser usados
na comunicação internacional.
-
E mesmo através destas esferas,
-
existe a pergunta se alguém
é capaz de usar a sua língua,
-
para propósitos
educacionais ou de negócio,
-
ou tecnológicos?
-
Então, para explicar melhor
-
o que estou a falar aqui,
-
vou usar uma anedota.
-
Vamos dizer que está prestes a ir
-
para as suas férias de sonho na Índia,
-
e tem uma escala
de oito horas em Istambul.
-
Agora, não estava necessariamente
a pensar em visitar a Turquia,
-
mas com a escala, e com seu amigo turco
-
a falar-lhe de um restaurante incrível,
-
que não é longe do aeroporto,
-
você diz: "Sabes, se calhar,
passo por lá durante a escala."
-
Então, sai do aeroporto,
-
vai até o restaurante,
-
entregam-lhe o menu,
-
e está todo em turco.
-
Agora, vamos supor, para este exemplo,
-
que não fala turco.
-
O que faz?
-
Bem, na melhor das hipóteses,
-
encontra alguém, talvez,
que fala a sua língua materna,
-
alemão, inglês, etc.
-
Mas vamos dizer
que não é o seu dia de sorte
-
e ninguém no restaurante
fala alemão ou inglês.
-
Então, o que faz?
-
Se for como eu,
e imagino que a maioria aqui seja,
-
provavelmente recorre
a uma solução tecnológica,
-
tradutor automático ou dicionário digital,
-
procura cada palavra individualmente,
-
e eventualmente faz o seu pedido
de uma refeição turca deliciosa.
-
Agora, vamos imaginar outro cenário:
-
você é o orador nativo
de uma língua minoritária.
-
Imaginemos, baixo sórbio.
-
Baixo sórbio é uma língua ameaçada
-
falada aqui na Alemanha,
-
a cerca de 130 quilómetros
a sudeste daqui,
-
e que é falada apenas por alguns
milhares de pessoas, a maioria idosos.
-
Imaginemos que
a sua língua materna é o baixo sórbio.
-
Chega ao restaurante.
-
Claro que, a probabilidade
de encontrar alguém
-
que fale a sua língua no restaurante
é extraordinariamente baixa.
-
Mas, de novo, pode simplesmente
recorrer a uma solução tecnológica.
-
Contudo, para a sua língua-mãe,
-
essas soluções tecnológicas não existem.
-
Precisaria depender do alemão ou do inglês
-
como sua língua auxiliar para o turco.
-
Claro que acaba por conseguir
a sua deliciosa refeição turca,
-
mas começa a pensar
no quão difícil isso seria
-
se você fosse o seu avô,
que não falava alemão de todo.
-
Isto é só uma pequena situação,
-
mas colocaria uma pedra
no lado direito da balança,
-
e faria-o talvez pensar
-
que quando tiver um filho
ou quando tiver outro filho,
-
o fardo que carregou
por ter passado por isto,
-
talvez não valha a pena
para manter a sua língua-mãe.
-
E imagine se fosse uma situação
-
de importância consideravelmente maior,
-
como, por exemplo, estar num hospital.
-
Neste ponto podemos ajudar...
-
por nós, quero dizer eu e você
nesta sala podemos ajudar.
-
Temos as ferramentas para ajudar com isto.
-
Se as ferramentas tecnológicas
estiverem disponíveis
-
a falantes de línguas
minoritárias e ignoradas,
-
colocamos um dedinho na balança,
no lado esquerdo da balança.
-
Alguém não precisa
necessariamente de pensar
-
que precisam de depender
de uma língua minoritária
-
para poderem interagir
com o mundo externo,
-
pois isso abre as esferas sociais
-
um pouco mais ainda.
-
Claro que, a solução ideal
-
é que tenhamos tradução automática
para todas as línguas a nível mundial.
-
Mas, infelizmente, isso não é fazível.
-
Tradução automática requer
grandes excertos de texto,
-
e para muitas destas línguas
-
ameaçadas ou sem muita informação,
-
esses dados não estão disponíveis.
-
Alguns nem são frequentemente escritos,
-
por isso conseguir dados suficientes para
um sistema de tradução automática
-
é improvável.
-
Mas o que temos disponível
são dados léxicos.
-
Pelo trabalho de muitos linguistas
-
nas últimas centenas de anos,
-
dicionários e gramáticas foram produzidas
-
para a maioria das línguas do mundo.
-
Mas, infelizmente,
a maioria desses trabalhos
-
não está acessível
ou disponível para o mundo,
-
ainda mais para quem fala
estas línguas minoritárias.
-
E não é um processo intencional,
-
muitas vezes é simplesmente porque
-
a produção inicial
destes dicionários era pequena,
-
e as poucas cópias
-
estão a ganhar bolor numa biblioteca
de universidade algures.
-
Mas temos a habilidade
de reunir estes dados
-
e torná-los acessíveis ao mundo.
-
A Fundação Wikimedia
é uma das melhores organizações,
-
eu diria a melhor organização do mundo,
-
para reunir dados disponíveis
-
para a maioria da população deste planeta.
-
Então, vamos trabalhar nisso.
-
Para explicar um pouco
-
o que estivemos a fazer sobre isso,
-
gostaria de apresentar
a minha organização, a PanLex,
-
que é uma organização que almeja
-
reunir dados léxicos para este propósito.
-
Começámos há cerca de 12 anos
-
como um projeto de pesquisa
da Universidade de Washington.
-
A ideia por trás disto
-
era mostrar que as traduções inferidas
-
poderiam criar um dispositivo
de tradução eficiente,
-
essencialmente um dispositivo
de tradução léxica.
-
Este é um exemplo dos dados da PanLex.
-
Isto mostra como se traduz
-
da palavra "ev" em turco,
que significa casa,
-
para baixo sórbio,
-
a língua a que me referi antes.
-
É improvável encontrarmos
-
um dicionário de turco para baixo sórbio,
-
mas passando isto por muitas
-
e muitas línguas intermédias diferentes,
-
podemos criar traduções eficientes.
-
Uma vez que isto foi mostrado
nos projetos de pesquisa,
-
o fundador da PanLex, Dr. Jonathan Pool,
-
decidiu: "Por que não
fazer simplesmente isto?"
-
Fundou uma empresa sem fins lucrativos
-
para reunir o máximo de dados léxicos
possível, e torná-los acessíveis.
-
E é isso o que estamos a fazer há 12 anos.
-
Durante esse tempo, reunimos milhares
e milhares de dicionários,
-
extraímos os dados léxicos deles
-
e elaborámos uma base de dados
que permite inferir traduções léxicas
-
por entre qualquer...
-
A nossa contagem actual
é aproximadamente 5.500
-
das 7.500 línguas do mundo.
-
E, claro,
-
estamos sempre a tentar aumentar isto
-
e expandir os dados
de cada língua individual.
-
Então, a próxima pergunta é,
-
o que podemos fazer
para trabalharmos juntos nisso?
-
Nós, na PanLex, estamos
extremamente entusiasmados
-
em assistir ao desenvolvimento
de dados léxicos
-
em que a Wikidata trabalhou recentemente.
-
É fascinante ver organizações
-
que estão a trabalhar
em esferas muito similares,
-
mas em aspectos diferentes.
-
E estamos
extremamente entusiasmados em ver
-
os resultados disso da Wikidata.
-
E também esperamos
colaborar com a Wikidata.
-
Penso que as habilidades especiais
-
que desenvolvemos
durante os últimos 12 anos,
-
não só a reunir dados léxicos,
mas a elaborar bases de dados,
-
podem ser extremamente úteis
para a Wikidata.
-
E por outro lado, penso que...
-
Estou especialmente entusiasmado
pela a capacidade
-
da Wikidata
em fazer crowdsourcing de dados.
-
Na PanLex atualmente
as nossas fontes são inteiramente
-
provenientes de meios impressos
ou outros tipos,
-
mas não temos nada em crowdsourcing.
-
Não temos simplesmente
infraestrutura disponível para isso,
-
e claro, a Fundação Wikimedia
-
é referência mundial em crowdsourcing.
-
Eu espero realmente ver em como podemos
-
juntar estas habilidades.
-
Mas no geral, penso que
a ideia principal a retirar disto
-
é que enquanto estávamos
a trabalhar nestas coisas,
-
é minúcioso.
-
Estamos sentados à procura
de formas gramaticais,
-
ou a folhear dicionários,
dicionários antigos,
-
ou às vezes dicionários recém-publicados,
-
e a ver as formas escritas das palavras,
-
e parece tudo muito específico.
-
Mas ocasionalmente,
precisamos de nos lembrar
-
de dar um passo atrás
-
e mesmo que o que fazemos pareça
-
algo mundano por vezes,
-
este trabalho é extremamente importante.
-
Essa, na minha opinião, é a melhor maneira
-
de apoiarmos línguas ameaçadas
-
e garantirmos que a diversidade
linguística do planeta
-
seja preservada
até ao fim do século, ou além.
-
É inteiramente possível
que o trabalho que fazemos hoje
-
possa resultar em línguas
-
a ser preservadas e passadas adiante,
-
sem se tornarem extintas.
-
Apenas para recordar
-
que mesmo que esteja sentado
em frente ao computador
-
editando uma entrada individual
-
e adicionando formas de dados
de uma língua minoritária,
-
para cada um dos substantivos,
-
a pequena tarefa que está a fazer agora,
-
pode ser parcialmente responsável
-
em garantir que uma língua sobreviva
-
até ao final do século ou além.
-
Muito obrigado.
-
E gostaria de abrir o painel a perguntas.
-
(Aplausos)
-
(Pessoa 1) Obrigada.
-
- Obrigada pela sua palestra.
- Obrigado.
-
(Pessoa 1) Tenho uma pergunta
sobre dicionários.
-
Disse que trabalha
com dicionários impressos?
-
- Sim.
- Minha pergunta é
-
o que recolhe desses dicionários,
-
e se há algum direito de autor
com que precisa de lidar?
-
Previ que esta seria a primeira pergunta.
-
(Risadas)
-
Primeiro, para a PanLex,
-
temos, de acordo
com os recursos legais que consultámos,
-
embora a disposição e organização
do dicionário possa ter esses direitos,
-
a tradução por si mesma
não é passível de ter direitos de autor.
-
Um bom exemplo para isto é,
-
uma lista telefónica, pelo menos de acordo
com a legislação dos Estados Unidos,
-
tem direitos de autor.
-
Mas dizer que o número
da pessoa X são D dígitos
-
não tem direitos de autor.
-
Então, tal como disse,
-
de acordo com nossos
representantes legais,
-
lidamos assim com isto.
-
Mas mesmo que isto não seja
um argumento legal suficiente,
-
uma coisa importante para lembrar
-
é que a maioria destes dados léxicos
-
não têm direitos de autor.
-
Um número significativo deles
não têm direitos de autor
-
e podem ser usados livremente.
-
E outra coisa, por exemplo,
é que frequentemente,
-
se estamos a trabalhar
com um dicionário recém-impresso,
-
ao invés de tentar
escaneá-lo e digitalizá-lo,
-
nós apenas mandamos
um e-mail para o autor.
-
E o que acontece é na maioria das vezes
os linguistas ficarem entusiasmados
-
em tornarem os seus dados acessíveis.
-
Algo como: "Claro, por favor,
-
coloque tudo aí e faça isso acessível."
-
É extremamente raro que...
-
Então, como disse, temos,
de acordo com nossas opiniões legais,
-
a possibilidade,
-
mas mesmo que não queira aceitar isso,
-
é muito fácil conseguir
dados acessíveis publicamente.
-
- (Pessoa 2) Obrigado. Olá.
- Olá.
-
Pode falar um pouco mais
-
sobre como a pessoa
que fala baixo sórbio acessará os dados.
-
Especificamente como é que
esta informação irá chegar-lhe
-
e como isso irá convencê-la
-
a usar...
-
Ótima pergunta e isto é uma das coisas
-
que tenho vindo a pensar muito, também,
-
porque penso que quando falamos
sobre acesso de dados
-
há na verdade múltiplas etapas.
-
Uma, claro, é a preservação de dados,
garantindo que os dados não desaparecem.
-
Segundo, é fazer com que
seja interoperável
-
e possa ser usado.
-
E terceiro é garantir
que esteja disponível.
-
No caso da PanLex,
-
temos uma API que pode ser usada,
-
mas, claro, não pode ser usada
por um utilizador final.
-
Mas também desenvolvemos interfaces.
-
E também, por exemplo,
se aceder a translate.panlex.org
-
pode fazer traduções
na nossa base de dados.
-
Se quiser brincar com a API,
aceda a dev.panlex.org,
-
e encontrará muitas coisas da API,
ou aceda a api.panlex.org.
-
Mas há também outro passo,
-
que é mesmo que torne
os seus dados completamente acessíveis
-
com ferramentas
que sejam super úteis para o acesso,
-
se não promover as ferramentas,
-
então as pessoas
não serão capazes de usá-las.
-
E isso, sinceramente, é...
-
uma coisa de que não se fala o suficiente,
-
e eu não tenho uma boa resposta para isso.
-
Como garantimos que...
-
por exemplo, eu só recentemente,
-
há alguns anos atrás,
tomei conhecimento da Wikidata
-
e é exatamente o tipo de coisa
com que fico entusiasmado.
-
Então, como nos promovemos para os outros?
-
Vou deixar esta pergunta em aberto.
-
Como disse, não tenho uma boa resposta.
-
Mas claro, para fazermos isto,
-
precisamos de completar
as primeiras etapas.
-
(Pessoa 3) Se quisermos
ter tradução automática,
-
não precisamos de uma memória de tradução?
-
Não sei se as palavras
-
que colocamos na Wikidata,
-
estas pequenas frases
que colocamos na Wikidata,
-
como itens normais da Wikidata
ou como lexemas da Wikidata,
-
são suficientes para fazer
uma tradução adequada.
-
Precisamos de frases inteiras,
por exemplo, para...
-
(Benjamin) Sim, realmente.
-
(Pessoa 3) E onde conseguimos
esta estrutura de dados?
-
Não tenho certeza, se atualmente,
-
a Wikidata é capaz de lidar
com isto de forma adequada,
-
com a questão da memória de tradução,
-
translatewiki.net,
-
para entrar no limiar da...
-
Devemos fazer algo
a respeito disso, ou devemos...
-
Sim, e agradeço
verdadeiramente a sua pergunta.
-
Falei disso superficialmente antes,
-
mas adoraria reiterar.
-
Esta é a razão principal do porquê
da PanLex operar com dados léxicos
-
e o porquê
de me empolgar com dados léxicos,
-
ao contrário de...
não ao contrário, mas como complemento
-
aos motores de tradução automática
e à tradução automática em geral.
-
Como disse, a tradução automática
requer um tipo específico de dados,
-
e esses dados não estão disponíveis
para a maior parte das línguas mundiais.
-
Para a grande maioria
das línguas mundiais,
-
isso simplesmente não está disponível.
-
Mas isso não significa
que devemos desistir.
-
Porquê?
-
Se eu precisar de traduzir
o menu turco do restaurante,
-
a tradução léxica será provavelmente
uma ferramenta excepcional para isto.
-
Não estou a dizer
que pode usar tradução léxica
-
para ter um parágrafo perfeito
ao traduzir um parágrafo.
-
Quando digo tradução léxica,
digo palavra para palavra,
-
e traduções palavra para palavra
podem ser extremamente úteis,
-
é engraçado pensar nisto,
mas não tínhamos acesso
-
a tradução automática de qualidade.
-
Ninguém tinha acesso
a isso até recentemente.
-
E sobrevivíamos com dicionários,
-
e são um recurso incrivelmente bom.
-
Os dados estão disponíveis,
então por que não tornar disponível
-
para o mundo em geral
e para os oradores dessas línguas?
-
(Pessoa 4) Olá,
que mecanismos tem ao dispor
-
para quando a comunidade... estou aqui.
-
- Onde está? Ok, certo.
- (Pessoa 4) Sim, desculpe. (risos)
-
...quando a própria comunidade
-
não quiser parte dos seus dados na PanLex?
-
Ótima pergunta.
-
A forma como lidamos com isso
-
é que se um dicionário foi publicado,
e estiver disponível publicamente,
-
é uma boa indicação.
-
Se o puder comprar numa loja
ou numa biblioteca de uma universidade,
-
ou numa biblioteca pública
que qualquer um pode aceder.
-
Isto é uma boa indicação
que essa decisão foi tomada.
-
(Pessoa 4) [inaudível]
-
(Pessoa 5) Por favor, Kimberly,
pode falar para o microfone?
-
Pode repetir?
-
(Pessoa 4) Os linguistas nem sempre têm
a permissão da comunidade.
-
Para publicar coisas,
-
frequentemente publicam coisas
sem o consentimento da comunidade.
-
E isso é totalmente verdade.
-
Eu diria que é um...
-
Que acontece.
-
Eu diria que acontece
numa minoria de casos,
-
limitado geralmente à América do Norte,
-
mas às vezes também
com línguas da América do Sul.
-
É algo que temos de levar em conta.
-
Se recebêssemos notificação, por exemplo,
-
de que os dados que estão na PanLex
-
não deveriam ser acedidos
pelo resto do mundo,
-
então, é claro que removeríamos.
-
(Pessoa 4) Boa, boa.
-
Claro, que isso não significa
-
que iremos seguir
as regras de direito de autor,
-
mas que vamos ouvir
as comunidades tradicionais,
-
e essa é a diferença principal.
-
(Pessoa 4) Sim, era a isso que me referia.
-
Isso leva-nos a um ponto interessante
-
que é
-
às vezes uma grande pergunta
para quem fala por aquela língua.
-
Tive uma experiência ao visitar
o sudoeste americano
-
e ao trabalhar com alguns grupos,
-
que trabalhavam com indígenas,
as línguas do "Pueblo" (povo).
-
Há aproximadamente
-
seis idiomas do Pueblo (povo),
dependendo de como os divide,
-
faladas naquela região.
-
Mas estão divididos
em 18 Pueblos diferentes
-
e cada um
tem o seu próprio governo tribal,
-
e cada governo
pode ter uma opinião diferente
-
sobre se a sua língua estar acessível
ou não a estrangeiros.
-
Por exemplo, o Pueblo Zuni,
-
é um Pueblo único que fala o idioma Zuni.
-
E eles gostam que a sua língua
esteja por todo o lado,
-
põe-na nos sinais
de trânsito e tudo, é ótimo.
-
Mas para algumas das outras línguas,
-
pode ter um grupo que diz:
-
"Sim, não queremos a nossa língua
acedida por estrangeiros."
-
Mas quando temos o Pueblo vizinho
que fala a mesma língua e dizem:
-
"Queremos mesmo que a nossa língua
esteja acessível a estrangeiros
-
ao usar estas ferramentas tecnológicas,
-
porque queremos
que a nossa língua perdure."
-
Isso traz-nos uma questão
ética bastante interessante.
-
Porque, se por defeito diz:
-
"Certo, vou removê-la
porque o grupo diz que a deveria remover."
-
não está também
a ignorar o segundo grupo
-
porque o primeiro
quer remover as coisas?
-
Acho que é uma pergunta
que não tem uma resposta fácil.
-
Mas diria que,
pelo menos em relação à PanLex.
-
E oficialmente, ainda
não passámos por isto,
-
que eu tenha conhecimento.
-
Agora, isso pode ser
parcialmente porque...
-
voltando à pergunta,
-
talvez precisemos
de nos promover um pouco mais.
-
Mas, no geral, até onde sei,
-
isto não aconteceu.
-
Mas o nosso plano para isto
-
é se a comunidade diz que não quer
os seus dados na nossa base de dados,
-
então removemos.
-
(Pessoa 4) Porque aconteceu isso
na Wikidata e na Wikipedia...
-
- Aconteceu?
- ...nos comentários.
-
- A Sério?
- Foi um problema.
-
Sim, consigo imaginar especialmente
nos comentários de fotos ou certas coisas.
-
(Pessoa 4) Correto.
-
(Pessoa 5) Olá, tenho uma pergunta
sobre o lado crowdsourcing disto.
-
Na medida em que se pede para a comunidade
-
para anotar ou adicionar dados
num conjunto de dados,
-
uma das coisas
que é um pouco intimidadora,
-
como editor, consigo olhar apenas
para o que está em falta.
-
Mas se vou passar tempo
com as coisas, tendo ideias,
-
há uma lista de itens de alta prioridade,
-
que penso que seja muito
motivadora nesse aspecto.
-
Fiquei curioso em saber
se têm um sistema
-
em que, essencialmente,
sabem quais as lacunas nos próprios dados,
-
e em que têm evidência linguística
e sabem quais são aqueles
-
em que se tivéssemos anotado,
seriam impulsionadores de alto impacto.
-
Então posso imaginar
-
que ter o lexema
para "casa" é muito impactante,
-
já o lexema de um dado
ou outro não seja tanto.
-
Mas fiquei curioso
se têm isso, e se é algo
-
que possa ser usado para conduzir
os esforços da comunidade.
-
Ótima pergunta.
-
Uma coisa que a Wikidata tem bastante...
-
perdão, a PanLex,
tem muitas Listas de Swadesh.
-
Aparentemente temos a maior coleção
de Listas de Swadesh do mundo,
-
o que é interessante.
-
Se não sabe o que é uma Lista de Swadesh,
-
é essencialmente um lista
de itens léxicos regularizados
-
que pode ser usada
para a análise de línguas.
-
Contêm conjuntos bem básicos.
-
Há alguns diferentes tipos
de Listas de Swadesh.
-
Mas existem cerca de 100 a 213 itens,
-
e podem conter
-
palavras como "casa", "olho" e "pele"
-
e basicamente palavras comuns
-
que deve encontrar em qualquer língua.
-
É realmente um bom ponto de partida
-
ter esses tipos de dados disponíveis.
-
Agora, como mencionei antes,
-
crowdsourcing é algo
que ainda não fazemos
-
e estamos realmente
muito entusiasmados em começar.
-
É uma das coisas que me entusiasma
-
ao falar com as pessoas
nesta conferência,
-
é como o crowdsourcing pode ser usado
-
e a logística por trás disso,
-
e este é o tipo de perguntas
que podem surgir.
-
Penso que a resposta que vou lhe dar é
-
que temos uma lista de prioridades...
-
Uma coisa que digo com certeza
é que temos uma lista de prioridade
-
quando se trata
das línguas que procuramos.
-
Fazemos isto ao procurar por línguas
-
que não sejam atualmente
auxiliadas por soluções tecnológicas,
-
que são frequentemente
línguas minoritárias,
-
ou habitualmente
línguas minoritárias,
-
e priorizamos essas.
-
Mas em termos
de itens léxicos individuais,
-
a forma comum de conseguir novos dados
-
é essencialmente ao consumir
um dicionário inteiro.
-
Estamos a apoiar-nos
na escolha do dicionário
-
de itens léxicos,
ao invés de dizermos
-
que precisamos da palavra
"casa" em todas as línguas.
-
Mas nos dados de crowdsourcing,
precisaremos de algo assim.
-
Então é uma oportunidade
para crescimento e pesquisa.
-
(Pessoa 6) Olá,
chamo-me Victor, e isto é incrível.
-
Como tem slides aí,
-
será que poderia falar um pouco
sobre os parâmetros técnicos
-
para os quais tem dados
-
ou fluxo de informação
da Wikidata para a PanLex e vice-versa.
-
Se isto já está implementado
-
e como lida com
-
o vai e vem de informações,
ou até mesmo com um loop de respostas
-
entre a PanLex e a Wikidata?
-
Não temos nenhuma ligação formal
com a Wikidata neste momento,
-
e isto é algo que eu, novamente,
-
estou realmente entusiasmado
para falar a audiência desta conferência.
-
Tivemos alguma interação
com o Wikitionary,
-
mas, sinceramente,
a Wikidata seria mais adequada,
-
para o que estamos à procura.
-
Ter material léxico direto
-
significa que teremos bem menos
análise e extração de dados.
-
Então, a resposta é,
ainda não temos, mas queremos.
-
(Pessoa 6) Se não têm,
quais os obstáculos?
-
E como podemos ver, a Wikidata
já suporta diversas línguas,
-
mas quando vejo o translate.panlex.org,
-
aparentemente suportam
muitas, muitas variantes,
-
muito mais que a Wikidata.
-
Como vê se há uma lacuna
-
primeiro entre tradução
ou tradução léxica,
-
utilização versus esforço
-
ao tentar mapear
uma estrutura de conhecimento.
-
Mapear conhecimento
pode ser muito interessante.
-
Tivemos algumas
discussões bastante interessantes
-
sobre a maneira de como a Wikidata
organiza os dados léxicos,
-
os seus dados léxicos,
-
e como nós organizamos
os nossos dados léxicos.
-
E existem diferenças subtis que requerem
estratégia de mapeamento,
-
algumas delas não seriam
necessariamente automáticas,
-
mas podemos ser capazes de desenvolver
técnicas para lidar com isto.
-
Deu o exemplo de variantes de língua.
-
Costumamos ser bem "separadores"
quando se trata de variações de língua.
-
Por outras palavras,
se temos uma fonte que diz
-
que este é o dialeto falado
-
do lado esquerdo do rio
em Papua Nova Guiné, para esta língua,
-
e temos outra fonte que diz
-
que este é o dialeto falado
no lado direito do rio,
-
então, consideramo-los dialetos distintos.
-
E fazemos isso para basicamente preservar
o maior número de dados possível.
-
Ser capaz de mapear isso
com o que a Wikidata faz...
-
Na verdade,
o que gostaria era ter conversas
-
sobre como as línguas
-
são definidas na Wikidata.
-
Novamente, nós usamos
uma estratégia bem "separadora".
-
Apoiamo-nos amplamente
nos códigos ISO 6393,
-
que é fornecido pelo Ethnologue,
-
e para cada código individual,
permitimos múltiplas variantes,
-
sejam variantes escritas, dialetos
regionais, sociolectos (calão), etc.
-
Novamente, oportunidade
para discussão e trabalho.
-
(Pessoa 7) Olá, gostaria de saber
se têm um canal de OCR,
-
especialmente porque estamos
tentando fazer OCR no Maya,
-
e não estamos tendo resultado.
-
Não entende nada.
-
- Sim!
- E, é isto.
-
Se os seus canais estiverem disponíveis.
-
E outra coisa é se
está a sobrepor os códigos ISO,
-
algumas vezes dizem:
-
"Oh, isto é uma língua,
e isto é outra língua."
-
Mas existem fontes
que dizem outras coisas,
-
como mencionou,
mas tendem a sobrepor-se.
-
Então, como é que prosseguem?
-
Sim, é uma pergunta realmente fabulosa.
-
Gostei mesmo.
-
Não temos um canal OCR
oficial, por assim dizer.
-
Fazemos numa base de fonte para fonte.
-
Uma das razões é porque
frequentemente temos fontes
-
que não precisam necessariamente de OCR,
-
que estão disponíveis
para algumas línguas,
-
e concentramo-nos nelas pois estas
requerem a menor quantidade de trabalho.
-
Mas, obviamente,
se quisermos aprofundar
-
algumas fontes que estão na nossa lista,
-
iremos precisar essencialmente de
desenvolver fortes canais OCR.
-
Mas existe outro aspecto,
tal como mencionou...
-
as pessoas que desenvolveram motores OCR
-
talvez não tenham percebido
o quanto as pode stressar.
-
Sabe o que é divertido?
-
Tentar fazer OCR
num dicionário russo-tibetano.
-
É muito difícil, pelo que parece...
-
Nós desistimos e contratámos
alguém para digitar tudo,
-
o que foi completamente viável.
-
Na realidade, o que aconteceu
-
foi que esta incrível mulher russa
foi capaz de aprender a ler tibetano
-
para conseguir escrever,
o que foi muito fixe.
-
Penso que se está a lidar
com material em caracteres Latinos,
-
penso que soluções OCR podem ser
desenvolvidas, que sejam mais robustas,
-
do que lidar com estas
fontes multilinguísticas
-
e esperar que acabe
com um quatro aleatório,
-
se está a lidar com algo como
-
fontes Maias do século XVI,
com o dígito quatro.
-
Mas existem algumas fontes
-
que o OCR provavelmente
nunca irá conseguir apanhar,
-
ou que irá requerer
uma imensa quantidade de trabalho,
-
e na verdade colocamos
um pouco disso em uso agora.
-
Temos outro projeto em execução na PanLex
-
para transcrever toda
a literatura tradicional de Bali,
-
e percebemos que em manuscritos balineses
-
não há a possibilidade de OCR.
-
Então arranjámos uma mão cheia
de pessoas balinesas para digitar,
-
e acabou por se tornar
um projeto cultural muito bom em Bali,
-
e tornou-se notícia.
-
Por isso eu diria
-
que não precisa necessariamente
depender de OCR,
-
mas há muita coisa por aí.
-
Por isso, ter soluções OCR seria bom.
-
Aliás, se alguém aqui se interessa
por OCR super multilínguas,
-
por favor, fale comigo.
-
(Pessoa 8) Obrigado pela sua apresentação.
-
Falou sobre integração
-
entre a PanLex e a Wikidata,
-
mas não especificou muito.
-
Estava a verificar a sua licença
de dados, e vocês usam o CC0.
-
- Sim.
- (Pessoa 8) Isso é ótimo.
-
Então, existem duas formas possíveis,
-
em que podemos importar os dados
-
ou podemos manter
algo similar ao Freebase,
-
onde tínhamos a base
de dados completa do Freebase,
-
importamo-la e fazemos um link,
-
um identificador externo
para a base de dados do Freebase.
-
Tem algo assim em mente
ou está a pensar em algo similar?
-
Ou só quer fazer...
-
uma base de dados independente
que possa ser ligada à Wikidata?
-
Sim, essa é uma ótima pergunta
-
e na verdade penso que ela vai até além
-
de algumas das coisas
em que estive a pensar sobre,
-
parcialmente porque, como eu disse,
-
fazer com que as duas
bases de dados trabalhem juntas
-
é uma etapa por si só.
-
Penso que o primeiro passo
que podemos dar
-
é literalmente partilhar
as nossas habilidades.
-
Temos muita experiência
em lidar com coisas
-
como classificações de propriedades
de lexemas individuais
-
que eu adoraria partilhar.
-
Mas ser capaz de ligar
as duas bases de dados seria maravilhoso.
-
Estou 100% a favor disso.
-
Acho que seria um pouco mais fácil
-
a Wikidata usar a forma da PanLex,
-
mas talvez seja tendencioso
por ver como isso iria funcionar.
-
Sim, essencialmente,
desde que a Wikidata esteja confortável,
-
com todas as licenças e coisas assim,
ou encontraremos uma solução,
-
penso que seria uma ótima ideia.
-
Só temos que pensar
em maneiras de ligar os dados.
-
Algo que imagino seria, essencialmente,
que as edições do Wikidata fossem
-
imediatamente preenchidas
no banco de dados PanLex,
-
sem precisar, essencialmente,
-
consumir novamente tudo outra vez.
-
Tornar essencialmente a Wikidata
numa interface de crowdsourcing da PanLex,
-
seria realmente incrível.
-
E depois ser capaz de usar
a PanLex em traduções imediatas,
-
para ser capaz de traduzir
pelos itens léxicos da Wikidata,
-
isso seria glorioso.
-
(Pessoa 9) Isto parece o processo
de fiscalização semântica da web,
-
tapar buracos por inferência.
-
Se pensarmos assim, este tipo de tradução,
-
como é que lida
com incompatibilidade semântica
-
e gramatical?
-
Por exemplo, se tenta
traduzir algo para o alemão,
-
pode simplesmente
colocar várias palavras juntas
-
e encontrar algo sensato,
-
por outro lado,
acho que já li em algum lugar
-
que nem toda a língua tem
o mesmo sistema granular
-
para cores, por exemplo.
-
Disse que todos
-
usam um sistema diferente
para cores ou o mesmo?
-
(Pessoa 8) Eu lembro-me apenas
que sobre a evolução da língua,
-
que começaram
com o preto e branco, e depois...
-
Sim, a hierarquia das cores.
-
A hierarquia das cores
-
é uma ótima forma
de ilustrar como isto funciona, certo?
-
Essencialmente, quando
tem uma única língua pivot...
-
é bem interessante quando se lê
documentos traduzidos automaticamente
-
porque é frequente falar
sobre uma língua pivot hipotética,
-
em que dizem:
"Ah sim, há uma língua pivot,"
-
e depois lê o documento
e diz: "É inglês."
-
Então o que essa forma
de tradução léxica faz,
-
é passar o termo
por muitas línguas intermédias diferentes,
-
tem o efeito de ser capaz de lidar
com muita ambiguidade semântica.
-
Porque à medida que
passa por outras línguas
-
que contêm limites semânticos similares
razoáveis para uma palavra,
-
pode essencialmente evitar o problema
-
de introduzir ambiguidade semântica
através da língua pivot.
-
Então, ao usar a hierarquia
de cores como exemplo,
-
se tomar uma língua que tem
uma palavra única para azul e verde
-
e a traduz para azul
-
na sua língua pivot
-
e então para outra língua
-
que tem ambiguidades diferentes
para essas coisas,
-
acaba por introduzir
ambiguidade semântica.
-
Mas se passar por mais línguas
-
que também tenham
um item léxico único para verde e azul,
-
então, essencialmente,
a especificidade semântica
-
é passada adiante
para a língua resultante.
-
No que se trata de aspectos gramáticos,
-
a PanLex tem estado primeiramente,
na sua história,
-
a recolher lexemas essenciais,
formas léxicas essenciais.
-
E com isso, quero dizer, basicamente,
-
o que encontraria num termo de dicionário.
-
Então não nos concentramos nesta altura
-
em reunir variantes
de formas gramaticais,
-
coisas como dados nominais, etc.
-
ou pretérito passado e presente.
-
Mas é algo que procuramos fazer.
-
Uma coisa que é sempre importante lembrar
-
é que, como o nosso foco é...
-
está em apoiar línguas minoritárias
que estão ameaçadas ou sem apoio,
-
queremos garantir que algo está disponível
-
antes de torná-lo perfeito.
-
Uma frase que eu adoro é:
-
"Não deixe o perfeito ser inimigo do bom."
-
E é algo que almejamos.
-
Mas estamos super interessados na ideia
-
de lidar com formas gramaticais,
-
e poder traduzir
através de formas gramaticais,
-
e é algo em que já fizemos pesquisa
-
mas que ainda não foi
totalmente implementado.
-
(Pessoa 9) Então dos 7.500 idiomas,
-
presumo que se baseiem em dicionários
que foram escritos para nós,
-
mas todas estas idiomas têm
formas de escrita tradicional?
-
E como lidam com isso?
-
É uma ótima pergunta.
-
Essencialmente, sim, muitas destas línguas
-
como todos sabem, não são escritas.
-
Contudo, qualquer língua
para a qual um dicionário foi produzido
-
contém algum tipo de ortografia,
-
logo, baseamo-nos na ortografia
produzida para o dicionário.
-
Ocasionalmente fazemos
uma ligeira manipulação de ortografia
-
se pudermos, basicamente,
garantir que não há danos.
-
Mas tentamos evitar,
tanto quanto possível.
-
Essencialmente, não nos intrometemos
-
em desenvolver ortografia para as línguas,
-
porque frequentemente
não foi desenvolvida,
-
mesmo que não esteja amplamente publicada.
-
Por exemplo,
-
muitas línguas faladas na Nova Guiné,
-
pode não haver uma forma
ortográfica comum utilizada,
-
mas alguns linguistas
conseguiram fazer algo
-
e já é um bom primeiro passo.
-
Também reunimos formas fonéticas
quando estão disponíveis nos dicionários,
-
e esta é outra forma,
-
essencialmente
uma representação IPA da palavra,
-
se estiver disponível.
-
Isso também pode ser usado.
-
Mas geralmente
não usamos isso como auxílio,
-
pois pode introduzir certas ambiguidades.
-
(Pessoa 10) Obrigada, talvez
não seja uma pergunta muito pertinente.
-
Mas só trabalham
com as línguas intermediárias?
-
Não, não.
-
(Pessoa 10) Ok, certo. Obrigada.
-
Fico feliz que tenha feito essa pergunta.
-
Isto é uma foto
do ecrã do translate.panlex.org.
-
Se fizer uma tradução,
-
terá uma lista
de traduções no lado direito.
-
Clica no botão de reticências
e há um gráfico assim.
-
E o que isto mostra
são as línguas intermediárias,
-
as 20 principais, por pontuação.
-
Daria mais detalhes de como pontuamos,
-
mas não é muito importante agora.
-
Por pontos que estão a sendo usados.
-
Mas para fazer a tradução,
estamos a usar bem mais que 20.
-
O motivo de mostrarmos 20,
é porque se forem mais de 20...
-
é como se fosse uma simulação de física.
-
Podem mover as coisas e elas reagem.
-
Mas se tiver mais de 20,
o computador fica muito irritado.
-
É mais uma demonstração, sim.
-
(Pessoa 11) Leila, da Fundação Wikimedia.
-
Apenas uma nota na...
-
Mencionou a Fundação Wikimedia
algumas vezes durante a apresentação,
-
gostaria de dizer se quiser
realizar qualquer tipo de consumo de dados
-
ou colaboração com a Wikidata,
-
talvez a Wikimedia Alemanha
seja um local melhor
-
com quem ter essas conversas?
-
Porque a Wikidata vive praticamente
dentro da Wikimedia Alemanha,
-
e a equipa está lá,
-
como também a comunidade
de voluntários da Wikidata,
-
seria o local perfeito para conversar
-
sobre qualquer tipo de consumo
-
ou trabalhar para aproximar
a PanLex da Wikidata.
-
Ótimo, muito obrigado!
-
Porque sinceramente
não estou muito familiarizado
-
com as complexidades de arquitectura
-
de como todos os projetos se relacionam.
-
Adivinho pelas gargalhadas
que seja complicado.
-
Mas sim, basicamente queremos conversar
-
com quem for responsável pela Wikidata.
-
Como tal, é só fazermos
um pequeno encontro
-
com quem for responsável pela Wikidata,
aí está com quem nos interessa conversar,
-
que é com todos vocês que são voluntários.
-
Existem mais perguntas?
-
Ok, se alguém tiver mais alguma pergunta
-
sobre algo que falei, ou dos detalhes
e especificidades destas coisas,
-
por favor fale comigo,
estou super entusiasmado.
-
E especialmente se está a lidar
com algo que envolva material léxico,
-
algo que envolva
línguas minoritárias ameaçados,
-
e idiomas desamparados,
-
e também Unicode,
que é algo que também faço.
-
Obrigado a todos
-
e obrigado por me terem convidado a falar,
-
espero que tenham gostado!
-
(Aplausos)