Existem aproximadamente 7.500 línguas
a serem faladas no planeta hoje.
Destas, estima-se
que cerca de 70%
estão em risco de não sobreviver
até ao fim do século XXI.
Sempre que uma língua morre,
é como cortar uma ligação
que durou centenas ou milhares de anos,
com cultura, com história,
tradições, e conhecimento.
O linguista Kenneth Hale disse uma vez
que toda vez que uma língua morre,
é como lançar uma bomba atómica no Louvre.
A pergunta é,
por que é que as línguas morrem?
Talvez a resposta mais simples seja
que alguém possa imaginar
governos autoritários
a impedir que as pessoas
falassem o idioma nativo,
crianças a ser punidas
por falarem a sua língua na escola,
ou o governo a fechar estações de rádio
do idioma da minoria.
Isso aconteceu definitivamente no passado,
e ainda acontece hoje, de certo modo.
Mas a resposta honesta
é que na maioria dos casos
de extinção de uma língua,
é uma muito mais simples
e facílima resposta.
As línguas acabam extintas
porque não são passadas
de uma geração para a outra.
Cada vez que uma pessoa que fala
uma língua minoritária tem um filho,
passa por um dilema.
As pessoas perguntam-se:
"Será que ensino
a minha língua para o meu filho,
ou ensino-lhe a língua da maioria?"
Essencialmente, essa é a ideia
que lhes passa pela cabeça.
Em que, por um lado,
cada vez que nas suas vidas
que tiveram a oportunidade
de usar a língua nativa
para comunicação,
para aceder a cultura tradicional,
uma pedra é colocada no lado esquerdo.
E cada vez que se encontram
incapacitados de usarem a língua nativa,
e tiveram de se relegar
à língua da maioria,
uma pedra é colocada no lado direito.
Agora, pela força e pela dignidade
de ser capaz de falar a língua materna,
as pedras do lado esquerdo
costumam ser mais pesadas.
Mas com pedras
suficientes no lado direito,
eventualmente a balança inverte
e quando uma pessoa toma a decisão
de ensinar a sua língua,
eles veem a própria linguagem
mais como um fardo do que uma benção.
A pergunta é, como revertemos isto?
Primeiro, precisamos pensar
sobre o facto de,
que para qualquer língua existente
existem esferas sociais
onde podem ser usadas.
Então, qualquer língua
que é uma língua materna falada hoje,
pode ser usada na família de alguém.
Um número menor de línguas
podem ser usadas dentro de uma comunidade,
um número ainda menor, talvez numa região,
e um pequeno punhado de línguas,
podem ser usados
na comunicação internacional.
E mesmo através destas esferas,
existe a pergunta se alguém
é capaz de usar a sua língua,
para propósitos
educacionais ou de negócio,
ou tecnológicos?
Então, para explicar melhor
o que estou a falar aqui,
vou usar uma anedota.
Vamos dizer que está prestes a ir
para as suas férias de sonho na Índia,
e tem uma escala
de oito horas em Istambul.
Agora, não estava necessariamente
a pensar em visitar a Turquia,
mas com a escala, e com seu amigo turco
a falar-lhe de um restaurante incrível,
que não é longe do aeroporto,
você diz: "Sabes, se calhar,
passo por lá durante a escala."
Então, sai do aeroporto,
vai até o restaurante,
entregam-lhe o menu,
e está todo em turco.
Agora, vamos supor, para este exemplo,
que não fala turco.
O que faz?
Bem, na melhor das hipóteses,
encontra alguém, talvez,
que fala a sua língua materna,
alemão, inglês, etc.
Mas vamos dizer
que não é o seu dia de sorte
e ninguém no restaurante
fala alemão ou inglês.
Então, o que faz?
Se for como eu,
e imagino que a maioria aqui seja,
provavelmente recorre
a uma solução tecnológica,
tradutor automático ou dicionário digital,
procura cada palavra individualmente,
e eventualmente faz o seu pedido
de uma refeição turca deliciosa.
Agora, vamos imaginar outro cenário:
você é o orador nativo
de uma língua minoritária.
Imaginemos, baixo sórbio.
Baixo sórbio é uma língua ameaçada
falada aqui na Alemanha,
a cerca de 130 quilómetros
a sudeste daqui,
e que é falada apenas por alguns
milhares de pessoas, a maioria idosos.
Imaginemos que
a sua língua materna é o baixo sórbio.
Chega ao restaurante.
Claro que, a probabilidade
de encontrar alguém
que fale a sua língua no restaurante
é extraordinariamente baixa.
Mas, de novo, pode simplesmente
recorrer a uma solução tecnológica.
Contudo, para a sua língua-mãe,
essas soluções tecnológicas não existem.
Precisaria depender do alemão ou do inglês
como sua língua auxiliar para o turco.
Claro que acaba por conseguir
a sua deliciosa refeição turca,
mas começa a pensar
no quão difícil isso seria
se você fosse o seu avô,
que não falava alemão de todo.
Isto é só uma pequena situação,
mas colocaria uma pedra
no lado direito da balança,
e faria-o talvez pensar
que quando tiver um filho
ou quando tiver outro filho,
o fardo que carregou
por ter passado por isto,
talvez não valha a pena
para manter a sua língua-mãe.
E imagine se fosse uma situação
de importância consideravelmente maior,
como, por exemplo, estar num hospital.
Neste ponto podemos ajudar...
por nós, quero dizer eu e você
nesta sala podemos ajudar.
Temos as ferramentas para ajudar com isto.
Se as ferramentas tecnológicas
estiverem disponíveis
a falantes de línguas
minoritárias e ignoradas,
colocamos um dedinho na balança,
no lado esquerdo da balança.
Alguém não precisa
necessariamente de pensar
que precisam de depender
de uma língua minoritária
para poderem interagir
com o mundo externo,
pois isso abre as esferas sociais
um pouco mais ainda.
Claro que, a solução ideal
é que tenhamos tradução automática
para todas as línguas a nível mundial.
Mas, infelizmente, isso não é fazível.
Tradução automática requer
grandes excertos de texto,
e para muitas destas línguas
ameaçadas ou sem muita informação,
esses dados não estão disponíveis.
Alguns nem são frequentemente escritos,
por isso conseguir dados suficientes para
um sistema de tradução automática
é improvável.
Mas o que temos disponível
são dados léxicos.
Pelo trabalho de muitos linguistas
nas últimas centenas de anos,
dicionários e gramáticas foram produzidas
para a maioria das línguas do mundo.
Mas, infelizmente,
a maioria desses trabalhos
não está acessível
ou disponível para o mundo,
ainda mais para quem fala
estas línguas minoritárias.
E não é um processo intencional,
muitas vezes é simplesmente porque
a produção inicial
destes dicionários era pequena,
e as poucas cópias
estão a ganhar bolor numa biblioteca
de universidade algures.
Mas temos a habilidade
de reunir estes dados
e torná-los acessíveis ao mundo.
A Fundação Wikimedia
é uma das melhores organizações,
eu diria a melhor organização do mundo,
para reunir dados disponíveis
para a maioria da população deste planeta.
Então, vamos trabalhar nisso.
Para explicar um pouco
o que estivemos a fazer sobre isso,
gostaria de apresentar
a minha organização, a PanLex,
que é uma organização que almeja
reunir dados léxicos para este propósito.
Começámos há cerca de 12 anos
como um projeto de pesquisa
da Universidade de Washington.
A ideia por trás disto
era mostrar que as traduções inferidas
poderiam criar um dispositivo
de tradução eficiente,
essencialmente um dispositivo
de tradução léxica.
Este é um exemplo dos dados da PanLex.
Isto mostra como se traduz
da palavra "ev" em turco,
que significa casa,
para baixo sórbio,
a língua a que me referi antes.
É improvável encontrarmos
um dicionário de turco para baixo sórbio,
mas passando isto por muitas
e muitas línguas intermédias diferentes,
podemos criar traduções eficientes.
Uma vez que isto foi mostrado
nos projetos de pesquisa,
o fundador da PanLex, Dr. Jonathan Pool,
decidiu: "Por que não
fazer simplesmente isto?"
Fundou uma empresa sem fins lucrativos
para reunir o máximo de dados léxicos
possível, e torná-los acessíveis.
E é isso o que estamos a fazer há 12 anos.
Durante esse tempo, reunimos milhares
e milhares de dicionários,
extraímos os dados léxicos deles
e elaborámos uma base de dados
que permite inferir traduções léxicas
por entre qualquer...
A nossa contagem actual
é aproximadamente 5.500
das 7.500 línguas do mundo.
E, claro,
estamos sempre a tentar aumentar isto
e expandir os dados
de cada língua individual.
Então, a próxima pergunta é,
o que podemos fazer
para trabalharmos juntos nisso?
Nós, na PanLex, estamos
extremamente entusiasmados
em assistir ao desenvolvimento
de dados léxicos
em que a Wikidata trabalhou recentemente.
É fascinante ver organizações
que estão a trabalhar
em esferas muito similares,
mas em aspectos diferentes.
E estamos
extremamente entusiasmados em ver
os resultados disso da Wikidata.
E também esperamos
colaborar com a Wikidata.
Penso que as habilidades especiais
que desenvolvemos
durante os últimos 12 anos,
não só a reunir dados léxicos,
mas a elaborar bases de dados,
podem ser extremamente úteis
para a Wikidata.
E por outro lado, penso que...
Estou especialmente entusiasmado
pela a capacidade
da Wikidata
em fazer crowdsourcing de dados.
Na PanLex atualmente
as nossas fontes são inteiramente
provenientes de meios impressos
ou outros tipos,
mas não temos nada em crowdsourcing.
Não temos simplesmente
infraestrutura disponível para isso,
e claro, a Fundação Wikimedia
é referência mundial em crowdsourcing.
Eu espero realmente ver em como podemos
juntar estas habilidades.
Mas no geral, penso que
a ideia principal a retirar disto
é que enquanto estávamos
a trabalhar nestas coisas,
é minúcioso.
Estamos sentados à procura
de formas gramaticais,
ou a folhear dicionários,
dicionários antigos,
ou às vezes dicionários recém-publicados,
e a ver as formas escritas das palavras,
e parece tudo muito específico.
Mas ocasionalmente,
precisamos de nos lembrar
de dar um passo atrás
e mesmo que o que fazemos pareça
algo mundano por vezes,
este trabalho é extremamente importante.
Essa, na minha opinião, é a melhor maneira
de apoiarmos línguas ameaçadas
e garantirmos que a diversidade
linguística do planeta
seja preservada
até ao fim do século, ou além.
É inteiramente possível
que o trabalho que fazemos hoje
possa resultar em línguas
a ser preservadas e passadas adiante,
sem se tornarem extintas.
Apenas para recordar
que mesmo que esteja sentado
em frente ao computador
editando uma entrada individual
e adicionando formas de dados
de uma língua minoritária,
para cada um dos substantivos,
a pequena tarefa que está a fazer agora,
pode ser parcialmente responsável
em garantir que uma língua sobreviva
até ao final do século ou além.
Muito obrigado.
E gostaria de abrir o painel a perguntas.
(Aplausos)
(Pessoa 1) Obrigada.
- Obrigada pela sua palestra.
- Obrigado.
(Pessoa 1) Tenho uma pergunta
sobre dicionários.
Disse que trabalha
com dicionários impressos?
- Sim.
- Minha pergunta é
o que recolhe desses dicionários,
e se há algum direito de autor
com que precisa de lidar?
Previ que esta seria a primeira pergunta.
(Risadas)
Primeiro, para a PanLex,
temos, de acordo
com os recursos legais que consultámos,
embora a disposição e organização
do dicionário possa ter esses direitos,
a tradução por si mesma
não é passível de ter direitos de autor.
Um bom exemplo para isto é,
uma lista telefónica, pelo menos de acordo
com a legislação dos Estados Unidos,
tem direitos de autor.
Mas dizer que o número
da pessoa X são D dígitos
não tem direitos de autor.
Então, tal como disse,
de acordo com nossos
representantes legais,
lidamos assim com isto.
Mas mesmo que isto não seja
um argumento legal suficiente,
uma coisa importante para lembrar
é que a maioria destes dados léxicos
não têm direitos de autor.
Um número significativo deles
não têm direitos de autor
e podem ser usados livremente.
E outra coisa, por exemplo,
é que frequentemente,
se estamos a trabalhar
com um dicionário recém-impresso,
ao invés de tentar
escaneá-lo e digitalizá-lo,
nós apenas mandamos
um e-mail para o autor.
E o que acontece é na maioria das vezes
os linguistas ficarem entusiasmados
em tornarem os seus dados acessíveis.
Algo como: "Claro, por favor,
coloque tudo aí e faça isso acessível."
É extremamente raro que...
Então, como disse, temos,
de acordo com nossas opiniões legais,
a possibilidade,
mas mesmo que não queira aceitar isso,
é muito fácil conseguir
dados acessíveis publicamente.
- (Pessoa 2) Obrigado. Olá.
- Olá.
Pode falar um pouco mais
sobre como a pessoa
que fala baixo sórbio acessará os dados.
Especificamente como é que
esta informação irá chegar-lhe
e como isso irá convencê-la
a usar...
Ótima pergunta e isto é uma das coisas
que tenho vindo a pensar muito, também,
porque penso que quando falamos
sobre acesso de dados
há na verdade múltiplas etapas.
Uma, claro, é a preservação de dados,
garantindo que os dados não desaparecem.
Segundo, é fazer com que
seja interoperável
e possa ser usado.
E terceiro é garantir
que esteja disponível.
No caso da PanLex,
temos uma API que pode ser usada,
mas, claro, não pode ser usada
por um utilizador final.
Mas também desenvolvemos interfaces.
E também, por exemplo,
se aceder a translate.panlex.org
pode fazer traduções
na nossa base de dados.
Se quiser brincar com a API,
aceda a dev.panlex.org,
e encontrará muitas coisas da API,
ou aceda a api.panlex.org.
Mas há também outro passo,
que é mesmo que torne
os seus dados completamente acessíveis
com ferramentas
que sejam super úteis para o acesso,
se não promover as ferramentas,
então as pessoas
não serão capazes de usá-las.
E isso, sinceramente, é...
uma coisa de que não se fala o suficiente,
e eu não tenho uma boa resposta para isso.
Como garantimos que...
por exemplo, eu só recentemente,
há alguns anos atrás,
tomei conhecimento da Wikidata
e é exatamente o tipo de coisa
com que fico entusiasmado.
Então, como nos promovemos para os outros?
Vou deixar esta pergunta em aberto.
Como disse, não tenho uma boa resposta.
Mas claro, para fazermos isto,
precisamos de completar
as primeiras etapas.
(Pessoa 3) Se quisermos
ter tradução automática,
não precisamos de uma memória de tradução?
Não sei se as palavras
que colocamos na Wikidata,
estas pequenas frases
que colocamos na Wikidata,
como itens normais da Wikidata
ou como lexemas da Wikidata,
são suficientes para fazer
uma tradução adequada.
Precisamos de frases inteiras,
por exemplo, para...
(Benjamin) Sim, realmente.
(Pessoa 3) E onde conseguimos
esta estrutura de dados?
Não tenho certeza, se atualmente,
a Wikidata é capaz de lidar
com isto de forma adequada,
com a questão da memória de tradução,
translatewiki.net,
para entrar no limiar da...
Devemos fazer algo
a respeito disso, ou devemos...
Sim, e agradeço
verdadeiramente a sua pergunta.
Falei disso superficialmente antes,
mas adoraria reiterar.
Esta é a razão principal do porquê
da PanLex operar com dados léxicos
e o porquê
de me empolgar com dados léxicos,
ao contrário de...
não ao contrário, mas como complemento
aos motores de tradução automática
e à tradução automática em geral.
Como disse, a tradução automática
requer um tipo específico de dados,
e esses dados não estão disponíveis
para a maior parte das línguas mundiais.
Para a grande maioria
das línguas mundiais,
isso simplesmente não está disponível.
Mas isso não significa
que devemos desistir.
Porquê?
Se eu precisar de traduzir
o menu turco do restaurante,
a tradução léxica será provavelmente
uma ferramenta excepcional para isto.
Não estou a dizer
que pode usar tradução léxica
para ter um parágrafo perfeito
ao traduzir um parágrafo.
Quando digo tradução léxica,
digo palavra para palavra,
e traduções palavra para palavra
podem ser extremamente úteis,
é engraçado pensar nisto,
mas não tínhamos acesso
a tradução automática de qualidade.
Ninguém tinha acesso
a isso até recentemente.
E sobrevivíamos com dicionários,
e são um recurso incrivelmente bom.
Os dados estão disponíveis,
então por que não tornar disponível
para o mundo em geral
e para os oradores dessas línguas?
(Pessoa 4) Olá,
que mecanismos tem ao dispor
para quando a comunidade... estou aqui.
- Onde está? Ok, certo.
- (Pessoa 4) Sim, desculpe. (risos)
...quando a própria comunidade
não quiser parte dos seus dados na PanLex?
Ótima pergunta.
A forma como lidamos com isso
é que se um dicionário foi publicado,
e estiver disponível publicamente,
é uma boa indicação.
Se o puder comprar numa loja
ou numa biblioteca de uma universidade,
ou numa biblioteca pública
que qualquer um pode aceder.
Isto é uma boa indicação
que essa decisão foi tomada.
(Pessoa 4) [inaudível]
(Pessoa 5) Por favor, Kimberly,
pode falar para o microfone?
Pode repetir?
(Pessoa 4) Os linguistas nem sempre têm
a permissão da comunidade.
Para publicar coisas,
frequentemente publicam coisas
sem o consentimento da comunidade.
E isso é totalmente verdade.
Eu diria que é um...
Que acontece.
Eu diria que acontece
numa minoria de casos,
limitado geralmente à América do Norte,
mas às vezes também
com línguas da América do Sul.
É algo que temos de levar em conta.
Se recebêssemos notificação, por exemplo,
de que os dados que estão na PanLex
não deveriam ser acedidos
pelo resto do mundo,
então, é claro que removeríamos.
(Pessoa 4) Boa, boa.
Claro, que isso não significa
que iremos seguir
as regras de direito de autor,
mas que vamos ouvir
as comunidades tradicionais,
e essa é a diferença principal.
(Pessoa 4) Sim, era a isso que me referia.
Isso leva-nos a um ponto interessante
que é
às vezes uma grande pergunta
para quem fala por aquela língua.
Tive uma experiência ao visitar
o sudoeste americano
e ao trabalhar com alguns grupos,
que trabalhavam com indígenas,
as línguas do "Pueblo" (povo).
Há aproximadamente
seis idiomas do Pueblo (povo),
dependendo de como os divide,
faladas naquela região.
Mas estão divididos
em 18 Pueblos diferentes
e cada um
tem o seu próprio governo tribal,
e cada governo
pode ter uma opinião diferente
sobre se a sua língua estar acessível
ou não a estrangeiros.
Por exemplo, o Pueblo Zuni,
é um Pueblo único que fala o idioma Zuni.
E eles gostam que a sua língua
esteja por todo o lado,
põe-na nos sinais
de trânsito e tudo, é ótimo.
Mas para algumas das outras línguas,
pode ter um grupo que diz:
"Sim, não queremos a nossa língua
acedida por estrangeiros."
Mas quando temos o Pueblo vizinho
que fala a mesma língua e dizem:
"Queremos mesmo que a nossa língua
esteja acessível a estrangeiros
ao usar estas ferramentas tecnológicas,
porque queremos
que a nossa língua perdure."
Isso traz-nos uma questão
ética bastante interessante.
Porque, se por defeito diz:
"Certo, vou removê-la
porque o grupo diz que a deveria remover."
não está também
a ignorar o segundo grupo
porque o primeiro
quer remover as coisas?
Acho que é uma pergunta
que não tem uma resposta fácil.
Mas diria que,
pelo menos em relação à PanLex.
E oficialmente, ainda
não passámos por isto,
que eu tenha conhecimento.
Agora, isso pode ser
parcialmente porque...
voltando à pergunta,
talvez precisemos
de nos promover um pouco mais.
Mas, no geral, até onde sei,
isto não aconteceu.
Mas o nosso plano para isto
é se a comunidade diz que não quer
os seus dados na nossa base de dados,
então removemos.
(Pessoa 4) Porque aconteceu isso
na Wikidata e na Wikipedia...
- Aconteceu?
- ...nos comentários.
- A Sério?
- Foi um problema.
Sim, consigo imaginar especialmente
nos comentários de fotos ou certas coisas.
(Pessoa 4) Correto.
(Pessoa 5) Olá, tenho uma pergunta
sobre o lado crowdsourcing disto.
Na medida em que se pede para a comunidade
para anotar ou adicionar dados
num conjunto de dados,
uma das coisas
que é um pouco intimidadora,
como editor, consigo olhar apenas
para o que está em falta.
Mas se vou passar tempo
com as coisas, tendo ideias,
há uma lista de itens de alta prioridade,
que penso que seja muito
motivadora nesse aspecto.
Fiquei curioso em saber
se têm um sistema
em que, essencialmente,
sabem quais as lacunas nos próprios dados,
e em que têm evidência linguística
e sabem quais são aqueles
em que se tivéssemos anotado,
seriam impulsionadores de alto impacto.
Então posso imaginar
que ter o lexema
para "casa" é muito impactante,
já o lexema de um dado
ou outro não seja tanto.
Mas fiquei curioso
se têm isso, e se é algo
que possa ser usado para conduzir
os esforços da comunidade.
Ótima pergunta.
Uma coisa que a Wikidata tem bastante...
perdão, a PanLex,
tem muitas Listas de Swadesh.
Aparentemente temos a maior coleção
de Listas de Swadesh do mundo,
o que é interessante.
Se não sabe o que é uma Lista de Swadesh,
é essencialmente um lista
de itens léxicos regularizados
que pode ser usada
para a análise de línguas.
Contêm conjuntos bem básicos.
Há alguns diferentes tipos
de Listas de Swadesh.
Mas existem cerca de 100 a 213 itens,
e podem conter
palavras como "casa", "olho" e "pele"
e basicamente palavras comuns
que deve encontrar em qualquer língua.
É realmente um bom ponto de partida
ter esses tipos de dados disponíveis.
Agora, como mencionei antes,
crowdsourcing é algo
que ainda não fazemos
e estamos realmente
muito entusiasmados em começar.
É uma das coisas que me entusiasma
ao falar com as pessoas
nesta conferência,
é como o crowdsourcing pode ser usado
e a logística por trás disso,
e este é o tipo de perguntas
que podem surgir.
Penso que a resposta que vou lhe dar é
que temos uma lista de prioridades...
Uma coisa que digo com certeza
é que temos uma lista de prioridade
quando se trata
das línguas que procuramos.
Fazemos isto ao procurar por línguas
que não sejam atualmente
auxiliadas por soluções tecnológicas,
que são frequentemente
línguas minoritárias,
ou habitualmente
línguas minoritárias,
e priorizamos essas.
Mas em termos
de itens léxicos individuais,
a forma comum de conseguir novos dados
é essencialmente ao consumir
um dicionário inteiro.
Estamos a apoiar-nos
na escolha do dicionário
de itens léxicos,
ao invés de dizermos
que precisamos da palavra
"casa" em todas as línguas.
Mas nos dados de crowdsourcing,
precisaremos de algo assim.
Então é uma oportunidade
para crescimento e pesquisa.
(Pessoa 6) Olá,
chamo-me Victor, e isto é incrível.
Como tem slides aí,
será que poderia falar um pouco
sobre os parâmetros técnicos
para os quais tem dados
ou fluxo de informação
da Wikidata para a PanLex e vice-versa.
Se isto já está implementado
e como lida com
o vai e vem de informações,
ou até mesmo com um loop de respostas
entre a PanLex e a Wikidata?
Não temos nenhuma ligação formal
com a Wikidata neste momento,
e isto é algo que eu, novamente,
estou realmente entusiasmado
para falar a audiência desta conferência.
Tivemos alguma interação
com o Wikitionary,
mas, sinceramente,
a Wikidata seria mais adequada,
para o que estamos à procura.
Ter material léxico direto
significa que teremos bem menos
análise e extração de dados.
Então, a resposta é,
ainda não temos, mas queremos.
(Pessoa 6) Se não têm,
quais os obstáculos?
E como podemos ver, a Wikidata
já suporta diversas línguas,
mas quando vejo o translate.panlex.org,
aparentemente suportam
muitas, muitas variantes,
muito mais que a Wikidata.
Como vê se há uma lacuna
primeiro entre tradução
ou tradução léxica,
utilização versus esforço
ao tentar mapear
uma estrutura de conhecimento.
Mapear conhecimento
pode ser muito interessante.
Tivemos algumas
discussões bastante interessantes
sobre a maneira de como a Wikidata
organiza os dados léxicos,
os seus dados léxicos,
e como nós organizamos
os nossos dados léxicos.
E existem diferenças subtis que requerem
estratégia de mapeamento,
algumas delas não seriam
necessariamente automáticas,
mas podemos ser capazes de desenvolver
técnicas para lidar com isto.
Deu o exemplo de variantes de língua.
Costumamos ser bem "separadores"
quando se trata de variações de língua.
Por outras palavras,
se temos uma fonte que diz
que este é o dialeto falado
do lado esquerdo do rio
em Papua Nova Guiné, para esta língua,
e temos outra fonte que diz
que este é o dialeto falado
no lado direito do rio,
então, consideramo-los dialetos distintos.
E fazemos isso para basicamente preservar
o maior número de dados possível.
Ser capaz de mapear isso
com o que a Wikidata faz...
Na verdade,
o que gostaria era ter conversas
sobre como as línguas
são definidas na Wikidata.
Novamente, nós usamos
uma estratégia bem "separadora".
Apoiamo-nos amplamente
nos códigos ISO 6393,
que é fornecido pelo Ethnologue,
e para cada código individual,
permitimos múltiplas variantes,
sejam variantes escritas, dialetos
regionais, sociolectos (calão), etc.
Novamente, oportunidade
para discussão e trabalho.
(Pessoa 7) Olá, gostaria de saber
se têm um canal de OCR,
especialmente porque estamos
tentando fazer OCR no Maya,
e não estamos tendo resultado.
Não entende nada.
- Sim!
- E, é isto.
Se os seus canais estiverem disponíveis.
E outra coisa é se
está a sobrepor os códigos ISO,
algumas vezes dizem:
"Oh, isto é uma língua,
e isto é outra língua."
Mas existem fontes
que dizem outras coisas,
como mencionou,
mas tendem a sobrepor-se.
Então, como é que prosseguem?
Sim, é uma pergunta realmente fabulosa.
Gostei mesmo.
Não temos um canal OCR
oficial, por assim dizer.
Fazemos numa base de fonte para fonte.
Uma das razões é porque
frequentemente temos fontes
que não precisam necessariamente de OCR,
que estão disponíveis
para algumas línguas,
e concentramo-nos nelas pois estas
requerem a menor quantidade de trabalho.
Mas, obviamente,
se quisermos aprofundar
algumas fontes que estão na nossa lista,
iremos precisar essencialmente de
desenvolver fortes canais OCR.
Mas existe outro aspecto,
tal como mencionou...
as pessoas que desenvolveram motores OCR
talvez não tenham percebido
o quanto as pode stressar.
Sabe o que é divertido?
Tentar fazer OCR
num dicionário russo-tibetano.
É muito difícil, pelo que parece...
Nós desistimos e contratámos
alguém para digitar tudo,
o que foi completamente viável.
Na realidade, o que aconteceu
foi que esta incrível mulher russa
foi capaz de aprender a ler tibetano
para conseguir escrever,
o que foi muito fixe.
Penso que se está a lidar
com material em caracteres Latinos,
penso que soluções OCR podem ser
desenvolvidas, que sejam mais robustas,
do que lidar com estas
fontes multilinguísticas
e esperar que acabe
com um quatro aleatório,
se está a lidar com algo como
fontes Maias do século XVI,
com o dígito quatro.
Mas existem algumas fontes
que o OCR provavelmente
nunca irá conseguir apanhar,
ou que irá requerer
uma imensa quantidade de trabalho,
e na verdade colocamos
um pouco disso em uso agora.
Temos outro projeto em execução na PanLex
para transcrever toda
a literatura tradicional de Bali,
e percebemos que em manuscritos balineses
não há a possibilidade de OCR.
Então arranjámos uma mão cheia
de pessoas balinesas para digitar,
e acabou por se tornar
um projeto cultural muito bom em Bali,
e tornou-se notícia.
Por isso eu diria
que não precisa necessariamente
depender de OCR,
mas há muita coisa por aí.
Por isso, ter soluções OCR seria bom.
Aliás, se alguém aqui se interessa
por OCR super multilínguas,
por favor, fale comigo.
(Pessoa 8) Obrigado pela sua apresentação.
Falou sobre integração
entre a PanLex e a Wikidata,
mas não especificou muito.
Estava a verificar a sua licença
de dados, e vocês usam o CC0.
- Sim.
- (Pessoa 8) Isso é ótimo.
Então, existem duas formas possíveis,
em que podemos importar os dados
ou podemos manter
algo similar ao Freebase,
onde tínhamos a base
de dados completa do Freebase,
importamo-la e fazemos um link,
um identificador externo
para a base de dados do Freebase.
Tem algo assim em mente
ou está a pensar em algo similar?
Ou só quer fazer...
uma base de dados independente
que possa ser ligada à Wikidata?
Sim, essa é uma ótima pergunta
e na verdade penso que ela vai até além
de algumas das coisas
em que estive a pensar sobre,
parcialmente porque, como eu disse,
fazer com que as duas
bases de dados trabalhem juntas
é uma etapa por si só.
Penso que o primeiro passo
que podemos dar
é literalmente partilhar
as nossas habilidades.
Temos muita experiência
em lidar com coisas
como classificações de propriedades
de lexemas individuais
que eu adoraria partilhar.
Mas ser capaz de ligar
as duas bases de dados seria maravilhoso.
Estou 100% a favor disso.
Acho que seria um pouco mais fácil
a Wikidata usar a forma da PanLex,
mas talvez seja tendencioso
por ver como isso iria funcionar.
Sim, essencialmente,
desde que a Wikidata esteja confortável,
com todas as licenças e coisas assim,
ou encontraremos uma solução,
penso que seria uma ótima ideia.
Só temos que pensar
em maneiras de ligar os dados.
Algo que imagino seria, essencialmente,
que as edições do Wikidata fossem
imediatamente preenchidas
no banco de dados PanLex,
sem precisar, essencialmente,
consumir novamente tudo outra vez.
Tornar essencialmente a Wikidata
numa interface de crowdsourcing da PanLex,
seria realmente incrível.
E depois ser capaz de usar
a PanLex em traduções imediatas,
para ser capaz de traduzir
pelos itens léxicos da Wikidata,
isso seria glorioso.
(Pessoa 9) Isto parece o processo
de fiscalização semântica da web,
tapar buracos por inferência.
Se pensarmos assim, este tipo de tradução,
como é que lida
com incompatibilidade semântica
e gramatical?
Por exemplo, se tenta
traduzir algo para o alemão,
pode simplesmente
colocar várias palavras juntas
e encontrar algo sensato,
por outro lado,
acho que já li em algum lugar
que nem toda a língua tem
o mesmo sistema granular
para cores, por exemplo.
Disse que todos
usam um sistema diferente
para cores ou o mesmo?
(Pessoa 8) Eu lembro-me apenas
que sobre a evolução da língua,
que começaram
com o preto e branco, e depois...
Sim, a hierarquia das cores.
A hierarquia das cores
é uma ótima forma
de ilustrar como isto funciona, certo?
Essencialmente, quando
tem uma única língua pivot...
é bem interessante quando se lê
documentos traduzidos automaticamente
porque é frequente falar
sobre uma língua pivot hipotética,
em que dizem:
"Ah sim, há uma língua pivot,"
e depois lê o documento
e diz: "É inglês."
Então o que essa forma
de tradução léxica faz,
é passar o termo
por muitas línguas intermédias diferentes,
tem o efeito de ser capaz de lidar
com muita ambiguidade semântica.
Porque à medida que
passa por outras línguas
que contêm limites semânticos similares
razoáveis para uma palavra,
pode essencialmente evitar o problema
de introduzir ambiguidade semântica
através da língua pivot.
Então, ao usar a hierarquia
de cores como exemplo,
se tomar uma língua que tem
uma palavra única para azul e verde
e a traduz para azul
na sua língua pivot
e então para outra língua
que tem ambiguidades diferentes
para essas coisas,
acaba por introduzir
ambiguidade semântica.
Mas se passar por mais línguas
que também tenham
um item léxico único para verde e azul,
então, essencialmente,
a especificidade semântica
é passada adiante
para a língua resultante.
No que se trata de aspectos gramáticos,
a PanLex tem estado primeiramente,
na sua história,
a recolher lexemas essenciais,
formas léxicas essenciais.
E com isso, quero dizer, basicamente,
o que encontraria num termo de dicionário.
Então não nos concentramos nesta altura
em reunir variantes
de formas gramaticais,
coisas como dados nominais, etc.
ou pretérito passado e presente.
Mas é algo que procuramos fazer.
Uma coisa que é sempre importante lembrar
é que, como o nosso foco é...
está em apoiar línguas minoritárias
que estão ameaçadas ou sem apoio,
queremos garantir que algo está disponível
antes de torná-lo perfeito.
Uma frase que eu adoro é:
"Não deixe o perfeito ser inimigo do bom."
E é algo que almejamos.
Mas estamos super interessados na ideia
de lidar com formas gramaticais,
e poder traduzir
através de formas gramaticais,
e é algo em que já fizemos pesquisa
mas que ainda não foi
totalmente implementado.
(Pessoa 9) Então dos 7.500 idiomas,
presumo que se baseiem em dicionários
que foram escritos para nós,
mas todas estas idiomas têm
formas de escrita tradicional?
E como lidam com isso?
É uma ótima pergunta.
Essencialmente, sim, muitas destas línguas
como todos sabem, não são escritas.
Contudo, qualquer língua
para a qual um dicionário foi produzido
contém algum tipo de ortografia,
logo, baseamo-nos na ortografia
produzida para o dicionário.
Ocasionalmente fazemos
uma ligeira manipulação de ortografia
se pudermos, basicamente,
garantir que não há danos.
Mas tentamos evitar,
tanto quanto possível.
Essencialmente, não nos intrometemos
em desenvolver ortografia para as línguas,
porque frequentemente
não foi desenvolvida,
mesmo que não esteja amplamente publicada.
Por exemplo,
muitas línguas faladas na Nova Guiné,
pode não haver uma forma
ortográfica comum utilizada,
mas alguns linguistas
conseguiram fazer algo
e já é um bom primeiro passo.
Também reunimos formas fonéticas
quando estão disponíveis nos dicionários,
e esta é outra forma,
essencialmente
uma representação IPA da palavra,
se estiver disponível.
Isso também pode ser usado.
Mas geralmente
não usamos isso como auxílio,
pois pode introduzir certas ambiguidades.
(Pessoa 10) Obrigada, talvez
não seja uma pergunta muito pertinente.
Mas só trabalham
com as línguas intermediárias?
Não, não.
(Pessoa 10) Ok, certo. Obrigada.
Fico feliz que tenha feito essa pergunta.
Isto é uma foto
do ecrã do translate.panlex.org.
Se fizer uma tradução,
terá uma lista
de traduções no lado direito.
Clica no botão de reticências
e há um gráfico assim.
E o que isto mostra
são as línguas intermediárias,
as 20 principais, por pontuação.
Daria mais detalhes de como pontuamos,
mas não é muito importante agora.
Por pontos que estão a sendo usados.
Mas para fazer a tradução,
estamos a usar bem mais que 20.
O motivo de mostrarmos 20,
é porque se forem mais de 20...
é como se fosse uma simulação de física.
Podem mover as coisas e elas reagem.
Mas se tiver mais de 20,
o computador fica muito irritado.
É mais uma demonstração, sim.
(Pessoa 11) Leila, da Fundação Wikimedia.
Apenas uma nota na...
Mencionou a Fundação Wikimedia
algumas vezes durante a apresentação,
gostaria de dizer se quiser
realizar qualquer tipo de consumo de dados
ou colaboração com a Wikidata,
talvez a Wikimedia Alemanha
seja um local melhor
com quem ter essas conversas?
Porque a Wikidata vive praticamente
dentro da Wikimedia Alemanha,
e a equipa está lá,
como também a comunidade
de voluntários da Wikidata,
seria o local perfeito para conversar
sobre qualquer tipo de consumo
ou trabalhar para aproximar
a PanLex da Wikidata.
Ótimo, muito obrigado!
Porque sinceramente
não estou muito familiarizado
com as complexidades de arquitectura
de como todos os projetos se relacionam.
Adivinho pelas gargalhadas
que seja complicado.
Mas sim, basicamente queremos conversar
com quem for responsável pela Wikidata.
Como tal, é só fazermos
um pequeno encontro
com quem for responsável pela Wikidata,
aí está com quem nos interessa conversar,
que é com todos vocês que são voluntários.
Existem mais perguntas?
Ok, se alguém tiver mais alguma pergunta
sobre algo que falei, ou dos detalhes
e especificidades destas coisas,
por favor fale comigo,
estou super entusiasmado.
E especialmente se está a lidar
com algo que envolva material léxico,
algo que envolva
línguas minoritárias ameaçados,
e idiomas desamparados,
e também Unicode,
que é algo que também faço.
Obrigado a todos
e obrigado por me terem convidado a falar,
espero que tenham gostado!
(Aplausos)