cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

Edit subtitles

0:06 - 0:09

Existem aproximadamente 7.500 línguas
0:09 - 0:11

a serem faladas no planeta hoje.
0:12 - 0:14

Destas, estima-se
0:14 - 0:18

que cerca de 70%
estão em risco de não sobreviver
0:18 - 0:20

até ao fim do século XXI.
0:22 - 0:24

Sempre que uma língua morre,
0:25 - 0:27

é como cortar uma ligação
0:27 - 0:31

que durou centenas ou milhares de anos,
0:31 - 0:35

com cultura, com história,
0:35 - 0:38

tradições, e conhecimento.
0:39 - 0:42

O linguista Kenneth Hale disse uma vez
0:42 - 0:44

que toda vez que uma língua morre,
0:44 - 0:47

é como lançar uma bomba atómica no Louvre.
0:51 - 0:52

A pergunta é,
0:53 - 0:55

por que é que as línguas morrem?
0:58 - 1:00

Talvez a resposta mais simples seja
1:00 - 1:03

que alguém possa imaginar
governos autoritários
1:03 - 1:05

a impedir que as pessoas
falassem o idioma nativo,
1:06 - 1:10

crianças a ser punidas
por falarem a sua língua na escola,
1:10 - 1:13

ou o governo a fechar estações de rádio
1:13 - 1:15

do idioma da minoria.
1:15 - 1:17

Isso aconteceu definitivamente no passado,
1:17 - 1:19

e ainda acontece hoje, de certo modo.
1:20 - 1:23

Mas a resposta honesta
1:23 - 1:27

é que na maioria dos casos
de extinção de uma língua,
1:27 - 1:29

é uma muito mais simples
1:29 - 1:33

e facílima resposta.
1:34 - 1:36

As línguas acabam extintas
1:36 - 1:38

porque não são passadas
1:38 - 1:40

de uma geração para a outra.
1:42 - 1:44

Cada vez que uma pessoa que fala
1:44 - 1:46

uma língua minoritária tem um filho,
1:47 - 1:50

passa por um dilema.
1:51 - 1:53

As pessoas perguntam-se:
1:54 - 1:56

"Será que ensino
a minha língua para o meu filho,
1:57 - 2:01

ou ensino-lhe a língua da maioria?"
2:01 - 2:03

Essencialmente, essa é a ideia
2:04 - 2:06

que lhes passa pela cabeça.
2:07 - 2:08

Em que, por um lado,
2:10 - 2:12

cada vez que nas suas vidas
2:12 - 2:14

que tiveram a oportunidade
de usar a língua nativa
2:15 - 2:18

para comunicação,
para aceder a cultura tradicional,
2:20 - 2:22

uma pedra é colocada no lado esquerdo.
2:22 - 2:24

E cada vez que se encontram
2:24 - 2:26

incapacitados de usarem a língua nativa,
2:26 - 2:28

e tiveram de se relegar
à língua da maioria,
2:28 - 2:30

uma pedra é colocada no lado direito.
2:32 - 2:35

Agora, pela força e pela dignidade
2:35 - 2:37

de ser capaz de falar a língua materna,
2:37 - 2:39

as pedras do lado esquerdo
costumam ser mais pesadas.
2:39 - 2:42

Mas com pedras
suficientes no lado direito,
2:43 - 2:45

eventualmente a balança inverte
2:45 - 2:47

e quando uma pessoa toma a decisão
2:47 - 2:49

de ensinar a sua língua,
2:49 - 2:51

eles veem a própria linguagem
2:51 - 2:53

mais como um fardo do que uma benção.
2:56 - 2:59

A pergunta é, como revertemos isto?
2:59 - 3:02

Primeiro, precisamos pensar
sobre o facto de,
3:04 - 3:05

que para qualquer língua existente
3:05 - 3:08

existem esferas sociais
onde podem ser usadas.
3:08 - 3:09

Então, qualquer língua
3:09 - 3:11

que é uma língua materna falada hoje,
3:11 - 3:13

pode ser usada na família de alguém.
3:14 - 3:17

Um número menor de línguas
podem ser usadas dentro de uma comunidade,
3:17 - 3:19

um número ainda menor, talvez numa região,
3:19 - 3:22

e um pequeno punhado de línguas,
3:23 - 3:25

podem ser usados
na comunicação internacional.
3:26 - 3:29

E mesmo através destas esferas,
3:29 - 3:32

existe a pergunta se alguém
é capaz de usar a sua língua,
3:32 - 3:36

para propósitos
educacionais ou de negócio,
3:36 - 3:38

ou tecnológicos?
3:39 - 3:42

Então, para explicar melhor
3:43 - 3:45

o que estou a falar aqui,
3:45 - 3:46

vou usar uma anedota.
3:48 - 3:50

Vamos dizer que está prestes a ir
3:50 - 3:52

para as suas férias de sonho na Índia,
3:53 - 3:56

e tem uma escala
de oito horas em Istambul.
3:58 - 4:01

Agora, não estava necessariamente
a pensar em visitar a Turquia,
4:01 - 4:04

mas com a escala, e com seu amigo turco
4:04 - 4:06

a falar-lhe de um restaurante incrível,
4:06 - 4:07

que não é longe do aeroporto,
4:08 - 4:11

você diz: "Sabes, se calhar,
passo por lá durante a escala."
4:11 - 4:13

Então, sai do aeroporto,
4:14 - 4:15

vai até o restaurante,
4:15 - 4:17

entregam-lhe o menu,
4:17 - 4:19

e está todo em turco.
4:20 - 4:23

Agora, vamos supor, para este exemplo,
4:23 - 4:24

que não fala turco.
4:25 - 4:27

O que faz?
4:28 - 4:30

Bem, na melhor das hipóteses,
4:30 - 4:32

encontra alguém, talvez,
que fala a sua língua materna,
4:32 - 4:34

alemão, inglês, etc.
4:36 - 4:38

Mas vamos dizer
que não é o seu dia de sorte
4:38 - 4:41

e ninguém no restaurante
fala alemão ou inglês.
4:42 - 4:43

Então, o que faz?
4:43 - 4:46

Se for como eu,
e imagino que a maioria aqui seja,
4:46 - 4:48

provavelmente recorre
a uma solução tecnológica,
4:50 - 4:52

tradutor automático ou dicionário digital,
4:53 - 4:54

procura cada palavra individualmente,
4:54 - 4:58

e eventualmente faz o seu pedido
de uma refeição turca deliciosa.
5:00 - 5:03

Agora, vamos imaginar outro cenário:
5:04 - 5:06

você é o orador nativo
de uma língua minoritária.
5:07 - 5:09

Imaginemos, baixo sórbio.
5:09 - 5:11

Baixo sórbio é uma língua ameaçada
5:11 - 5:12

falada aqui na Alemanha,
5:12 - 5:17

a cerca de 130 quilómetros
a sudeste daqui,
5:18 - 5:21

e que é falada apenas por alguns
milhares de pessoas, a maioria idosos.
5:23 - 5:25

Imaginemos que
a sua língua materna é o baixo sórbio.
5:25 - 5:27

Chega ao restaurante.
5:27 - 5:29

Claro que, a probabilidade
de encontrar alguém
5:29 - 5:31

que fale a sua língua no restaurante
é extraordinariamente baixa.
5:32 - 5:36

Mas, de novo, pode simplesmente
recorrer a uma solução tecnológica.
5:37 - 5:39

Contudo, para a sua língua-mãe,
5:39 - 5:42

essas soluções tecnológicas não existem.
5:42 - 5:45

Precisaria depender do alemão ou do inglês
5:45 - 5:47

como sua língua auxiliar para o turco.
5:49 - 5:52

Claro que acaba por conseguir
a sua deliciosa refeição turca,
5:52 - 5:55

mas começa a pensar
no quão difícil isso seria
5:55 - 5:57

se você fosse o seu avô,
que não falava alemão de todo.
5:58 - 6:00

Isto é só uma pequena situação,
6:00 - 6:05

mas colocaria uma pedra
no lado direito da balança,
6:05 - 6:07

e faria-o talvez pensar
6:07 - 6:10

que quando tiver um filho
ou quando tiver outro filho,
6:11 - 6:15

o fardo que carregou
por ter passado por isto,
6:15 - 6:17

talvez não valha a pena
para manter a sua língua-mãe.
6:19 - 6:21

E imagine se fosse uma situação
6:21 - 6:26

de importância consideravelmente maior,
6:26 - 6:28

como, por exemplo, estar num hospital.
6:33 - 6:36

Neste ponto podemos ajudar...
6:37 - 6:40

por nós, quero dizer eu e você
nesta sala podemos ajudar.
6:41 - 6:44

Temos as ferramentas para ajudar com isto.
6:45 - 6:47

Se as ferramentas tecnológicas
estiverem disponíveis
6:47 - 6:50

a falantes de línguas
minoritárias e ignoradas,
6:51 - 6:54

colocamos um dedinho na balança,
no lado esquerdo da balança.
6:54 - 6:56

Alguém não precisa
necessariamente de pensar
6:56 - 6:58

que precisam de depender
de uma língua minoritária
6:58 - 7:00

para poderem interagir
com o mundo externo,
7:00 - 7:05

pois isso abre as esferas sociais
7:05 - 7:06

um pouco mais ainda.
7:08 - 7:10

Claro que, a solução ideal
7:10 - 7:13

é que tenhamos tradução automática
para todas as línguas a nível mundial.
7:13 - 7:17

Mas, infelizmente, isso não é fazível.
7:17 - 7:20

Tradução automática requer
grandes excertos de texto,
7:20 - 7:21

e para muitas destas línguas
7:21 - 7:23

ameaçadas ou sem muita informação,
7:23 - 7:25

esses dados não estão disponíveis.
7:26 - 7:28

Alguns nem são frequentemente escritos,
7:29 - 7:33

por isso conseguir dados suficientes para
um sistema de tradução automática
7:33 - 7:34

é improvável.
7:34 - 7:38

Mas o que temos disponível
são dados léxicos.
7:40 - 7:43

Pelo trabalho de muitos linguistas
7:43 - 7:45

nas últimas centenas de anos,
7:48 - 7:50

dicionários e gramáticas foram produzidas
7:50 - 7:52

para a maioria das línguas do mundo.
7:54 - 7:57

Mas, infelizmente,
a maioria desses trabalhos
7:57 - 8:01

não está acessível
ou disponível para o mundo,
8:01 - 8:04

ainda mais para quem fala
estas línguas minoritárias.
8:05 - 8:06

E não é um processo intencional,
8:06 - 8:08

muitas vezes é simplesmente porque
8:08 - 8:11

a produção inicial
destes dicionários era pequena,
8:11 - 8:13

e as poucas cópias
8:13 - 8:16

estão a ganhar bolor numa biblioteca
de universidade algures.
8:18 - 8:21

Mas temos a habilidade
de reunir estes dados
8:21 - 8:23

e torná-los acessíveis ao mundo.
8:24 - 8:28

A Fundação Wikimedia
é uma das melhores organizações,
8:28 - 8:31

eu diria a melhor organização do mundo,
8:31 - 8:33

para reunir dados disponíveis
8:33 - 8:37

para a maioria da população deste planeta.
8:39 - 8:40

Então, vamos trabalhar nisso.
8:41 - 8:43

Para explicar um pouco
8:43 - 8:45

o que estivemos a fazer sobre isso,
8:45 - 8:48

gostaria de apresentar
a minha organização, a PanLex,
8:49 - 8:52

que é uma organização que almeja
8:52 - 8:54

reunir dados léxicos para este propósito.
8:55 - 8:57

Começámos há cerca de 12 anos
8:57 - 9:00

como um projeto de pesquisa
da Universidade de Washington.
9:00 - 9:01

A ideia por trás disto
9:01 - 9:04

era mostrar que as traduções inferidas
9:04 - 9:07

poderiam criar um dispositivo
de tradução eficiente,
9:07 - 9:09

essencialmente um dispositivo
de tradução léxica.
9:09 - 9:12

Este é um exemplo dos dados da PanLex.
9:13 - 9:14

Isto mostra como se traduz
9:14 - 9:18

da palavra "ev" em turco,
que significa casa,
9:18 - 9:20

para baixo sórbio,
9:20 - 9:21

a língua a que me referi antes.
9:21 - 9:23

É improvável encontrarmos
9:24 - 9:26

um dicionário de turco para baixo sórbio,
9:26 - 9:28

mas passando isto por muitas
9:28 - 9:30

e muitas línguas intermédias diferentes,
9:30 - 9:33

podemos criar traduções eficientes.
9:34 - 9:37

Uma vez que isto foi mostrado
nos projetos de pesquisa,
9:37 - 9:40

o fundador da PanLex, Dr. Jonathan Pool,
9:41 - 9:44

decidiu: "Por que não
fazer simplesmente isto?"
9:44 - 9:45

Fundou uma empresa sem fins lucrativos
9:45 - 9:49

para reunir o máximo de dados léxicos
possível, e torná-los acessíveis.
9:49 - 9:51

E é isso o que estamos a fazer há 12 anos.
9:51 - 9:55

Durante esse tempo, reunimos milhares
e milhares de dicionários,
9:55 - 9:56

extraímos os dados léxicos deles
9:56 - 10:01

e elaborámos uma base de dados
que permite inferir traduções léxicas
10:01 - 10:04

por entre qualquer...
10:04 - 10:06

A nossa contagem actual
é aproximadamente 5.500
10:06 - 10:08

das 7.500 línguas do mundo.
10:09 - 10:11

E, claro,
10:11 - 10:12

estamos sempre a tentar aumentar isto
10:12 - 10:15

e expandir os dados
de cada língua individual.
10:17 - 10:21

Então, a próxima pergunta é,
10:22 - 10:26

o que podemos fazer
para trabalharmos juntos nisso?
10:27 - 10:29

Nós, na PanLex, estamos
extremamente entusiasmados
10:29 - 10:31

em assistir ao desenvolvimento
de dados léxicos
10:31 - 10:34

em que a Wikidata trabalhou recentemente.
10:35 - 10:38

É fascinante ver organizações
10:38 - 10:39

que estão a trabalhar
em esferas muito similares,
10:39 - 10:41

mas em aspectos diferentes.
10:42 - 10:44

E estamos
extremamente entusiasmados em ver
10:45 - 10:46

os resultados disso da Wikidata.
10:46 - 10:51

E também esperamos
colaborar com a Wikidata.
10:54 - 10:56

Penso que as habilidades especiais
10:56 - 10:58

que desenvolvemos
durante os últimos 12 anos,
10:58 - 11:02

não só a reunir dados léxicos,
mas a elaborar bases de dados,
11:02 - 11:04

podem ser extremamente úteis
para a Wikidata.
11:04 - 11:07

E por outro lado, penso que...
11:08 - 11:11

Estou especialmente entusiasmado
pela a capacidade
11:12 - 11:15

da Wikidata
em fazer crowdsourcing de dados.
11:15 - 11:18

Na PanLex atualmente
as nossas fontes são inteiramente
11:18 - 11:21

provenientes de meios impressos
ou outros tipos,
11:21 - 11:23

mas não temos nada em crowdsourcing.
11:23 - 11:25

Não temos simplesmente
infraestrutura disponível para isso,
11:25 - 11:27

e claro, a Fundação Wikimedia
11:27 - 11:29

é referência mundial em crowdsourcing.
11:31 - 11:34

Eu espero realmente ver em como podemos
11:34 - 11:36

juntar estas habilidades.
11:39 - 11:42

Mas no geral, penso que
a ideia principal a retirar disto
11:42 - 11:44

é que enquanto estávamos
a trabalhar nestas coisas,
11:44 - 11:45

é minúcioso.
11:45 - 11:48

Estamos sentados à procura
de formas gramaticais,
11:48 - 11:52

ou a folhear dicionários,
dicionários antigos,
11:52 - 11:54

ou às vezes dicionários recém-publicados,
11:54 - 11:57

e a ver as formas escritas das palavras,
11:57 - 12:00

e parece tudo muito específico.
12:00 - 12:02

Mas ocasionalmente,
precisamos de nos lembrar
12:02 - 12:03

de dar um passo atrás
12:03 - 12:05

e mesmo que o que fazemos pareça
12:06 - 12:09

algo mundano por vezes,
12:10 - 12:12

este trabalho é extremamente importante.
12:13 - 12:16

Essa, na minha opinião, é a melhor maneira
12:16 - 12:19

de apoiarmos línguas ameaçadas
12:19 - 12:21

e garantirmos que a diversidade
linguística do planeta
12:21 - 12:26

seja preservada
até ao fim do século, ou além.
12:26 - 12:30

É inteiramente possível
que o trabalho que fazemos hoje
12:30 - 12:33

possa resultar em línguas
12:33 - 12:35

a ser preservadas e passadas adiante,
12:35 - 12:37

sem se tornarem extintas.
12:39 - 12:41

Apenas para recordar
12:41 - 12:43

que mesmo que esteja sentado
em frente ao computador
12:43 - 12:44

editando uma entrada individual
12:44 - 12:50

e adicionando formas de dados
de uma língua minoritária,
12:50 - 12:52

para cada um dos substantivos,
12:52 - 12:55

a pequena tarefa que está a fazer agora,
12:55 - 12:58

pode ser parcialmente responsável
12:58 - 12:59

em garantir que uma língua sobreviva
12:59 - 13:01

até ao final do século ou além.
13:03 - 13:04

Muito obrigado.
13:04 - 13:06

E gostaria de abrir o painel a perguntas.
13:06 - 13:08

(Aplausos)
13:24 - 13:25

(Pessoa 1) Obrigada.
13:25 - 13:27

- Obrigada pela sua palestra.
- Obrigado.
13:27 - 13:29

(Pessoa 1) Tenho uma pergunta
sobre dicionários.
13:29 - 13:31

Disse que trabalha
com dicionários impressos?
13:31 - 13:32

- Sim.
- Minha pergunta é
13:32 - 13:35

o que recolhe desses dicionários,
13:35 - 13:38

e se há algum direito de autor
com que precisa de lidar?
13:38 - 13:41

Previ que esta seria a primeira pergunta.
13:41 - 13:43

(Risadas)
13:43 - 13:46

Primeiro, para a PanLex,
13:46 - 13:50

temos, de acordo
com os recursos legais que consultámos,
13:53 - 13:57

embora a disposição e organização
do dicionário possa ter esses direitos,
13:57 - 14:03

a tradução por si mesma
não é passível de ter direitos de autor.
14:04 - 14:06

Um bom exemplo para isto é,
14:06 - 14:11

uma lista telefónica, pelo menos de acordo
com a legislação dos Estados Unidos,
14:11 - 14:12

tem direitos de autor.
14:12 - 14:17

Mas dizer que o número
da pessoa X são D dígitos
14:17 - 14:19

não tem direitos de autor.
14:22 - 14:23

Então, tal como disse,
14:23 - 14:25

de acordo com nossos
representantes legais,
14:25 - 14:27

lidamos assim com isto.
14:27 - 14:31

Mas mesmo que isto não seja
um argumento legal suficiente,
14:31 - 14:32

uma coisa importante para lembrar
14:32 - 14:38

é que a maioria destes dados léxicos
14:39 - 14:41

não têm direitos de autor.
14:41 - 14:43

Um número significativo deles
não têm direitos de autor
14:43 - 14:44

e podem ser usados livremente.
14:44 - 14:47

E outra coisa, por exemplo,
é que frequentemente,
14:47 - 14:50

se estamos a trabalhar
com um dicionário recém-impresso,
14:50 - 14:52

ao invés de tentar
escaneá-lo e digitalizá-lo,
14:52 - 14:53

nós apenas mandamos
um e-mail para o autor.
14:53 - 14:58

E o que acontece é na maioria das vezes
os linguistas ficarem entusiasmados
14:58 - 15:00

em tornarem os seus dados acessíveis.
15:00 - 15:01

Algo como: "Claro, por favor,
15:01 - 15:03

coloque tudo aí e faça isso acessível."
15:04 - 15:05

É extremamente raro que...
15:06 - 15:08

Então, como disse, temos,
de acordo com nossas opiniões legais,
15:08 - 15:09

a possibilidade,
15:09 - 15:11

mas mesmo que não queira aceitar isso,
15:11 - 15:16

é muito fácil conseguir
dados acessíveis publicamente.
15:26 - 15:28

- (Pessoa 2) Obrigado. Olá.
- Olá.
15:28 - 15:30

Pode falar um pouco mais
15:30 - 15:35

sobre como a pessoa
que fala baixo sórbio acessará os dados.
15:35 - 15:38

Especificamente como é que
esta informação irá chegar-lhe
15:38 - 15:41

e como isso irá convencê-la
15:41 - 15:43

a usar...
15:43 - 15:45

Ótima pergunta e isto é uma das coisas
15:45 - 15:46

que tenho vindo a pensar muito, também,
15:46 - 15:50

porque penso que quando falamos
sobre acesso de dados
15:50 - 15:53

há na verdade múltiplas etapas.
15:53 - 15:56

Uma, claro, é a preservação de dados,
garantindo que os dados não desaparecem.
15:56 - 15:59

Segundo, é fazer com que
seja interoperável
15:59 - 16:02

e possa ser usado.
16:02 - 16:05

E terceiro é garantir
que esteja disponível.
16:06 - 16:07

No caso da PanLex,
16:07 - 16:10

temos uma API que pode ser usada,
16:10 - 16:12

mas, claro, não pode ser usada
por um utilizador final.
16:12 - 16:15

Mas também desenvolvemos interfaces.
16:16 - 16:20

E também, por exemplo,
se aceder a translate.panlex.org
16:20 - 16:23

pode fazer traduções
na nossa base de dados.
16:23 - 16:26

Se quiser brincar com a API,
aceda a dev.panlex.org,
16:26 - 16:29

e encontrará muitas coisas da API,
ou aceda a api.panlex.org.
16:31 - 16:33

Mas há também outro passo,
16:33 - 16:37

que é mesmo que torne
os seus dados completamente acessíveis
16:37 - 16:41

com ferramentas
que sejam super úteis para o acesso,
16:41 - 16:43

se não promover as ferramentas,
16:43 - 16:45

então as pessoas
não serão capazes de usá-las.
16:45 - 16:47

E isso, sinceramente, é...
16:49 - 16:51

uma coisa de que não se fala o suficiente,
16:51 - 16:53

e eu não tenho uma boa resposta para isso.
16:53 - 16:55

Como garantimos que...
16:55 - 16:57

por exemplo, eu só recentemente,
16:57 - 17:00

há alguns anos atrás,
tomei conhecimento da Wikidata
17:00 - 17:02

e é exatamente o tipo de coisa
com que fico entusiasmado.
17:03 - 17:07

Então, como nos promovemos para os outros?
17:07 - 17:09

Vou deixar esta pergunta em aberto.
17:09 - 17:11

Como disse, não tenho uma boa resposta.
17:11 - 17:13

Mas claro, para fazermos isto,
17:13 - 17:15

precisamos de completar
as primeiras etapas.
17:22 - 17:25

(Pessoa 3) Se quisermos
ter tradução automática,
17:25 - 17:28

não precisamos de uma memória de tradução?
17:28 - 17:31

Não sei se as palavras
17:31 - 17:33

que colocamos na Wikidata,
17:33 - 17:37

estas pequenas frases
que colocamos na Wikidata,
17:37 - 17:41

como itens normais da Wikidata
ou como lexemas da Wikidata,
17:41 - 17:44

são suficientes para fazer
uma tradução adequada.
17:44 - 17:47

Precisamos de frases inteiras,
por exemplo, para...
17:47 - 17:48

(Benjamin) Sim, realmente.
17:49 - 17:51

(Pessoa 3) E onde conseguimos
esta estrutura de dados?
17:51 - 17:55

Não tenho certeza, se atualmente,
17:55 - 18:00

a Wikidata é capaz de lidar
com isto de forma adequada,
18:00 - 18:03

com a questão da memória de tradução,
18:04 - 18:06

translatewiki.net,
18:06 - 18:09

para entrar no limiar da...
18:12 - 18:15

Devemos fazer algo
a respeito disso, ou devemos...
18:15 - 18:17

Sim, e agradeço
verdadeiramente a sua pergunta.
18:17 - 18:19

Falei disso superficialmente antes,
18:19 - 18:21

mas adoraria reiterar.
18:21 - 18:25

Esta é a razão principal do porquê
da PanLex operar com dados léxicos
18:25 - 18:27

e o porquê
de me empolgar com dados léxicos,
18:27 - 18:30

ao contrário de...
não ao contrário, mas como complemento
18:30 - 18:35

aos motores de tradução automática
e à tradução automática em geral.
18:36 - 18:39

Como disse, a tradução automática
requer um tipo específico de dados,
18:40 - 18:43

e esses dados não estão disponíveis
para a maior parte das línguas mundiais.
18:43 - 18:45

Para a grande maioria
das línguas mundiais,
18:45 - 18:47

isso simplesmente não está disponível.
18:47 - 18:48

Mas isso não significa
que devemos desistir.
18:49 - 18:50

Porquê?
18:51 - 18:54

Se eu precisar de traduzir
o menu turco do restaurante,
18:55 - 18:59

a tradução léxica será provavelmente
uma ferramenta excepcional para isto.
18:59 - 19:02

Não estou a dizer
que pode usar tradução léxica
19:02 - 19:05

para ter um parágrafo perfeito
ao traduzir um parágrafo.
19:05 - 19:07

Quando digo tradução léxica,
digo palavra para palavra,
19:07 - 19:10

e traduções palavra para palavra
podem ser extremamente úteis,
19:12 - 19:15

é engraçado pensar nisto,
mas não tínhamos acesso
19:15 - 19:17

a tradução automática de qualidade.
19:17 - 19:20

Ninguém tinha acesso
a isso até recentemente.
19:20 - 19:24

E sobrevivíamos com dicionários,
19:24 - 19:28

e são um recurso incrivelmente bom.
19:28 - 19:31

Os dados estão disponíveis,
então por que não tornar disponível
19:31 - 19:34

para o mundo em geral
e para os oradores dessas línguas?
19:36 - 19:39

(Pessoa 4) Olá,
que mecanismos tem ao dispor
19:39 - 19:41

para quando a comunidade... estou aqui.
19:41 - 19:43

- Onde está? Ok, certo.
- (Pessoa 4) Sim, desculpe. (risos)
19:43 - 19:45

...quando a própria comunidade
19:45 - 19:47

não quiser parte dos seus dados na PanLex?
19:47 - 19:49

Ótima pergunta.
19:50 - 19:52

A forma como lidamos com isso
19:52 - 19:56

é que se um dicionário foi publicado,
e estiver disponível publicamente,
19:57 - 19:58

é uma boa indicação.
19:59 - 20:02

Se o puder comprar numa loja
ou numa biblioteca de uma universidade,
20:02 - 20:05

ou numa biblioteca pública
que qualquer um pode aceder.
20:05 - 20:08

Isto é uma boa indicação
que essa decisão foi tomada.
20:08 - 20:12

(Pessoa 4) [inaudível]
20:16 - 20:18

(Pessoa 5) Por favor, Kimberly,
pode falar para o microfone?
20:19 - 20:20

Pode repetir?
20:20 - 20:23

(Pessoa 4) Os linguistas nem sempre têm
a permissão da comunidade.
20:23 - 20:24

Para publicar coisas,
20:24 - 20:28

frequentemente publicam coisas
sem o consentimento da comunidade.
20:28 - 20:30

E isso é totalmente verdade.
20:30 - 20:33

Eu diria que é um...
20:33 - 20:34

Que acontece.
20:34 - 20:37

Eu diria que acontece
numa minoria de casos,
20:37 - 20:41

limitado geralmente à América do Norte,
20:41 - 20:43

mas às vezes também
com línguas da América do Sul.
20:45 - 20:46

É algo que temos de levar em conta.
20:46 - 20:49

Se recebêssemos notificação, por exemplo,
20:49 - 20:52

de que os dados que estão na PanLex
20:52 - 20:56

não deveriam ser acedidos
pelo resto do mundo,
20:56 - 20:58

então, é claro que removeríamos.
20:58 - 20:59

(Pessoa 4) Boa, boa.
21:01 - 21:02

Claro, que isso não significa
21:02 - 21:04

que iremos seguir
as regras de direito de autor,
21:04 - 21:07

mas que vamos ouvir
as comunidades tradicionais,
21:07 - 21:08

e essa é a diferença principal.
21:08 - 21:10

(Pessoa 4) Sim, era a isso que me referia.
21:15 - 21:17

Isso leva-nos a um ponto interessante
21:17 - 21:18

que é
21:19 - 21:22

às vezes uma grande pergunta
para quem fala por aquela língua.
21:23 - 21:28

Tive uma experiência ao visitar
o sudoeste americano
21:28 - 21:30

e ao trabalhar com alguns grupos,
21:30 - 21:32

que trabalhavam com indígenas,
as línguas do "Pueblo" (povo).
21:36 - 21:38

Há aproximadamente
21:38 - 21:40

seis idiomas do Pueblo (povo),
dependendo de como os divide,
21:40 - 21:42

faladas naquela região.
21:42 - 21:44

Mas estão divididos
em 18 Pueblos diferentes
21:44 - 21:47

e cada um
tem o seu próprio governo tribal,
21:47 - 21:50

e cada governo
pode ter uma opinião diferente
21:50 - 21:54

sobre se a sua língua estar acessível
ou não a estrangeiros.
21:57 - 21:58

Por exemplo, o Pueblo Zuni,
21:58 - 22:01

é um Pueblo único que fala o idioma Zuni.
22:03 - 22:05

E eles gostam que a sua língua
esteja por todo o lado,
22:05 - 22:08

põe-na nos sinais
de trânsito e tudo, é ótimo.
22:08 - 22:11

Mas para algumas das outras línguas,
22:11 - 22:13

pode ter um grupo que diz:
22:13 - 22:16

"Sim, não queremos a nossa língua
acedida por estrangeiros."
22:16 - 22:19

Mas quando temos o Pueblo vizinho
que fala a mesma língua e dizem:
22:19 - 22:22

"Queremos mesmo que a nossa língua
esteja acessível a estrangeiros
22:22 - 22:24

ao usar estas ferramentas tecnológicas,
22:24 - 22:27

porque queremos
que a nossa língua perdure."
22:27 - 22:29

Isso traz-nos uma questão
ética bastante interessante.
22:29 - 22:32

Porque, se por defeito diz:
22:32 - 22:35

"Certo, vou removê-la
porque o grupo diz que a deveria remover."
22:35 - 22:37

não está também
a ignorar o segundo grupo
22:37 - 22:39

porque o primeiro
quer remover as coisas?
22:39 - 22:43

Acho que é uma pergunta
que não tem uma resposta fácil.
22:43 - 22:45

Mas diria que,
pelo menos em relação à PanLex.
22:45 - 22:49

E oficialmente, ainda
não passámos por isto,
22:49 - 22:50

que eu tenha conhecimento.
22:51 - 22:53

Agora, isso pode ser
parcialmente porque...
22:54 - 22:55

voltando à pergunta,
22:56 - 22:58

talvez precisemos
de nos promover um pouco mais.
22:59 - 23:02

Mas, no geral, até onde sei,
23:02 - 23:04

isto não aconteceu.
23:04 - 23:07

Mas o nosso plano para isto
23:07 - 23:11

é se a comunidade diz que não quer
os seus dados na nossa base de dados,
23:11 - 23:12

então removemos.
23:12 - 23:15

(Pessoa 4) Porque aconteceu isso
na Wikidata e na Wikipedia...
23:15 - 23:16

- Aconteceu?
- ...nos comentários.
23:16 - 23:17

- A Sério?
- Foi um problema.
23:17 - 23:21

Sim, consigo imaginar especialmente
nos comentários de fotos ou certas coisas.
23:21 - 23:22

(Pessoa 4) Correto.
23:27 - 23:33

(Pessoa 5) Olá, tenho uma pergunta
sobre o lado crowdsourcing disto.
23:34 - 23:37

Na medida em que se pede para a comunidade
23:37 - 23:40

para anotar ou adicionar dados
num conjunto de dados,
23:40 - 23:44

uma das coisas
que é um pouco intimidadora,
23:45 - 23:49

como editor, consigo olhar apenas
para o que está em falta.
23:49 - 23:53

Mas se vou passar tempo
com as coisas, tendo ideias,
23:54 - 23:57

há uma lista de itens de alta prioridade,
23:58 - 24:01

que penso que seja muito
motivadora nesse aspecto.
24:01 - 24:04

Fiquei curioso em saber
se têm um sistema
24:04 - 24:08

em que, essencialmente,
sabem quais as lacunas nos próprios dados,
24:08 - 24:12

e em que têm evidência linguística
e sabem quais são aqueles
24:12 - 24:16

em que se tivéssemos anotado,
seriam impulsionadores de alto impacto.
24:16 - 24:17

Então posso imaginar
24:18 - 24:21

que ter o lexema
para "casa" é muito impactante,
24:21 - 24:25

já o lexema de um dado
ou outro não seja tanto.
24:25 - 24:29

Mas fiquei curioso
se têm isso, e se é algo
24:30 - 24:35

que possa ser usado para conduzir
os esforços da comunidade.
24:36 - 24:37

Ótima pergunta.
24:37 - 24:41

Uma coisa que a Wikidata tem bastante...
24:41 - 24:45

perdão, a PanLex,
tem muitas Listas de Swadesh.
24:45 - 24:48

Aparentemente temos a maior coleção
de Listas de Swadesh do mundo,
24:48 - 24:49

o que é interessante.
24:49 - 24:50

Se não sabe o que é uma Lista de Swadesh,
24:50 - 24:56

é essencialmente um lista
de itens léxicos regularizados
24:56 - 25:00

que pode ser usada
para a análise de línguas.
25:00 - 25:03

Contêm conjuntos bem básicos.
25:03 - 25:05

Há alguns diferentes tipos
de Listas de Swadesh.
25:05 - 25:07

Mas existem cerca de 100 a 213 itens,
25:07 - 25:09

e podem conter
25:09 - 25:13

palavras como "casa", "olho" e "pele"
25:13 - 25:14

e basicamente palavras comuns
25:14 - 25:16

que deve encontrar em qualquer língua.
25:16 - 25:20

É realmente um bom ponto de partida
25:20 - 25:23

ter esses tipos de dados disponíveis.
25:29 - 25:31

Agora, como mencionei antes,
25:31 - 25:34

crowdsourcing é algo
que ainda não fazemos
25:34 - 25:36

e estamos realmente
muito entusiasmados em começar.
25:36 - 25:38

É uma das coisas que me entusiasma
25:38 - 25:39

ao falar com as pessoas
nesta conferência,
25:40 - 25:43

é como o crowdsourcing pode ser usado
25:43 - 25:46

e a logística por trás disso,
25:46 - 25:49

e este é o tipo de perguntas
que podem surgir.
25:51 - 25:53

Penso que a resposta que vou lhe dar é
25:53 - 25:55

que temos uma lista de prioridades...
25:55 - 25:58

Uma coisa que digo com certeza
é que temos uma lista de prioridade
25:58 - 26:00

quando se trata
das línguas que procuramos.
26:00 - 26:02

Fazemos isto ao procurar por línguas
26:02 - 26:05

que não sejam atualmente
auxiliadas por soluções tecnológicas,
26:05 - 26:07

que são frequentemente
línguas minoritárias,
26:07 - 26:09

ou habitualmente
línguas minoritárias,
26:09 - 26:12

e priorizamos essas.
26:14 - 26:17

Mas em termos
de itens léxicos individuais,
26:17 - 26:20

a forma comum de conseguir novos dados
26:20 - 26:23

é essencialmente ao consumir
um dicionário inteiro.
26:23 - 26:26

Estamos a apoiar-nos
na escolha do dicionário
26:26 - 26:29

de itens léxicos,
ao invés de dizermos
26:29 - 26:32

que precisamos da palavra
"casa" em todas as línguas.
26:32 - 26:35

Mas nos dados de crowdsourcing,
precisaremos de algo assim.
26:35 - 26:38

Então é uma oportunidade
para crescimento e pesquisa.
26:40 - 26:43

(Pessoa 6) Olá,
chamo-me Victor, e isto é incrível.
26:45 - 26:47

Como tem slides aí,
26:47 - 26:49

será que poderia falar um pouco
sobre os parâmetros técnicos
26:49 - 26:51

para os quais tem dados
26:51 - 26:57

ou fluxo de informação
da Wikidata para a PanLex e vice-versa.
26:57 - 27:00

Se isto já está implementado
27:00 - 27:03

e como lida com
27:04 - 27:07

o vai e vem de informações,
ou até mesmo com um loop de respostas
27:07 - 27:10

entre a PanLex e a Wikidata?
27:10 - 27:14

Não temos nenhuma ligação formal
com a Wikidata neste momento,
27:14 - 27:15

e isto é algo que eu, novamente,
27:15 - 27:18

estou realmente entusiasmado
para falar a audiência desta conferência.
27:18 - 27:21

Tivemos alguma interação
com o Wikitionary,
27:22 - 27:25

mas, sinceramente,
a Wikidata seria mais adequada,
27:25 - 27:27

para o que estamos à procura.
27:27 - 27:29

Ter material léxico direto
27:29 - 27:32

significa que teremos bem menos
análise e extração de dados.
27:33 - 27:37

Então, a resposta é,
ainda não temos, mas queremos.
27:37 - 27:40

(Pessoa 6) Se não têm,
quais os obstáculos?
27:40 - 27:44

E como podemos ver, a Wikidata
já suporta diversas línguas,
27:44 - 27:47

mas quando vejo o translate.panlex.org,
27:47 - 27:49

aparentemente suportam
muitas, muitas variantes,
27:49 - 27:51

muito mais que a Wikidata.
27:51 - 27:53

Como vê se há uma lacuna
27:53 - 27:57

primeiro entre tradução
ou tradução léxica,
27:57 - 28:00

utilização versus esforço
28:00 - 28:04

ao tentar mapear
uma estrutura de conhecimento.
28:04 - 28:06

Mapear conhecimento
pode ser muito interessante.
28:06 - 28:08

Tivemos algumas
discussões bastante interessantes
28:08 - 28:12

sobre a maneira de como a Wikidata
organiza os dados léxicos,
28:12 - 28:14

os seus dados léxicos,
28:14 - 28:16

e como nós organizamos
os nossos dados léxicos.
28:16 - 28:21

E existem diferenças subtis que requerem
estratégia de mapeamento,
28:22 - 28:25

algumas delas não seriam
necessariamente automáticas,
28:25 - 28:27

mas podemos ser capazes de desenvolver
técnicas para lidar com isto.
28:28 - 28:31

Deu o exemplo de variantes de língua.
28:31 - 28:34

Costumamos ser bem "separadores"
quando se trata de variações de língua.
28:34 - 28:36

Por outras palavras,
se temos uma fonte que diz
28:36 - 28:39

que este é o dialeto falado
28:39 - 28:42

do lado esquerdo do rio
em Papua Nova Guiné, para esta língua,
28:42 - 28:43

e temos outra fonte que diz
28:43 - 28:45

que este é o dialeto falado
no lado direito do rio,
28:45 - 28:47

então, consideramo-los dialetos distintos.
28:47 - 28:51

E fazemos isso para basicamente preservar
o maior número de dados possível.
28:52 - 28:54

Ser capaz de mapear isso
com o que a Wikidata faz...
28:54 - 28:57

Na verdade,
o que gostaria era ter conversas
28:57 - 29:01

sobre como as línguas
29:01 - 29:06

são definidas na Wikidata.
29:08 - 29:12

Novamente, nós usamos
uma estratégia bem "separadora".
29:14 - 29:18

Apoiamo-nos amplamente
nos códigos ISO 6393,
29:18 - 29:20

que é fornecido pelo Ethnologue,
29:20 - 29:24

e para cada código individual,
permitimos múltiplas variantes,
29:24 - 29:29

sejam variantes escritas, dialetos
regionais, sociolectos (calão), etc.
29:30 - 29:33

Novamente, oportunidade
para discussão e trabalho.
29:36 - 29:39

(Pessoa 7) Olá, gostaria de saber
se têm um canal de OCR,
29:39 - 29:45

especialmente porque estamos
tentando fazer OCR no Maya,
29:45 - 29:48

e não estamos tendo resultado.
29:48 - 29:50

Não entende nada.
29:50 - 29:53

- Sim!
- E, é isto.
29:53 - 29:56

Se os seus canais estiverem disponíveis.
29:56 - 30:00

E outra coisa é se
está a sobrepor os códigos ISO,
30:00 - 30:02

algumas vezes dizem:
30:02 - 30:04

"Oh, isto é uma língua,
e isto é outra língua."
30:04 - 30:07

Mas existem fontes
que dizem outras coisas,
30:07 - 30:10

como mencionou,
mas tendem a sobrepor-se.
30:10 - 30:13

Então, como é que prosseguem?
30:13 - 30:15

Sim, é uma pergunta realmente fabulosa.
30:15 - 30:17

Gostei mesmo.
30:17 - 30:20

Não temos um canal OCR
oficial, por assim dizer.
30:20 - 30:24

Fazemos numa base de fonte para fonte.
30:24 - 30:26

Uma das razões é porque
frequentemente temos fontes
30:26 - 30:28

que não precisam necessariamente de OCR,
30:28 - 30:30

que estão disponíveis
para algumas línguas,
30:30 - 30:33

e concentramo-nos nelas pois estas
requerem a menor quantidade de trabalho.
30:33 - 30:35

Mas, obviamente,
se quisermos aprofundar
30:35 - 30:37

algumas fontes que estão na nossa lista,
30:37 - 30:41

iremos precisar essencialmente de
desenvolver fortes canais OCR.
30:41 - 30:44

Mas existe outro aspecto,
tal como mencionou...
30:46 - 30:49

as pessoas que desenvolveram motores OCR
30:49 - 30:53

talvez não tenham percebido
o quanto as pode stressar.
30:53 - 30:55

Sabe o que é divertido?
30:55 - 30:58

Tentar fazer OCR
num dicionário russo-tibetano.
30:59 - 31:00

É muito difícil, pelo que parece...
31:02 - 31:04

Nós desistimos e contratámos
alguém para digitar tudo,
31:04 - 31:06

o que foi completamente viável.
31:06 - 31:07

Na realidade, o que aconteceu
31:07 - 31:10

foi que esta incrível mulher russa
foi capaz de aprender a ler tibetano
31:10 - 31:13

para conseguir escrever,
o que foi muito fixe.
31:15 - 31:18

Penso que se está a lidar
com material em caracteres Latinos,
31:18 - 31:23

penso que soluções OCR podem ser
desenvolvidas, que sejam mais robustas,
31:23 - 31:25

do que lidar com estas
fontes multilinguísticas
31:25 - 31:27

e esperar que acabe
com um quatro aleatório,
31:27 - 31:28

se está a lidar com algo como
31:28 - 31:31

fontes Maias do século XVI,
com o dígito quatro.
31:32 - 31:38

Mas existem algumas fontes
31:38 - 31:40

que o OCR provavelmente
nunca irá conseguir apanhar,
31:40 - 31:42

ou que irá requerer
uma imensa quantidade de trabalho,
31:43 - 31:47

e na verdade colocamos
um pouco disso em uso agora.
31:47 - 31:49

Temos outro projeto em execução na PanLex
31:49 - 31:54

para transcrever toda
a literatura tradicional de Bali,
31:54 - 31:58

e percebemos que em manuscritos balineses
31:58 - 32:00

não há a possibilidade de OCR.
32:00 - 32:02

Então arranjámos uma mão cheia
de pessoas balinesas para digitar,
32:02 - 32:05

e acabou por se tornar
um projeto cultural muito bom em Bali,
32:05 - 32:07

e tornou-se notícia.
32:07 - 32:09

Por isso eu diria
32:09 - 32:11

que não precisa necessariamente
depender de OCR,
32:11 - 32:13

mas há muita coisa por aí.
32:13 - 32:15

Por isso, ter soluções OCR seria bom.
32:17 - 32:21

Aliás, se alguém aqui se interessa
por OCR super multilínguas,
32:21 - 32:23

por favor, fale comigo.
32:30 - 32:31

(Pessoa 8) Obrigado pela sua apresentação.
32:32 - 32:35

Falou sobre integração
32:35 - 32:37

entre a PanLex e a Wikidata,
32:37 - 32:39

mas não especificou muito.
32:39 - 32:43

Estava a verificar a sua licença
de dados, e vocês usam o CC0.
32:43 - 32:44

- Sim.
- (Pessoa 8) Isso é ótimo.
32:44 - 32:46

Então, existem duas formas possíveis,
32:46 - 32:49

em que podemos importar os dados
32:49 - 32:53

ou podemos manter
algo similar ao Freebase,
32:53 - 32:56

onde tínhamos a base
de dados completa do Freebase,
32:56 - 32:59

importamo-la e fazemos um link,
32:59 - 33:04

um identificador externo
para a base de dados do Freebase.
33:04 - 33:08

Tem algo assim em mente
ou está a pensar em algo similar?
33:08 - 33:10

Ou só quer fazer...
33:15 - 33:19

uma base de dados independente
que possa ser ligada à Wikidata?
33:19 - 33:21

Sim, essa é uma ótima pergunta
33:21 - 33:23

e na verdade penso que ela vai até além
33:23 - 33:26

de algumas das coisas
em que estive a pensar sobre,
33:26 - 33:30

parcialmente porque, como eu disse,
33:30 - 33:32

fazer com que as duas
bases de dados trabalhem juntas
33:32 - 33:34

é uma etapa por si só.
33:34 - 33:35

Penso que o primeiro passo
que podemos dar
33:35 - 33:38

é literalmente partilhar
as nossas habilidades.
33:38 - 33:40

Temos muita experiência
em lidar com coisas
33:40 - 33:43

como classificações de propriedades
de lexemas individuais
33:43 - 33:45

que eu adoraria partilhar.
33:46 - 33:49

Mas ser capaz de ligar
as duas bases de dados seria maravilhoso.
33:49 - 33:51

Estou 100% a favor disso.
33:51 - 33:54

Acho que seria um pouco mais fácil
33:54 - 33:56

a Wikidata usar a forma da PanLex,
33:56 - 33:59

mas talvez seja tendencioso
por ver como isso iria funcionar.
34:02 - 34:06

Sim, essencialmente,
desde que a Wikidata esteja confortável,
34:06 - 34:10

com todas as licenças e coisas assim,
ou encontraremos uma solução,
34:10 - 34:12

penso que seria uma ótima ideia.
34:13 - 34:16

Só temos que pensar
em maneiras de ligar os dados.
34:16 - 34:22

Algo que imagino seria, essencialmente,
que as edições do Wikidata fossem
34:23 - 34:26

imediatamente preenchidas
no banco de dados PanLex,
34:26 - 34:29

sem precisar, essencialmente,
34:29 - 34:31

consumir novamente tudo outra vez.
34:31 - 34:36

Tornar essencialmente a Wikidata
numa interface de crowdsourcing da PanLex,
34:36 - 34:37

seria realmente incrível.
34:37 - 34:40

E depois ser capaz de usar
a PanLex em traduções imediatas,
34:40 - 34:42

para ser capaz de traduzir
pelos itens léxicos da Wikidata,
34:42 - 34:44

isso seria glorioso.
34:55 - 35:00

(Pessoa 9) Isto parece o processo
de fiscalização semântica da web,
35:00 - 35:04

tapar buracos por inferência.
35:06 - 35:10

Se pensarmos assim, este tipo de tradução,
35:10 - 35:13

como é que lida
com incompatibilidade semântica
35:13 - 35:16

e gramatical?
35:16 - 35:19

Por exemplo, se tenta
traduzir algo para o alemão,
35:19 - 35:22

pode simplesmente
colocar várias palavras juntas
35:22 - 35:26

e encontrar algo sensato,
35:26 - 35:29

por outro lado,
acho que já li em algum lugar
35:31 - 35:38

que nem toda a língua tem
o mesmo sistema granular
35:38 - 35:40

para cores, por exemplo.
35:42 - 35:43

Disse que todos
35:43 - 35:45

usam um sistema diferente
para cores ou o mesmo?
35:46 - 35:48

(Pessoa 8) Eu lembro-me apenas
que sobre a evolução da língua,
35:48 - 35:52

que começaram
com o preto e branco, e depois...
35:52 - 35:53

Sim, a hierarquia das cores.
35:53 - 35:54

A hierarquia das cores
35:54 - 35:57

é uma ótima forma
de ilustrar como isto funciona, certo?
35:58 - 36:01

Essencialmente, quando
tem uma única língua pivot...
36:02 - 36:05

é bem interessante quando se lê
documentos traduzidos automaticamente
36:05 - 36:08

porque é frequente falar
sobre uma língua pivot hipotética,
36:08 - 36:10

em que dizem:
"Ah sim, há uma língua pivot,"
36:10 - 36:12

e depois lê o documento
e diz: "É inglês."
36:12 - 36:17

Então o que essa forma
de tradução léxica faz,
36:17 - 36:20

é passar o termo
por muitas línguas intermédias diferentes,
36:21 - 36:26

tem o efeito de ser capaz de lidar
com muita ambiguidade semântica.
36:26 - 36:28

Porque à medida que
passa por outras línguas
36:28 - 36:33

que contêm limites semânticos similares
razoáveis para uma palavra,
36:33 - 36:37

pode essencialmente evitar o problema
36:37 - 36:40

de introduzir ambiguidade semântica
através da língua pivot.
36:40 - 36:43

Então, ao usar a hierarquia
de cores como exemplo,
36:43 - 36:46

se tomar uma língua que tem
uma palavra única para azul e verde
36:46 - 36:51

e a traduz para azul
36:51 - 36:53

na sua língua pivot
36:53 - 36:54

e então para outra língua
36:54 - 36:57

que tem ambiguidades diferentes
para essas coisas,
36:57 - 37:00

acaba por introduzir
ambiguidade semântica.
37:00 - 37:02

Mas se passar por mais línguas
37:02 - 37:06

que também tenham
um item léxico único para verde e azul,
37:06 - 37:11

então, essencialmente,
a especificidade semântica
37:11 - 37:17

é passada adiante
para a língua resultante.
37:18 - 37:21

No que se trata de aspectos gramáticos,
37:21 - 37:23

a PanLex tem estado primeiramente,
na sua história,
37:23 - 37:29

a recolher lexemas essenciais,
formas léxicas essenciais.
37:30 - 37:32

E com isso, quero dizer, basicamente,
37:32 - 37:34

o que encontraria num termo de dicionário.
37:35 - 37:38

Então não nos concentramos nesta altura
37:39 - 37:41

em reunir variantes
de formas gramaticais,
37:41 - 37:43

coisas como dados nominais, etc.
37:43 - 37:45

ou pretérito passado e presente.
37:45 - 37:46

Mas é algo que procuramos fazer.
37:46 - 37:48

Uma coisa que é sempre importante lembrar
37:48 - 37:51

é que, como o nosso foco é...
37:51 - 37:54

está em apoiar línguas minoritárias
que estão ameaçadas ou sem apoio,
37:55 - 37:58

queremos garantir que algo está disponível
37:58 - 38:00

antes de torná-lo perfeito.
38:02 - 38:03

Uma frase que eu adoro é:
38:03 - 38:05

"Não deixe o perfeito ser inimigo do bom."
38:05 - 38:07

E é algo que almejamos.
38:07 - 38:09

Mas estamos super interessados na ideia
38:09 - 38:12

de lidar com formas gramaticais,
38:12 - 38:14

e poder traduzir
através de formas gramaticais,
38:14 - 38:16

e é algo em que já fizemos pesquisa
38:16 - 38:18

mas que ainda não foi
totalmente implementado.
38:25 - 38:29

(Pessoa 9) Então dos 7.500 idiomas,
38:30 - 38:33

presumo que se baseiem em dicionários
que foram escritos para nós,
38:33 - 38:36

mas todas estas idiomas têm
formas de escrita tradicional?
38:36 - 38:38

E como lidam com isso?
38:38 - 38:40

É uma ótima pergunta.
38:42 - 38:45

Essencialmente, sim, muitas destas línguas
38:45 - 38:48

como todos sabem, não são escritas.
38:48 - 38:51

Contudo, qualquer língua
para a qual um dicionário foi produzido
38:51 - 38:52

contém algum tipo de ortografia,
38:52 - 38:57

logo, baseamo-nos na ortografia
produzida para o dicionário.
38:57 - 39:00

Ocasionalmente fazemos
uma ligeira manipulação de ortografia
39:01 - 39:03

se pudermos, basicamente,
garantir que não há danos.
39:03 - 39:05

Mas tentamos evitar,
tanto quanto possível.
39:09 - 39:11

Essencialmente, não nos intrometemos
39:11 - 39:13

em desenvolver ortografia para as línguas,
39:13 - 39:15

porque frequentemente
não foi desenvolvida,
39:15 - 39:17

mesmo que não esteja amplamente publicada.
39:19 - 39:22

Por exemplo,
39:22 - 39:26

muitas línguas faladas na Nova Guiné,
39:26 - 39:29

pode não haver uma forma
ortográfica comum utilizada,
39:29 - 39:31

mas alguns linguistas
conseguiram fazer algo
39:31 - 39:33

e já é um bom primeiro passo.
39:33 - 39:37

Também reunimos formas fonéticas
quando estão disponíveis nos dicionários,
39:37 - 39:38

e esta é outra forma,
39:38 - 39:41

essencialmente
uma representação IPA da palavra,
39:41 - 39:42

se estiver disponível.
39:42 - 39:43

Isso também pode ser usado.
39:43 - 39:46

Mas geralmente
não usamos isso como auxílio,
39:46 - 39:48

pois pode introduzir certas ambiguidades.
39:53 - 39:55

(Pessoa 10) Obrigada, talvez
não seja uma pergunta muito pertinente.
39:56 - 40:01

Mas só trabalham
com as línguas intermediárias?
40:01 - 40:02

Não, não.
40:02 - 40:04

(Pessoa 10) Ok, certo. Obrigada.
40:04 - 40:06

Fico feliz que tenha feito essa pergunta.
40:06 - 40:11

Isto é uma foto
do ecrã do translate.panlex.org.
40:11 - 40:13

Se fizer uma tradução,
40:13 - 40:15

terá uma lista
de traduções no lado direito.
40:15 - 40:18

Clica no botão de reticências
e há um gráfico assim.
40:18 - 40:22

E o que isto mostra
são as línguas intermediárias,
40:22 - 40:24

as 20 principais, por pontuação.
40:24 - 40:26

Daria mais detalhes de como pontuamos,
40:26 - 40:27

mas não é muito importante agora.
40:27 - 40:30

Por pontos que estão a sendo usados.
40:30 - 40:33

Mas para fazer a tradução,
estamos a usar bem mais que 20.
40:33 - 40:36

O motivo de mostrarmos 20,
é porque se forem mais de 20...
40:36 - 40:38

é como se fosse uma simulação de física.
40:38 - 40:40

Podem mover as coisas e elas reagem.
40:40 - 40:42

Mas se tiver mais de 20,
o computador fica muito irritado.
40:45 - 40:47

É mais uma demonstração, sim.
40:56 - 40:58

(Pessoa 11) Leila, da Fundação Wikimedia.
40:58 - 41:00

Apenas uma nota na...
41:00 - 41:03

Mencionou a Fundação Wikimedia
algumas vezes durante a apresentação,
41:03 - 41:07

gostaria de dizer se quiser
realizar qualquer tipo de consumo de dados
41:07 - 41:08

ou colaboração com a Wikidata,
41:09 - 41:11

talvez a Wikimedia Alemanha
seja um local melhor
41:11 - 41:13

com quem ter essas conversas?
41:13 - 41:16

Porque a Wikidata vive praticamente
dentro da Wikimedia Alemanha,
41:16 - 41:18

e a equipa está lá,
41:18 - 41:20

como também a comunidade
de voluntários da Wikidata,
41:20 - 41:24

seria o local perfeito para conversar
41:24 - 41:26

sobre qualquer tipo de consumo
41:26 - 41:31

ou trabalhar para aproximar
a PanLex da Wikidata.
41:32 - 41:33

Ótimo, muito obrigado!
41:33 - 41:35

Porque sinceramente
não estou muito familiarizado
41:35 - 41:38

com as complexidades de arquitectura
41:38 - 41:40

de como todos os projetos se relacionam.
41:40 - 41:42

Adivinho pelas gargalhadas
que seja complicado.
41:42 - 41:44

Mas sim, basicamente queremos conversar
41:44 - 41:48

com quem for responsável pela Wikidata.
41:48 - 41:52

Como tal, é só fazermos
um pequeno encontro
41:53 - 41:56

com quem for responsável pela Wikidata,
aí está com quem nos interessa conversar,
41:56 - 41:58

que é com todos vocês que são voluntários.
42:04 - 42:05

Existem mais perguntas?
42:10 - 42:14

Ok, se alguém tiver mais alguma pergunta
42:14 - 42:18

sobre algo que falei, ou dos detalhes
e especificidades destas coisas,
42:18 - 42:20

por favor fale comigo,
estou super entusiasmado.
42:21 - 42:24

E especialmente se está a lidar
com algo que envolva material léxico,
42:24 - 42:29

algo que envolva
línguas minoritárias ameaçados,
42:29 - 42:30

e idiomas desamparados,
42:30 - 42:34

e também Unicode,
que é algo que também faço.
42:37 - 42:38

Obrigado a todos
42:38 - 42:40

e obrigado por me terem convidado a falar,
42:40 - 42:42

espero que tenham gostado!
42:42 - 42:44

(Aplausos)

Title:: cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4
Video Language:: English
Duration:: 42:53

Bar Sch edited Portuguese subtitles for cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

Portuguese subtitles

Revisions

Revision 1 Uploaded

Bar Sch

cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

Revisions

Our website uses cookies

Operating cookies (Required)