cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4

Edit subtitles

0:06 - 0:07

(Lydia) Muito obrigada.
0:07 - 0:11

Então, nesta conferência,
um dos grandes temas são as linguagens.
0:11 - 0:14

Então...
0:14 - 0:18

Quero dar-vos uma visão geral
de onde estamos atualmente
0:18 - 0:20

no que diz respeito a linguagens
0:20 - 0:22

e para onde podemos ir daqui.
0:29 - 0:33

A Wikidada pretende dar a mais pessoas
mais acesso a mais conhecimento
0:33 - 0:37

e a linguagem é uma parte muito importante
para tornar isso realidade.
0:38 - 0:43

Especialmente, porque cada vez mais
as nossas vidas dependem da tecnologia.
0:44 - 0:49

E, como um dos palestrantes
mencionou há pouco,
0:50 - 0:52

alguma da tecnologia
deixa as pessoas para trás
0:52 - 0:55

simplesmente porque
não falam determinada linguagem,
0:55 - 0:58

o que não está correto.
0:58 - 1:02

Então, nós queremos fazer algo
em relação a isso.
1:03 - 1:06

E, de forma a mudar isso,
precisamos de pelos menos duas coisas.
1:06 - 1:11

Primeiro, providenciar conteúdo
na língua nativa das pessoas
1:11 - 1:13

e, segundo,
1:13 - 1:16

providenciar
interação na sua língua,
1:16 - 1:19

nas aplicações
ou seja no que for que tenham.
1:20 - 1:25

A Wikidata ajuda em ambas as coisas.
1:25 - 1:28

Em relação à primeira,
conteúdo na sua língua,
1:28 - 1:31

isso é basicamente o que temos
nos itens e propriedades,
1:31 - 1:33

como descrevemos o mundo.
1:33 - 1:35

Isto não é, certamente,
tudo o que é preciso,
1:35 - 1:39

mas já dá uma ajuda considerável.
1:40 - 1:42

A outra coisa,
interação na sua língua,
1:42 - 1:46

é onde os lexemas entram em jogo
1:46 - 1:49

se quiserem falar
com o vosso assistente pessoal digital,
1:49 - 1:55

ou se quiserem que o vosso dispositivo
traduza um texto e afins.
1:56 - 1:59

Tudo bem, vamos olhar para
conteúdo na sua língua.
1:59 - 2:03

O que temos em itens e propriedades?
2:05 - 2:10

Para isto, as etiquetas nesses itens
e propriedades são cruciais.
2:10 - 2:15

Precisamos de saber como se chama
esta entidade de que estamos a falar.
2:16 - 2:20

E, em vez de falarmos sobre Q5...
2:20 - 2:22

Alguém que fale inglês
sabe que isso é um "humano",
2:22 - 2:25

alguém que fale alemão
sabe que é um "mensch",
2:25 - 2:26

e por aí adiante.
2:26 - 2:30

Então, estas etiquetas
nos itens e propriedades
2:30 - 2:34

estão a fechar as brechas
entre humanos e máquinas
2:34 - 2:35

e entre humanos e humanos.
2:35 - 2:40

Fazendo com que mais conhecimento
esteja acessível para eles.
2:43 - 2:46

Isso é um bom objetivo.
2:46 - 2:48

Mas qual é o aspeto disso?
2:48 - 2:50

Bem, é este.
2:51 - 2:52

O que estão a ver aqui
2:52 - 2:58

é que a maioria dos items
na Wikidata tem duas etiquetas,
2:58 - 3:01

portanto, são etiquetados em duas línguas.
3:02 - 3:04

Depois disso, é um, e depois três
3:04 - 3:06

e depois fica muito triste.
3:07 - 3:09

(riso tímido)
3:10 - 3:13

Eu penso que temos que fazer melhor.
3:14 - 3:15

Mas, por outro lado,
3:15 - 3:17

eu, na verdade, estava à espera
de muito pior.
3:17 - 3:20

Estava à espera que a média fosse um.
3:20 - 3:23

Portanto, fiquei
bastante contente em ver dois. (risos)
3:25 - 3:26

Certo.
3:27 - 3:30

Mas, o interessante não é só saber
3:30 - 3:34

quantas etiquetas os nossos items
e propriedades têm,
3:34 - 3:37

também é interessante ver
em que línguas.
3:38 - 3:44

Aqui têm um gráfico das línguas
3:44 - 3:47

que têm etiquetas para itens.
3:47 - 3:51

A maior parte é Outra.
3:51 - 3:54

Então, peguei nas 100 maiores línguas
3:54 - 3:59

e tudo o resto são Outras,
para que o gráfico se perceba.
4:00 - 4:02

Depois, há inglês e holandês,
4:03 - 4:04

francês,
4:06 - 4:09

e não nos esqueçamos do... asturiano.
4:10 - 4:12

- (plateia 1) (grito de entusiasmo)
- De facto!
4:14 - 4:17

Então, podem ver que há aqui
um considerável desequilíbrio
4:17 - 4:20

e o foco ainda se mantém muito no inglês.
4:21 - 4:24

Outra coisa que notamos
é que nas Propriedades,
4:24 - 4:26

as coisas estão bem melhores.
4:27 - 4:33

E penso que, em parte, isso deve-se
a haver muito menos propriedades.
4:33 - 4:37

Então, mesmo comunidades menores
têm hipótese de se manter a par.
4:37 - 4:39

Mas também é uma parte importante
da Wikidata,
4:39 - 4:41

a localização na tua própria língua.
4:41 - 4:42

Portanto, isso é bom.
4:46 - 4:48

O que quero salientar aqui
com o asturiano
4:48 - 4:54

é que uma comunidade pequena
pode realmente fazer uma enorme diferença
4:54 - 4:57

com alguma dedicação e trabalho,
4:57 - 4:58

o que é muito fixe.
5:02 - 5:04

Uma pequena pergunta para vocês.
5:04 - 5:05

Se pegarmos em todas as propriedades
na Wikidata,
5:05 - 5:08

que não são indentificadores externos,
5:08 - 5:10

qual é o que tem mais etiquetas,
o maior número de linguagens?
5:11 - 5:14

(plateia) [inaudível]
5:14 - 5:17

Ouço algum acordo em instância de?
5:17 - 5:19

Estariam errados.
5:20 - 5:22

É imagem. (risos)
5:23 - 5:26

Então, sim, isso diz-vos,
se falarem uma destas línguas
5:26 - 5:29

nas quais instância de
ainda não tem etiqueta,
5:29 - 5:30

que poderão querer adicioná-la.
5:32 - 5:36

Tem, neste momento, 148 etiquetas.
5:38 - 5:41

Mas isso é outro slide.
5:43 - 5:44

Este gráfico diz-nos algo
5:44 - 5:49

sobre quanto conteúdo estamos a tornar
disponível numa certa língua
5:49 - 5:52

e quanto conteúdo
é realmente utilizado.
5:52 - 5:55

Então, o que temos aqui
é basicamente uma curva
5:55 - 6:01

com a maior parte do conteúdo com
etiquetas em inglês, disponível em inglês
6:02 - 6:04

e a ser muito usado.
6:04 - 6:06

E depois, isto meio que baixa.
6:06 - 6:09

Mas, novamente, o que podem ver
são os valores atípicos
6:09 - 6:15

que têm muito mais conteúdo
do que seria de esperar
6:17 - 6:20

e isso é mesmo muito bom.
6:21 - 6:25

O problema é que não é tão utilizado.
6:26 - 6:29

Asturiano e holandês
deveriam ser mais altos.
6:29 - 6:32

Acho que, ajudar essas comunidades
6:33 - 6:35

a aumentar o uso
dos dados que coletaram,
6:35 - 6:38

é uma coisa realmente útil de se fazer.
6:43 - 6:47

O que esta análise e outras
nos mostraram é uma coisa boa,
6:47 - 6:51

embora estejamos a ver que os itens
que são mais utilizados
6:51 - 6:55

também tendem a ter mais etiquetas
6:55 - 6:58

ou ao contrário.
Não é completamente claro.
7:03 - 7:04

E então, a questão é:
7:05 - 7:07

estamos a servir
apenas as linguagens poderosas?
7:08 - 7:11

Ou conseguimos fazê-lo para todos?
7:13 - 7:18

O que vêm aqui
é um agrupamento das linguagens.
7:18 - 7:22

As linguagens que estão agrupadas
tendem a ter etiquetas juntas.
7:26 - 7:29

E conseguimos vê-las a aglomerarem-se.
7:29 - 7:34

Agora, temos aqui
um aglomerado similar, colorido,
7:34 - 7:39

baseado em quão viva, quão usada,
7:40 - 7:43

quão ameaçada a linguagem está.
7:43 - 7:45

E uma coisa boa que vemos aqui,
7:45 - 7:50

é que linguagens seguras
e ameaçadas
7:50 - 7:54

não formam dois aglomerados diferentes.
7:54 - 7:59

Elas misturam-se,
8:00 - 8:05

o que é muito melhor do que seria
se fosse ao contrário
8:05 - 8:09

onde as linguagens seguras,
as linguagens poderosas,
8:10 - 8:12

estariam apenas a ajudar-se entre elas.
8:13 - 8:14

Não, não é esse o caso.
8:14 - 8:17

E isso é uma coisa ótima.
8:17 - 8:20

Quando vi isto,
pensei que isto era muito bom.
8:23 - 8:25

Aqui está uma coisa similar,
8:26 - 8:29

onde olhamos para
8:30 - 8:34

os estados das linguagens,
8:34 - 8:36

para quantas etiquetas têm.
8:39 - 8:43

O que estão a ver é uma clara vantagem
para as linguagens seguras,
8:43 - 8:44

como seria de esperar.
8:46 - 8:47

Mas também estão a ver
8:47 - 8:54

que as linguagens na categoria dois,
e três e até mesmo quatro
8:54 - 8:59

não estão, na verdade, nada mal
8:59 - 9:02

em termos de representação
na Wikidata e em outros.
9:03 - 9:06

É uma coisa muito boa de se encontrar.
9:08 - 9:09

Agora, se olharmos para a mesma coisa
9:09 - 9:12

para quanto do conteúdo
dessas etiquetas
9:12 - 9:15

é atualmente usado
na Wikipedia, por exemplo,
9:17 - 9:23

emerge uma imagem semelhante.
9:24 - 9:30

E diz-nos que estas comunidades
estão a fazer um bom uso do tempo
9:30 - 9:35

preenchendo as etiquetas
para os itens mais usados, por exemplo.
9:36 - 9:40

Há valores atípicos
onde penso que podemos ajudar...
9:42 - 9:48

Ajudar as comunidades a encontrar sítios
onde o seu trabalho será mais valioso.
9:49 - 9:53

Mas, no geral, estou contente
com este panorama.
9:55 - 10:00

Agora, isto foram os itens
e as propriedades da Wikidata.
10:01 - 10:03

Agora vamos olhar para a interação
nas vossas línguas.
10:03 - 10:05

Portanto as porções do lexema
da Wikidata
10:05 - 10:09

onde nós descrevemos palavras
e as suas formas e significados.
10:10 - 10:13

Andamos a fazer isso
desde Maio do ano passado
10:16 - 10:19

e o conteúdo tem aumentado.
10:19 - 10:22

Podem ver aqui em azul os lexemas
10:22 - 10:26

e a vermelho,
as formas nesses lexemas
10:26 - 10:30

e a amarelo, os sentidos
nesses lexemas.
10:31 - 10:34

Então algumas comunidades--
já voltaremos a isso mais tarde--
10:34 - 10:40

dispenderam muito tempo a criar formas
e sentidos para os seus lexemas,
10:40 - 10:43

o que é muito útil
10:43 - 10:48

porque constrói o núcleo
dos conjuntos de dados que precisamos.
10:51 - 10:55

Agora, olhamos para todas as línguas
10:55 - 10:58

que têm lexemas na Wikidata.
10:58 - 11:01

Portanto, palavras que nós temos.
11:02 - 11:04

Há, agora, 310 línguas.
11:05 - 11:08

Agora, qual é que acham que é
a língua que está no topo
11:08 - 11:12

quando falamos em número de lexemas
neste momento na Wikidata?
11:13 - 11:19

(Plateia) [inaudível]
11:19 - 11:20

O quê?
11:20 - 11:22

(Plateia 2) Alemão.
11:22 - 11:24

Desculpe, já o tinha ouvido antes.
11:24 - 11:26

É Russo.
11:28 - 11:30

O Russo está bastante à frente.
11:32 - 11:34

E, para vos dar alguma perspetiva,
11:36 - 11:37

há diferentes opiniões
11:37 - 11:42

mas li, por exemplo,
que entre 1 000 e 3 000 palavras
11:42 - 11:45

chegam para chegar
ao nível conversacional noutra língua
11:45 - 11:49

e que entre 4 000 a 10 000 palavras
chegam para o nível avançado.
11:52 - 11:55

Então, ainda temos um pouco
para pôr em dia.
11:58 - 12:03

Uma coisa à qual quero
que prestem atenção é ao basco
12:03 - 12:08

com, aproximadamente, 10 000 lexemas.
12:09 - 12:13

Agora, se olharem para o número de formas
nesses lexemas,
12:14 - 12:16

o basco está lá em cima,
12:18 - 12:20

o que é bastante fixe.
12:20 - 12:25

Deviam ir a uma palestra que vos explique
o porquê desta situação.
12:27 - 12:31

Agora, olhando para o número de sentidos,
para o que as palavras querem dizer,
12:32 - 12:35

o basco chega mesmo ao topo da lista.
12:35 - 12:37

Eu acho que merece um aplauso.
12:37 - 12:41

(aplausos)
12:46 - 12:47

Outra pequena pergunta.
12:47 - 12:50

Qual é o lexema com o maior número
de traduções neste momento?
12:51 - 12:57

(Plateia) Gatos, gatos, [inaudível],
Douglas Adams, [inaudível].
12:57 - 13:00

Todos bons palpites, mas não.
13:01 - 13:04

É esta, a palavra para "água", em russo.
13:10 - 13:12

Já falámos muito
13:12 - 13:16

sobre quantos lexemas,
formas e sentidos temos,
13:16 - 13:20

mas isso é apenas uma parte
do que precisamos.
13:20 - 13:22

A outra parte
13:22 - 13:25

é descrever os lexemas,
formas e sentidos,
13:25 - 13:28

de uma forma que as máquinas possam ler.
13:28 - 13:30

E para isso temos declarações,
tal como nos itens.
13:31 - 13:36

E uma das propriedades
que usamos é o exemplo de utilização.
13:36 - 13:39

Portanto quem quer que esteja
a usar os dados
13:39 - 13:42

pode entender como usar
a palavra no contexto,
13:42 - 13:44

pode ser uma citação, por exemplo.
13:45 - 13:47

E aqui, o polaco reina.
13:48 - 13:50

Bom trabalho falantes de polaco.
13:54 - 13:58

Outra propriedade
que é mesmo útil é IPA,
13:58 - 14:00

logo, como é que se pronuncia uma palavra.
14:01 - 14:07

O russo, aparentemente, precisa
imenso de declarações IPA.
14:10 - 14:13

Mas, novamente, polaco em segundo.
14:17 - 14:21

E, por último, mas não menos importante,
temos a pronunciação áudio.
14:21 - 14:23

Isto corresponde a ligações
a ficheiros nos Commons
14:23 - 14:26

onde alguém diz a palavra,
14:26 - 14:30

de forma a que possamos ouvir
como um nativo a pronuncia
14:30 - 14:33

para o caso de não conseguires ler IPA,
por exemplo.
14:35 - 14:39

E há um projeto muito porreiro
baseado na Wiki,
14:39 - 14:40

chamado Lingua Libre,
14:41 - 14:45

onde podemos ir e ajudar a gravar
palavras na nossa língua
14:45 - 14:48

que pode ser depois adicionadas
a lexemas na Wikidata,
14:48 - 14:52

para que outras pessoas possam entender
como pronunciar as palavras.
14:54 - 14:56

(plateia 3) Há alguma ligação para isso?
14:56 - 14:57

Se procurarem por "Lingua Libre"...
14:57 - 15:01

Tenho a certeza de que alguém pode
publicá-la no nosso canal do Telegram.
15:03 - 15:05

Aqueles tipos são os maiores.
15:05 - 15:07

Fizeram uma coisa mesmo fixe
com a Wikibase.
15:09 - 15:11

Certo.
15:13 - 15:17

Então, a questão é,
para onde seguimos daqui?
15:19 - 15:22

A julgar pelos números que vos mostrei,
15:23 - 15:25

já fizemos um longo caminho
15:25 - 15:28

na direção de dar a mais pessoas
mais acesso a mais conhecimento
15:28 - 15:31

quando procuram línguas na Wikidata.
15:33 - 15:36

Mas ainda há muito trabalho pela frente.
15:39 - 15:42

Algumas coisas que podem fazer
para ajudar, por exemplo,
15:42 - 15:45

é organizar maratonas de etiquetagem,
15:45 - 15:50

como juntar pessoas
para etiquetar items na Wikidata.
15:51 - 15:55

Ou fazer uma maratona de etiquetagem
para lexemas na vossa língua,
15:55 - 15:59

para introduzir as palavras mais usadas
na vossa língua na Wikidata.
16:01 - 16:03

Ou podem usar uma ferramenta
como o Terminator,
16:03 - 16:08

que vos ajuda a encontrar os itens
mais importantes na vossa língua
16:08 - 16:12

a que ainda falte alguma etiqueta.
16:13 - 16:18

Sendo que mais importante é medido
por quantas vezes é usado
16:18 - 16:23

em outros items da Wikidata
como ligações ou declarações.
16:26 - 16:30

E, claro, para a porção do lexema,
16:31 - 16:35

agora que temos uma cobertura básica
desses lexemas,
16:35 - 16:41

queremos também construí-los,
adicionar-lhes mais declarações
16:41 - 16:44

para que eles possam, realmente,
construir a base
16:44 - 16:47

para construir aplicações significativas
a partir deles.
16:48 - 16:51

Porque estamos a aproximarmo-nos
dessa massa crítica,
16:51 - 16:53

mas ainda estamos longe disso,
16:53 - 16:57

de podermos construir aplicações
sérias sobre isto.
16:58 - 17:02

E espero que todos vocês
se juntem a nós para fazermos isso.
17:03 - 17:07

E isso já me leva
17:07 - 17:10

a uma pequena ajuda dos nossos amigos.
17:10 - 17:13

Bruno, queres vir até aqui
17:14 - 17:17

para nos falares
sobre as máscaras lexicais?
17:18 - 17:19

(Bruno) Obrigado, Lydia,
17:19 - 17:22

por me cederes este bocadinho de tempo
17:22 - 17:24

para apresentar o trabalho
que estamos a fazer na Google
17:24 - 17:30

com o Denny, que a maior parte de vocês
já deve ter ouvido falar ou conhece.
17:30 - 17:32

Porque na Google-- eu sou linguista,
17:32 - 17:36

portanto estou muito feliz de estar aqui
entre outros entusiastas de linguagens--
17:37 - 17:39

nós também estamos a construir
alguns léxicos
17:39 - 17:42

e construimos esta tecnologia,
17:42 - 17:46

ou esta abordagem, que pensamos
poderá ser útil para vocês.
17:46 - 17:48

Só para vos situar,
17:48 - 17:52

isto é a minha experiência
lexicográfica a falar.
17:53 - 17:54

Quando criamos bases de dados
de léxico,
17:54 - 17:59

é preciso muito tempo para a manter,
mantê-la consistente
17:59 - 18:00

e para trocar dados,
18:00 - 18:02

como vocês provavelmente sabem.
18:03 - 18:06

Houve várias tentativas para unificar
as características e propriedades
18:06 - 18:09

que descrevem os lexemas
e as formas.
18:09 - 18:11

Ainda não é um problema resolvido,
18:11 - 18:14

mas há ainda algumas tentativas
de unificação nesse sentido.
18:14 - 18:15

Mas o que está mesmo a faltar--
18:15 - 18:19

e isto é um problema que tivemos
no início do nosso projeto na Google--
18:19 - 18:22

é tentar ter uma estrutura interna
18:22 - 18:26

que descreva como
uma entrada lexical se deverá parecer,
18:26 - 18:29

que tipo de dados
ou que tipo de informação temos
18:29 - 18:32

e a especificação pretendida.
18:32 - 18:38

Assim, isto foi o que inventámos,
esta coisa chamada máscara lexical.
18:39 - 18:45

Uma máscara lexical descreve
o que é expectável de uma entrada,
18:45 - 18:47

de uma entrada lexicográfica,
para estar completa,
18:47 - 18:51

tanto em termos de número de formas
que se esperam de um lexema
18:51 - 18:56

como do número de características
que se esperam em cada forma.
18:56 - 18:58

Aqui está um exemplo
para adjetivos italianos.
18:58 - 19:02

Seria de esperar, em italiano, termos
quatro formas para os adjetivos
19:02 - 19:05

e cada uma dessas formas
ter uma combinação específica
19:05 - 19:08

de género e número de características.
19:09 - 19:13

Isto é o que esperamos
de adjetivos italianos.
19:13 - 19:16

Claro que, podemos ter
máscaras extremamente complexas,
19:16 - 19:21

como a conjugação dos verbos em francês,
que é bastante extensa.
19:21 - 19:23

E não vos quero mostrar
nenhuma máscara russa
19:23 - 19:25

porque não cabe no ecrã.
(risos)
19:26 - 19:30

E também temos especificações
detalhadas,
19:30 - 19:33

porque distinguimos
o que está ao nível da forma.
19:33 - 19:38

Então, aqui temos nomes russos
que têm três números
19:38 - 19:40

e alguns casos
com diferentes formas.
19:40 - 19:43

Mas, eles também têm
uma especificação de entrada de gama
19:43 - 19:46

que diz que o nome em particular tem
19:46 - 19:50

um género inerente e uma característica
de animação inerente
19:50 - 19:52

que também são especificados na máscara.
19:55 - 19:59

Também queremos salientar
que uma máscara fornece uma especificação
19:59 - 20:02

para qual deve ser
o aspeto de uma entrada.
20:02 - 20:07

Mas, podemos ter máscaras mais pequenas,
para aspetos defeituosos da forma
20:07 - 20:11

ou aspetos defeituosos do lexema
que acontecem na linguagem.
20:11 - 20:15

Aqui podem ver a forma mais simples
dos verbos franceses
20:15 - 20:20

que só têm a terceira pessoa do singular
para todos os verbos metereológicos,
20:20 - 20:24

como "chove" ou "neva",
em português.
20:25 - 20:26

Distinguimos estes dois níveis.
20:27 - 20:30

E como é que usamos isto na Google?
20:30 - 20:33

Quando temos um léxico
que queremos usar,
20:33 - 20:38

usamos a máscara para
literalmente atirar os léxicos,
20:38 - 20:40

todas as entradas, através da máscara
20:40 - 20:44

e ver que entrada tem problemas
em termos de estrutura.
20:44 - 20:47

Está a faltar uma forma?
Falta uma característica?
20:47 - 20:51

E, quando surge um problema,
fazemos validação humana
20:51 - 20:54

ou só para ver se passa na máscara.
20:54 - 20:58

É uma ferramenta extremamente poderosa
para conferir a qualidade da estrutura.
20:59 - 21:02

Portanto, estamos felizes em anunciar hoje
21:02 - 21:05

que recebemos luz verde
para disponibilizarmos o código fonte.
21:06 - 21:08

Portanto este é o esquema.
21:08 - 21:09

Se quiserem isto, podemos lançar
21:09 - 21:13

e pode ser providenciado
à Wikidata em ficheiros ShEx.
21:13 - 21:17

Este é o ficheiro ShEx para nomes
em alemão,
21:17 - 21:20

e o Denny está a trabalhar na conversão
da nossa especificação interna
21:20 - 21:24

para uma mais de código aberto.
21:24 - 21:28

Atualmente temos mais de 25 linguagens,
21:28 - 21:29

portanto esperamos crescer do nosso lado,
21:29 - 21:34

mas também fazer disto uma oportunidade
para colaborar noutras línguas.
21:34 - 21:41

E uma dessas colaborações
é a que o Denny tem com o Lukas.
21:41 - 21:45

O Lukas tem umas ferramentas ótimas
para ter uma interface com o utilizador
21:45 - 21:51

que ajuda o utilizador ou contribuidor
a adicionar mais formas.
21:51 - 21:54

Portanto, se quiserem adicionar
um adjetivo em francês,
21:54 - 21:59

a interface diz-vos
quantas formas são expetáveis
21:59 - 22:02

e e quantas características
essa forma deverá ter.
22:02 - 22:06

Então a nossa máscara ajudará a ferramenta
a ser definida e expandida.
22:07 - 22:08

É isto.
22:09 - 22:10

(Lydia) Muito obrigado.
22:10 - 22:14

(aplausos)
22:14 - 22:17

Certo. Há questões?
22:17 - 22:19

Querem falar mais sobre os lexemas?
22:20 - 22:21

- (plateia 4) Sim.
- Sim. (risos)
22:33 - 22:35

(plateia 4) A minha questão,
porque estava a falar
22:35 - 22:39

acerca de dar mais acesso
a mais pessoas em mais línguas,
22:39 - 22:42

mas há muitas línguas
que não podem ser usadas na Wikidata.
22:42 - 22:45

Então que solução é que têm para isso?
22:46 - 22:48

Quando diz que não podem ser usadas,
22:48 - 22:50

está a referir-se à entrada de etiquetas?
22:50 - 22:53

- (plateia 4) Etiquetas, descrições.
- Certo.
22:53 - 22:55

Para lexemas, é um pouco diferente
22:55 - 22:58

porque aí não temos
essa restrição.
22:59 - 23:05

Para etiquetas nos itens e propriedades,
há realmente alguma restrição
23:05 - 23:12

porque quisemos ter a certeza
que não é completamente--
23:12 - 23:14

qualquer um faz o que quiser
23:14 - 23:18

e torna-se ingerível.
23:18 - 23:24

Até uma comunidade pequena que queira
uma língua e que queira trabalhar nisso:
23:24 - 23:27

venham ter connosco e fazemos acontecer.
23:27 - 23:29

(plateia 4) Nós fizemos isso
no Hackathon de Praga em Maio
23:29 - 23:32

e demorou quase até Agosto
até conseguirmos usar a nossa linguagem.
23:32 - 23:35

- Sim.
- (plateia 4) Portanto, é muito lento.
23:35 - 23:38

Sim, infelizmente é muito lento.
23:38 - 23:40

Estamos a trabalhar
com o Comité de Linguagem
23:40 - 23:46

a tentar resolver os mais básicos...
23:50 - 23:55

Ter o acordo sobre que tipo
de linguagens são realmente "permitidas"
23:56 - 24:00

e isso tem demorado tempo demais,
24:00 - 24:04

o que pode ser a razão para o vosso pedido
ter demorado mais do que devia.
24:05 - 24:06

(plateia 4) Obrigada.
24:07 - 24:08

(plateia 5) Obrigado.
24:08 - 24:11

Lydia, se se lembra das estatísticas
que mostrou,
24:11 - 24:13

o número de lexemas por linguagem.
- Sim.
24:13 - 24:18

(plateia 5) Então, contaram todos
as formas como pontos de dados
24:18 - 24:20

ou apenas os lexemas?
24:21 - 24:23

(Lydia) Está a falar disto?
24:23 - 24:24

A qual é que se refere?
24:24 - 24:26

(plateia 5) Sim, exatamente.
24:26 - 24:28

Se se lembrar, este número é [inaudível]
24:28 - 24:32

todas as formas, todos os lexemas
ou apenas quantos lexemas há?
24:32 - 24:34

Não, isto é apenas o número de lexemas.
24:34 - 24:35

(plateia 5) Só o número de lexemas.
24:35 - 24:37

Então é apenas uma estatística
24:37 - 24:39

porque, se depois
contássemos com as formas--
24:39 - 24:41

por isso pergunto--
24:41 - 24:43

então, todas as línguas
com morfologia de inflexão,
24:43 - 24:45

como russo, sérvio,
esloveno, etc,
24:45 - 24:48

têm uma vantagem natural,
porque têm tantas.
24:48 - 24:52

Daí, este tipo de saltos aqui
no número de formulários.
24:52 - 24:54

(plateia 5) Sim, era esse mesmo.
Obrigado.
24:56 - 25:00

(plateia 6) Tenho só uma
pergunta rápida acerca de...
25:01 - 25:07

Quando estávamos a falar sobre
os itens e propriedades.
25:07 - 25:10

Até onde eu consigo entender,
não há, atualmente, forma
25:10 - 25:13

de dar uma fonte definida
a qualquer das etiquetas
25:13 - 25:15

e descrições que foram dadas.
- Sim.
25:15 - 25:18

(plateia 6) Então, não há nada
porque, quando estás a falar
25:18 - 25:21

acerca de uma propriedade de um item,
25:21 - 25:24

podes ter, por exemplo,
etiquetas conflituosas.
25:24 - 25:28

- Sim.
- (Plateia 6) Então, esta pessoa é como...
25:28 - 25:30

Falamos à pouco sobre
coisas indígenas, por exemplo.
25:30 - 25:36

Então esta pessoa é um artista norueguês,
de acordo com uma fonte,
25:36 - 25:39

e um artista sami,
de acordo com outra fonte.
25:39 - 25:43

Ou, por exemplo, em estoniano,
tivemos um problema
25:43 - 25:48

onde tivemos que mudar uma terminologia
para a terminologia oficial usada
25:48 - 25:49

nos léxicos oficiais.
25:49 - 25:52

Mas não temos realmente
uma forma de indicar porquê.
25:52 - 25:54

Qual foi a fonte disto
25:54 - 25:56

e por que razão isto está melhor
do que estava.
25:56 - 25:57

Fui apenas eu, como uma pessoa
ao acaso,
25:57 - 26:00

a mudar isto
para quem quer que o veja.
26:00 - 26:03

Então, há um plano
para isto ser possível de qualquer forma,
26:03 - 26:06

de modo a que possamos realmente ter
fontes confiáveis para dados de linguagem?
26:07 - 26:11

Isso é parcialmente possível.
26:11 - 26:16

Por exemplo, quando há
um item para uma pessoa,
26:16 - 26:23

pode ter as declarações: primeiro nome,
último nome, e por aí em diante.
26:23 - 26:26

E, nessa altura, pode-se providenciar
referências para isso.
26:28 - 26:33

Tenho algumas reticências em
adicionar mais complexidade
26:33 - 26:36

para referências
em etiquetas e descrições,
26:36 - 26:39

mas se as pessoas realmente pensam
26:39 - 26:45

que isto é algo que não está coberto
por qualquer referência na declaração,
26:45 - 26:47

então falamos sobre isso.
26:49 - 26:53

Mas temo que
vá adicionar muita complexidade
26:53 - 26:57

para o que espero serem poucos casos.
26:57 - 27:00

Mas estou disposta
a ser convencida do contrário
27:00 - 27:04

se as pessoas realmente sentem
que isto tem relevãncia.
27:04 - 27:08

(plateia 6) Se for adicionado
provavelmente não deveria ser o padrão,
27:08 - 27:12

mostrado a todos os utilizadores
iniciados na interface, em todos os casos.
27:12 - 27:16

Podia ser mais, "Clica aqui se queres
adicionar algo específico sobre isto."
27:18 - 27:23

Temos alguma ideia de quantas vezes
isso teria importância?
27:24 - 27:26

(plateia 6) Em estónio, por exemplo--
27:26 - 27:29

eu imagino que seja assim
noutras línguas também--
27:29 - 27:34

por exemplo, há um nome oficial
que é a legítima tradução
27:34 - 27:37

para inglês de,
27:37 - 27:40

digamos, um tipo específico
de municipalidade.
27:40 - 27:42

Este foi o meu caso
de utilizador, por exemplo,
27:42 - 27:44

onde estávamos a usar a palavra "paróquia"
27:45 - 27:51

na qual a palavra estónia original
significava paróquia de igreja
27:51 - 27:52

e essa foi a sua origem,
27:52 - 27:55

mas não é agora a tradução oficial
que a Estónia recebe atualmente.
27:55 - 27:59

Neste caso, eu juntaria-a apenas como
declarações de nome oficial
27:59 - 28:01

e juntaria a referência aí.
28:02 - 28:03

(plateia 6) Certo.
28:05 - 28:07

Mais questões, sim?
28:08 - 28:10

(Asaf) Dois comentários rápidos.
28:10 - 28:14

Falou especificamente do asturiano
como uma linguagem que está em alta
28:14 - 28:16

e eu acho que isso é falso.
28:16 - 28:18

Conte-me.
28:18 - 28:20

(Asaf) Eu penso que é apenas um bot
28:20 - 28:24

que colou nomes de pessoas,
nomes apropriados para pessoas,
28:24 - 28:27

e disse "Bem, isto é exatamente
como em francês ou espanhol"
28:27 - 28:29

e copiou-o massivamente.
28:29 - 28:33

Uma prova é que
não se vê essa energia no asturiano,
28:33 - 28:37

em coisas que realmente requerem tradução,
como nomes de propriedades,
28:37 - 28:40

ou nomes de itens
que não são nomes próprios.
28:40 - 28:41

Asaf, partes-me o coração.
28:41 - 28:43

(Asaf) Eu sei,
costumo estragar as festas,
28:43 - 28:48

mas tenho boas notícias também,
sobre os números das pronunciações.
28:49 - 28:54

Como saberão, o Commons está cheio
de ficheiros de pronunciação
28:54 - 28:55

e, por exemplo,
28:55 - 29:01

o holandês tem, nada mais nada menos, que
300 000 ficheiros desses introduzidos
29:02 - 29:05

que necessitam de ser "ingeridos"
de alguma forma.
29:05 - 29:08

Então, se alguém está à procura
de um projeto para as horas vagas,
29:08 - 29:09

há imensos
29:09 - 29:13

ficheiros de pronunciação, classificados
e categorizados no Commons
29:13 - 29:17

na categoria "Pronunciação" por linguagem.
29:17 - 29:23

Estão à espera de ser combinados
com os lexemas e postos no lexema.
29:23 - 29:25

E estava a pensar
se me poderia dizer alguma coisa
29:25 - 29:27

sobre o quadro referência,
29:27 - 29:29

algo sobre quanto investimento
29:29 - 29:32

ou o que podemos esperar
relativo ao lexema no próximo ano,
29:32 - 29:34

porque eu, pessoalmente,
mal posso esperar.
29:35 - 29:37

Não pode? (risos)
29:37 - 29:39

- (Asaf) Por mais.
- Sim. (risos)
29:40 - 29:42

Penso que ...
29:44 - 29:50

Neste momento, estamos concentrados
mais na Wikibase e na qualidade de dados
29:51 - 29:55

para ver quanta tração isto tem
29:55 - 30:02

e para obter mais para descobrir
onde os próximos pontos críticos estão
30:02 - 30:06

e depois voltar atrás e melhorar
mais os dados lexicográficos.
30:07 - 30:10

E uma das coisas
que adoraria ouvir de vocês
30:10 - 30:14

é onde exatamente vocês vêm
que poderão ser dados os próximos passos,
30:14 - 30:16

onde querem melhorias
30:16 - 30:20

para que nós possamos descobrir
como fazer isso acontecer.
30:21 - 30:23

Mas claro que está certo,
30:23 - 30:26

ainda há muito a fazer
também do lado técnico.
30:30 - 30:36

(plateia 7) Ao carregarmos
as palavras bascas com formas,
30:36 - 30:38

e verão alguns destes tipos de coisas,
estávamos todos...
30:38 - 30:41

Na semana passada
dissemos "Somos os primeiros em algo."
30:41 - 30:43

[inaudível]
30:43 - 30:45

Apareceu na imprensa e foi tipo:
30:45 - 30:49

"O basco foi o primeiro em algo,
foram os primeiros."
30:49 - 30:50

(risos)
30:50 - 30:53

E depois as pessoas perguntaram
"Mas para que serve isto?"
30:55 - 30:57

Nós não temos uma boa resposta.
30:57 - 30:58

Quer dizer, certo,
30:58 - 31:02

isto vai ajudar computadores
a entender mais a nossa linguagem, sim.
31:02 - 31:05

Mas que tipo de ferramentas
podemos fazer no futuro?
31:05 - 31:07

E ainda não temos uma boa resposta.
31:07 - 31:11

Portanto eu não sei
se vocês têm uma boa resposta para isto.
31:11 - 31:13

(risos) Eu não sei
se eu tenho uma boa resposta,
31:13 - 31:15

mas tenho uma resposta.
31:15 - 31:20

Então, eu penso, neste momento,
como estava a dizer [inaudível],
31:20 - 31:22

que ainda não chegámos à massa crítica
31:22 - 31:26

onde podemos construir um monte
de ferramentas realmente interessantes.
31:26 - 31:28

Mas já existem algumas ferramentas.
31:28 - 31:32

No outro dia,
a Esther Pandalia, por exemplo,
31:32 - 31:34

lançou uma ferramenta onde podemos ver,
31:36 - 31:39

penso que eram as palavras num globo,
31:39 - 31:42

onde eram faladas,
de onde tinham vindo.
31:42 - 31:44

Posso estar errada sobre isto.
31:44 - 31:46

Mas ela respondeu no chat
do projeto na Wikidata.
31:46 - 31:49

Podem vê-lo ali.
31:50 - 31:52

Então já vimos as primeiras ferramentas,
31:52 - 31:56

tal como já vimos, no passado,
quando a Wikidata começou.
31:57 - 32:00

Primeiro algumas... Como uma rede
32:00 - 32:03

e depois "Olha, há aqui esta coisa
que liga a esta outra coisa."
32:05 - 32:07

E à medida que temos mais dados
32:07 - 32:10

e chegamos mais perto da massa crítica,
32:12 - 32:15

tornam-se possíveis
aplicações mais poderosas.
32:16 - 32:18

Coisas como a Histropedia,
32:19 - 32:22

coisas como perguntas e respostas
32:22 - 32:26

no vosso assistente pessoal digital,
Platypus e assim por diante.
32:26 - 32:30

E estamos a ver
coisas semelhantes com os lexemas.
32:31 - 32:35

Estamos num estágio em que
podemos construir estes pequenos:
32:35 - 32:38

"Olha, há uma ligação
entre duas coisas
32:38 - 32:43

e há uma tradução dessa palavra
para esse estágio de linguagem."
32:43 - 32:48

E, à medida que construimos
e à medida que descrevemos mais palavras,
32:48 - 32:49

mais se torna possível.
32:49 - 32:52

Agora, o que é que isso torna possível?
32:53 - 33:00

Como o Ben, o nosso orador de antes,
estava a dizer acerca de traduções,
33:00 - 33:03

ser capaz de traduzir
de uma língua para outra.
33:03 - 33:08

E Jens, outro colega,
que está sempre a falar sobre
33:08 - 33:11

a União Europeia
andar sempre à procura de um tradutor
33:11 - 33:17

que possa fazê-lo de,
penso que era maltês para sueco.
33:17 - 33:19

- (plateia 8) Estónio.
- Estónio.
33:19 - 33:20

(risos)
33:22 - 33:26

E essa não é uma combinação usual.
33:27 - 33:32

Mas assim que temos todas essas linguagens
num lugar passível de ser lido por máquina
33:32 - 33:33

podemos fazer isso.
33:33 - 33:37

Podemos obter um dicionário
33:37 - 33:42

de estónio para maltês e vice-versa.
33:43 - 33:46

Então, incluir combinações
de linguagens em dicionários
33:46 - 33:48

que não foram incluídas antes
33:48 - 33:51

porque não havia
procura suficiente para elas, por exemplo,
33:51 - 33:55

para fazê-lo de forma financeiramente
viável e para justificar o trabalho.
33:55 - 33:57

Agora podemos fazer isso.
34:00 - 34:02

E depois a geração de texto.
34:02 - 34:04

A Lucie estava a falar
34:04 - 34:10

acerca de como ela está a trabalhar
com a Hattie em gerar textos
34:10 - 34:15

para iniciar artigos na Wikipedia
em línguas minoritárias.
34:15 - 34:19

Isso precisa de dados sobre palavras
34:19 - 34:23

e precisamos perceber a língua
para fazer isso.
34:23 - 34:28

Sim, e isto é só
o que me vem à cabeça agora.
34:29 - 34:30

Talvez a nossa audiência tenha mais ideias
34:30 - 34:34

do que querem fazer quando tivermos
todos esses gloriosos dados.
34:38 - 34:41

(plateia 9) Vou-nos desviar
do tópico dos lexemas.
34:41 - 34:43

Quero perguntar-vos algo.
34:43 - 34:46

Como posso eu, como membro da comunidade
34:46 - 34:50

influenciar que a prioridade
seja colocada na tarefa,
34:50 - 34:57

que um utilizador novo venha, e possa
indicar que línguas quer ver e editar
34:57 - 35:02

sem um qualquer conhecimento padrão
verbal secreto.
35:02 - 35:05

Talvez haja, este ano,
uma lista técnica de desejos
35:05 - 35:07

sem tópicos da Wikipedia.
35:07 - 35:10

Talvez haja esperança
de que possamos votar acerca
35:10 - 35:14

daquela coisa
que não arranjamos há sete anos.
35:14 - 35:18

Tem alguma ideia
ou comentário sobre isso?
35:18 - 35:20

Então, está a falar sobre o facto
35:20 - 35:23

de alguém que não esteja ligado
à Wikidata
35:23 - 35:25

não poder mudar
a sua linguagem facilmente?
35:25 - 35:28

(plateia 9) Não, para novos utilizadores.
35:28 - 35:31

Então, se estiverem ligados,
35:31 - 35:35

eles podem mudar a sua língua
no topo da página.
35:36 - 35:40

Depois, aparece onde...
35:40 - 35:42

onde as descrições das etiquetas estão
35:42 - 35:43

e podem editá-las.
35:46 - 35:49

(plateia 9) Bem, na verdade, muitas vezes
o fluxo de trabalho é,
35:49 - 35:52

se queremos ter
múltiplas línguas elas estão disponíveis,
35:52 - 35:55

e nem sempre acontece.
35:55 - 35:59

Talvez devamos sentar-nos
depois desta apresentação e mostra-me.
36:01 - 36:04

Fixe. Mais questões?
36:05 - 36:07

Sim.
36:11 - 36:13

(plateia 10) Obrigado pela apresentação.
36:14 - 36:15

Pode comentar
36:15 - 36:19

acerca do estado da correlação
com a comunidade do Wiktionary.
36:19 - 36:22

Do que eu tenho conseguido ver,
tem havido algumas discussões
36:22 - 36:26

acerca de importar
alguns elementos do trabalho,
36:26 - 36:30

mas parece haver algumas questões
de licenciamento e desentendimentos, etc.
36:30 - 36:31

Certo.
36:31 - 36:37

Então, as comunidades do Wiktionary
passaram muito tempo
36:37 - 36:39

a construir o Wiktionary.
36:39 - 36:43

Construiram
36:43 - 36:47

padrões extremamente complicados
e complexos
36:47 - 36:53

para construir as bonitas tabelas
que geram formulários para vocês
36:53 - 36:56

e é tudo realmente impressionante,
36:56 - 37:01

e um pouco louco,
se pensarmos bem nisso.
37:02 - 37:08

E, é claro, investiram
muito tempo e esforço a fazê-lo.
37:09 - 37:12

E, compreensivelmente,
37:12 - 37:17

não querem que isso seja agarrado
37:18 - 37:19

de qualquer maneira.
37:19 - 37:22

Então, há um pouco disso, vindo daí.
37:22 - 37:25

E está certo, tudo bem.
37:25 - 37:32

Agora, as primeiras comunidades Wiktionary
estão a falar de mudar isso
37:32 - 37:34

e importar alguns
dos dados deles para a Wikidata.
37:34 - 37:39

O russo, por exemplo, como já viram,
é um desses casos
37:40 - 37:42

e espero que mais aconteçam.
37:43 - 37:47

Mas vai ser um processo lento,
37:47 - 37:49

tal como a adopção
dos dados da Wikidata pela Wikipedia
37:49 - 37:52

está a ser um processo bem lento.
37:53 - 37:56

O outro lado é tentar que seja mais fácil
37:56 - 37:59

usar os dados que estão nos lexemas,
37:59 - 38:02

no Wiktionary, para que
possam fazer uso deles
38:02 - 38:06

e partilhar dados entre
as Wiktionaries de linguagens.
38:06 - 38:09

O que é super difícil neste momento,
38:09 - 38:12

o que é de doidos,
tal como foi na Wikipedia.
38:14 - 38:16

Esperem pelo presente de aniversário.
(risos)
38:20 - 38:21

Sim.
38:23 - 38:25

(plateia 11) Quando estava a pensar
sobre a outra forma,
38:25 - 38:28

eu, na verdade, não o quis dizer
porque penso que pode ser super tolo.
38:28 - 38:32

Mas acho que o Wiktionary
já tem algum conteúdo
38:32 - 38:35

e eu sei que
não pode ser transferido para a Wikidata
38:35 - 38:37

por causa das diferenças de licenças.
38:37 - 38:40

Mas estava a pensar que talvez
possamos fazer algo acerca disso.
38:40 - 38:45

Talvez obter permissão das comunidades
38:45 - 38:51

depois de, não sei,
haver uma votação pública
38:52 - 38:56

de forma a que comunidade,
os seus membros ativos,
38:56 - 39:03

votem e digam se querem
ou não aceitar a transferência de conteúdo
39:03 - 39:06

para a qual podem fazer
os lexemas da Wikidata.
39:06 - 39:09

Porque penso que é um desperdício.
39:10 - 39:14

Então, isso é definitivamente
uma conversa que essas pessoas,
39:14 - 39:18

que estão nas comunidades Wiktionary,
podem ter lá.
39:18 - 39:25

Penso que seria um pouco presunçoso
da nossa parte forçarmos isso.
39:26 - 39:31

Mas sim, penso que, definitivamente,
vale a pena ter essa conversa.
39:31 - 39:34

Mas eu penso que também
é importante entender
39:34 - 39:39

que há uma distinção entre
o que é legalmente permitido
39:39 - 39:43

e o que devíamos estar a fazer
39:43 - 39:45

e o que as essas pessoas querem ou não.
39:46 - 39:47

Portanto, mesmo se for legal,
39:47 - 39:51

se algumas das comunidades Wiktionary
não o quiserem,
39:51 - 39:54

eu teria cuidado, no mínimo.
39:59 - 40:02

Penso que precisamos do microfone
para o vídeo.
40:04 - 40:07

(plateia 12) Obviamente,
isto é tudo muito excitante
40:08 - 40:12

e penso imediatamente em como
levar isto aos meus estudantes,
40:12 - 40:15

como posso incorporar isto nos cursos,
40:15 - 40:19

no trabalho que estamos a fazer,
ambientes educacionais.
40:19 - 40:22

E não tenho, neste momento,
40:23 - 40:24

primeiro, conhecimento,
40:24 - 40:27

mas acho que a documentação
que temos
40:28 - 40:30

pode ser melhorada.
40:30 - 40:33

Portanto, isto é um pedido
para fazerem vídeos fixes
40:33 - 40:36

que expliquem como funciona.
40:36 - 40:40

Porque, se os tivermos, podemos usá-los,
40:40 - 40:42

podemos ter estudantes a bordo
40:42 - 40:47

e podemos fazer as pessoas entender
quão espetacular é.
40:47 - 40:52

Sim, pensem na documentação
e pensem na educação, por favor.
40:52 - 40:54

Porque penso que muito pode ser feito.
40:54 - 40:59

Estas são pequenas tarefas
que podem ser feitas mesmo com...
41:00 - 41:02

bem, não direi escolas primárias,
41:02 - 41:05

mas certamente até com estudantes jovens.
41:06 - 41:11

E, portanto, gostaria mesmo de ver
esse potencial a ser aproveitado
41:11 - 41:15

e, neste momento, eu, pessoalmente,
não entendo o suficiente
41:15 - 41:20

para conseguir criar tarefas
ou para criar tipo...
41:20 - 41:22

para fazer algo prático com isto.
41:22 - 41:26

Portanto, qualquer ajuda, ideias
que alguém tenha acerca disso,
41:26 - 41:30

estou completamente disponível para ouvir
tudo o que tenham em mente.
41:30 - 41:32

Sim, vamos falar sobre isso.
41:35 - 41:37

Mais questões?
41:38 - 41:39

Mais alguém tinha levantado a mão.
41:39 - 41:40

Esqueci-me de quem foi.
41:46 - 41:50

(plateia 13) Então, se não conseguimos
importar a partir do Wiktionary,
41:50 - 41:56

há algum esforço concertado para
achar outras fontes de domínio público,
41:56 - 41:57

talvez dados mais antigos,
41:59 - 42:03

e filtrá-los previamente, organizá-los
42:03 - 42:08

para que seja fácil a sua verificação,
por pessoas, para importação?
42:09 - 42:11

Então, foram feitos esforços iniciais.
42:11 - 42:15

Penso que o basco é um desses esforços.
42:15 - 42:17

Talvez queiras dizer
algo sobre isso?
42:18 - 42:20

(plateia 14) [inaudível]
42:23 - 42:27

Certo, a resposta é
pagando por isso...
42:28 - 42:33

Temos um acordo
com um fornecedor com quem trabalhamos.
42:35 - 42:39

Eles fazem dicionários, outros...
42:40 - 42:42

montes de coisas, mas fazem dicionários.
42:42 - 42:47

Temos um acordo com eles para
tornar grátis os dicionários estudantis.
42:47 - 42:53

Nós transmitiríamos as palavras
mais comuns e começaríamos a carregá-las
42:53 - 42:56

com um identificador externo
e esse tipo de coisas.
42:56 - 43:03

Mas houve alguma discussão
acerca de deixá-lo no CC0,
43:03 - 43:05

porque eles têm
um dicionário com CC por ele,
43:06 - 43:10

e perceberam qual era a diferença.
43:10 - 43:14

Portanto, houve alguma discussão.
43:14 - 43:19

Mas penso que podemos providenciar algumas
ferramentas ou exemplos, no futuro,
43:19 - 43:22

e penso que haverá outros dicionários
43:22 - 43:24

que podemos gerir.
43:24 - 43:29

E também penso que o Wiktionary
deveria ir nessa direção,
43:29 - 43:32

mas isso é outra grande discussão.
43:33 - 43:34

E, para além disso,
43:34 - 43:39

a Lea está também em contacto
com pessoas da Occitan,
43:39 - 43:42

que trabalham nos dicionários Occitan,
43:42 - 43:45

e eles estão atualmente a trabalhar
numa colaboração suméria.
43:51 - 43:53

Mais questões?
44:01 - 44:05

(plateia 15) Olá. Nós somos as pessoas
que querem importar dados da Occitan.
44:05 - 44:06

Perfeito!
44:06 - 44:09

(plateia 15) E temos
um pequeno problema para...
44:09 - 44:14

Nós não sabemos como representar
toda a variedade de lexemas.
44:14 - 44:17

Temos seis dialetos
44:17 - 44:24

e queremos indicar, para o lexema,
em que dialeto é usado
44:24 - 44:27

e não temos a declaração CO
apropriada para isso.
44:27 - 44:31

Portanto, enquanto o segmento não existir,
44:32 - 44:34

não conseguimos [inaudível]
44:34 - 44:38

porque vamos precisar de fazê-lo outra vez
44:38 - 44:42

quando estivermos em condições
de exportar a declaração.
44:42 - 44:44

E é complicado
porque é uma declaração
44:44 - 44:48

que não vai ser pedida por muita gente
44:48 - 44:53

porque é uma declaração que diz respeito
principalmente a línguas minoritárias.
44:53 - 44:57

Então teremos uma pessoa a pedir isto.
44:57 - 45:00

Mas, como no caso
dos nossos colegas Bascos,
45:00 - 45:06

pode ser uma pessoa
que ajudará milhares de outros.
45:06 - 45:11

Portanto, pode não parecer importante,
45:11 - 45:14

mas será muito importante para nós.
45:15 - 45:18

Vocês já têm a nova proposta
de propriedade a funcionar,
45:18 - 45:19

ou precisam de ajuda para criá-la?
45:21 - 45:24

(plateia 15) Fizemos o pedido
há quatro meses.
45:24 - 45:29

Certo, então vamos arranjar pessoal
para ajudar com essa proposta.
45:30 - 45:33

De certeza que há pessoas suficentes
nesta sala para isso se realizar.
45:33 - 45:36

(plateia 15) Proposta de propriedade
[em francês].
45:36 - 45:39

Nós não tivemos resposta
e não sabemos fazê-lo
45:39 - 45:43

porque não somos da comunidade Wikidata.
45:45 - 45:49

Sim, então há aqui pessoas
que vos podem ajudar.
45:49 - 45:52

Talvez alguém levante a mão
para ficar...
45:52 - 45:53

(plateia 14) Sou a favor.
45:53 - 45:56

Mas penso que é muito interessante
45:56 - 45:59

que apenas a variante de forma
45:59 - 46:03

também o possa gerir geograficamente,
46:03 - 46:05

com coordenadas
ou algum tipo de mapeamento.
46:05 - 46:08

Também tendo diferentes pronúncias
46:08 - 46:12

e penso que é algo
que acontece em muitas línguas.
46:13 - 46:16

Deveríamos trabalhar para isso
acontecer de alguma forma
46:16 - 46:19

e eu vou procurar a propriedade.
46:20 - 46:21

Fixe.
46:21 - 46:24

Então, vocês terão apoio
para a vossa proposta de propriedade.
46:26 - 46:27

Obrigado.
46:28 - 46:30

Mais alguma questão?
46:32 - 46:33

Finn.
46:34 - 46:35

O Finn é uma daquelas pessoas
46:35 - 46:38

que constrói coisas
tendo como base dados lexicográficos.
46:38 - 46:40

(Finn) É só uma pequena questão,
46:40 - 46:44

e é sobre variações de ortografia.
46:45 - 46:48

Parece difícil pô-las em...
46:48 - 46:54

Poderíamos, claro,
ter múltiplas formas para a mesma palavra.
46:56 - 46:58

Não sei, parece ser...
46:59 - 47:04

Se não o fizeres dessa forma,
parece ser difícil especificar...
47:05 - 47:06

ou, não sei se
47:06 - 47:10

é apenas um problema técnico menor
ou se...
47:10 - 47:11

Vamos olhar para isso juntos.
47:11 - 47:15

Adoraria ver um exemplo.
47:17 - 47:18

Asaf.
47:27 - 47:28

(Asaf) Obrigado.
47:29 - 47:34

Posso dar um exemplo concreto
da minha língua, o hebreu.
47:34 - 47:39

O Hebreu tem duas variantes principais
47:39 - 47:43

para expressar quase todas as palavras,
47:43 - 47:48

porque a ortografia tradicional
47:48 - 47:50

deixa de parte muitas vogais.
47:51 - 47:55

E, assim sendo, nas edições modernas
da Bíblia e de poesia,
47:55 - 47:57

são usados os diacríticos.
47:57 - 48:03

Por outro lado, os diacríticos
nunca são usados na prosa moderna
48:03 - 48:06

ou imprensa escrita ou toponímia.
48:06 - 48:11

Então, a utilização casual diária
usa as vogais extra
48:12 - 48:14

e não usa os diacríticos.
48:14 - 48:16

Porque eles são,
obviamente, mais complicados
48:16 - 48:18

e têm todo o tipo de regras
e ninguém sabe as regras.
48:18 - 48:21

- (risos)
- Então, há duas variantes.
48:21 - 48:25

Há a variante casual para prosa
48:25 - 48:28

e há a da Bíblia e da poesia.
48:28 - 48:32

que vem sempre
no tradicional texto diacriticizado.
48:32 - 48:33

Para ser útil,
48:33 - 48:37

o lexema teria que reconhecer
ambas as variantes de cada palavra
48:37 - 48:40

e cada forma
de cada palavra.
48:40 - 48:43

Portanto, esse é um caso de utilização
muito abrangente
48:43 - 48:46

para variantes oficiais estáveis.
48:46 - 48:49

Não é dialeto, não é regional,
48:49 - 48:54

são, basicamente, dois sistemas
morfológicos coexistentes.
48:54 - 48:59

E eu também não sei exatamente
como expressar isso no lexema, agora,
48:59 - 49:03

o que é uma das coisas que me impede,
em resposta parcial à pergunta do Magnus,
49:03 - 49:05

de carregar as partes que estão prontas
49:05 - 49:09

do maior dicionário Hebreu,
que é de domínio público
49:09 - 49:13

e que tenho andar a digitalizar
há vários anos.
49:13 - 49:15

Uma grande porção está pronta,
49:15 - 49:16

mas não o ponho no lexema agora
49:16 - 49:20

porque, basicamente, não sei
como resolver este problema.
49:20 - 49:23

Está bem, vamos resolver
este problema aqui. (risos)
49:24 - 49:26

Tem de ser possível.
49:30 - 49:32

Mais perguntas?
49:37 - 49:40

Se não, então muito obrigada.
49:40 - 49:45

(aplausos)

Title:: cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4
Video Language:: English
Duration:: 49:51

Bar Sch edited Portuguese subtitles for cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4

Portuguese subtitles

Revisions

Revision 1 Uploaded

Bar Sch

cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4

Revisions

Our website uses cookies

Operating cookies (Required)