< Return to Video

cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4

  • 0:06 - 0:07
    (Lydia) Muito obrigada.
  • 0:07 - 0:11
    Então, nesta conferência,
    um dos grandes temas são as linguagens.
  • 0:11 - 0:14
    Então...
  • 0:14 - 0:18
    Quero dar-vos uma visão geral
    de onde estamos atualmente
  • 0:18 - 0:20
    no que diz respeito a linguagens
  • 0:20 - 0:22
    e para onde podemos ir daqui.
  • 0:29 - 0:33
    A Wikidada pretende dar a mais pessoas
    mais acesso a mais conhecimento
  • 0:33 - 0:37
    e a linguagem é uma parte muito importante
    para tornar isso realidade.
  • 0:38 - 0:43
    Especialmente, porque cada vez mais
    as nossas vidas dependem da tecnologia.
  • 0:44 - 0:49
    E, como um dos palestrantes
    mencionou há pouco,
  • 0:50 - 0:52
    alguma da tecnologia
    deixa as pessoas para trás
  • 0:52 - 0:55
    simplesmente porque
    não falam determinada linguagem,
  • 0:55 - 0:58
    o que não está correto.
  • 0:58 - 1:02
    Então, nós queremos fazer algo
    em relação a isso.
  • 1:03 - 1:06
    E, de forma a mudar isso,
    precisamos de pelos menos duas coisas.
  • 1:06 - 1:11
    Primeiro, providenciar conteúdo
    na língua nativa das pessoas
  • 1:11 - 1:13
    e, segundo,
  • 1:13 - 1:16
    providenciar
    interação na sua língua,
  • 1:16 - 1:19
    nas aplicações
    ou seja no que for que tenham.
  • 1:20 - 1:25
    A Wikidata ajuda em ambas as coisas.
  • 1:25 - 1:28
    Em relação à primeira,
    conteúdo na sua língua,
  • 1:28 - 1:31
    isso é basicamente o que temos
    nos itens e propriedades,
  • 1:31 - 1:33
    como descrevemos o mundo.
  • 1:33 - 1:35
    Isto não é, certamente,
    tudo o que é preciso,
  • 1:35 - 1:39
    mas já dá uma ajuda considerável.
  • 1:40 - 1:42
    A outra coisa,
    interação na sua língua,
  • 1:42 - 1:46
    é onde os lexemas entram em jogo
  • 1:46 - 1:49
    se quiserem falar
    com o vosso assistente pessoal digital,
  • 1:49 - 1:55
    ou se quiserem que o vosso dispositivo
    traduza um texto e afins.
  • 1:56 - 1:59
    Tudo bem, vamos olhar para
    conteúdo na sua língua.
  • 1:59 - 2:03
    O que temos em itens e propriedades?
  • 2:05 - 2:10
    Para isto, as etiquetas nesses itens
    e propriedades são cruciais.
  • 2:10 - 2:15
    Precisamos de saber como se chama
    esta entidade de que estamos a falar.
  • 2:16 - 2:20
    E, em vez de falarmos sobre Q5...
  • 2:20 - 2:22
    Alguém que fale inglês
    sabe que isso é um "humano",
  • 2:22 - 2:25
    alguém que fale alemão
    sabe que é um "mensch",
  • 2:25 - 2:26
    e por aí adiante.
  • 2:26 - 2:30
    Então, estas etiquetas
    nos itens e propriedades
  • 2:30 - 2:34
    estão a fechar as brechas
    entre humanos e máquinas
  • 2:34 - 2:35
    e entre humanos e humanos.
  • 2:35 - 2:40
    Fazendo com que mais conhecimento
    esteja acessível para eles.
  • 2:43 - 2:46
    Isso é um bom objetivo.
  • 2:46 - 2:48
    Mas qual é o aspeto disso?
  • 2:48 - 2:50
    Bem, é este.
  • 2:51 - 2:52
    O que estão a ver aqui
  • 2:52 - 2:58
    é que a maioria dos items
    na Wikidata tem duas etiquetas,
  • 2:58 - 3:01
    portanto, são etiquetados em duas línguas.
  • 3:02 - 3:04
    Depois disso, é um, e depois três
  • 3:04 - 3:06
    e depois fica muito triste.
  • 3:07 - 3:09
    (riso tímido)
  • 3:10 - 3:13
    Eu penso que temos que fazer melhor.
  • 3:14 - 3:15
    Mas, por outro lado,
  • 3:15 - 3:17
    eu, na verdade, estava à espera
    de muito pior.
  • 3:17 - 3:20
    Estava à espera que a média fosse um.
  • 3:20 - 3:23
    Portanto, fiquei
    bastante contente em ver dois. (risos)
  • 3:25 - 3:26
    Certo.
  • 3:27 - 3:30
    Mas, o interessante não é só saber
  • 3:30 - 3:34
    quantas etiquetas os nossos items
    e propriedades têm,
  • 3:34 - 3:37
    também é interessante ver
    em que línguas.
  • 3:38 - 3:44
    Aqui têm um gráfico das línguas
  • 3:44 - 3:47
    que têm etiquetas para itens.
  • 3:47 - 3:51
    A maior parte é Outra.
  • 3:51 - 3:54
    Então, peguei nas 100 maiores línguas
  • 3:54 - 3:59
    e tudo o resto são Outras,
    para que o gráfico se perceba.
  • 4:00 - 4:02
    Depois, há inglês e holandês,
  • 4:03 - 4:04
    francês,
  • 4:06 - 4:09
    e não nos esqueçamos do... asturiano.
  • 4:10 - 4:12
    - (plateia 1) (grito de entusiasmo)
    - De facto!
  • 4:14 - 4:17
    Então, podem ver que há aqui
    um considerável desequilíbrio
  • 4:17 - 4:20
    e o foco ainda se mantém muito no inglês.
  • 4:21 - 4:24
    Outra coisa que notamos
    é que nas Propriedades,
  • 4:24 - 4:26
    as coisas estão bem melhores.
  • 4:27 - 4:33
    E penso que, em parte, isso deve-se
    a haver muito menos propriedades.
  • 4:33 - 4:37
    Então, mesmo comunidades menores
    têm hipótese de se manter a par.
  • 4:37 - 4:39
    Mas também é uma parte importante
    da Wikidata,
  • 4:39 - 4:41
    a localização na tua própria língua.
  • 4:41 - 4:42
    Portanto, isso é bom.
  • 4:46 - 4:48
    O que quero salientar aqui
    com o asturiano
  • 4:48 - 4:54
    é que uma comunidade pequena
    pode realmente fazer uma enorme diferença
  • 4:54 - 4:57
    com alguma dedicação e trabalho,
  • 4:57 - 4:58
    o que é muito fixe.
  • 5:02 - 5:04
    Uma pequena pergunta para vocês.
  • 5:04 - 5:05
    Se pegarmos em todas as propriedades
    na Wikidata,
  • 5:05 - 5:08
    que não são indentificadores externos,
  • 5:08 - 5:10
    qual é o que tem mais etiquetas,
    o maior número de linguagens?
  • 5:11 - 5:14
    (plateia) [inaudível]
  • 5:14 - 5:17
    Ouço algum acordo em instância de?
  • 5:17 - 5:19
    Estariam errados.
  • 5:20 - 5:22
    É imagem. (risos)
  • 5:23 - 5:26
    Então, sim, isso diz-vos,
    se falarem uma destas línguas
  • 5:26 - 5:29
    nas quais instância de
    ainda não tem etiqueta,
  • 5:29 - 5:30
    que poderão querer adicioná-la.
  • 5:32 - 5:36
    Tem, neste momento, 148 etiquetas.
  • 5:38 - 5:41
    Mas isso é outro slide.
  • 5:43 - 5:44
    Este gráfico diz-nos algo
  • 5:44 - 5:49
    sobre quanto conteúdo estamos a tornar
    disponível numa certa língua
  • 5:49 - 5:52
    e quanto conteúdo
    é realmente utilizado.
  • 5:52 - 5:55
    Então, o que temos aqui
    é basicamente uma curva
  • 5:55 - 6:01
    com a maior parte do conteúdo com
    etiquetas em inglês, disponível em inglês
  • 6:02 - 6:04
    e a ser muito usado.
  • 6:04 - 6:06
    E depois, isto meio que baixa.
  • 6:06 - 6:09
    Mas, novamente, o que podem ver
    são os valores atípicos
  • 6:09 - 6:15
    que têm muito mais conteúdo
    do que seria de esperar
  • 6:17 - 6:20
    e isso é mesmo muito bom.
  • 6:21 - 6:25
    O problema é que não é tão utilizado.
  • 6:26 - 6:29
    Asturiano e holandês
    deveriam ser mais altos.
  • 6:29 - 6:32
    Acho que, ajudar essas comunidades
  • 6:33 - 6:35
    a aumentar o uso
    dos dados que coletaram,
  • 6:35 - 6:38
    é uma coisa realmente útil de se fazer.
  • 6:43 - 6:47
    O que esta análise e outras
    nos mostraram é uma coisa boa,
  • 6:47 - 6:51
    embora estejamos a ver que os itens
    que são mais utilizados
  • 6:51 - 6:55
    também tendem a ter mais etiquetas
  • 6:55 - 6:58
    ou ao contrário.
    Não é completamente claro.
  • 7:03 - 7:04
    E então, a questão é:
  • 7:05 - 7:07
    estamos a servir
    apenas as linguagens poderosas?
  • 7:08 - 7:11
    Ou conseguimos fazê-lo para todos?
  • 7:13 - 7:18
    O que vêm aqui
    é um agrupamento das linguagens.
  • 7:18 - 7:22
    As linguagens que estão agrupadas
    tendem a ter etiquetas juntas.
  • 7:26 - 7:29
    E conseguimos vê-las a aglomerarem-se.
  • 7:29 - 7:34
    Agora, temos aqui
    um aglomerado similar, colorido,
  • 7:34 - 7:39
    baseado em quão viva, quão usada,
  • 7:40 - 7:43
    quão ameaçada a linguagem está.
  • 7:43 - 7:45
    E uma coisa boa que vemos aqui,
  • 7:45 - 7:50
    é que linguagens seguras
    e ameaçadas
  • 7:50 - 7:54
    não formam dois aglomerados diferentes.
  • 7:54 - 7:59
    Elas misturam-se,
  • 8:00 - 8:05
    o que é muito melhor do que seria
    se fosse ao contrário
  • 8:05 - 8:09
    onde as linguagens seguras,
    as linguagens poderosas,
  • 8:10 - 8:12
    estariam apenas a ajudar-se entre elas.
  • 8:13 - 8:14
    Não, não é esse o caso.
  • 8:14 - 8:17
    E isso é uma coisa ótima.
  • 8:17 - 8:20
    Quando vi isto,
    pensei que isto era muito bom.
  • 8:23 - 8:25
    Aqui está uma coisa similar,
  • 8:26 - 8:29
    onde olhamos para
  • 8:30 - 8:34
    os estados das linguagens,
  • 8:34 - 8:36
    para quantas etiquetas têm.
  • 8:39 - 8:43
    O que estão a ver é uma clara vantagem
    para as linguagens seguras,
  • 8:43 - 8:44
    como seria de esperar.
  • 8:46 - 8:47
    Mas também estão a ver
  • 8:47 - 8:54
    que as linguagens na categoria dois,
    e três e até mesmo quatro
  • 8:54 - 8:59
    não estão, na verdade, nada mal
  • 8:59 - 9:02
    em termos de representação
    na Wikidata e em outros.
  • 9:03 - 9:06
    É uma coisa muito boa de se encontrar.
  • 9:08 - 9:09
    Agora, se olharmos para a mesma coisa
  • 9:09 - 9:12
    para quanto do conteúdo
    dessas etiquetas
  • 9:12 - 9:15
    é atualmente usado
    na Wikipedia, por exemplo,
  • 9:17 - 9:23
    emerge uma imagem semelhante.
  • 9:24 - 9:30
    E diz-nos que estas comunidades
    estão a fazer um bom uso do tempo
  • 9:30 - 9:35
    preenchendo as etiquetas
    para os itens mais usados, por exemplo.
  • 9:36 - 9:40
    Há valores atípicos
    onde penso que podemos ajudar...
  • 9:42 - 9:48
    Ajudar as comunidades a encontrar sítios
    onde o seu trabalho será mais valioso.
  • 9:49 - 9:53
    Mas, no geral, estou contente
    com este panorama.
  • 9:55 - 10:00
    Agora, isto foram os itens
    e as propriedades da Wikidata.
  • 10:01 - 10:03
    Agora vamos olhar para a interação
    nas vossas línguas.
  • 10:03 - 10:05
    Portanto as porções do lexema
    da Wikidata
  • 10:05 - 10:09
    onde nós descrevemos palavras
    e as suas formas e significados.
  • 10:10 - 10:13
    Andamos a fazer isso
    desde Maio do ano passado
  • 10:16 - 10:19
    e o conteúdo tem aumentado.
  • 10:19 - 10:22
    Podem ver aqui em azul os lexemas
  • 10:22 - 10:26
    e a vermelho,
    as formas nesses lexemas
  • 10:26 - 10:30
    e a amarelo, os sentidos
    nesses lexemas.
  • 10:31 - 10:34
    Então algumas comunidades--
    já voltaremos a isso mais tarde--
  • 10:34 - 10:40
    dispenderam muito tempo a criar formas
    e sentidos para os seus lexemas,
  • 10:40 - 10:43
    o que é muito útil
  • 10:43 - 10:48
    porque constrói o núcleo
    dos conjuntos de dados que precisamos.
  • 10:51 - 10:55
    Agora, olhamos para todas as línguas
  • 10:55 - 10:58
    que têm lexemas na Wikidata.
  • 10:58 - 11:01
    Portanto, palavras que nós temos.
  • 11:02 - 11:04
    Há, agora, 310 línguas.
  • 11:05 - 11:08
    Agora, qual é que acham que é
    a língua que está no topo
  • 11:08 - 11:12
    quando falamos em número de lexemas
    neste momento na Wikidata?
  • 11:13 - 11:19
    (Plateia) [inaudível]
  • 11:19 - 11:20
    O quê?
  • 11:20 - 11:22
    (Plateia 2) Alemão.
  • 11:22 - 11:24
    Desculpe, já o tinha ouvido antes.
  • 11:24 - 11:26
    É Russo.
  • 11:28 - 11:30
    O Russo está bastante à frente.
  • 11:32 - 11:34
    E, para vos dar alguma perspetiva,
  • 11:36 - 11:37
    há diferentes opiniões
  • 11:37 - 11:42
    mas li, por exemplo,
    que entre 1 000 e 3 000 palavras
  • 11:42 - 11:45
    chegam para chegar
    ao nível conversacional noutra língua
  • 11:45 - 11:49
    e que entre 4 000 a 10 000 palavras
    chegam para o nível avançado.
  • 11:52 - 11:55
    Então, ainda temos um pouco
    para pôr em dia.
  • 11:58 - 12:03
    Uma coisa à qual quero
    que prestem atenção é ao basco
  • 12:03 - 12:08
    com, aproximadamente, 10 000 lexemas.
  • 12:09 - 12:13
    Agora, se olharem para o número de formas
    nesses lexemas,
  • 12:14 - 12:16
    o basco está lá em cima,
  • 12:18 - 12:20
    o que é bastante fixe.
  • 12:20 - 12:25
    Deviam ir a uma palestra que vos explique
    o porquê desta situação.
  • 12:27 - 12:31
    Agora, olhando para o número de sentidos,
    para o que as palavras querem dizer,
  • 12:32 - 12:35
    o basco chega mesmo ao topo da lista.
  • 12:35 - 12:37
    Eu acho que merece um aplauso.
  • 12:37 - 12:41
    (aplausos)
  • 12:46 - 12:47
    Outra pequena pergunta.
  • 12:47 - 12:50
    Qual é o lexema com o maior número
    de traduções neste momento?
  • 12:51 - 12:57
    (Plateia) Gatos, gatos, [inaudível],
    Douglas Adams, [inaudível].
  • 12:57 - 13:00
    Todos bons palpites, mas não.
  • 13:01 - 13:04
    É esta, a palavra para "água", em russo.
  • 13:10 - 13:12
    Já falámos muito
  • 13:12 - 13:16
    sobre quantos lexemas,
    formas e sentidos temos,
  • 13:16 - 13:20
    mas isso é apenas uma parte
    do que precisamos.
  • 13:20 - 13:22
    A outra parte
  • 13:22 - 13:25
    é descrever os lexemas,
    formas e sentidos,
  • 13:25 - 13:28
    de uma forma que as máquinas possam ler.
  • 13:28 - 13:30
    E para isso temos declarações,
    tal como nos itens.
  • 13:31 - 13:36
    E uma das propriedades
    que usamos é o exemplo de utilização.
  • 13:36 - 13:39
    Portanto quem quer que esteja
    a usar os dados
  • 13:39 - 13:42
    pode entender como usar
    a palavra no contexto,
  • 13:42 - 13:44
    pode ser uma citação, por exemplo.
  • 13:45 - 13:47
    E aqui, o polaco reina.
  • 13:48 - 13:50
    Bom trabalho falantes de polaco.
  • 13:54 - 13:58
    Outra propriedade
    que é mesmo útil é IPA,
  • 13:58 - 14:00
    logo, como é que se pronuncia uma palavra.
  • 14:01 - 14:07
    O russo, aparentemente, precisa
    imenso de declarações IPA.
  • 14:10 - 14:13
    Mas, novamente, polaco em segundo.
  • 14:17 - 14:21
    E, por último, mas não menos importante,
    temos a pronunciação áudio.
  • 14:21 - 14:23
    Isto corresponde a ligações
    a ficheiros nos Commons
  • 14:23 - 14:26
    onde alguém diz a palavra,
  • 14:26 - 14:30
    de forma a que possamos ouvir
    como um nativo a pronuncia
  • 14:30 - 14:33
    para o caso de não conseguires ler IPA,
    por exemplo.
  • 14:35 - 14:39
    E há um projeto muito porreiro
    baseado na Wiki,
  • 14:39 - 14:40
    chamado Lingua Libre,
  • 14:41 - 14:45
    onde podemos ir e ajudar a gravar
    palavras na nossa língua
  • 14:45 - 14:48
    que pode ser depois adicionadas
    a lexemas na Wikidata,
  • 14:48 - 14:52
    para que outras pessoas possam entender
    como pronunciar as palavras.
  • 14:54 - 14:56
    (plateia 3) Há alguma ligação para isso?
  • 14:56 - 14:57
    Se procurarem por "Lingua Libre"...
  • 14:57 - 15:01
    Tenho a certeza de que alguém pode
    publicá-la no nosso canal do Telegram.
  • 15:03 - 15:05
    Aqueles tipos são os maiores.
  • 15:05 - 15:07
    Fizeram uma coisa mesmo fixe
    com a Wikibase.
  • 15:09 - 15:11
    Certo.
  • 15:13 - 15:17
    Então, a questão é,
    para onde seguimos daqui?
  • 15:19 - 15:22
    A julgar pelos números que vos mostrei,
  • 15:23 - 15:25
    já fizemos um longo caminho
  • 15:25 - 15:28
    na direção de dar a mais pessoas
    mais acesso a mais conhecimento
  • 15:28 - 15:31
    quando procuram línguas na Wikidata.
  • 15:33 - 15:36
    Mas ainda há muito trabalho pela frente.
  • 15:39 - 15:42
    Algumas coisas que podem fazer
    para ajudar, por exemplo,
  • 15:42 - 15:45
    é organizar maratonas de etiquetagem,
  • 15:45 - 15:50
    como juntar pessoas
    para etiquetar items na Wikidata.
  • 15:51 - 15:55
    Ou fazer uma maratona de etiquetagem
    para lexemas na vossa língua,
  • 15:55 - 15:59
    para introduzir as palavras mais usadas
    na vossa língua na Wikidata.
  • 16:01 - 16:03
    Ou podem usar uma ferramenta
    como o Terminator,
  • 16:03 - 16:08
    que vos ajuda a encontrar os itens
    mais importantes na vossa língua
  • 16:08 - 16:12
    a que ainda falte alguma etiqueta.
  • 16:13 - 16:18
    Sendo que mais importante é medido
    por quantas vezes é usado
  • 16:18 - 16:23
    em outros items da Wikidata
    como ligações ou declarações.
  • 16:26 - 16:30
    E, claro, para a porção do lexema,
  • 16:31 - 16:35
    agora que temos uma cobertura básica
    desses lexemas,
  • 16:35 - 16:41
    queremos também construí-los,
    adicionar-lhes mais declarações
  • 16:41 - 16:44
    para que eles possam, realmente,
    construir a base
  • 16:44 - 16:47
    para construir aplicações significativas
    a partir deles.
  • 16:48 - 16:51
    Porque estamos a aproximarmo-nos
    dessa massa crítica,
  • 16:51 - 16:53
    mas ainda estamos longe disso,
  • 16:53 - 16:57
    de podermos construir aplicações
    sérias sobre isto.
  • 16:58 - 17:02
    E espero que todos vocês
    se juntem a nós para fazermos isso.
  • 17:03 - 17:07
    E isso já me leva
  • 17:07 - 17:10
    a uma pequena ajuda dos nossos amigos.
  • 17:10 - 17:13
    Bruno, queres vir até aqui
  • 17:14 - 17:17
    para nos falares
    sobre as máscaras lexicais?
  • 17:18 - 17:19
    (Bruno) Obrigado, Lydia,
  • 17:19 - 17:22
    por me cederes este bocadinho de tempo
  • 17:22 - 17:24
    para apresentar o trabalho
    que estamos a fazer na Google
  • 17:24 - 17:30
    com o Denny, que a maior parte de vocês
    já deve ter ouvido falar ou conhece.
  • 17:30 - 17:32
    Porque na Google-- eu sou linguista,
  • 17:32 - 17:36
    portanto estou muito feliz de estar aqui
    entre outros entusiastas de linguagens--
  • 17:37 - 17:39
    nós também estamos a construir
    alguns léxicos
  • 17:39 - 17:42
    e construimos esta tecnologia,
  • 17:42 - 17:46
    ou esta abordagem, que pensamos
    poderá ser útil para vocês.
  • 17:46 - 17:48
    Só para vos situar,
  • 17:48 - 17:52
    isto é a minha experiência
    lexicográfica a falar.
  • 17:53 - 17:54
    Quando criamos bases de dados
    de léxico,
  • 17:54 - 17:59
    é preciso muito tempo para a manter,
    mantê-la consistente
  • 17:59 - 18:00
    e para trocar dados,
  • 18:00 - 18:02
    como vocês provavelmente sabem.
  • 18:03 - 18:06
    Houve várias tentativas para unificar
    as características e propriedades
  • 18:06 - 18:09
    que descrevem os lexemas
    e as formas.
  • 18:09 - 18:11
    Ainda não é um problema resolvido,
  • 18:11 - 18:14
    mas há ainda algumas tentativas
    de unificação nesse sentido.
  • 18:14 - 18:15
    Mas o que está mesmo a faltar--
  • 18:15 - 18:19
    e isto é um problema que tivemos
    no início do nosso projeto na Google--
  • 18:19 - 18:22
    é tentar ter uma estrutura interna
  • 18:22 - 18:26
    que descreva como
    uma entrada lexical se deverá parecer,
  • 18:26 - 18:29
    que tipo de dados
    ou que tipo de informação temos
  • 18:29 - 18:32
    e a especificação pretendida.
  • 18:32 - 18:38
    Assim, isto foi o que inventámos,
    esta coisa chamada máscara lexical.
  • 18:39 - 18:45
    Uma máscara lexical descreve
    o que é expectável de uma entrada,
  • 18:45 - 18:47
    de uma entrada lexicográfica,
    para estar completa,
  • 18:47 - 18:51
    tanto em termos de número de formas
    que se esperam de um lexema
  • 18:51 - 18:56
    como do número de características
    que se esperam em cada forma.
  • 18:56 - 18:58
    Aqui está um exemplo
    para adjetivos italianos.
  • 18:58 - 19:02
    Seria de esperar, em italiano, termos
    quatro formas para os adjetivos
  • 19:02 - 19:05
    e cada uma dessas formas
    ter uma combinação específica
  • 19:05 - 19:08
    de género e número de características.
  • 19:09 - 19:13
    Isto é o que esperamos
    de adjetivos italianos.
  • 19:13 - 19:16
    Claro que, podemos ter
    máscaras extremamente complexas,
  • 19:16 - 19:21
    como a conjugação dos verbos em francês,
    que é bastante extensa.
  • 19:21 - 19:23
    E não vos quero mostrar
    nenhuma máscara russa
  • 19:23 - 19:25
    porque não cabe no ecrã.
    (risos)
  • 19:26 - 19:30
    E também temos especificações
    detalhadas,
  • 19:30 - 19:33
    porque distinguimos
    o que está ao nível da forma.
  • 19:33 - 19:38
    Então, aqui temos nomes russos
    que têm três números
  • 19:38 - 19:40
    e alguns casos
    com diferentes formas.
  • 19:40 - 19:43
    Mas, eles também têm
    uma especificação de entrada de gama
  • 19:43 - 19:46
    que diz que o nome em particular tem
  • 19:46 - 19:50
    um género inerente e uma característica
    de animação inerente
  • 19:50 - 19:52
    que também são especificados na máscara.
  • 19:55 - 19:59
    Também queremos salientar
    que uma máscara fornece uma especificação
  • 19:59 - 20:02
    para qual deve ser
    o aspeto de uma entrada.
  • 20:02 - 20:07
    Mas, podemos ter máscaras mais pequenas,
    para aspetos defeituosos da forma
  • 20:07 - 20:11
    ou aspetos defeituosos do lexema
    que acontecem na linguagem.
  • 20:11 - 20:15
    Aqui podem ver a forma mais simples
    dos verbos franceses
  • 20:15 - 20:20
    que só têm a terceira pessoa do singular
    para todos os verbos metereológicos,
  • 20:20 - 20:24
    como "chove" ou "neva",
    em português.
  • 20:25 - 20:26
    Distinguimos estes dois níveis.
  • 20:27 - 20:30
    E como é que usamos isto na Google?
  • 20:30 - 20:33
    Quando temos um léxico
    que queremos usar,
  • 20:33 - 20:38
    usamos a máscara para
    literalmente atirar os léxicos,
  • 20:38 - 20:40
    todas as entradas, através da máscara
  • 20:40 - 20:44
    e ver que entrada tem problemas
    em termos de estrutura.
  • 20:44 - 20:47
    Está a faltar uma forma?
    Falta uma característica?
  • 20:47 - 20:51
    E, quando surge um problema,
    fazemos validação humana
  • 20:51 - 20:54
    ou só para ver se passa na máscara.
  • 20:54 - 20:58
    É uma ferramenta extremamente poderosa
    para conferir a qualidade da estrutura.
  • 20:59 - 21:02
    Portanto, estamos felizes em anunciar hoje
  • 21:02 - 21:05
    que recebemos luz verde
    para disponibilizarmos o código fonte.
  • 21:06 - 21:08
    Portanto este é o esquema.
  • 21:08 - 21:09
    Se quiserem isto, podemos lançar
  • 21:09 - 21:13
    e pode ser providenciado
    à Wikidata em ficheiros ShEx.
  • 21:13 - 21:17
    Este é o ficheiro ShEx para nomes
    em alemão,
  • 21:17 - 21:20
    e o Denny está a trabalhar na conversão
    da nossa especificação interna
  • 21:20 - 21:24
    para uma mais de código aberto.
  • 21:24 - 21:28
    Atualmente temos mais de 25 linguagens,
  • 21:28 - 21:29
    portanto esperamos crescer do nosso lado,
  • 21:29 - 21:34
    mas também fazer disto uma oportunidade
    para colaborar noutras línguas.
  • 21:34 - 21:41
    E uma dessas colaborações
    é a que o Denny tem com o Lukas.
  • 21:41 - 21:45
    O Lukas tem umas ferramentas ótimas
    para ter uma interface com o utilizador
  • 21:45 - 21:51
    que ajuda o utilizador ou contribuidor
    a adicionar mais formas.
  • 21:51 - 21:54
    Portanto, se quiserem adicionar
    um adjetivo em francês,
  • 21:54 - 21:59
    a interface diz-vos
    quantas formas são expetáveis
  • 21:59 - 22:02
    e e quantas características
    essa forma deverá ter.
  • 22:02 - 22:06
    Então a nossa máscara ajudará a ferramenta
    a ser definida e expandida.
  • 22:07 - 22:08
    É isto.
  • 22:09 - 22:10
    (Lydia) Muito obrigado.
  • 22:10 - 22:14
    (aplausos)
  • 22:14 - 22:17
    Certo. Há questões?
  • 22:17 - 22:19
    Querem falar mais sobre os lexemas?
  • 22:20 - 22:21
    - (plateia 4) Sim.
    - Sim. (risos)
  • 22:33 - 22:35
    (plateia 4) A minha questão,
    porque estava a falar
  • 22:35 - 22:39
    acerca de dar mais acesso
    a mais pessoas em mais línguas,
  • 22:39 - 22:42
    mas há muitas línguas
    que não podem ser usadas na Wikidata.
  • 22:42 - 22:45
    Então que solução é que têm para isso?
  • 22:46 - 22:48
    Quando diz que não podem ser usadas,
  • 22:48 - 22:50
    está a referir-se à entrada de etiquetas?
  • 22:50 - 22:53
    - (plateia 4) Etiquetas, descrições.
    - Certo.
  • 22:53 - 22:55
    Para lexemas, é um pouco diferente
  • 22:55 - 22:58
    porque aí não temos
    essa restrição.
  • 22:59 - 23:05
    Para etiquetas nos itens e propriedades,
    há realmente alguma restrição
  • 23:05 - 23:12
    porque quisemos ter a certeza
    que não é completamente--
  • 23:12 - 23:14
    qualquer um faz o que quiser
  • 23:14 - 23:18
    e torna-se ingerível.
  • 23:18 - 23:24
    Até uma comunidade pequena que queira
    uma língua e que queira trabalhar nisso:
  • 23:24 - 23:27
    venham ter connosco e fazemos acontecer.
  • 23:27 - 23:29
    (plateia 4) Nós fizemos isso
    no Hackathon de Praga em Maio
  • 23:29 - 23:32
    e demorou quase até Agosto
    até conseguirmos usar a nossa linguagem.
  • 23:32 - 23:35
    - Sim.
    - (plateia 4) Portanto, é muito lento.
  • 23:35 - 23:38
    Sim, infelizmente é muito lento.
  • 23:38 - 23:40
    Estamos a trabalhar
    com o Comité de Linguagem
  • 23:40 - 23:46
    a tentar resolver os mais básicos...
  • 23:50 - 23:55
    Ter o acordo sobre que tipo
    de linguagens são realmente "permitidas"
  • 23:56 - 24:00
    e isso tem demorado tempo demais,
  • 24:00 - 24:04
    o que pode ser a razão para o vosso pedido
    ter demorado mais do que devia.
  • 24:05 - 24:06
    (plateia 4) Obrigada.
  • 24:07 - 24:08
    (plateia 5) Obrigado.
  • 24:08 - 24:11
    Lydia, se se lembra das estatísticas
    que mostrou,
  • 24:11 - 24:13
    o número de lexemas por linguagem.
    - Sim.
  • 24:13 - 24:18
    (plateia 5) Então, contaram todos
    as formas como pontos de dados
  • 24:18 - 24:20
    ou apenas os lexemas?
  • 24:21 - 24:23
    (Lydia) Está a falar disto?
  • 24:23 - 24:24
    A qual é que se refere?
  • 24:24 - 24:26
    (plateia 5) Sim, exatamente.
  • 24:26 - 24:28
    Se se lembrar, este número é [inaudível]
  • 24:28 - 24:32
    todas as formas, todos os lexemas
    ou apenas quantos lexemas há?
  • 24:32 - 24:34
    Não, isto é apenas o número de lexemas.
  • 24:34 - 24:35
    (plateia 5) Só o número de lexemas.
  • 24:35 - 24:37
    Então é apenas uma estatística
  • 24:37 - 24:39
    porque, se depois
    contássemos com as formas--
  • 24:39 - 24:41
    por isso pergunto--
  • 24:41 - 24:43
    então, todas as línguas
    com morfologia de inflexão,
  • 24:43 - 24:45
    como russo, sérvio,
    esloveno, etc,
  • 24:45 - 24:48
    têm uma vantagem natural,
    porque têm tantas.
  • 24:48 - 24:52
    Daí, este tipo de saltos aqui
    no número de formulários.
  • 24:52 - 24:54
    (plateia 5) Sim, era esse mesmo.
    Obrigado.
  • 24:56 - 25:00
    (plateia 6) Tenho só uma
    pergunta rápida acerca de...
  • 25:01 - 25:07
    Quando estávamos a falar sobre
    os itens e propriedades.
  • 25:07 - 25:10
    Até onde eu consigo entender,
    não há, atualmente, forma
  • 25:10 - 25:13
    de dar uma fonte definida
    a qualquer das etiquetas
  • 25:13 - 25:15
    e descrições que foram dadas.
    - Sim.
  • 25:15 - 25:18
    (plateia 6) Então, não há nada
    porque, quando estás a falar
  • 25:18 - 25:21
    acerca de uma propriedade de um item,
  • 25:21 - 25:24
    podes ter, por exemplo,
    etiquetas conflituosas.
  • 25:24 - 25:28
    - Sim.
    - (Plateia 6) Então, esta pessoa é como...
  • 25:28 - 25:30
    Falamos à pouco sobre
    coisas indígenas, por exemplo.
  • 25:30 - 25:36
    Então esta pessoa é um artista norueguês,
    de acordo com uma fonte,
  • 25:36 - 25:39
    e um artista sami,
    de acordo com outra fonte.
  • 25:39 - 25:43
    Ou, por exemplo, em estoniano,
    tivemos um problema
  • 25:43 - 25:48
    onde tivemos que mudar uma terminologia
    para a terminologia oficial usada
  • 25:48 - 25:49
    nos léxicos oficiais.
  • 25:49 - 25:52
    Mas não temos realmente
    uma forma de indicar porquê.
  • 25:52 - 25:54
    Qual foi a fonte disto
  • 25:54 - 25:56
    e por que razão isto está melhor
    do que estava.
  • 25:56 - 25:57
    Fui apenas eu, como uma pessoa
    ao acaso,
  • 25:57 - 26:00
    a mudar isto
    para quem quer que o veja.
  • 26:00 - 26:03
    Então, há um plano
    para isto ser possível de qualquer forma,
  • 26:03 - 26:06
    de modo a que possamos realmente ter
    fontes confiáveis para dados de linguagem?
  • 26:07 - 26:11
    Isso é parcialmente possível.
  • 26:11 - 26:16
    Por exemplo, quando há
    um item para uma pessoa,
  • 26:16 - 26:23
    pode ter as declarações: primeiro nome,
    último nome, e por aí em diante.
  • 26:23 - 26:26
    E, nessa altura, pode-se providenciar
    referências para isso.
  • 26:28 - 26:33
    Tenho algumas reticências em
    adicionar mais complexidade
  • 26:33 - 26:36
    para referências
    em etiquetas e descrições,
  • 26:36 - 26:39
    mas se as pessoas realmente pensam
  • 26:39 - 26:45
    que isto é algo que não está coberto
    por qualquer referência na declaração,
  • 26:45 - 26:47
    então falamos sobre isso.
  • 26:49 - 26:53
    Mas temo que
    vá adicionar muita complexidade
  • 26:53 - 26:57
    para o que espero serem poucos casos.
  • 26:57 - 27:00
    Mas estou disposta
    a ser convencida do contrário
  • 27:00 - 27:04
    se as pessoas realmente sentem
    que isto tem relevãncia.
  • 27:04 - 27:08
    (plateia 6) Se for adicionado
    provavelmente não deveria ser o padrão,
  • 27:08 - 27:12
    mostrado a todos os utilizadores
    iniciados na interface, em todos os casos.
  • 27:12 - 27:16
    Podia ser mais, "Clica aqui se queres
    adicionar algo específico sobre isto."
  • 27:18 - 27:23
    Temos alguma ideia de quantas vezes
    isso teria importância?
  • 27:24 - 27:26
    (plateia 6) Em estónio, por exemplo--
  • 27:26 - 27:29
    eu imagino que seja assim
    noutras línguas também--
  • 27:29 - 27:34
    por exemplo, há um nome oficial
    que é a legítima tradução
  • 27:34 - 27:37
    para inglês de,
  • 27:37 - 27:40
    digamos, um tipo específico
    de municipalidade.
  • 27:40 - 27:42
    Este foi o meu caso
    de utilizador, por exemplo,
  • 27:42 - 27:44
    onde estávamos a usar a palavra "paróquia"
  • 27:45 - 27:51
    na qual a palavra estónia original
    significava paróquia de igreja
  • 27:51 - 27:52
    e essa foi a sua origem,
  • 27:52 - 27:55
    mas não é agora a tradução oficial
    que a Estónia recebe atualmente.
  • 27:55 - 27:59
    Neste caso, eu juntaria-a apenas como
    declarações de nome oficial
  • 27:59 - 28:01
    e juntaria a referência aí.
  • 28:02 - 28:03
    (plateia 6) Certo.
  • 28:05 - 28:07
    Mais questões, sim?
  • 28:08 - 28:10
    (Asaf) Dois comentários rápidos.
  • 28:10 - 28:14
    Falou especificamente do asturiano
    como uma linguagem que está em alta
  • 28:14 - 28:16
    e eu acho que isso é falso.
  • 28:16 - 28:18
    Conte-me.
  • 28:18 - 28:20
    (Asaf) Eu penso que é apenas um bot
  • 28:20 - 28:24
    que colou nomes de pessoas,
    nomes apropriados para pessoas,
  • 28:24 - 28:27
    e disse "Bem, isto é exatamente
    como em francês ou espanhol"
  • 28:27 - 28:29
    e copiou-o massivamente.
  • 28:29 - 28:33
    Uma prova é que
    não se vê essa energia no asturiano,
  • 28:33 - 28:37
    em coisas que realmente requerem tradução,
    como nomes de propriedades,
  • 28:37 - 28:40
    ou nomes de itens
    que não são nomes próprios.
  • 28:40 - 28:41
    Asaf, partes-me o coração.
  • 28:41 - 28:43
    (Asaf) Eu sei,
    costumo estragar as festas,
  • 28:43 - 28:48
    mas tenho boas notícias também,
    sobre os números das pronunciações.
  • 28:49 - 28:54
    Como saberão, o Commons está cheio
    de ficheiros de pronunciação
  • 28:54 - 28:55
    e, por exemplo,
  • 28:55 - 29:01
    o holandês tem, nada mais nada menos, que
    300 000 ficheiros desses introduzidos
  • 29:02 - 29:05
    que necessitam de ser "ingeridos"
    de alguma forma.
  • 29:05 - 29:08
    Então, se alguém está à procura
    de um projeto para as horas vagas,
  • 29:08 - 29:09
    há imensos
  • 29:09 - 29:13
    ficheiros de pronunciação, classificados
    e categorizados no Commons
  • 29:13 - 29:17
    na categoria "Pronunciação" por linguagem.
  • 29:17 - 29:23
    Estão à espera de ser combinados
    com os lexemas e postos no lexema.
  • 29:23 - 29:25
    E estava a pensar
    se me poderia dizer alguma coisa
  • 29:25 - 29:27
    sobre o quadro referência,
  • 29:27 - 29:29
    algo sobre quanto investimento
  • 29:29 - 29:32
    ou o que podemos esperar
    relativo ao lexema no próximo ano,
  • 29:32 - 29:34
    porque eu, pessoalmente,
    mal posso esperar.
  • 29:35 - 29:37
    Não pode? (risos)
  • 29:37 - 29:39
    - (Asaf) Por mais.
    - Sim. (risos)
  • 29:40 - 29:42
    Penso que ...
  • 29:44 - 29:50
    Neste momento, estamos concentrados
    mais na Wikibase e na qualidade de dados
  • 29:51 - 29:55
    para ver quanta tração isto tem
  • 29:55 - 30:02
    e para obter mais para descobrir
    onde os próximos pontos críticos estão
  • 30:02 - 30:06
    e depois voltar atrás e melhorar
    mais os dados lexicográficos.
  • 30:07 - 30:10
    E uma das coisas
    que adoraria ouvir de vocês
  • 30:10 - 30:14
    é onde exatamente vocês vêm
    que poderão ser dados os próximos passos,
  • 30:14 - 30:16
    onde querem melhorias
  • 30:16 - 30:20
    para que nós possamos descobrir
    como fazer isso acontecer.
  • 30:21 - 30:23
    Mas claro que está certo,
  • 30:23 - 30:26
    ainda há muito a fazer
    também do lado técnico.
  • 30:30 - 30:36
    (plateia 7) Ao carregarmos
    as palavras bascas com formas,
  • 30:36 - 30:38
    e verão alguns destes tipos de coisas,
    estávamos todos...
  • 30:38 - 30:41
    Na semana passada
    dissemos "Somos os primeiros em algo."
  • 30:41 - 30:43
    [inaudível]
  • 30:43 - 30:45
    Apareceu na imprensa e foi tipo:
  • 30:45 - 30:49
    "O basco foi o primeiro em algo,
    foram os primeiros."
  • 30:49 - 30:50
    (risos)
  • 30:50 - 30:53
    E depois as pessoas perguntaram
    "Mas para que serve isto?"
  • 30:55 - 30:57
    Nós não temos uma boa resposta.
  • 30:57 - 30:58
    Quer dizer, certo,
  • 30:58 - 31:02
    isto vai ajudar computadores
    a entender mais a nossa linguagem, sim.
  • 31:02 - 31:05
    Mas que tipo de ferramentas
    podemos fazer no futuro?
  • 31:05 - 31:07
    E ainda não temos uma boa resposta.
  • 31:07 - 31:11
    Portanto eu não sei
    se vocês têm uma boa resposta para isto.
  • 31:11 - 31:13
    (risos) Eu não sei
    se eu tenho uma boa resposta,
  • 31:13 - 31:15
    mas tenho uma resposta.
  • 31:15 - 31:20
    Então, eu penso, neste momento,
    como estava a dizer [inaudível],
  • 31:20 - 31:22
    que ainda não chegámos à massa crítica
  • 31:22 - 31:26
    onde podemos construir um monte
    de ferramentas realmente interessantes.
  • 31:26 - 31:28
    Mas já existem algumas ferramentas.
  • 31:28 - 31:32
    No outro dia,
    a Esther Pandalia, por exemplo,
  • 31:32 - 31:34
    lançou uma ferramenta onde podemos ver,
  • 31:36 - 31:39
    penso que eram as palavras num globo,
  • 31:39 - 31:42
    onde eram faladas,
    de onde tinham vindo.
  • 31:42 - 31:44
    Posso estar errada sobre isto.
  • 31:44 - 31:46
    Mas ela respondeu no chat
    do projeto na Wikidata.
  • 31:46 - 31:49
    Podem vê-lo ali.
  • 31:50 - 31:52
    Então já vimos as primeiras ferramentas,
  • 31:52 - 31:56
    tal como já vimos, no passado,
    quando a Wikidata começou.
  • 31:57 - 32:00
    Primeiro algumas... Como uma rede
  • 32:00 - 32:03
    e depois "Olha, há aqui esta coisa
    que liga a esta outra coisa."
  • 32:05 - 32:07
    E à medida que temos mais dados
  • 32:07 - 32:10
    e chegamos mais perto da massa crítica,
  • 32:12 - 32:15
    tornam-se possíveis
    aplicações mais poderosas.
  • 32:16 - 32:18
    Coisas como a Histropedia,
  • 32:19 - 32:22
    coisas como perguntas e respostas
  • 32:22 - 32:26
    no vosso assistente pessoal digital,
    Platypus e assim por diante.
  • 32:26 - 32:30
    E estamos a ver
    coisas semelhantes com os lexemas.
  • 32:31 - 32:35
    Estamos num estágio em que
    podemos construir estes pequenos:
  • 32:35 - 32:38
    "Olha, há uma ligação
    entre duas coisas
  • 32:38 - 32:43
    e há uma tradução dessa palavra
    para esse estágio de linguagem."
  • 32:43 - 32:48
    E, à medida que construimos
    e à medida que descrevemos mais palavras,
  • 32:48 - 32:49
    mais se torna possível.
  • 32:49 - 32:52
    Agora, o que é que isso torna possível?
  • 32:53 - 33:00
    Como o Ben, o nosso orador de antes,
    estava a dizer acerca de traduções,
  • 33:00 - 33:03
    ser capaz de traduzir
    de uma língua para outra.
  • 33:03 - 33:08
    E Jens, outro colega,
    que está sempre a falar sobre
  • 33:08 - 33:11
    a União Europeia
    andar sempre à procura de um tradutor
  • 33:11 - 33:17
    que possa fazê-lo de,
    penso que era maltês para sueco.
  • 33:17 - 33:19
    - (plateia 8) Estónio.
    - Estónio.
  • 33:19 - 33:20
    (risos)
  • 33:22 - 33:26
    E essa não é uma combinação usual.
  • 33:27 - 33:32
    Mas assim que temos todas essas linguagens
    num lugar passível de ser lido por máquina
  • 33:32 - 33:33
    podemos fazer isso.
  • 33:33 - 33:37
    Podemos obter um dicionário
  • 33:37 - 33:42
    de estónio para maltês e vice-versa.
  • 33:43 - 33:46
    Então, incluir combinações
    de linguagens em dicionários
  • 33:46 - 33:48
    que não foram incluídas antes
  • 33:48 - 33:51
    porque não havia
    procura suficiente para elas, por exemplo,
  • 33:51 - 33:55
    para fazê-lo de forma financeiramente
    viável e para justificar o trabalho.
  • 33:55 - 33:57
    Agora podemos fazer isso.
  • 34:00 - 34:02
    E depois a geração de texto.
  • 34:02 - 34:04
    A Lucie estava a falar
  • 34:04 - 34:10
    acerca de como ela está a trabalhar
    com a Hattie em gerar textos
  • 34:10 - 34:15
    para iniciar artigos na Wikipedia
    em línguas minoritárias.
  • 34:15 - 34:19
    Isso precisa de dados sobre palavras
  • 34:19 - 34:23
    e precisamos perceber a língua
    para fazer isso.
  • 34:23 - 34:28
    Sim, e isto é só
    o que me vem à cabeça agora.
  • 34:29 - 34:30
    Talvez a nossa audiência tenha mais ideias
  • 34:30 - 34:34
    do que querem fazer quando tivermos
    todos esses gloriosos dados.
  • 34:38 - 34:41
    (plateia 9) Vou-nos desviar
    do tópico dos lexemas.
  • 34:41 - 34:43
    Quero perguntar-vos algo.
  • 34:43 - 34:46
    Como posso eu, como membro da comunidade
  • 34:46 - 34:50
    influenciar que a prioridade
    seja colocada na tarefa,
  • 34:50 - 34:57
    que um utilizador novo venha, e possa
    indicar que línguas quer ver e editar
  • 34:57 - 35:02
    sem um qualquer conhecimento padrão
    verbal secreto.
  • 35:02 - 35:05
    Talvez haja, este ano,
    uma lista técnica de desejos
  • 35:05 - 35:07
    sem tópicos da Wikipedia.
  • 35:07 - 35:10
    Talvez haja esperança
    de que possamos votar acerca
  • 35:10 - 35:14
    daquela coisa
    que não arranjamos há sete anos.
  • 35:14 - 35:18
    Tem alguma ideia
    ou comentário sobre isso?
  • 35:18 - 35:20
    Então, está a falar sobre o facto
  • 35:20 - 35:23
    de alguém que não esteja ligado
    à Wikidata
  • 35:23 - 35:25
    não poder mudar
    a sua linguagem facilmente?
  • 35:25 - 35:28
    (plateia 9) Não, para novos utilizadores.
  • 35:28 - 35:31
    Então, se estiverem ligados,
  • 35:31 - 35:35
    eles podem mudar a sua língua
    no topo da página.
  • 35:36 - 35:40
    Depois, aparece onde...
  • 35:40 - 35:42
    onde as descrições das etiquetas estão
  • 35:42 - 35:43
    e podem editá-las.
  • 35:46 - 35:49
    (plateia 9) Bem, na verdade, muitas vezes
    o fluxo de trabalho é,
  • 35:49 - 35:52
    se queremos ter
    múltiplas línguas elas estão disponíveis,
  • 35:52 - 35:55
    e nem sempre acontece.
  • 35:55 - 35:59
    Talvez devamos sentar-nos
    depois desta apresentação e mostra-me.
  • 36:01 - 36:04
    Fixe. Mais questões?
  • 36:05 - 36:07
    Sim.
  • 36:11 - 36:13
    (plateia 10) Obrigado pela apresentação.
  • 36:14 - 36:15
    Pode comentar
  • 36:15 - 36:19
    acerca do estado da correlação
    com a comunidade do Wiktionary.
  • 36:19 - 36:22
    Do que eu tenho conseguido ver,
    tem havido algumas discussões
  • 36:22 - 36:26
    acerca de importar
    alguns elementos do trabalho,
  • 36:26 - 36:30
    mas parece haver algumas questões
    de licenciamento e desentendimentos, etc.
  • 36:30 - 36:31
    Certo.
  • 36:31 - 36:37
    Então, as comunidades do Wiktionary
    passaram muito tempo
  • 36:37 - 36:39
    a construir o Wiktionary.
  • 36:39 - 36:43
    Construiram
  • 36:43 - 36:47
    padrões extremamente complicados
    e complexos
  • 36:47 - 36:53
    para construir as bonitas tabelas
    que geram formulários para vocês
  • 36:53 - 36:56
    e é tudo realmente impressionante,
  • 36:56 - 37:01
    e um pouco louco,
    se pensarmos bem nisso.
  • 37:02 - 37:08
    E, é claro, investiram
    muito tempo e esforço a fazê-lo.
  • 37:09 - 37:12
    E, compreensivelmente,
  • 37:12 - 37:17
    não querem que isso seja agarrado
  • 37:18 - 37:19
    de qualquer maneira.
  • 37:19 - 37:22
    Então, há um pouco disso, vindo daí.
  • 37:22 - 37:25
    E está certo, tudo bem.
  • 37:25 - 37:32
    Agora, as primeiras comunidades Wiktionary
    estão a falar de mudar isso
  • 37:32 - 37:34
    e importar alguns
    dos dados deles para a Wikidata.
  • 37:34 - 37:39
    O russo, por exemplo, como já viram,
    é um desses casos
  • 37:40 - 37:42
    e espero que mais aconteçam.
  • 37:43 - 37:47
    Mas vai ser um processo lento,
  • 37:47 - 37:49
    tal como a adopção
    dos dados da Wikidata pela Wikipedia
  • 37:49 - 37:52
    está a ser um processo bem lento.
  • 37:53 - 37:56
    O outro lado é tentar que seja mais fácil
  • 37:56 - 37:59
    usar os dados que estão nos lexemas,
  • 37:59 - 38:02
    no Wiktionary, para que
    possam fazer uso deles
  • 38:02 - 38:06
    e partilhar dados entre
    as Wiktionaries de linguagens.
  • 38:06 - 38:09
    O que é super difícil neste momento,
  • 38:09 - 38:12
    o que é de doidos,
    tal como foi na Wikipedia.
  • 38:14 - 38:16
    Esperem pelo presente de aniversário.
    (risos)
  • 38:20 - 38:21
    Sim.
  • 38:23 - 38:25
    (plateia 11) Quando estava a pensar
    sobre a outra forma,
  • 38:25 - 38:28
    eu, na verdade, não o quis dizer
    porque penso que pode ser super tolo.
  • 38:28 - 38:32
    Mas acho que o Wiktionary
    já tem algum conteúdo
  • 38:32 - 38:35
    e eu sei que
    não pode ser transferido para a Wikidata
  • 38:35 - 38:37
    por causa das diferenças de licenças.
  • 38:37 - 38:40
    Mas estava a pensar que talvez
    possamos fazer algo acerca disso.
  • 38:40 - 38:45
    Talvez obter permissão das comunidades
  • 38:45 - 38:51
    depois de, não sei,
    haver uma votação pública
  • 38:52 - 38:56
    de forma a que comunidade,
    os seus membros ativos,
  • 38:56 - 39:03
    votem e digam se querem
    ou não aceitar a transferência de conteúdo
  • 39:03 - 39:06
    para a qual podem fazer
    os lexemas da Wikidata.
  • 39:06 - 39:09
    Porque penso que é um desperdício.
  • 39:10 - 39:14
    Então, isso é definitivamente
    uma conversa que essas pessoas,
  • 39:14 - 39:18
    que estão nas comunidades Wiktionary,
    podem ter lá.
  • 39:18 - 39:25
    Penso que seria um pouco presunçoso
    da nossa parte forçarmos isso.
  • 39:26 - 39:31
    Mas sim, penso que, definitivamente,
    vale a pena ter essa conversa.
  • 39:31 - 39:34
    Mas eu penso que também
    é importante entender
  • 39:34 - 39:39
    que há uma distinção entre
    o que é legalmente permitido
  • 39:39 - 39:43
    e o que devíamos estar a fazer
  • 39:43 - 39:45
    e o que as essas pessoas querem ou não.
  • 39:46 - 39:47
    Portanto, mesmo se for legal,
  • 39:47 - 39:51
    se algumas das comunidades Wiktionary
    não o quiserem,
  • 39:51 - 39:54
    eu teria cuidado, no mínimo.
  • 39:59 - 40:02
    Penso que precisamos do microfone
    para o vídeo.
  • 40:04 - 40:07
    (plateia 12) Obviamente,
    isto é tudo muito excitante
  • 40:08 - 40:12
    e penso imediatamente em como
    levar isto aos meus estudantes,
  • 40:12 - 40:15
    como posso incorporar isto nos cursos,
  • 40:15 - 40:19
    no trabalho que estamos a fazer,
    ambientes educacionais.
  • 40:19 - 40:22
    E não tenho, neste momento,
  • 40:23 - 40:24
    primeiro, conhecimento,
  • 40:24 - 40:27
    mas acho que a documentação
    que temos
  • 40:28 - 40:30
    pode ser melhorada.
  • 40:30 - 40:33
    Portanto, isto é um pedido
    para fazerem vídeos fixes
  • 40:33 - 40:36
    que expliquem como funciona.
  • 40:36 - 40:40
    Porque, se os tivermos, podemos usá-los,
  • 40:40 - 40:42
    podemos ter estudantes a bordo
  • 40:42 - 40:47
    e podemos fazer as pessoas entender
    quão espetacular é.
  • 40:47 - 40:52
    Sim, pensem na documentação
    e pensem na educação, por favor.
  • 40:52 - 40:54
    Porque penso que muito pode ser feito.
  • 40:54 - 40:59
    Estas são pequenas tarefas
    que podem ser feitas mesmo com...
  • 41:00 - 41:02
    bem, não direi escolas primárias,
  • 41:02 - 41:05
    mas certamente até com estudantes jovens.
  • 41:06 - 41:11
    E, portanto, gostaria mesmo de ver
    esse potencial a ser aproveitado
  • 41:11 - 41:15
    e, neste momento, eu, pessoalmente,
    não entendo o suficiente
  • 41:15 - 41:20
    para conseguir criar tarefas
    ou para criar tipo...
  • 41:20 - 41:22
    para fazer algo prático com isto.
  • 41:22 - 41:26
    Portanto, qualquer ajuda, ideias
    que alguém tenha acerca disso,
  • 41:26 - 41:30
    estou completamente disponível para ouvir
    tudo o que tenham em mente.
  • 41:30 - 41:32
    Sim, vamos falar sobre isso.
  • 41:35 - 41:37
    Mais questões?
  • 41:38 - 41:39
    Mais alguém tinha levantado a mão.
  • 41:39 - 41:40
    Esqueci-me de quem foi.
  • 41:46 - 41:50
    (plateia 13) Então, se não conseguimos
    importar a partir do Wiktionary,
  • 41:50 - 41:56
    há algum esforço concertado para
    achar outras fontes de domínio público,
  • 41:56 - 41:57
    talvez dados mais antigos,
  • 41:59 - 42:03
    e filtrá-los previamente, organizá-los
  • 42:03 - 42:08
    para que seja fácil a sua verificação,
    por pessoas, para importação?
  • 42:09 - 42:11
    Então, foram feitos esforços iniciais.
  • 42:11 - 42:15
    Penso que o basco é um desses esforços.
  • 42:15 - 42:17
    Talvez queiras dizer
    algo sobre isso?
  • 42:18 - 42:20
    (plateia 14) [inaudível]
  • 42:23 - 42:27
    Certo, a resposta é
    pagando por isso...
  • 42:28 - 42:33
    Temos um acordo
    com um fornecedor com quem trabalhamos.
  • 42:35 - 42:39
    Eles fazem dicionários, outros...
  • 42:40 - 42:42
    montes de coisas, mas fazem dicionários.
  • 42:42 - 42:47
    Temos um acordo com eles para
    tornar grátis os dicionários estudantis.
  • 42:47 - 42:53
    Nós transmitiríamos as palavras
    mais comuns e começaríamos a carregá-las
  • 42:53 - 42:56
    com um identificador externo
    e esse tipo de coisas.
  • 42:56 - 43:03
    Mas houve alguma discussão
    acerca de deixá-lo no CC0,
  • 43:03 - 43:05
    porque eles têm
    um dicionário com CC por ele,
  • 43:06 - 43:10
    e perceberam qual era a diferença.
  • 43:10 - 43:14
    Portanto, houve alguma discussão.
  • 43:14 - 43:19
    Mas penso que podemos providenciar algumas
    ferramentas ou exemplos, no futuro,
  • 43:19 - 43:22
    e penso que haverá outros dicionários
  • 43:22 - 43:24
    que podemos gerir.
  • 43:24 - 43:29
    E também penso que o Wiktionary
    deveria ir nessa direção,
  • 43:29 - 43:32
    mas isso é outra grande discussão.
  • 43:33 - 43:34
    E, para além disso,
  • 43:34 - 43:39
    a Lea está também em contacto
    com pessoas da Occitan,
  • 43:39 - 43:42
    que trabalham nos dicionários Occitan,
  • 43:42 - 43:45
    e eles estão atualmente a trabalhar
    numa colaboração suméria.
  • 43:51 - 43:53
    Mais questões?
  • 44:01 - 44:05
    (plateia 15) Olá. Nós somos as pessoas
    que querem importar dados da Occitan.
  • 44:05 - 44:06
    Perfeito!
  • 44:06 - 44:09
    (plateia 15) E temos
    um pequeno problema para...
  • 44:09 - 44:14
    Nós não sabemos como representar
    toda a variedade de lexemas.
  • 44:14 - 44:17
    Temos seis dialetos
  • 44:17 - 44:24
    e queremos indicar, para o lexema,
    em que dialeto é usado
  • 44:24 - 44:27
    e não temos a declaração CO
    apropriada para isso.
  • 44:27 - 44:31
    Portanto, enquanto o segmento não existir,
  • 44:32 - 44:34
    não conseguimos [inaudível]
  • 44:34 - 44:38
    porque vamos precisar de fazê-lo outra vez
  • 44:38 - 44:42
    quando estivermos em condições
    de exportar a declaração.
  • 44:42 - 44:44
    E é complicado
    porque é uma declaração
  • 44:44 - 44:48
    que não vai ser pedida por muita gente
  • 44:48 - 44:53
    porque é uma declaração que diz respeito
    principalmente a línguas minoritárias.
  • 44:53 - 44:57
    Então teremos uma pessoa a pedir isto.
  • 44:57 - 45:00
    Mas, como no caso
    dos nossos colegas Bascos,
  • 45:00 - 45:06
    pode ser uma pessoa
    que ajudará milhares de outros.
  • 45:06 - 45:11
    Portanto, pode não parecer importante,
  • 45:11 - 45:14
    mas será muito importante para nós.
  • 45:15 - 45:18
    Vocês já têm a nova proposta
    de propriedade a funcionar,
  • 45:18 - 45:19
    ou precisam de ajuda para criá-la?
  • 45:21 - 45:24
    (plateia 15) Fizemos o pedido
    há quatro meses.
  • 45:24 - 45:29
    Certo, então vamos arranjar pessoal
    para ajudar com essa proposta.
  • 45:30 - 45:33
    De certeza que há pessoas suficentes
    nesta sala para isso se realizar.
  • 45:33 - 45:36
    (plateia 15) Proposta de propriedade
    [em francês].
  • 45:36 - 45:39
    Nós não tivemos resposta
    e não sabemos fazê-lo
  • 45:39 - 45:43
    porque não somos da comunidade Wikidata.
  • 45:45 - 45:49
    Sim, então há aqui pessoas
    que vos podem ajudar.
  • 45:49 - 45:52
    Talvez alguém levante a mão
    para ficar...
  • 45:52 - 45:53
    (plateia 14) Sou a favor.
  • 45:53 - 45:56
    Mas penso que é muito interessante
  • 45:56 - 45:59
    que apenas a variante de forma
  • 45:59 - 46:03
    também o possa gerir geograficamente,
  • 46:03 - 46:05
    com coordenadas
    ou algum tipo de mapeamento.
  • 46:05 - 46:08
    Também tendo diferentes pronúncias
  • 46:08 - 46:12
    e penso que é algo
    que acontece em muitas línguas.
  • 46:13 - 46:16
    Deveríamos trabalhar para isso
    acontecer de alguma forma
  • 46:16 - 46:19
    e eu vou procurar a propriedade.
  • 46:20 - 46:21
    Fixe.
  • 46:21 - 46:24
    Então, vocês terão apoio
    para a vossa proposta de propriedade.
  • 46:26 - 46:27
    Obrigado.
  • 46:28 - 46:30
    Mais alguma questão?
  • 46:32 - 46:33
    Finn.
  • 46:34 - 46:35
    O Finn é uma daquelas pessoas
  • 46:35 - 46:38
    que constrói coisas
    tendo como base dados lexicográficos.
  • 46:38 - 46:40
    (Finn) É só uma pequena questão,
  • 46:40 - 46:44
    e é sobre variações de ortografia.
  • 46:45 - 46:48
    Parece difícil pô-las em...
  • 46:48 - 46:54
    Poderíamos, claro,
    ter múltiplas formas para a mesma palavra.
  • 46:56 - 46:58
    Não sei, parece ser...
  • 46:59 - 47:04
    Se não o fizeres dessa forma,
    parece ser difícil especificar...
  • 47:05 - 47:06
    ou, não sei se
  • 47:06 - 47:10
    é apenas um problema técnico menor
    ou se...
  • 47:10 - 47:11
    Vamos olhar para isso juntos.
  • 47:11 - 47:15
    Adoraria ver um exemplo.
  • 47:17 - 47:18
    Asaf.
  • 47:27 - 47:28
    (Asaf) Obrigado.
  • 47:29 - 47:34
    Posso dar um exemplo concreto
    da minha língua, o hebreu.
  • 47:34 - 47:39
    O Hebreu tem duas variantes principais
  • 47:39 - 47:43
    para expressar quase todas as palavras,
  • 47:43 - 47:48
    porque a ortografia tradicional
  • 47:48 - 47:50
    deixa de parte muitas vogais.
  • 47:51 - 47:55
    E, assim sendo, nas edições modernas
    da Bíblia e de poesia,
  • 47:55 - 47:57
    são usados os diacríticos.
  • 47:57 - 48:03
    Por outro lado, os diacríticos
    nunca são usados na prosa moderna
  • 48:03 - 48:06
    ou imprensa escrita ou toponímia.
  • 48:06 - 48:11
    Então, a utilização casual diária
    usa as vogais extra
  • 48:12 - 48:14
    e não usa os diacríticos.
  • 48:14 - 48:16
    Porque eles são,
    obviamente, mais complicados
  • 48:16 - 48:18
    e têm todo o tipo de regras
    e ninguém sabe as regras.
  • 48:18 - 48:21
    - (risos)
    - Então, há duas variantes.
  • 48:21 - 48:25
    Há a variante casual para prosa
  • 48:25 - 48:28
    e há a da Bíblia e da poesia.
  • 48:28 - 48:32
    que vem sempre
    no tradicional texto diacriticizado.
  • 48:32 - 48:33
    Para ser útil,
  • 48:33 - 48:37
    o lexema teria que reconhecer
    ambas as variantes de cada palavra
  • 48:37 - 48:40
    e cada forma
    de cada palavra.
  • 48:40 - 48:43
    Portanto, esse é um caso de utilização
    muito abrangente
  • 48:43 - 48:46
    para variantes oficiais estáveis.
  • 48:46 - 48:49
    Não é dialeto, não é regional,
  • 48:49 - 48:54
    são, basicamente, dois sistemas
    morfológicos coexistentes.
  • 48:54 - 48:59
    E eu também não sei exatamente
    como expressar isso no lexema, agora,
  • 48:59 - 49:03
    o que é uma das coisas que me impede,
    em resposta parcial à pergunta do Magnus,
  • 49:03 - 49:05
    de carregar as partes que estão prontas
  • 49:05 - 49:09
    do maior dicionário Hebreu,
    que é de domínio público
  • 49:09 - 49:13
    e que tenho andar a digitalizar
    há vários anos.
  • 49:13 - 49:15
    Uma grande porção está pronta,
  • 49:15 - 49:16
    mas não o ponho no lexema agora
  • 49:16 - 49:20
    porque, basicamente, não sei
    como resolver este problema.
  • 49:20 - 49:23
    Está bem, vamos resolver
    este problema aqui. (risos)
  • 49:24 - 49:26
    Tem de ser possível.
  • 49:30 - 49:32
    Mais perguntas?
  • 49:37 - 49:40
    Se não, então muito obrigada.
  • 49:40 - 49:45
    (aplausos)
Title:
cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4
Video Language:
English
Duration:
49:51

Portuguese subtitles

Revisions