< Return to Video

cdn.media.ccc.de/.../wikidatacon2019-9-eng-Data_quality_panel_hd.mp4

  • 0:06 - 0:09
    Olá a todos,
    ao painel de Qualidade de Dados.
  • 0:10 - 0:14
    A qualidade dos dados é importante porque
    cada vez mais pessoas
  • 0:14 - 0:16
    dependem do bom estado dos nossos dados.
  • 0:16 - 0:20
    Assim, vamos falar da qualidade dos dados.
  • 0:22 - 0:27
    Haverão quatro oradores que farão
    breves introduções acerca de tópicos
  • 0:27 - 0:30
    relacionados com qualidade de dados.
    Depois, responderemos a perguntas.
  • 0:30 - 0:32
    O primeiro é o Lucas.
  • 0:34 - 0:35
    Obrigado.
  • 0:36 - 0:40
    Olá. O meu nome é Lucas e vou começar
    com uma síntese
  • 0:40 - 0:44
    das ferramentas de qualidade de dados
    que já existem na Wikidata
  • 0:44 - 0:46
    e também de algumas coisas
    que teremos em breve.
  • 0:48 - 0:51
    Agrupei-as em temas gerais
  • 0:51 - 0:54
    que são a maior visibilidade dos erros,
    tornar os problemas accionáveis,
  • 0:54 - 0:57
    obter mais visibilidade sobre os dados
    para que mais pessoas notem os problemas,
  • 0:57 - 1:03
    corrigir algumas fontes comuns de erros,
    manter a qualidade dos dados existentes
  • 1:03 - 1:04
    e também a curadoria humana.
  • 1:05 - 1:10
    As que estão atualmente disponíveis
    começam com as restrições de propriedades.
  • 1:10 - 1:12
    Já o devem ter visto se usam a Wikidata.
  • 1:12 - 1:14
    Podem, por vezes, obter estes ícones
  • 1:15 - 1:17
    que verificam
    a consistência interna dos dados.
  • 1:17 - 1:21
    Por exemplo,
    se um evento se seguir a outro,
  • 1:21 - 1:24
    então a este último deve seguir-se este.
  • 1:24 - 1:27
    O que estava aparentemente em falta
    no item WikidataCon.
  • 1:27 - 1:30
    Não tenho a certeza, esta funcionalidade
    existe há apenas uns dias.
  • 1:30 - 1:35
    Também existe... Se isto for
    demasiado simples ou condicionante,
  • 1:35 - 1:38
    podem escrever quaisquer verificações
    que queiram usando o Query Service
  • 1:38 - 1:40
    que é útil para várias coisas,
  • 1:40 - 1:45
    mas também pode ser usado
    para encontrar erros.
  • 1:45 - 1:47
    Por exemplo, se descobrirem
    uma ocorrência de um erro,
  • 1:47 - 1:50
    podem verificar se existem outros locais
  • 1:50 - 1:52
    onde as pessoas tenham feito
    um erro parecido
  • 1:52 - 1:53
    e descobri-lo com o Query Service.
  • 1:53 - 1:58
    Também podem combinar os dois e procurar
    violações de restrições no Query Service,
  • 1:58 - 2:01
    como por exemplo,
    apenas violações que ocorram numa área
  • 2:01 - 2:04
    ou WikiProject que seja
    relevantes para vocês.
  • 2:04 - 2:07
    Embora, atualmente, os resultados
    não estejam completos. Infelizmente.
  • 2:08 - 2:10
    Existe a avaliação de revisões.
  • 2:11 - 2:13
    Penso que seja parte
    das alterações recentes.
  • 2:13 - 2:16
    Podem também adicioná-la à vossa lista
    de visualização: uma avaliação automática
  • 2:16 - 2:20
    da probabilidade desta edição
    ter sido feita em boa ou má-fé
  • 2:20 - 2:22
    e da probabilidade de causar ou não danos.
  • 2:22 - 2:24
    Penso que sejam essas as duas dimensões.
  • 2:24 - 2:26
    Podem, se quiserem,
  • 2:26 - 2:30
    concentrar a busca apenas
    nas edições danosas mas feitas com boa-fé.
  • 2:30 - 2:33
    Se se estiverem a sentir particularmente
    amigáveis e acolhedores
  • 2:33 - 2:37
    podem dizer a estes editores:
    "Obrigado pela contribuição.
  • 2:37 - 2:41
    Deviam tê-la feito desta maneira,
    mas obrigado de qualquer forma."
  • 2:41 - 2:42
    E, se não estiverem com essa disposição,
  • 2:42 - 2:44
    podem rever as edições
    danosas feitas com má-fé
  • 2:44 - 2:46
    e reverter o vandalismo.
  • 2:48 - 2:50
    Existe também algo semelhante:
    avaliação de entidades.
  • 2:50 - 2:53
    Em vez de classificar uma edição,
    a alteração que foi feita,
  • 2:53 - 2:54
    vão classificar toda a revisão.
  • 2:54 - 2:56
    Penso que seja a mesma medida de qualidade
  • 2:56 - 3:00
    mencionada pela Lydia
    no início da conferência.
  • 3:00 - 3:05
    Isto fornece um script de utilizador aqui
    em cima e uma pontuação de um a cinco,
  • 3:05 - 3:08
    penso eu, da qualidade do item corrente.
  • 3:10 - 3:16
    A ferramenta de fontes primárias é para
    bases de dados que queiram importar,
  • 3:16 - 3:18
    mas que não têm qualidade suficiente
    para entrar diretamente na Wikidata.
  • 3:18 - 3:21
    Ao invés, adicionam-nas à ferramenta
    de fontes primárias e, depois,
  • 3:21 - 3:23
    as pessoas podem decidir
  • 3:23 - 3:26
    se devem adicionar
    estas declarações individuais ou não.
  • 3:29 - 3:32
    Mostrar coordenadas como mapas:
    é uma funcionalidade conveniente
  • 3:32 - 3:34
    mas também é útil
    para controlo de qualidade.
  • 3:34 - 3:37
    Por exemplo, se virem que isto devia ser
    o escritório da Wikimedia na Alemanha
  • 3:37 - 3:39
    e as coordenadas forem algures
    no Oceano Índico,
  • 3:39 - 3:42
    saberão que algo está errado, aqui.
  • 3:42 - 3:45
    E podem vê-lo mais facilmente
    do que se tivessem apenas os números.
  • 3:46 - 3:50
    Esta é uma engenhoca chamada
    indicador de integridade relativa,
  • 3:50 - 3:52
    que apresenta este pequeno ícone
  • 3:53 - 3:55
    que vos mostra o quão completo
    pensa que este item está
  • 3:55 - 3:58
    e que propriedades
    é mais provável que estejam em falta.
  • 3:58 - 4:00
    O que é muito útil
    se estiverem a editar um item,
  • 4:00 - 4:03
    estiverem numa área com a qual
    não estejam muito familiarizados
  • 4:03 - 4:06
    e não saibam quais são
    as propriedades certas a usar.
  • 4:06 - 4:08
    Nesse caso, esta é
    uma miniaplicação muito útil.
  • 4:10 - 4:11
    Temos o Shape Expressions.
  • 4:11 - 4:16
    Penso que a Andra ou o Jose
    vão falar mais sobre elas
  • 4:16 - 4:20
    mas são uma forma muito poderosa
    de comparar os dados que têm
  • 4:20 - 4:21
    com o esquema.
  • 4:21 - 4:23
    Como, que declaração devem ter
    certas entidades,
  • 4:23 - 4:26
    a que outras entidades devem estar ligadas
    e como essas devem ser.
  • 4:26 - 4:29
    Podem detetar problemas dessa forma.
  • 4:30 - 4:32
    Penso que... Não. Ainda há mais.
  • 4:32 - 4:34
    O Integraality ou painel de propriedades.
  • 4:34 - 4:37
    Dá-vos uma visão geral
    dos dados já existentes.
  • 4:37 - 4:39
    Por exemplo, isto é do
    WikiProject Red Pandas.
  • 4:40 - 4:42
    Podem ver que temos
    um sexo ou género
  • 4:42 - 4:44
    para quase todos os pandas-vermelhos.
  • 4:44 - 4:47
    A data de nascimento varia bastante
    consoante o zoo de onde vêm
  • 4:47 - 4:50
    e quase não temos
    pandas mortos, o que é maravilhoso
  • 4:50 - 4:51
    (risos)
  • 4:51 - 4:53
    porque são tão fofos.
  • 4:54 - 4:56
    Por isso, isto também é útil.
  • 4:56 - 4:59
    Cá está. Agora para o que está para vir.
  • 5:00 - 5:04
    Wikidata Bridge, anteriormente conhecida
    como editor de clientes.
  • 5:04 - 5:07
    Ou seja, editar dados a partir
    de caixas de informação da Wikipedia.
  • 5:08 - 5:12
    O que, por um lado, dará
    mais visibilidade aos dados
  • 5:12 - 5:13
    pois mais pessoas os conseguirão ver ali.
  • 5:13 - 5:19
    E, assim se espera, encorajará uma maior
    utilização da Wikidata nas Wikipedias.
  • 5:19 - 5:21
    Isto significa
    que mais pessoas podem reparar
  • 5:21 - 5:24
    se, por exemplo, há dados desatualizados
    que precisam de ser atualizados,
  • 5:24 - 5:27
    ao invés de só os verem
    na própria Wikidata.
  • 5:29 - 5:31
    Existem também as referências corrompidas.
  • 5:31 - 5:34
    Aqui, a ideia é que, se editarem
    uma declaração de valor,
  • 5:35 - 5:37
    pode ser preciso atualizar também
    as referências,
  • 5:37 - 5:39
    a não ser
    que seja apenas uma gralha, ou similar.
  • 5:40 - 5:44
    Estas referências corrompidas
    dizem-no aos editores
  • 5:44 - 5:50
    e também que os outros editores
    vêm as outras edições que foram feitas
  • 5:50 - 5:52
    que editaram uma declaração de valor
    e não atualizaram a referência.
  • 5:52 - 5:57
    Depois, podem limpar
    e decidir se isso deve...
  • 5:58 - 6:00
    Precisam de fazê-lo novamente
  • 6:00 - 6:03
    ou está tudo correto e
    não é necessário atualizar a referência.
  • 6:04 - 6:09
    Tem relação com declarações assinadas.
    Que têm origem numa preocupação, penso eu,
  • 6:09 - 6:12
    que alguns fornecedores de dados têm de...
  • 6:14 - 6:17
    Há uma declaração que é referenciada
    através na UNESCO, ou similar.
  • 6:17 - 6:20
    Depois, de repente,
    alguém vandaliza a declaração
  • 6:20 - 6:22
    e eles estão preocupados que parecerá que
  • 6:23 - 6:27
    essa organização, como a UNESCO,
    ainda define este valor de vandalismo.
  • 6:27 - 6:29
    Assim, com declarações assinadas,
  • 6:29 - 6:31
    eles podem assinar
    essa referência criptograficamente.
  • 6:31 - 6:34
    Isso não vai prevenir edições à referência
  • 6:34 - 6:38
    mas, se alguém vandalizar a declaração
  • 6:38 - 6:40
    ou se a editar de alguma forma
    a assinatura deixa de ser válida.
  • 6:40 - 6:43
    E pode-se ver que isto não é exatamente
    o que foi dito pela organização.
  • 6:43 - 6:47
    Pode ser que seja uma boa edição
    e eles devam assinar a nova declaração,
  • 6:47 - 6:50
    mas também pode acontecer
    que deva ser revertida.
  • 6:51 - 6:54
    E também... Isto vai ser
    muito empolgante, penso eu.
  • 6:54 - 6:57
    O Citoid é um sistema fantástico
    que existe na Wikipedia
  • 6:57 - 7:01
    no qual podem colar um URL,
    um identificador, um ISBN,
  • 7:01 - 7:05
    um ID da Wikidata ou
    outra coisa qualquer no Visual Editor,
  • 7:05 - 7:08
    e ele devolve uma referência
    bem formatada.
  • 7:08 - 7:11
    Tem todos os dados que quiserem
    e uma usabilidade excelente.
  • 7:11 - 7:14
    Por comparação, na Wikidata,
    se eu quiser adicionar uma referência,
  • 7:14 - 7:19
    tenho, tipicamente, de adicionar o URL,
    título, nome de autor,
  • 7:19 - 7:20
    data de publicação da referência,
  • 7:20 - 7:25
    recuperar as datas.
    No mínimo, o que é aborrecido.
  • 7:25 - 7:29
    Espera-se que a integração do Citoid
    na Wikibase ajude com isso.
  • 7:30 - 7:34
    Penso que é tudo o que tinha. Sim.
  • 7:34 - 7:36
    Vou agora passar à Cristina.
  • 7:38 - 7:42
    (aplausos)
  • 7:44 - 7:45
    Olá, eu sou a Cristina.
  • 7:45 - 7:48
    Sou uma cientista de investigação
    da Universidade de Zurique
  • 7:48 - 7:51
    e também um membro ativo
    da comunidade Suíça.
  • 7:53 - 7:58
    Quando eu e a Claudia Müller-Birn
    submetemos isto à WikidataCon,
  • 7:58 - 8:02
    o que queríamos era continuar a discussão
    que começámos no início do ano
  • 8:02 - 8:07
    numa workshop acerca de qualidade de dados
    e também nalgumas sessões na Wikimania.
  • 8:07 - 8:11
    Então, o objetivo desta palestra
    é apresentar algumas ideias
  • 8:11 - 8:14
    que estivemos a compilar,
    nossas e da comunidade,
  • 8:14 - 8:17
    e continuar a discussão.
  • 8:17 - 8:20
    Gostaríamos de continuar
    a interagir muito convosco.
  • 8:22 - 8:23
    O que pensamos ser muito importante,
  • 8:23 - 8:28
    é perguntarmos continuamente a todos
    os tipos de utilizador na comunidade,
  • 8:28 - 8:32
    o que realmente precisam,
    que problemas têm com qualidade de dados.
  • 8:32 - 8:35
    Não apenas os editores, mas também
    as pessoas que estão a programar
  • 8:35 - 8:36
    ou a consumir os dados.
  • 8:36 - 8:39
    E também os investigadores que estão
    a usar toda a história de edições
  • 8:39 - 8:41
    para analisar o que está a acontecer.
  • 8:42 - 8:48
    Assim, fizemos uma avaliação de cerca
    de 80 ferramentas que existem na Wikidata
  • 8:48 - 8:52
    e alinhámo-las com as diferentes
    dimensões de qualidade de dados.
  • 8:52 - 8:54
    O que vimos foi que, na realidade,
  • 8:54 - 8:58
    muitas delas estão a vigiar,
    a monitorizar a integridade,
  • 8:58 - 9:03
    mas, na verdade... Algumas delas estão
    também a capacitar interligações.
  • 9:03 - 9:08
    Mas, existe uma grande necessidade
    de ferramentas que vejam a diversidade,
  • 9:08 - 9:13
    que é uma das coisas
    que podemos ter na Wikidata.
  • 9:13 - 9:16
    Especialmente, este princípio
    do design da Wikidata,
  • 9:16 - 9:18
    segundo o qual podemos ter pluralidade
  • 9:18 - 9:20
    e declarações diferentes
    com valores diferentes
  • 9:21 - 9:22
    originárias de fontes diferentes.
  • 9:22 - 9:25
    Visto ser uma fonte secundária,
    não temos realmente ferramentas
  • 9:25 - 9:28
    que nos digam
    quantas declarações plurais existem,
  • 9:28 - 9:31
    quantas podemos melhorar e como.
  • 9:31 - 9:33
    Também não sabemos
  • 9:33 - 9:36
    quais são todas as razões
    para pluralidade que podemos ter.
  • 9:36 - 9:39
    Assim, a partir destes
    encontros da comunidade
  • 9:39 - 9:43
    o que discutimos foram os desafios
    que ainda necessitam de atenção.
  • 9:43 - 9:47
    Por exemplo, que ter
    todas estas comunidades de crowdsourcing
  • 9:47 - 9:51
    é muito bom, já que pessoas diferentes
    atacam partes diferentes dos dados
  • 9:51 - 9:52
    ou do gráfico.
  • 9:52 - 9:55
    Temos também conhecimentos
    de origem diferentes.
  • 9:55 - 9:59
    Mas, na realidade, é muito difícil alinhar
    tudo em algo que seja homogéneo
  • 9:59 - 10:05
    pois pessoas diferentes usam propriedades
    diferentes de forma diferente.
  • 10:05 - 10:08
    E estão também à espera de coisas
    diferentes das descrições de entidade.
  • 10:09 - 10:13
    Foi também dito
    que são necessárias mais ferramentas
  • 10:13 - 10:16
    que dêm uma melhor visão geral
    do estado global das coisas.
  • 10:16 - 10:21
    Ou seja, que entidades estão em falta,
    em termos de integridade,
  • 10:21 - 10:25
    mas também no que é que as pessoas
    estão a trabalhar hoje em dia,
  • 10:25 - 10:26
    na maior parte do tempo.
  • 10:27 - 10:31
    Também foi mencionada com frequência
    uma colaboração mais apertada
  • 10:31 - 10:33
    entre, não só as linguagens,
    mas os WikiProjects
  • 10:33 - 10:36
    a as diferentes plataformas Wikimedia.
  • 10:36 - 10:39
    Publicámos todos
    os comentários transcritos
  • 10:39 - 10:43
    de todas estas discussões
    nestas ligações aqui, no Etherpads
  • 10:43 - 10:46
    e também na página wiki da Wikimania.
  • 10:46 - 10:48
    Algumas das soluções que apareceram
  • 10:48 - 10:53
    vão na direção da partilha
    das melhores práticas
  • 10:53 - 10:56
    que estão a ser desenvolvidas
    nos diferentes WikiProjects.
  • 10:56 - 10:58
    Mas, as pessoas também querem ferramentas
  • 10:58 - 11:01
    que ajudem a organizar
    o trabalho em equipa
  • 11:01 - 11:04
    ou, pelo menos, a perceber
    quem está a trabalhar em quê.
  • 11:04 - 11:08
    Também foi mencionada
    a vontade de ter mais demonstrações
  • 11:08 - 11:12
    e mais modelos que os ajudem
    a criar coisas de uma forma melhor.
  • 11:13 - 11:15
    E, pelo contacto que temos
  • 11:15 - 11:19
    com organizações
    de dados governamentais abertas
  • 11:19 - 11:20
    e, em particular,
  • 11:20 - 11:23
    eu estou em contacto com o cantão
    e a cidade de Zurique,
  • 11:23 - 11:26
    eles estão muito interessados
    em trabalhar com a Wikidata
  • 11:26 - 11:30
    porque querem que os seus dados
    estejam acessíveis para todos
  • 11:30 - 11:34
    no local onde as pessoas vão
    e consultam ou acedem aos dados.
  • 11:34 - 11:37
    Assim, para eles, algo que
    seria mesmo interessante
  • 11:37 - 11:39
    seria ter algum tipo
    de indicador de qualidade
  • 11:39 - 11:41
    tanto na wiki,
    o que já acontece atualmente,
  • 11:41 - 11:43
    como nos resultados SPARQL.
  • 11:43 - 11:46
    Para saber se podem ou não confiar
    dos dados da comunidade.
  • 11:46 - 11:50
    Eles também querem saber que partes
    dos seus próprios conjuntos de dados
  • 11:50 - 11:51
    são úteis para a Wikidata.
  • 11:51 - 11:56
    E adorariam ter uma ferramenta
    que ajudasse a avaliar automaticamente.
  • 11:56 - 11:59
    Também precisam
    de algum tipo de metodologia ou ferramenta
  • 11:59 - 12:04
    que os ajude a decidir se devem
    ou não importar ou ligar os seus dados
  • 12:04 - 12:05
    pois, nalguns casos,eles também têm
  • 12:05 - 12:08
    os seus próprios conjuntos de dados
    abertos ligados e não sabem
  • 12:08 - 12:12
    se devem apenas incorporar os dados
    ou continuar a criar ligações
  • 12:12 - 12:14
    dos conjuntos de dados
    à Wikidata e vice-versa.
  • 12:15 - 12:20
    Também querem saber se os seus websites
    forem referidos na Wikidata.
  • 12:20 - 12:23
    E, quando correm essas consultas
    no serviço de consultas
  • 12:23 - 12:25
    recebem, muitas vezes, timeouts.
  • 12:25 - 12:28
    Por isso, talvez devêssemos mesmo
    criar mais ferramentas
  • 12:28 - 12:32
    que os ajudem a obter estas respostas
    para as suas questões.
  • 12:32 - 12:34
    (ruído de fundo)
  • 12:34 - 12:36
    E, para além disso,
  • 12:36 - 12:39
    nós, investigadores da wiki, também
  • 12:39 - 12:42
    temos falta de alguma informação
    nos sumários de edição.
  • 12:42 - 12:45
    Lembro-me que, quando
    estávamos a trabalhar
  • 12:45 - 12:49
    para compreender os diferentes
    comportamentos dos editores
  • 12:49 - 12:53
    com ferramentas ou bots,
    ou utilizadores anónimos, etc,
  • 12:53 - 12:56
    faltava-nos realmente, por exemplo,
  • 12:56 - 13:01
    uma forma padrão de registar
    que as ferramentas estavam a ser usadas.
  • 13:01 - 13:03
    Já existem algumas ferramentas
    que fazem isso
  • 13:03 - 13:05
    como o PetScan e muitas outras
  • 13:05 - 13:08
    mas talvez devêssemos, na comunidade,
  • 13:08 - 13:12
    debater mais acerca de como
    registar estes eventos
  • 13:12 - 13:14
    para obter uma origem otimizada.
  • 13:14 - 13:15
    E, no futuro,
  • 13:15 - 13:21
    precisamos de pensar em dimensões
    de qualidade de dados mais concretas
  • 13:21 - 13:25
    que estão relacionadas com dados ligados
    mas não com todos os tipos de dados.
  • 13:25 - 13:31
    Por isso, trabalhámos nalgumas medidas
    para aceder ao aumento de informação
  • 13:31 - 13:34
    proporcionado pelas ligações.
    O que queremos dizer com isso
  • 13:34 - 13:37
    é que, quando ligamos a Wikidata
    a outros conjuntos de dados,
  • 13:37 - 13:38
    também deviamos estar a pensar
  • 13:38 - 13:42
    em quanto é que as entidades estão,
    na realidade, a ganhar na classificação,
  • 13:42 - 13:46
    na descrição, mas também
    nos vocabulários que usam.
  • 13:46 - 13:51
    Para dar um exemplo muito simples
    do que quero dizer com isto,
  • 13:51 - 13:54
    podemos pensar... Neste caso,
    seria a Wikidata
  • 13:54 - 13:58
    ou o centro de dados externo
    que está a ligar à Wikidata.
  • 13:58 - 14:00
    Temos a entidade para uma pessoa
    chamada Natasha Noy,
  • 14:00 - 14:03
    temos a afiliação e outras coisas.
  • 14:03 - 14:05
    E, depois dizemos: "Está bem, ligamos
    a um local externo
  • 14:05 - 14:09
    e aquela entidade também tem aquele nome."
    Mas, na realidade, temos o mesmo valor.
  • 14:09 - 14:13
    Então, seria melhor se ligássemos
    a algo que tenha um nome diferente,
  • 14:13 - 14:17
    o que ainda é válido porque esta pessoa
    tem duas formas de escrever o nome,
  • 14:17 - 14:20
    e também outras informações
    que não temos na Wikidata
  • 14:20 - 14:22
    ou que não temos
    no outro conjunto de dados.
  • 14:22 - 14:25
    Mas também, o que é ainda melhor
  • 14:25 - 14:28
    é que estamos a olhar
    para o conjunto de dados alvo
  • 14:28 - 14:31
    e eles também têm novas formas
    de classificar a informação.
  • 14:31 - 14:35
    Por isso, não só é uma pessoa,
    mas, no outro conjunto de dados,
  • 14:35 - 14:37
    também diz que é do sexo feminino
  • 14:37 - 14:40
    ou qualquer outra classificação
    que tenha sido usada.
  • 14:40 - 14:43
    Se, no outro conjunto de dados, estiverem
    a usar muitos outros vocabulários
  • 14:43 - 14:47
    isso também está a ajudar
    na recuperação de informação como um todo.
  • 14:47 - 14:51
    Também gostava de dizer
  • 14:51 - 14:56
    que pensamos que podemos
    mostrar melhor as consultas federadas
  • 14:56 - 15:00
    porque, quando olhamos para o log
    da consulta fornecido por Malyshev et al,
  • 15:01 - 15:07
    vemos que, das consultas orgânicas,
    temos apenas algumas consultas federadas.
  • 15:07 - 15:13
    E, na realidade, a federação é uma
    das vantagens chave de ter dados ligados.
  • 15:13 - 15:17
    Por isso, talvez a comunidade
    ou as pessoas que usam a Wikidata
  • 15:17 - 15:19
    também precisem
    de mais exemplos deste tipo.
  • 15:19 - 15:23
    Se olharmos para a lista
    de parâmetros que estão a ser usados...
  • 15:23 - 15:25
    Esta não é uma lista completa
    e temos muitos mais.
  • 15:25 - 15:30
    Estes dados foram analisados a partir
    de consultas feitas até março de 2018,
  • 15:30 - 15:35
    mas deviamos olhar para a lista
    de parâmetros federados que temos
  • 15:35 - 15:37
    e ver se os estamos realmente
    a usar ou não.
  • 15:38 - 15:40
    Por isso, duas questões
    que tenho para a audiência
  • 15:40 - 15:43
    e que talvez possamos usar
    depois para a discussão, são:
  • 15:43 - 15:46
    que problemas de qualidade de dados
    devem, na vossa opinião, ser abordados,
  • 15:46 - 15:47
    devido às vossas necessidades.
  • 15:47 - 15:50
    Mas também, onde é que é necessária
    mais automação
  • 15:50 - 15:53
    para vos ajudar com as edições
    ou patrulhamentos.
  • 15:54 - 15:55
    É tudo, muito obrigada.
  • 15:56 - 16:01
    (aplausos)
  • 16:06 - 16:09
    (Jose Emilio Labra) Vou falar-vos
    de algumas ferramentas
  • 16:09 - 16:15
    que estamos a desenvolver,
    relacionadas com o Shape Expressions.
  • 16:16 - 16:19
    É disto que quero falar...
    Sou o Jose Emilio Labra,
  • 16:19 - 16:23
    mas há... Todas estas ferramentas
    foram construídas por pessoas diferentes,
  • 16:24 - 16:28
    muitas relacionadas com o W3C ShEx,
    Shape Expressions Community Group.
  • 16:28 - 16:29
    ShEx Community Group.
  • 16:31 - 16:36
    A primeira ferramenta que quero mencionar
    é o RDFShape. Esta é uma ferramenta geral
  • 16:36 - 16:41
    porque o Shape Expressions
    não é só para a Wikidata.
  • 16:41 - 16:44
    O Shape Expressions é uma linguagem
    para validar RDF em geral.
  • 16:44 - 16:48
    Esta ferramenta foi desenvolvida
    principalmente por mim
  • 16:48 - 16:51
    e é uma ferramenta para validar
    RDF no geral.
  • 16:51 - 16:55
    Se quiserem aprender acerca de RDF
    ou se quiserem validar parâmetros RDF
  • 16:55 - 16:59
    ou SPARQL, não só na Wikidata,
  • 16:59 - 17:01
    o meu conselho é
    que podem usar esta ferramenta.
  • 17:01 - 17:03
    Também para ensinar.
  • 17:03 - 17:06
    Sou um professor universitário
  • 17:06 - 17:09
    e uso-a no meu curso de web semântica
    para ensinar RDF.
  • 17:09 - 17:12
    Por isso, se quiserem aprender RDF,
    penso que esta é uma boa ferramenta.
  • 17:13 - 17:18
    Por exemplo, esta é só uma visualização
    de um gráfico RDF com essa ferramenta.
  • 17:19 - 17:23
    Mas, antes de vir cá, no último mês,
  • 17:23 - 17:27
    comecei um fork de rdfshape
    especificamente para a Wikidata,
  • 17:27 - 17:28
    porque pensei...
  • 17:28 - 17:33
    Chama-se WikiShape e, ontem,
    apresentei-a como presente à Wikidata.
  • 17:33 - 17:34
    Então, eu peguei...
  • 17:34 - 17:40
    O que eu fiz foi remover tudo
    o que não tivesse relação com a Wikidata
  • 17:40 - 17:43
    e acrescentar várias coisas,
    com codificação permanentemente,
  • 17:43 - 17:45
    como, por exemplo,
    o parâmetro Wikidata SPARQL.
  • 17:45 - 17:49
    Agora, foi-me pedido
    que fizesse isso também para a Wikibase.
  • 17:49 - 17:52
    E é muito fácil
    fazê-lo também para a Wikibase.
  • 17:53 - 17:56
    Então, esta ferramenta,
    a WikiShape, é muito recente.
  • 17:57 - 18:00
    Penso que funciona,
    a maioria das funcionalidades,
  • 18:00 - 18:02
    mas há algumas funcionalidades
    que podem não funcionar.
  • 18:02 - 18:06
    Se experimentarem e quiserem
    melhorá-la, digam-me, por favor.
  • 18:06 - 18:11
    Isto é uma captura de ecrã,
    mas penso que posso experimentar.
  • 18:12 - 18:13
    Por isso, vamos experimentar.
  • 18:14 - 18:15
    (risos)
  • 18:15 - 18:17
    Vamos ver se funciona.
  • 18:17 - 18:20
    Primeiro, tenho de sair do...
  • 18:22 - 18:23
    Aqui.
  • 18:25 - 18:28
    Esta é a ferramenta, aqui.
  • 18:28 - 18:30
    Coisas que podem fazer com a ferramenta:
  • 18:30 - 18:35
    por exemplo, podem
    verificar esquemas, esquemas de entidades.
  • 18:35 - 18:39
    Sabem que há um novo namespace
    que é "E" qualquer coisa".
  • 18:39 - 18:45
    Então, se começaram, por exemplo,
    a escrever "humano",
  • 18:45 - 18:49
    à medida que escrevem,
    o autocompletamento permite-vos verificar
  • 18:49 - 18:52
    que isto é o Shape Expressions
    de um humano
  • 18:53 - 18:56
    e que isto é o Shape Expressions, aqui.
  • 18:56 - 19:00
    Como podem ver, este editor
    tem realce de sintaxe.
  • 19:00 - 19:05
    Isto é... Bem, talvez seja
    muito pequeno, o ecrã.
  • 19:06 - 19:08
    Posso tentar aumentá-lo.
  • 19:09 - 19:11
    Talvez o vejam melhor, agora.
  • 19:11 - 19:14
    Então, este é o editor, com realce
    de sintaxe, e também tem...
  • 19:14 - 19:18
    Quero dizer, este editor
    vem do mesmo código fonte
  • 19:18 - 19:20
    do editor de consultas da Wikidata.
  • 19:20 - 19:24
    Se pairarem com o rato aqui,
  • 19:24 - 19:28
    vai mostrar-vos as etiquetas
    das diferentes propriedades.
  • 19:28 - 19:31
    Penso que é muito útil porque, agora,
  • 19:33 - 19:36
    o esquema de entidades
    que está na Wikidata
  • 19:36 - 19:39
    é só uma ideia em texto simples.
  • 19:39 - 19:42
    Penso que este editor é muito melhor
    porque tem autocompletamento
  • 19:42 - 19:44
    também tem...
  • 19:44 - 19:48
    Por exemplo, se quiserem adicionar
    uma restrição
  • 19:48 - 19:52
    vão dizer: "wdt:".
  • 19:52 - 19:57
    Começam a escrever "author"
    e depois clicam em Ctrl+Espaço
  • 19:57 - 19:59
    e vai sugerir-vos várias coisas.
  • 19:59 - 20:02
    Então, isto é semelhante
    ao serviço de consultas da Wikidata,
  • 20:02 - 20:06
    mas para Shape Expressions,
    especificamente.
  • 20:06 - 20:11
    Porque penso que, criar Shape Expressions
  • 20:12 - 20:16
    não é mais difícil do que
    escrever consultas SPARQL.
  • 20:16 - 20:22
    Algumas pessoas pensam
    que o nível de dificuldade é o mesmo.
  • 20:22 - 20:26
    É provavelmente mais fácil
    porque o Shape Expressions era...
  • 20:26 - 20:31
    Quando o concebemos, fizemo-lo
    para que fosse mais fácil trabalhar.
  • 20:32 - 20:37
    Esta é uma das primeiras coisas que têm.
    Este editor para Shape Expressions.
  • 20:37 - 20:41
    Depois, também têm a possibilidade de,
    por exemplo, visualizar.
  • 20:41 - 20:45
    Se tiverem uma Shape Expression,
    usem, por exemplo...
  • 20:45 - 20:49
    Penso que "trabalho escrito" é
    uma boa Shape Expression
  • 20:49 - 20:53
    porque tem algumas relações
    entre diferentes coisas.
  • 20:55 - 20:58
    E isto é a visualização UML
    do trabalho escrito.
  • 20:58 - 21:02
    Numa UML, isto é fácil de ver,
    as diferentes propriedades.
  • 21:03 - 21:07
    Quando fazem isto, apercebi-me que,
    quando o tentei com várias pessoas,
  • 21:07 - 21:09
    encontram alguns erros
    nas suas Shape Expressions
  • 21:09 - 21:13
    porque é fácil detetar quais são
    as propriedades em falta.
  • 21:14 - 21:17
    Depois, temos aqui outra possibilidade
    que é a de poder também validar.
  • 21:17 - 21:20
    Penso que a temos aqui, a validação.
  • 21:20 - 21:25
    Pensava que a tinha nalguma etiqueta.
    Talvez a tenha fechado.
  • 21:26 - 21:31
    Mas podem, por exemplo,
    clicar aqui: Validar entidades.
  • 21:32 - 21:34
    Vocês, por exemplo,
  • 21:35 - 21:42
    "q42" com "e42", que é o autor.
  • 21:43 - 21:46
    Com "humano". Penso que o podemos fazer
    com "humano".
  • 21:49 - 21:50
    E depois é...
  • 21:51 - 21:56
    Está a demorar um pouco a fazê-lo
    porque está a realizar consultas SPARQL.
  • 21:56 - 21:59
    E agora, por exemplo, está a falhar
    por causa da rede. Mas...
  • 22:00 - 22:02
    Podem tentá-lo.
  • 22:03 - 22:07
    Vamos continuar com a apresentação,
    com outras ferramentas.
  • 22:07 - 22:12
    O meu conselho é, se o quiserem tentar
    e se quiserem qualquer feedback, digam-me.
  • 22:13 - 22:16
    Então, para continuar
    com a apresentação...
  • 22:19 - 22:20
    Isto é a WikiShape.
  • 22:24 - 22:27
    Já o disse,
  • 22:28 - 22:34
    o editor de Shape Expressions
    é um projeto independente no GitHub.
  • 22:36 - 22:37
    Podem usá-lo no vosso próprio projeto.
  • 22:37 - 22:41
    Se quiserem construir
    uma ferramenta de Shape Expressions,
  • 22:41 - 22:46
    podem integrá-lo
    em qualquer outro projeto.
  • 22:46 - 22:48
    Está no GitHub e podem usá-lo.
  • 22:49 - 22:52
    O mesmo autor,
    é um dos meus estudantes.
  • 22:53 - 22:56
    Ele também criou um editor
    para Shape Expressions,
  • 22:56 - 22:58
    também inspirado pelo
    serviço de consultas do Wikidata,
  • 22:58 - 23:01
    onde, numa coluna,
  • 23:01 - 23:05
    têm este editor mais visual
    de consultas SPARQL
  • 23:05 - 23:07
    onde podem introduzir este tipo de coisas.
  • 23:07 - 23:09
    Esta é uma captura de ecrã.
  • 23:09 - 23:13
    Podem ver que isto
    é Shape Expressions em texto,
  • 23:13 - 23:16
    mas isto é Shape Expressions
    baseado em formas
  • 23:16 - 23:19
    onde, provavelmente,
    demoraria um pouco mais,
  • 23:19 - 23:23
    onde podem pôr as diferentes colunas
    nos diferentes campos.
  • 23:24 - 23:27
    Depois há o ShExEr.
  • 23:27 - 23:32
    Temos...Foi feito por um estudante
    de doutoramento da Universidade de Oviedo.
  • 23:32 - 23:34
    E ele está cá,
    por isso pode apresentar o ShExEr.
  • 23:38 - 23:40
    (Danny) Olá, eu sou o Danny Fernàndez.
  • 23:40 - 23:43
    Sou um estudante de doutoramento
    na Universidade de Oviedo
  • 23:43 - 23:44
    a trabalhar com o Labra.
  • 23:44 - 23:48
    Já que estamos a ficar sem tempo,
    vamos fazer isto rapidamente.
  • 23:48 - 23:53
    Não faremos uma demonstração,
    mas veremos algumas capturas de ecrã.
  • 23:54 - 23:57
    A forma usual de trabalhar com
    Shape Expressions,
  • 23:57 - 24:00
    ou com qualquer linguagem de formas,
    é ter um perito no domínio
  • 24:00 - 24:02
    que define, a priori,
    como se deve parecer o gráfico,
  • 24:02 - 24:04
    define algumas estruturas.
  • 24:04 - 24:07
    Depois usam essas estruturas
    para comparar os dados e validá-los.
  • 24:08 - 24:12
    Esta ferramenta, que é, tal como aquelas
    que o Labra esteve a apresentar,
  • 24:12 - 24:14
    uma ferramenta polivalente
    para qualquer fonte RDF,
  • 24:14 - 24:17
    está concebida para fazer o contrário.
  • 24:17 - 24:19
    Já têm alguns dados,
  • 24:19 - 24:23
    selecionam que nodos
    querem usar para formar a forma
  • 24:23 - 24:27
    e depois extraem ou inferem
    a forma automaticamente.
  • 24:27 - 24:30
    Então, mesmo sendo
    uma ferramenta polivalente,
  • 24:30 - 24:34
    o que fizemos para este WikidataCon
    foi este botão catita.
  • 24:35 - 24:37
    Se clicarem nele,
    o que acontece, essencialmente,
  • 24:37 - 24:42
    é que, há
    tantos parâmetros de configuração,
  • 24:42 - 24:46
    e ele configura-os para funcionar
    com os parâmetros da Wikidata.
  • 24:46 - 24:48
    Vai acabar em breve, desculpem.
  • 24:49 - 24:53
    Assim que pressionam este botão
    o que obtêm é essencialmente isto.
  • 24:53 - 24:55
    Depois de selecionarem que tipo de nodos,
  • 24:55 - 24:59
    que tipo de instâncias da nossa classe,
    ou seja o que for que estejam a procurar,
  • 24:59 - 25:01
    obtêm um esquema automático.
  • 25:02 - 25:07
    Todas as restrições são resolvidas
    por quantos nodos são conformantes.
  • 25:07 - 25:10
    Podem filtrar os menos comuns, etc.
  • 25:10 - 25:12
    Há um poster lá em baixo
    acerca disto.
  • 25:12 - 25:16
    Eu estarei lá em baixo e cá em cima,
    em todo o lado o dia todo.
  • 25:16 - 25:19
    Por isso, se tiverem interesse adicional
    nesta ferramenta
  • 25:19 - 25:21
    falem comigo durante esta jornada.
  • 25:21 - 25:25
    Vou devolver o microfone ao Labra.
    Obrigado.
  • 25:25 - 25:29
    (aplausos)
  • 25:30 - 25:33
    (Jose) Vamos continuar com
    as outras ferramentas.
  • 25:33 - 25:35
    A outra ferramenta é o ShapeDesigner.
  • 25:35 - 25:37
    Andra, queres falar
    do ShapeDesigner agora
  • 25:37 - 25:39
    ou mais tarde, durante a workshop?
  • 25:39 - 25:41
    Há uma workshop...
  • 25:41 - 25:44
    Esta tarde, há uma workshop,
    especifica para Shape Expressions, e...
  • 25:45 - 25:48
    A ideia é que vai ser mais
    na vertente prática
  • 25:48 - 25:52
    e, se quiserem praticar ShEx,
    podem fazê-lo lá.
  • 25:53 - 25:56
    Esta ferramenta é o ShEx,js.
    Lá está o Eric, ali.
  • 25:56 - 25:57
    Podes apresentá-la.
  • 25:58 - 26:01
    (Eric) Muito rapidamente,
    aquilo que quero dizer
  • 26:01 - 26:06
    é que já viram, provavelmente,
    a interface de ShEx
  • 26:06 - 26:08
    que foi concebida para a Wikidata.
  • 26:08 - 26:13
    Ela foi simplificada e pensada
    especificamente para a Wikidata
  • 26:13 - 26:16
    porque a versão genérica
    tem mais funcionalidades.
  • 26:16 - 26:19
    Mas pensei em mencioná-la
    porque uma dessas funcionalidades
  • 26:19 - 26:23
    é particularmente útil
    para depurar esquemas da Wikidata.
  • 26:23 - 26:29
    A qual é, se selecionarem o modo slurp,
  • 26:29 - 26:31
    o que faz é dizer,
    à medida que estou a validar,
  • 26:31 - 26:33
    que quero puxar
    todos os triplos para baixo.
  • 26:33 - 26:36
    E, isso significa
    que, se tiver um conjunto de falhas,
  • 26:36 - 26:40
    posso verificá-las e começar a olhar
    para essas falhas e dizer
  • 26:40 - 26:42
    quais são os triplos que estão aqui.
  • 26:42 - 26:44
    Peço desculpas, os triplos estão
    aqui em baixo.
  • 26:44 - 26:46
    Isto é só um registo do que aconteceu.
  • 26:46 - 26:49
    Depois, podem limitar-se a remexer
    nisto em tempo real.
  • 26:49 - 26:51
    Brincam com alguma coisa e muda.
  • 26:51 - 26:54
    Então, é uma versão mais rápida
    para fazer todas essas coisas.
  • 26:55 - 26:56
    Este é um formulário ShExC.
  • 26:56 - 26:59
    É algo que o Joachim sugeriu.
  • 27:00 - 27:05
    Pode ser útil para povoar
    documentos da Wikidata
  • 27:05 - 27:07
    baseado numa Shape Expression
    para esse documento.
  • 27:08 - 27:12
    Isto não foi feito
    à medida da Wikidata,
  • 27:12 - 27:14
    mas é apenas para mostrar
    que podem ter um esquema
  • 27:14 - 27:16
    e podem ter algumas anotações
    para especificar
  • 27:16 - 27:18
    como quero apresentar o esquema.
  • 27:18 - 27:19
    Depois, constrói um formulário
  • 27:19 - 27:21
    e, se tiverem dados,
    pode até povoar o formulário.
  • 27:25 - 27:27
    PyShEx [inaudível].
  • 27:27 - 27:28
    (risos)
  • 27:28 - 27:31
    (Jose) Penso que este seja o último.
  • 27:32 - 27:34
    Sim, o último é o PyShEx.
  • 27:35 - 27:38
    O PyShEx é uma implementação
    de Shape Expressions em Python.
  • 27:39 - 27:42
    Podem também experimentar
    o Jupyter Notebooks
  • 27:42 - 27:44
    se quiserem esse tipo de coisas.
    É tudo, para isto.
  • 27:44 - 27:49
    (aplausos)
  • 27:53 - 27:56
    (Andra) Vou falar acerca
    de um projeto específico
  • 27:56 - 27:58
    com o qual estou envolvido
    chamado Gene Wiki
  • 27:58 - 28:05
    e onde também estamos a lidar
    com questões de qualidade.
  • 28:05 - 28:07
    Mas, antes de falar da qualidade,
  • 28:07 - 28:09
    talvez uma pequena apresentação
    acerca do que é o Gene Wiki.
  • 28:10 - 28:15
    Acabámos de lançar uma pré-impressão
    de um artigo que escrevemos recentemente
  • 28:15 - 28:18
    que explica os detalhes do projeto.
  • 28:20 - 28:22
    Tiraram fotografias.
  • 28:22 - 28:24
    Basicamente, o que o Gene Wiki faz
  • 28:24 - 28:28
    é tentar inserir dados biomédicos,
    dados públicos, na Wikidata.
  • 28:28 - 28:32
    Seguimos um padrão específico
    para inserir esses dados na Wikidata.
  • 28:33 - 28:37
    Assim, quando temos um novo repositório,
    ou um novo conjunto de dados
  • 28:37 - 28:39
    que é elegível
    para ser incluído na Wikidata,
  • 28:39 - 28:41
    o primeiro passo
    é o envolvimento da comunidade.
  • 28:41 - 28:44
    Não é dirigido, necessariamente
    a uma comunidade da Wikidata,
  • 28:44 - 28:46
    mas a uma comunidade de pesquisa local.
  • 28:46 - 28:50
    Encontramo-nos em pessoa,
    ou online, ou em qualquer plataforma
  • 28:50 - 28:53
    e tentamos criar um modelo de dados
  • 28:53 - 28:56
    que faça a ponte entre os seus dados
    e o modelo Wikidata.
  • 28:56 - 29:00
    Aqui, tenho uma imagem de uma workshop
    que aconteceu aqui, no ano passado.
  • 29:00 - 29:03
    Estava a tentar olhar
    para um conjunto de dados específico
  • 29:03 - 29:05
    e, enfim, vêm muitas discussões,
  • 29:05 - 29:10
    e depois alinhá-los com o schema.org
    e outras ontologias que por aí andam.
  • 29:10 - 29:16
    Depois, no final do primeiro passo,
    temos um desenho do esquema
  • 29:16 - 29:17
    que queremos implementar na Wikidata.
  • 29:17 - 29:20
    O que vêm aqui, isto é apenas simples,
  • 29:20 - 29:22
    temo-lo lá atrás, ali,
  • 29:22 - 29:25
    e podemos fazer alguns esquemas
    dentro deste painel mesmo hoje.
  • 29:27 - 29:28
    Assim que temos o esquema montado,
  • 29:28 - 29:31
    o próximo passo é tentar fazer
    o esquema da máquina legível.
  • 29:32 - 29:35
    Porque querem ter modelos acionáveis
    para fazer uma ponte
  • 29:35 - 29:39
    com os dados que estão a inserir
    de qualquer base de dados biomédica
  • 29:39 - 29:40
    no Wikidata.
  • 29:42 - 29:46
    Aqui, estamos a aplicar Shape Expressions.
  • 29:48 - 29:53
    Usámo-lo porque permite-vos testar
  • 29:53 - 29:57
    se o conjunto de dados é, na realidade...
    Não. A ver, em primeiro lugar,
  • 29:57 - 30:02
    se os dados que já existem na Wikidata
    seguem o mesmo modelo de dados
  • 30:02 - 30:05
    que foi conseguido no processo anterior.
  • 30:05 - 30:07
    Depois, com a Shape Expression
    podemos verificar:
  • 30:07 - 30:11
    os dados deste tópico na Wikidata,
    será que precisam de uma limpeza
  • 30:11 - 30:15
    ou precisamos de adaptar o nosso modelo
    ao modelo da Wikidata, ou vice-versa?
  • 30:16 - 30:20
    Quando isso estiver definido
    e começarmos a programar bots
  • 30:21 - 30:24
    e os bots estão a passar a informação
  • 30:24 - 30:27
    que está nas fontes primárias
    para a Wikidata.
  • 30:28 - 30:29
    Quando os bots estão prontos...
  • 30:29 - 30:33
    Programamos estes bots
    com uma plataforma chamada...
  • 30:33 - 30:36
    com uma biblioteca de Python
    chamada Wikidata Integrator
  • 30:36 - 30:38
    que foi criada pelo nosso projeto.
  • 30:39 - 30:43
    Uma vez que tenhamos os nossos bots,
    usamos uma plataforma chamada Jenkins
  • 30:43 - 30:45
    para integração contínua.
  • 30:45 - 30:46
    Com o Jenkins,
  • 30:46 - 30:51
    atualizamos constantemente
    as fontes primárias com a Wikidata.
  • 30:52 - 30:56
    Este é um diagrama para o artigo
    que mencionei anteriormente.
  • 30:56 - 30:57
    Esta é a nossa paisagem atual.
  • 30:57 - 31:02
    Cada caixa laranja
    é um recurso primário para drogas,
  • 31:02 - 31:08
    proteínas, genes, doenças
    compostos químicos com interação.
  • 31:08 - 31:11
    Este modelo é muito pequeno
    para ser lido agora,
  • 31:11 - 31:17
    mas esta é a base de dados,
    as fontes, que gerimos na Wikidata
  • 31:17 - 31:21
    e que fazem ponte com as fontes primárias.
  • 31:21 - 31:22
    Aqui está um desses fluxos de trablaho.
  • 31:23 - 31:25
    Um dos nossos parceiros
    é a Disease Ontology.
  • 31:25 - 31:28
    A Disease Ontology é uma ontologia CC0
  • 31:29 - 31:33
    e a ontologia CC0
    tem o seu próprio ciclo de curadoria.
  • 31:33 - 31:36
    Eles atualizam continuamente
    a Disease Ontology
  • 31:36 - 31:40
    para refletir o espaço de doenças
    ou a interpretação de doenças.
  • 31:40 - 31:44
    Há também o ciclo de curadoria
    da Wikidata acerca de doenças
  • 31:44 - 31:48
    onde a comunidade Wikidata
    monitoriza constantemente
  • 31:48 - 31:50
    o que se está a passar na Wikidata.
  • 31:50 - 31:52
    Depois, temos duas funções
  • 31:52 - 31:55
    às quais chamamos, coloquialmente,
    curadores guardiões.
  • 31:57 - 32:00
    Isto sou eu
    e um colega há cinco anos atrás.
  • 32:00 - 32:03
    Ficamos ao computador
    e monitorizamos a Wikipedia e a Wikidata
  • 32:03 - 32:09
    e, se houver alguma questão
    reportada à comunidade primária,
  • 32:09 - 32:12
    aos recursos primários, eles olhavam
    para a implementação e decidiam:
  • 32:12 - 32:14
    "Confiamos nas entradas da Wikidata?"
  • 32:15 - 32:19
    Se sim, é considerada,
    entra no ciclo
  • 32:19 - 32:23
    e na próxima iteração
    faz parte da Disease Ontology
  • 32:23 - 32:25
    e é fornecida à Wikidata.
  • 32:27 - 32:31
    Estamos a fazer o mesmo
    com a WikiPathways.
  • 32:31 - 32:35
    A WikiPathways é um percurso
    inspirado na wiki
  • 32:35 - 32:37

    e um repositório de percursos.
  • 32:37 - 32:41
    É a mesma história, já há diferentes
    recursos de percursos na Wikidata.
  • 32:41 - 32:45
    Podem haver conflitos entre
    esses recursos de percursos
  • 32:45 - 32:47
    e esses conflitos são comunicados de volta
  • 32:47 - 32:50
    pelos curadores guardiões
    a essa comunidade
  • 32:50 - 32:54
    mantendo-se os ciclos
    individuais de curadoria.
  • 32:54 - 32:57
    Mas, se se lembrarem do ciclo anterior,
  • 32:57 - 33:03
    mencionei aqui
    apenas dois ciclos, dois recursos.
  • 33:04 - 33:06
    Temos de fazer isto
    para cada recurso individual que temos
  • 33:06 - 33:09
    e temos de gerir o que se passa
    porque, quando falo em curadoria,
  • 33:09 - 33:11
    quero dizer ir
    às páginas de topo da Wikipedia,
  • 33:11 - 33:15
    às páginas de topo da Wikidata,
    e tentar fazer isso.
  • 33:15 - 33:19
    Isso é muito para os dois curadores
    guardiões que tínhamos.
  • 33:20 - 33:23
    Por isso,
    quando estive numa conferência em 2016,
  • 33:23 - 33:27
    onde o Eric fez uma apresentação
    sobre Shape Expressions,
  • 33:27 - 33:29
    aderi à onda e disse: "Está bem.
  • 33:29 - 33:34
    o Shape Expressions pode ajudar-nos
    a detetar as diferenças na Wikidata
  • 33:34 - 33:38
    e isso permite que os guardiões tenham
  • 33:38 - 33:42
    relatórios mais eficientes
    para comunicar."
  • 33:42 - 33:46
    Então, este ano, fiquei deliciado
    com a entidade de esquemas
  • 33:46 - 33:51
    porque, agora, podemos guardar
    esses esquemas de entidades na Wikidata,
  • 33:51 - 33:54
    mesmo na Wikidata,
    enquanto, antes, estavam no GitHub,
  • 33:54 - 33:57
    e isto está em sintonia
    com a interface da Wikidata.
  • 33:57 - 33:59
    Então, têm coisas
    como discussões de documentos
  • 33:59 - 34:01
    mas também têm revisões.
  • 34:01 - 34:05
    Assim, podem impulsionar as páginas
    de topo e as revisões na Wikidata
  • 34:05 - 34:12
    para usar isso para debater
    acerca do que está na Wikidata
  • 34:12 - 34:14
    e o que está nos recursos primários.
  • 34:15 - 34:20
    Isto, que o Eric acabou de apresentar,
    já é um grande benefício.
  • 34:20 - 34:24
    Aqui, fizemos uma Shape Expression
    para o gene humano
  • 34:24 - 34:30
    e, depois, passámos-la através
    de uma ShEx simples e, como podem ver,
  • 34:30 - 34:32
    já temos no...
  • 34:32 - 34:35
    Existe uma questão
    que precisa de ser monitorizada,
  • 34:35 - 34:37
    onde há um item
    que não encaixa naquele esquema
  • 34:37 - 34:43
    e, depois, podem já criar relatórios
    de curadoria de entidades de esquemas
  • 34:43 - 34:46
    baseados em... e enviar isto para
    os diferentes relatórios de curadoria.
  • 34:48 - 34:53
    Mas, o ShEx.js é uma interface construída
  • 34:53 - 34:56
    e, se puder mostrar cá atrás,
    faço apenas dez,
  • 34:56 - 35:00
    mas temos dezenas de milhares
    e, por isso, não é escalável.
  • 35:00 - 35:05
    Agora, o Wikidata Integrator
    também suporta ShEx
  • 35:05 - 35:07
    e podemos repetir iterações de itens
  • 35:07 - 35:11
    onde dizemos "sim, não", "sim, não"
    "verdadeiro, falso", "verdadeiro, falso".
  • 35:11 - 35:12
    Então,
  • 35:13 - 35:17
    aumentar um pouco a eficiência
    ao lidar com os relatórios.
  • 35:17 - 35:23
    Mas, agora, isso dificulta
    o Wikidata Query Service
  • 35:23 - 35:25
    e, recentemente, tivemos estrangulamentos.
  • 35:25 - 35:27
    Por isso, novamente, não é escalável.
  • 35:27 - 35:31
    É ainda um processo em curso,
    o como lidar com modelos na Wikidata.
  • 35:32 - 35:37
    E, ShEx é, não só intimidante,
  • 35:37 - 35:40
    como a escala é demasiado grande
    para lidarmos com ela.
  • 35:41 - 35:45
    Então, eu comecei a trabalhar. Esta é
    a minha primeira validação do conceito,
  • 35:45 - 35:48
    ou exercício,
    onde usei uma ferramenta chamada yED.
  • 35:48 - 35:53
    Comecei a desenhar aquelas Shape
    Expressions e, porque...
  • 35:53 - 35:58
    E depois, regenerei este esquema
  • 35:58 - 36:01
    no seu formato adjacente
    de Shape Expressions.
  • 36:01 - 36:05
    Isto iria abrir-se à audiência
  • 36:05 - 36:07
    que está intimidada
    pelas linguagens Shape Expressions.
  • 36:08 - 36:12
    Mas, há um problema
    com essas descrições visuais
  • 36:12 - 36:18
    porque isto também é um esquema
    que foi desenhado em yEd por alguém.
  • 36:18 - 36:24
    E aqui está outro,
    que é belíssimo.
  • 36:24 - 36:30
    Adorava ter isto na minha parede,
    mas continua a não ser interoperável.
  • 36:30 - 36:32

    Quero acabar a minha palestra com...
  • 36:32 - 36:36
    É a primeira vez que...
    Tenho roubado e usado este slide.
  • 36:36 - 36:38
    É uma honra tê-lo na audiência.
  • 36:38 - 36:39
    Gosto realmente disto:
  • 36:39 - 36:42
    "As pessoas acham que RDF é chato
    porque é complicado.
  • 36:42 - 36:44
    A verdade á ainda pior. É tão simples
  • 36:46 - 36:48
    porque temos de trabalhar
    com problemas do mundo real
  • 36:48 - 36:50
    que são horrivelmente complicados.
  • 36:50 - 36:51
    Embora possam evitar o RDF,
  • 36:51 - 36:56
    é mais difícil evitar dados complicados
    e problemas computacionais complicados."
  • 36:56 - 37:00
    Isto é acerca de RDF, mas penso
    que também pode ser aplicado à modelação.
  • 37:00 - 37:03
    Então, o meu argumento é,
    devemos realmente...
  • 37:03 - 37:06
    Como é que avançamos com a modelação?
  • 37:06 - 37:11
    Devemos discutir ShEx
    ou modelos visuais, ou...
  • 37:11 - 37:13
    Como é que continuamos?
  • 37:13 - 37:15
    Muito obrigado pelo vosso tempo.
  • 37:15 - 37:20
    (aplausos)
  • 37:20 - 37:21
    (Lydia) Muito obrigada.
  • 37:22 - 37:24
    Venham para a frente
  • 37:24 - 37:28
    para podermos abrir
    as questões da audiência.
  • 37:29 - 37:30
    Existem questões?
  • 37:32 - 37:33
    Sim.
  • 37:34 - 37:37
    E, penso...
    Para a câmara, precisamos de...
  • 37:39 - 37:41
    (Lydia a rir) Sim.
  • 37:43 - 37:46
    (Interveniente 1) Uma questão para a
    Cristina, penso eu.
  • 37:47 - 37:52
    Mencionou, exatamente,
    o termo "ganho de informação"
  • 37:52 - 37:54
    devido à ligação com outros sistemas.
  • 37:54 - 37:55
    Existe uma medida teórica de informação
  • 37:55 - 37:58
    que usa estatística e probabilidade
    e se chama ganho de informação.
  • 37:58 - 38:00
    Tem o mesmo...
  • 38:00 - 38:02
    Quero dizer, estava a falar
    exatamente dessa medida,
  • 38:02 - 38:04
    do ganho de informação
    da teoria de probabilidade,
  • 38:04 - 38:07
    da teoria de informação,
    ou apenas a usar esta entidade conceptual
  • 38:07 - 38:09
    para medir o ganho de informação
    de alguma forma?
  • 38:09 - 38:13
    (Cristina) Não.
    Nós definimos e implementamos medidas
  • 38:14 - 38:20
    que estão a usar a entropia de Shannon,
    por isso, é isso que significa.
  • 38:20 - 38:23
    Não queria entrar em detalhes
    acerca das fórmulas concretas...
  • 38:23 - 38:25
    (Interveniente 1) Não, claro.
    Daí a pergunta.
  • 38:25 - 38:27
    - (Cristina) Mas sim...
    - (Interveniente 1) Obrigado.
  • 38:33 - 38:35
    (Interveniente 2) Faço um
    comentário, mais que uma questão.
  • 38:35 - 38:36
    (Lydia) Força.
  • 38:36 - 38:40
    (Interveniente 2) Tem havido
    muito ênfase ao nível do item,
  • 38:40 - 38:43
    acerca de qualidade e integridade.
  • 38:43 - 38:44
    Uma das coisas que me preocupa é
  • 38:44 - 38:49
    não estarmos a aplicar o mesmo
    às hierarquias e penso que temos a questão
  • 38:49 - 38:51
    das nossas hierarquias
    não serem boas, com frequência.
  • 38:51 - 38:53
    Estamos a ver
    que isto vai ser um problema real
  • 38:53 - 38:56
    com a pesquisa de Commons e outras coisas.
  • 38:57 - 39:01
    Uma das coisas que conseguimos fazer
    é importar externa...
  • 39:01 - 39:05
    Da forma como os thesaurus externos
    estruturam as suas hierarquias,
  • 39:05 - 39:10
    usando o qualificador
    de conceitos mais geral P4900.
  • 39:11 - 39:16
    Mas, o que penso que seria realmente útil,
    seriam melhores ferramentas para o fazer
  • 39:16 - 39:21
    para que possamos importar uma
    hierarquia de thesaurus externa,
  • 39:21 - 39:24
    mapeá-la nos nossos itens da Wikidata.
  • 39:24 - 39:28
    Uma vez implementada
    com esses qualificadores P4900,
  • 39:28 - 39:31
    podemos fazer ótimas
    consultas através de SPARQL
  • 39:32 - 39:38
    para ver onde é que a nossa hierarquia
    diverge dessa hierarquia externa.
  • 39:38 - 39:41
    Por exemplo, como podem saber,
    Paula Morma, o utilizador PKM
  • 39:41 - 39:44
    faz muito trabalho em moda.
  • 39:44 - 39:47
    Por isso, usamos isso para puxar
  • 39:47 - 39:51
    a hierarquia
    do Thesaurus Europeana Fashion
  • 39:51 - 39:54
    e a hierarquia do thesauros de moda
    Getty AAT.
  • 39:54 - 39:58
    Depois, vemos onde as lacunas
    estavam nos nossos itens de alto nível,
  • 39:58 - 40:01
    que são um problema real para nós
    porque, com frequência,
  • 40:01 - 40:04
    estas são coisas que só existem
    como páginas de desambiguação na Wikipedia
  • 40:04 - 40:07
    e, por isso,
    temos muitos itens de alto nível
  • 40:07 - 40:09
    a faltar nas nossas hierarquias.
  • 40:09 - 40:14
    Isto é algo que precisamos de abordar
    em termos de qualidade e de integridade.
  • 40:14 - 40:16
    O que realmente ajudaria
  • 40:17 - 40:21
    seriam melhores ferramentas
    que a selva de scripts que escrevi.
  • 40:21 - 40:26
    Se alguém pudesse pôr isso
    num bloco de notas PAWS em Python,
  • 40:27 - 40:32
    ser capaz de receber um thesaurus
    externo, pegar na sua hierarquia,
  • 40:32 - 40:35
    a qual pode muito bem estar disponível
    como dados ligados, ou pode não estar,
  • 40:35 - 40:38
    para depois transferi-lo para
    declarações rápidas
  • 40:38 - 40:41
    para pôr em valores P4900.
  • 40:41 - 40:42
    E, mais tarde,
  • 40:42 - 40:47
    quando a nossa representação
    ficar mais completa, atualizar os P4900s.
  • 40:47 - 40:51
    Porque, à medida que a nossa representação
    fica ultrapassada, fica mais densa.
  • 40:52 - 40:55
    Os valores desses qualificadores
    precisam de mudar
  • 40:56 - 41:00
    para representar que temos mais
    da sua hierarquia no nosso sistema.
  • 41:00 - 41:04
    Se alguém pudesse fazer isso,
    penso que seria muito útil.
  • 41:04 - 41:07
    Também precisamos
    de olhar para outras estratégias
  • 41:07 - 41:11
    para aumentar a qualidade
    e a integridade ao nível da hierarquia,
  • 41:11 - 41:12
    não só ao nível do item.
  • 41:13 - 41:15
    (Andra) Posso acrescentar algo?
  • 41:16 - 41:20
    Sim. E, na realidade, fazemos isso.
  • 41:20 - 41:24
    Posso recomendar olhar
    para a Shape Expression que o Finn fez
  • 41:24 - 41:27
    com os dados léxicos
    onde ele cria Shape Expressions
  • 41:27 - 41:30
    e depois desenvolve
    sobre outras Shape Expressions.
  • 41:30 - 41:33
    Têm este conceito
    de Shape Expressions ligadas na Wikidata
  • 41:33 - 41:35
    e, especificamente, o caso de uso,
    se entendi bem,
  • 41:35 - 41:37
    é exatamente o que estamos a fazer
    na Gene Wiki.
  • 41:37 - 41:41
    Têm a Disease Ontology
    que é posta na Wikidata
  • 41:41 - 41:45
    e, depois, dados de doenças entram
    e aplicamos Shape Expressions
  • 41:45 - 41:47
    para ver se encaixam com este thesaurus.
  • 41:47 - 41:51
    Existem outros thesaurus, ou outras
    ontologias, para vocabulários controlados
  • 41:51 - 41:53
    que ainda precisam
    de ser inseridos na Wikidata.
  • 41:53 - 41:55
    E é exatamente por isso que
    o Shape Expressions é tão interessante.
  • 41:55 - 41:58
    Porque podemos ter uma Shape Expression
    para a Disease Ontology,
  • 41:58 - 42:00
    uma Shape Expression para o MeSH.
  • 42:00 - 42:02
    Pode dizer: "Agora
    quero verificar a qualidade."
  • 42:02 - 42:04
    Porque também tem,
    na Wikidata, o contexto
  • 42:04 - 42:06
    de quando tem um vocabulário controlado.
  • 42:07 - 42:10
    Diz que a qualidade
    está de acordo com isto
  • 42:10 - 42:12
    mas pode ter uma
    comunidade discordante.
  • 42:12 - 42:14
    Por isso, as ferramentas
    já estão implementadas,
  • 42:14 - 42:16
    mas, agora, precisamos
    de criar esses modelos
  • 42:16 - 42:18
    e aplicá-los
    aos diferentes casos de uso.
  • 42:19 - 42:21
    (Interveniente 2)
    Uma Shape Expression é muito útil
  • 42:21 - 42:26
    logo que tenha a ontologia externa
    mapeada na Wikidata.
  • 42:26 - 42:29
    Mas, o meu problema é que
    está a chegar aquele ponto.
  • 42:29 - 42:35
    Que é perceber quanto da ontologia externa
    não está ainda na Wikidata
  • 42:35 - 42:36
    e onde estão as lacunas.
  • 42:36 - 42:41
    É aí que penso que
    ter ferramentas mais robustas
  • 42:41 - 42:44
    para ver o que está em falta
    de ontologias externas
  • 42:44 - 42:46
    seria muito útil.
  • 42:47 - 42:49
    (Andra) O maior problema aqui
  • 42:49 - 42:51
    é, não tanto as ferramentas,
    mas mais o licenciamento.
  • 42:52 - 42:55
    Pôr as ontologias na Wikidata
    é, na realidade, muito fácil.
  • 42:55 - 42:59
    Mas, a maioria das ontologias têm,
    como é que o posso dizer educadamente,
  • 43:00 - 43:03
    licenciamento restritivo e, por isso,
    não são compatíveis com a Wikidata.
  • 43:04 - 43:07
    (Interveniente 2) Existe um enorme número
    de thesaurus do setor público
  • 43:07 - 43:08
    em setores culturais.
  • 43:08 - 43:11
    - (Andra) Então precisamos de falar.
    - (Interveniente 2) Sem problema.
  • 43:11 - 43:12
    (Andra) Então, precisamos de falar.
  • 43:14 - 43:16
    (Interveniente 3) O comentário
    que quero fazer
  • 43:16 - 43:19
    é uma resposta para o James.
  • 43:20 - 43:22
    O que acontece é que
    hierarquias fazem gráficos
  • 43:22 - 43:24
    e quando queremos...
  • 43:24 - 43:29
    Quero falar acerca de um
    problema comum em hierarquias,
  • 43:29 - 43:31
    que são hierarquias circulares.
  • 43:31 - 43:34
    Elas voltam umas às outras
    quando há um problema.
  • 43:34 - 43:36
    Não devíamos ter isso com hierarquias.
  • 43:37 - 43:41
    É engraçado que isto
    acontece muito em categorias na Wikipedia.
  • 43:41 - 43:43
    Temos muitos círculos em categorias.
  • 43:44 - 43:47
    Mas, a boa notícia é que...
  • 43:48 - 43:52
    Tecnicamente, é um problema completo PMP,
    por isso não o conseguimos encontrar,
  • 43:52 - 43:54
    e facilmente, se construirmos
    um gráfico a partir disso,
  • 43:54 - 43:57
    mas há muitas formas
    que foram desenvolvidas
  • 43:57 - 44:01
    para encontrar problemas
    nestes gráficos de hierarquia.
  • 44:01 - 44:05
    Existe um artigo
    chamado Finding Cycles...
  • 44:05 - 44:08
    Breaking Cycles in Noisy Hierachies.
  • 44:08 - 44:13
    Tem sido usado para ajudar
    na classificação da Wikipedia inglesa.
  • 44:13 - 44:17
    Podemos pegar nisto
    e aplicar estas hierarquias na Wikidata
  • 44:17 - 44:20
    e, depois, podemos encontrar
    coisas que são problemáticas
  • 44:20 - 44:22
    e remover as que estão
    a causar problemas.
  • 44:22 - 44:25
    E encontrar os problemas, na realidade.
  • 44:26 - 44:28
    Isto é só uma ideia, para que...
  • 44:29 - 44:31
    (Interveniente 2) Está tudo muito bem,
    mas acho que está a subestimar
  • 44:31 - 44:35
    o número de más relações de subclasse
    que nós temos.
  • 44:35 - 44:40
    É como ter uma cidade
    que está completamente no país errado.
  • 44:40 - 44:45
    Existem ferramentas para geografia,
    para identificar isso.
  • 44:45 - 44:49
    Precisamos de ter
    muito melhores ferramentas em hierarquias
  • 44:49 - 44:53
    para identificar onde o equivalente
    do item para o país
  • 44:53 - 44:58
    esteja a faltar completamente
    ou se foi subclassificado
  • 44:58 - 45:02
    como algo que não signifique
    algo completamente diferente.
  • 45:03 - 45:07
    (Lydia) Sim, penso
    que está a chegar a algo
  • 45:07 - 45:12
    que eu e a minha equipa ouvimos sempre
    de pessoas que reutilizam os nossos dados.
  • 45:12 - 45:14
    Com frequência, também.
  • 45:15 - 45:17
    Dados pontuais podem ser ótimos,
  • 45:17 - 45:20
    mas, se temos de olhar
    para a ontologia, etc,
  • 45:20 - 45:22
    torna-se muito...
  • 45:22 - 45:26
    Penso que um dos grandes problems
    que causa isto
  • 45:26 - 45:31
    é que muita da edição na Wikidata
  • 45:31 - 45:35
    acontece baseada
    num item individual, não é?
  • 45:35 - 45:36
    Fazemos uma edição nesse item
  • 45:38 - 45:42
    sem nos darmos conta que isto
    pode ter consequências globais
  • 45:42 - 45:44
    no resto do gráfico, por exemplo.
  • 45:44 - 45:50
    E, se as pessoas têm ideias
    sobre como tornar isto mais visível,
  • 45:50 - 45:53
    as consequências de uma
    edição local individual,
  • 45:54 - 45:57
    penso que seria útil explorá-lo.
  • 45:58 - 46:02
    Para melhor mostrar às pessoas
    as consequências das suas edições,
  • 46:02 - 46:03
    que elas podem estar a fazer de boa fé,
  • 46:04 - 46:05
    quais são elas.
  • 46:08 - 46:12
    (Risos) Muito bem. Vamos começar consigo,
    depois você, depois você e depois você.
  • 46:12 - 46:14
    (Interveniente 3) Bem, depois do debate,
  • 46:14 - 46:18
    só para exprimir a minha concordância
    com o que o James estava a dizer.
  • 46:18 - 46:22
    Essencialmente, parece
    que a coisa mais perigosa é a hierarquia.
  • 46:22 - 46:24
    Não a hierarquia, mas, de forma geral,
  • 46:24 - 46:28
    a semântica das relações de subclasse
    vistas na Wikidata, certo?
  • 46:28 - 46:33
    Estive a estudar linguagens recentemente,
    apenas para esta conferência
  • 46:33 - 46:35
    e, por exemplo, encontram-se muitos casos
  • 46:35 - 46:39
    onde a linguagem é parte de
    e uma subclasse da mesma coisa.
  • 46:40 - 46:44
    Podemos dizer que temos
    uma ontologia flexível.
  • 46:44 - 46:46
    A Wikidata dá-nos a liberdade
    de exprimir isso, por vezes.
  • 46:46 - 46:47
    Porque, por exemplo
  • 46:47 - 46:51
    essa ontologia de linguagens
    é também politicamente complicada, certo?
  • 46:51 - 46:55
    É bom estar numa posição que nos permita
    expressar um nível de incerteza.
  • 46:55 - 46:58
    Mas imaginem alguém a querer
    fazer leitura ótica a partir disso.
  • 46:58 - 46:59
    É mesmo problemático.
  • 46:59 - 47:00
    E, depois,
  • 47:00 - 47:04
    não penso que a ontologia
    seja algo que foi importada de algures,
  • 47:04 - 47:05
    é algo que é originalmente nosso.
  • 47:05 - 47:08
    Diria que foi colhida da Wikipedia
    mesmo no início.
  • 47:08 - 47:11
    Por isso pergunto-me... Esta
    coisa do Shape Expressions é ótima,
  • 47:11 - 47:16
    e também validadora e reparadora.
    A ontologia da Wikidata
  • 47:16 - 47:18
    a partir de recursos externos
    é uma bela ideia.
  • 47:19 - 47:20
    No final,
  • 47:20 - 47:25
    acabaremos por refletir
    as ontologias externas na Wikidata?
  • 47:25 - 47:29
    E também, o que fazemos
    com a parte central da nossa ontologia
  • 47:29 - 47:31
    que nunca é colhida
    a partir de recursos externos.
  • 47:31 - 47:32
    Como é que solucionamos isso?
  • 47:32 - 47:35
    Penso, realmente, que isso
    será um problema por si só.
  • 47:35 - 47:39
    Teremos de nos focar nisso
    independentemente da ideia
  • 47:39 - 47:41
    de validar a ontologia com algo externo.
  • 47:43 - 47:45
    (Lydia aponta para a audiência)
  • 47:49 - 47:53
    (Interveniente 4) Restrições e formas
    são muito impressionantes,
  • 47:53 - 47:55
    aquilo que podemos fazer com elas,
  • 47:55 - 47:58
    mas o ponto principal
    não está claro.
  • 47:58 - 48:03
    Porque agora podemos tornar mais explícito
    o que esperamos dos dados.
  • 48:03 - 48:07
    Antes, cada um tinha de escrever
    as suas próprias ferramentas e scripts.
  • 48:07 - 48:11
    Por isso, é mais visível
    e podemos discuti-lo.
  • 48:11 - 48:14
    Mas porque não é sobre
    o que está errado ou certo,
  • 48:14 - 48:16
    é acerca de uma expectativa.
  • 48:16 - 48:18
    Vocês terão
    diferentes expectativas e debates
  • 48:18 - 48:21
    acerca de como queremos
    modelar as coisas na Wikidata
  • 48:21 - 48:23
    e isto...
  • 48:23 - 48:26
    O estado atual é apenas
    um passo na direção
  • 48:26 - 48:28
    porque agora precisamos
  • 48:28 - 48:31
    de muito conhecimento especializado
    para lidarmos com isto.
  • 48:31 - 48:36
    Precisamos de formas melhores
    de visualizar esta restrição,
  • 48:36 - 48:38
    para a transformar,
    porventura em linguagem natural,
  • 48:38 - 48:41
    para que as pessoas
    melhor a possam entender.
  • 48:41 - 48:44
    Mas não é tanto
    acerca do errado ou do certo.
  • 48:45 - 48:46
    (Lydia) Sim.
  • 48:51 - 48:54
    (Interveniente 5) Para questões
    de qualidade, só quero fazer eco...
  • 48:54 - 48:57
    Definitivamente, encontrei muitos
    dos problemas. Encontrei...
  • 48:59 - 49:02
    diferenças de opinião
    entre "instâncias de" versus "subclasse".
  • 49:02 - 49:06
    Diria, erros, nestas situações.
  • 49:06 - 49:12
    E tentar encontrá-los
    tem sido um processo moroso.
  • 49:12 - 49:15
    O que encontrei foi:
    "Se eu encontrar itens de grande impressão
  • 49:15 - 49:16
    que são algo...
  • 49:16 - 49:19
    e depois usar
    todas as instâncias das subclasses
  • 49:19 - 49:22
    para encontrar
    todas as declarações derivadas disto."
  • 49:22 - 49:26
    Esta é uma forma muito útil
    de olhar para estes erros.
  • 49:26 - 49:29
    Mas eu estava curioso para saber
    se o Shape Expressions...
  • 49:30 - 49:32
    se há...
  • 49:32 - 49:35
    Se isto pode ser usado como ferramenta
    para ajudar a resolver estas questões.
  • 49:35 - 49:37
    Mas sim...
  • 49:41 - 49:43
    (Interveniente 6) Se tem
    uma pegada estrutural...
  • 49:46 - 49:49
    Se tem uma pegada estrutural
    que podemos... que seja falsificável.
  • 49:49 - 49:51
    Podemos olhar para isso
    e dizer: "Está errado."
  • 49:51 - 49:53
    Então sim, podemos fazer isso.
  • 49:53 - 49:57
    Mas se for só tentar mapeá-lo
    para objetos do mundo real
  • 49:57 - 49:59
    então vai precisar
    de muitos cérebros.
  • 50:06 - 50:09
    (Interveniente 7) Olá. Pablo Mendes
    do Siri Knowledge da Apple.
  • 50:09 - 50:13
    Estamos aqui para descobrir como ajudar
    o projeto e a comunidade,
  • 50:13 - 50:16
    mas a Cristina cometeu o erro
    de perguntar o que queríamos.
  • 50:16 - 50:20
    (risos) Por isso, penso
    que uma das coisas que gostaria de ver
  • 50:21 - 50:24
    gira à volta da verificabilidade,
  • 50:24 - 50:26
    que é um dos princípios chave
    do projeto na comunidade.
  • 50:27 - 50:29
    E confiabilidade.
  • 50:29 - 50:32
    Nem todas as declarações são iguais,
    algumas são fortemente disputadas,
  • 50:32 - 50:34
    outras são fáceis de adivinhar.
  • 50:34 - 50:36
    A data de nascimento de alguém
    pode ser verificada,
  • 50:36 - 50:39
    como viram hoje na Keynote,
    questões de género são mais complicadas.
  • 50:40 - 50:42
    Podem discutir um pouco do que sabem
  • 50:42 - 50:47
    nesta área de qualidade de dados, acerca
    de confiabilidade e de verificabilidade?
  • 50:51 - 50:53
    (risos)
  • 50:55 - 50:58
    Se não há muito,
    gostaria de ver muito mais. (risos)
  • 51:01 - 51:02
    (Lydia) Sim.
  • 51:04 - 51:07
    Aparentemente, não temos muito a dizer
    acerca disso. (risos)
  • 51:09 - 51:12
    (Andra) Penso que podemos fazer muito,
    mas tive uma discussão consigo ontem.
  • 51:12 - 51:16
    O meu exemplo preferido que, soube ontem,
    foi descontinuado,
  • 51:16 - 51:20
    é, se forem ao Q2, que é Terra,
  • 51:20 - 51:23
    existe uma declaração
    que reivindica que a Terra é plana.
  • 51:24 - 51:26
    Adoro esse exemplo
  • 51:26 - 51:28
    porque há uma comunidade
    por aí que afirma isso
  • 51:28 - 51:30
    e eles têm recursos verificáveis.
  • 51:30 - 51:32
    Por isso, penso que seja um caso genuíno.
  • 51:32 - 51:35
    Não deve ser descontinuado,
    deve estar na Wikidata.
  • 51:35 - 51:40
    E penso que o Shape Expressions
    pode ser fundamental aqui,
  • 51:40 - 51:42
    porque podem dizer:
  • 51:42 - 51:45
    "Sim, estou mesmo interessado
    neste caso de uso",
  • 51:45 - 51:47
    ou que este é um caso de uso
    com o qual não concordam.
  • 51:47 - 51:51
    Mas também pode haver um caso de uso
    onde dizem: "Estou interessado."
  • 51:51 - 51:53
    Há este exemplo. Dizem:
    "Tenho glucose."
  • 51:53 - 51:56
    E a glucose, se forem um biólogo,
  • 51:56 - 52:00
    As restrições químicas
    da molécula de glucose não vos interessam,
  • 52:00 - 52:03
    apenas... tudo o que seja
    glucose é o mesmo.
  • 52:03 - 52:06
    Mas, se forem um químico,
    arrepiam-se ao ouvir isso.
  • 52:06 - 52:08
    Têm 200 e tal...
  • 52:08 - 52:10
    Depois, podem ter
    Shape Expressions múltiplas.
  • 52:10 - 52:13
    Vou entrar com...
    Estou no ponto de vista de um químico,
  • 52:13 - 52:14
    vou aplicar isso.
  • 52:14 - 52:17
    E depois, dizem,
    "sou um caso de uso de um biólogo",
  • 52:17 - 52:19
    e aplicam essa Shape Expression.
  • 52:19 - 52:20
    E, quando quiserem colaborar,
  • 52:20 - 52:23
    deviam falar com o Eric acerca
    dos mapas ShEx.
  • 52:25 - 52:29
    Esta jornada está apenas a começar.
  • 52:29 - 52:32
    Mas acredito que seja muito
    instrumental nessa área.
  • 52:34 - 52:36
    (Lydia) Ali.
  • 52:38 - 52:39
    (risos)
  • 52:41 - 52:46
    (Interveniente 8) Tive várias ideias
    para alguns pontos na discussão,
  • 52:46 - 52:51
    por isso, vou tentar não perder...
    Tive três ideias, por isso...
  • 52:52 - 52:55
    Baseado no que o James disse há pouco,
  • 52:55 - 52:59
    temos um grande problema
    na Wikidata desde o início
  • 52:59 - 53:02
    para a ontologia superior.
  • 53:02 - 53:05
    Falámos acerca disso
    há dois anos na WikidataCon
  • 53:05 - 53:07
    e falámos acerca disso na Wikimania.
  • 53:07 - 53:10
    Sempre que temos um encontro da Wikidata
  • 53:10 - 53:12
    estamos a falar sobre isso.
  • 53:12 - 53:16
    Porque é um grande problema
    que está muito visível:
  • 53:16 - 53:23
    que entidade é, com que trabalho é,
    que género é, arte,
  • 53:23 - 53:25
    são realmente o maior conceito.
  • 53:26 - 53:33
    E isso é um ponto muito fraco
    na ontologia global
  • 53:33 - 53:37
    porque as pessoas
    tentam fazer limpezas regularmente
  • 53:38 - 53:41
    e quebram tudo o que está a montante.
  • 53:43 - 53:49
    Penso que alguns de vocês
    se devem lembrar do tipo que, em boa-fé,
  • 53:49 - 53:52
    quebrou todas as cidades do mundo.
  • 53:52 - 53:58
    Já não eram itens geográficos. Por isso,
    violações de restrições por todo o lado.
  • 53:59 - 54:00
    E foi feito em boa fé,
  • 54:00 - 54:04
    porque ele estava a corrigir
    um erro num item,
  • 54:04 - 54:06
    mas quebrou tudo.
  • 54:06 - 54:09
    Não tenho a certeza de como
    podemos resolver isso
  • 54:10 - 54:16
    porque não há, atualmente, nenhuma
    instituição externa que possamos copiar
  • 54:16 - 54:18
    porque toda a gente está a trabalhar em...
  • 54:19 - 54:22
    Se eu for base de dados
    de artes performativas
  • 54:22 - 54:25
    limito-me a ir
    à etiqueta de artes performativas
  • 54:25 - 54:29
    ou não irei ao conceito filosófico
    do que é aquela entidade
  • 54:29 - 54:31
    e isso é, na realidade...
  • 54:31 - 54:35
    Não conheço nenhuma base de dados
    que esteja a trabalhar a este nível,
  • 54:35 - 54:37
    mas esse é o ponto mais fraco da Wikidata.
  • 54:38 - 54:41
    E, provavelmente, quando falamos
    de qualidade de dados,
  • 54:41 - 54:44
    isso é uma grande parte, por isso...
  • 54:44 - 54:49
    Penso que é o mesmo
    que afirmamos em...
  • 54:49 - 54:50
    Desculpem, estou a mudar de assunto,
  • 54:51 - 54:56
    mas afirmámos, em diferentes sessões
    acerca de qualidade,
  • 54:56 - 54:59
    que alguns de nós estão a fazer
    um bom trabalho de modelação,
  • 54:59 - 55:02
    estamos a fazer ShEx,
    estamos a fazer coisas como essa.
  • 55:02 - 55:08
    As pessoas não o veem na Wikidata,
    não veem o ShEx,
  • 55:08 - 55:10
    não veem o WikiProject
    na página de discussão
  • 55:10 - 55:15
    e, por vezes,
    nem veem a página de topo das propriedades
  • 55:15 - 55:20
    que diz, explicitamente:
    a) Esta propriedade é usada para isto.
  • 55:20 - 55:24
    Como na semana passada.
    Eu adicionei restrições a uma propriedade.
  • 55:24 - 55:29
    A restrição estava escrita explicitamente
    na discussão da criação da propriedade.
  • 55:29 - 55:35
    Eu criei apenas a parte técnica
    de adicionar a restrição, e alguém:
  • 55:35 - 55:37
    "O quê? Quebraste
    todas as minhas edições!"
  • 55:37 - 55:42
    Ele esteve a usar a propriedade
    erradamente nos útlimos dois anos.
  • 55:42 - 55:47
    A propriedade era bastante clara,
    mas não havia avisos.
  • 55:47 - 55:49
    É o mesmo no Pink Pony.
  • 55:49 - 55:52
    Dissemos, na Wikimedia que deviamos
    tornar o WikiProject mais visível
  • 55:52 - 55:55
    ou tornar o ShEx mais visível, mas...
  • 55:55 - 55:57
    E isso foi o que a Cristina disse.
  • 55:57 - 56:02
    Temos um problema de visibilidade,
    do que são as soluções.
  • 56:02 - 56:04
    E, nesta sessão,
  • 56:04 - 56:07
    estamos todos a falar acerca
    de como criar mais ShEx,
  • 56:07 - 56:11
    ou de facilitar o trabalho
    das pessoas que estão a fazer a limpeza.
  • 56:12 - 56:16
    Mas, estamos a limpar
    desde o primeiro dia da Wikidata
  • 56:16 - 56:18
    e, globalmente, estamos a perder.
  • 56:19 - 56:23
    Estamos a perder porque,
    se eu sei que os nomes são complicados,
  • 56:23 - 56:26
    mas eu sou a única a fazer
    o trabalho de limpeza...
  • 56:27 - 56:30
    A pessoa que adicionou
    nome de script em Latim
  • 56:30 - 56:32
    a todos os investigadores chineses.
  • 56:32 - 56:36
    Vou demorar meses a limpar isso
    e não o posso fazer sozinha.
  • 56:36 - 56:39
    E ele fez um lote maciço.
  • 56:39 - 56:40
    Por isso, precisamos realmente...
  • 56:40 - 56:44
    Temos um problema de visibilidade
    mais do que um problema de ferramentas,
  • 56:44 - 56:46
    porque temos muitas ferramentas.
  • 56:46 - 56:50
    (Lydia) Bem, infelizmente
    mostraram-me um sinal. (risos)
  • 56:50 - 56:52
    Por isso, precisamos de terminar.
  • 56:52 - 56:54
    Muito obrigada pelos vossos comentários.
  • 56:54 - 56:57
    Espero que continuem a debater
    durante o resto do dia.
  • 56:57 - 56:58
    Obrigada pelo vosso contributo.
  • 56:58 - 57:03
    (aplausos)
Title:
cdn.media.ccc.de/.../wikidatacon2019-9-eng-Data_quality_panel_hd.mp4
Video Language:
English
Duration:
57:10

Portuguese subtitles

Revisions