DSW – DATASET SHOWCASE WORKSHOP

A publicação e a disponibilização de conjuntos de dados (abertos ou não) têm se tornado altamente relevante devido à grande atenção dada por vários segmentos, como a mídia, indústria, academia e governo. A tarefa de disponibilização de dados é importante por inúmeros motivos, que vão desde sua reutilização em aplicativos digitais desenvolvidos pela sociedade, até a possibilidade de reprodução de experimentos desenvolvimentos pela comunidade científica. Portanto, no contexto da comunidade brasileira de bancos de dados, tornar conjuntos de dados disponíveis é intrinsecamente importante devido ao fomento para novas questões de pesquisa e desenvolvimento que tal tarefa pode atingir.

Como exemplos de casos de sucesso de disponibilização pública (e organizada) de dados citam-se:

– Centre for Environmental Data Analysis, UK – http://www.ceda.ac.uk/blog/dataset-showcase-cru-data;

– CODATA – http://www.codata.org/task-groups/data-citation-standards-and-practices/datacitation-past-achievements;

– Data.BetaNYC – http://data.beta.nyc/showcase;

– Data Citation Synthesis Group (2014). Joint Declaration of Data Citation Principles. Martone M. https://www.force11.org/group/joint-declaration-datacitation-principles-final;

– Data Viva – http://dataviva.info;

– Portal Brasileiro de Dados Abertos – http://dados.gov.br; e

– SF OpenData – https://data.sfgov.org/showcase.

Porém, mesmo com tanta publicidade, as tarefas de criar, coletar, tratar e disponibilizar dados publicamente continuam apresentando muitos desafios técnicos. Na verdade, a simples tarefa de encontrar uma boa fonte de dados e extraí-los podem ser atividades tecnicamente complexas. Talvez, mais complexo ainda, seja tratar os dados de modo a apresentá-los através de uma representação coerente e cujas informações obtidas sejam úteis e semanticamente corretas. Da mesma forma, a coleta e o tratamento dos dados para o relato de experimentos científicos para uma comunidade de banco de dados pode ser considerada uma tarefa exaustiva, trabalhosa e muito desafiadora — por outro lado, se o conjunto de dados estiver bem organizado, com uma metodologia de execução bem elaborada, a implementação e comparação de algoritmos pode ser altamente facilitada.

2a EDIÇÃO DO SBBD DSW

A primeira edição do SBBD DSW foi realizada em 2017 e contou com a apresentação de 11 artigos de grande qualidade para uma plateia de aproximadamente 50 pessoas. O Workshop também teve premiação para melhor artigo, o qual deve acontecer novamente nesta edição.

É importante notar que o propósito do SBBD DSW é prover um fórum para compartilhar e discutir as formas de construção e organização de conjuntos de dados que servem como base para os trabalhos de pesquisa desenvolvidos na comunidade do SBBD ou de seu interesse. A contribuição de um artigo a ser publicado no SBBD DSW é o produto final na forma de um dataset, geralmente extraído de algum banco de dados ou plataforma Web, limpo e tratado, muitas vezes incrementado com dados externos, e possível de ser reutilizado em outras cenários, ou para a reprodução de experimentos. A contribuição é o produto na forma do dataset, mas o artigo deve apresentar todas as informações necessárias para compreender e utilizar o mesmo.

Complementando as vantagens técnico-científicas, o SBBD DSW é uma maneira interessante de levar mais participantes para o evento principal. Por exemplo, considerando o caso em que um artigo seja aceito no SBBD e seus autores são dois estudantes e o/a respectivo/a orientador/a. Como via de regra, as agências de fomento só auxiliam um autor por artigo. Se esse mesmo artigo estiver utilizando um dataset interessante, os autores poderiam submetê-lo para o workshop e, com mais um artigo aceito, procurar fomento para outro autor.

Além de aumentar a participação no evento, existe a possibilidade real de melhorar a colaboração entre diferentes grupos através do compartilhamento dos dados utilizados em artigos científicos. Tal compartilhamento também permitiria aumentar a visibilidade do SBBD em termos de citações para seus workshops, nesse caso o SBBD DSW.

SUBMISSÕES

Os artigos devem descrever os dados conforme tratados pelos seus autores e disponibilizados publicamente. Por princípio, o conjunto de dados precisa ser útil e de rápida reutilização por terceiros, através de por exemplo: (1) adição de valor aos dados para outras pessoas da comunidade, sendo pré-processados ou filtrados de alguma maneira; (2) organização fácil de entender através de um esquema, dicionário, taxonomia, ontologia, ou outro formalismo; (3) acesso facilitado por mecanismos próprios; ou (4) apresentação de qualidade diferenciável por meio de curadoria e limpeza complexas.

Artigos submetidos para o SBBD DSW devem: ser escritos em português, inglês ou espanhol, possuir obrigatoriamente um resumo em inglês, estar no formato da SBC, ter entre 6 e 10 páginas (sendo possível uma página extra dedicada apenas a referências e agradecimentos) e ser submetidos via JEMS. Cada submissão deve incluir:

– uma descrição da(s) fonte(s) de dados, ou como os mesmos foram gerados e/ou coletados;

– uma descrição da metodologia completa de coleta (com a ferramenta utilizada para criar ou gerar os dados, e disponibilização pública da mesma);

– uma descrição do mecanismo de armazenamento, incluindo, se existir, o esquema ou dicionário de dados que facilite a sua utilização por terceiros;

– uma descrição quantitativa ou apresentação de estatísticas sobre conjunto de dados criado;

– uma descrição de como os dados têm sido utilizados (no caso, se existir, referenciar explicitamente artigos já publicados ou em processo de submissão que utilizam os dados e como);

– uma descrição que comprove o caráter inédito (ou seja, mesmo que o dataset tenha sido utilizado em algum artigo publicado, a sua descrição completa conforme realizada na submissão para o Workshop precisa ser inédita);

– discussão de desafios existentes e possíveis limitações na utilização dos dados;

– ideias para diferentes utilizações dos dados, cenários, questões de pesquisa que poderiam ser elaboradas ou resolvidas a partir da disponibilização dos mesmos, e quais melhorias poderiam ser aplicadas aos dados; e

– localização pública para download, pois o conjunto de dados deve estar publicamente disponível no momento de submissão do artigo para revisão.

É importante notar que as submissões para o SBBD DSW não devem se sobrepor às submissões para o evento principal e seus satélites, pois a contribuição é completamente distinta da dos artigos atualmente publicados no SBBD. Em especial, artigos de data showcase *não* são:

– survey, revisões sistemáticas, estudos empíricos ou de avaliação experimental;

– artigos com proposta de ferramentas para geração e tratamento de dados;

– baseados em heurísticas de coleta fracas e duvidáveis; ou

– aplicações simples de ferramentas genéricas para gerar dados que podem ser rápida e facilmente utilizadas por qualquer pessoa.

Cada submissão será avaliada por pelo menos três membros do comitê de programa, a fim de prover maior e diversificado feedback para os autores das submissões. Os quesitos de avaliação consideram: legibilidade do artigo (incluindo organização, apresentação, ortografia e fluxo de ideias), disponibilidade pública do dataset e de ferramentas necessárias para acessá-lo ou replicá-lo, complexidade dos processos de coleta e tratamento dos dados, utilização realizada e potenciais utilizações futuras para os dados, bem como desafios e limitações existentes.

A publicação dos trabalhos aceitos é condicional à inscrição no SBBD e apresentação oral de um dos autores durante o evento.

TÓPICOS DE INTERESSE

Os tópicos de interesse do SBBD DSW são os mesmos da conferência principal. Em especial, espera-se que os artigos apresentem conjuntos de dados que possam ser utilizados em pesquisas relacionadas a (lista não exaustiva):

– Análise e Visualização de Dados;

– Aplicações Científicas, Ciência dos Dados e Interdisciplinaridade com outras Ciências (incluindo e-science e Data Science);

– Armazéns de Dados e OLAP;

– Autorização, Privacidade, Anonimização e Segurança em Bancos de Dados;

– Bibliotecas Digitais;

– Diferentes tipos de Bancos de Dados (ativos, Web, streams, strings, documentos, na nuvem, dados interligados, Web semântica e RDF, heterogêneos, semiestruturados, XML, móveis, de sensores, multidimensionais, temporais, espaciais e GPS, multimídia, NoSQL, NewSQL, estatísticos, etc.);

– Integração de Informação e Interoperabilidade;

– Mineração de Dados;

– Processamento de Dados em Novo Hardware;

– Proveniência de Dados;

– Recuperação de Informação;

– Redes Sociais;

– Sistemas de Recomendação; e

– Workflow.

DATAS IMPORTANTES

– Data limite para submissão: 07 de julho, 2019 (NEW DEADLINE: 19 de julho, 2019)

– Notificação de trabalhos aceitos: 08 de agosto, 2019 (NEW DEADLINE: 12 de agosto, 2019)

– Versão final para publicação nos anais: 19 de agosto, 2019

COORDENAÇÃO

Mirella M. Moro, Universidade Federal de Minas Gerais

Renata Galante, Universidade Federal do Rio Grande do Sul

COMITÊ DE PROGRAMA (em formação)