DATAS IMPORTANTES

  • Data limite para submissão: 23 de julho de 2021 30 de julho de 2021
  • Notificação de trabalhos aceitos: 27 de agosto de 2021
  • Versão final para publicação nos anais: 01 de setembro de 2021

DSW – Dataset Showcase Workshop

A publicação e a disponibilização de conjuntos de dados (abertos ou não) têm se tornado altamente relevantes devido à grande atenção dada por vários segmentos, como a mídia, indústria, academia e governo. A tarefa de disponibilização de dados é importante por inúmeros motivos, que vão desde sua reutilização em aplicativos digitais desenvolvidos pela sociedade, até a possibilidade de reprodução de experimentos e desenvolvimentos pela comunidade científica. Portanto, no contexto da comunidade brasileira de Bancos de Dados, tornar conjuntos de dados disponíveis é intrinsecamente importante devido ao fomento para novas questões de pesquisa e desenvolvimento que tal tarefa pode atingir. 

Desse modo, o propósito SBBD DSW é prover um fórum para compartilhar e discutir as formas de construção e organização de conjuntos de dados que servem como base para os trabalhos de pesquisa desenvolvidos na comunidade científica brasileira. A contribuição de um artigo a ser publicado no SBBD DSW é o produto final na forma de um dataset, geralmente extraído de algum banco de dados ou plataforma Web, limpo e tratado, muitas vezes incrementado com dados externos, e possível de ser reutilizado em outras cenários, ou para a reprodução de experimentos. A contribuição é o produto na forma do dataset, mas o artigo deve apresentar todas as informações necessárias para compreender e utilizar o mesmo.

SUBMISSÕES

Os artigos devem descrever os dados conforme tratados pelo seu time de autoria e disponibilizados publicamente. Por princípio, o conjunto de dados precisa ser útil e de rápida reutilização por terceiros, através de por exemplo: adição de valor aos dados para outras pessoas da comunidade, sendo pré-processados ou filtrados de alguma maneira; organização fácil de entender através de um esquema, dicionário, taxonomia, ontologia, ou outro formalismo; acesso facilitado por mecanismos próprios; ou apresentação de qualidade diferenciável por meio de curadoria e limpeza complexas.

Artigos submetidos para o SBBD DSW devem ser escritos em português, inglês ou espanhol, possuir obrigatoriamente um resumo em inglês, estar no formato da SBC, ter entre 6 e 10 páginas (sendo possível até duas páginas extra apenas a referências e agradecimentos) e ser submetidos via JEMS (disponível em breve). Cada submissão deve incluir conforme adequado e na ordem em que a equipe de autoria preferir:

  • descrição da(s) fonte(s) de dados e da metodologia completa de coleta ou geração dos mesmos (com disponibilização pública da ferramenta utilizada para criar ou gerar os dados se for o caso, e);
  • descrição do mecanismo de armazenamento, incluindo, se existir, esquema ou dicionário de dados, taxonomia, ontologia, ou outro formalismo que facilite a sua utilização por terceiros;
  • descrição quantitativa da base de dados criada, bem como análise inicial dos dados caracterizando a base e informando a quantidade de dados faltantes, tabelas e outras informações importantes que possam ser usadas para avaliar a qualidade do dataset;
  • descrição de como os dados têm sido utilizados (se existir, referenciar artigos publicados ou em processo de submissão que utilizam os dados e como) e de seu caráter inédito, pois mesmo com a utilização em algum artigo ou submissão, a descrição completa do dataset conforme realizada na submissão para o DSW precisa ser inédita;
  • discussão de desafios existentes e possíveis limitações na utilização dos dados;
  • ideias para diferentes utilizações dos dados, cenários, questões de pesquisa que poderiam ser elaboradas ou resolvidas a partir da disponibilização dos mesmos, e quais melhorias poderiam ser aplicadas aos dados; e
  • localização pública para download, pois o conjunto de dados deve estar publicamente disponível no momento de submissão do artigo para revisão. De preferência, utilizar plataformas online especializadas e adequadas para manutenção pública de dados, incluindo github, zenodo, figshare ou osf (ou seja, evitar repositórios particulares como diretório de Google Drive, dropbox, onedrive, e similares).

É importante notar que as submissões para o SBBD DSW não devem se sobrepor às submissões para o evento principal e seus satélites, pois a contribuição é completamente distinta da dos artigos atualmente publicados no SBBD. Em especial, artigos de data showcase *não* são:

  • survey, revisões sistemáticas, estudos empíricos ou de avaliação experimental;
  • artigos com proposta de ferramentas para geração e tratamento de dados;
  • baseados em heurísticas de coleta fracas e duvidáveis; ou
  • aplicações simples de ferramentas genéricas para gerar dados que podem ser rápida e facilmente utilizadas por qualquer pessoa.

TÓPICOS DE INTERESSE

Os tópicos de interesse do SBBD DSW são os mesmos da conferência principal, ampliando para temas atuais de pesquisa de diversas áreas da Ciência da Computação e demais ciências, bem como contextos distintos relacionados a governo, educação, cultura, economia, transporte e saúde. Em especial, espera-se que os artigos apresentem conjuntos de dados que possam ser utilizados em pesquisas relacionadas a (lista não exaustiva):

  • Aplicações Científicas, Ciência de Dados e Interdisciplinaridade com outras Ciências, incluindo e-science;
  • Aplicações e Áreas Correlacionadas a Bancos de Dados (análise e visualização de dados, aprendizado de máquina, bibliotecas digitais, mineração de dados, recuperação de informação, redes sociais, sistemas de recomendação, sistemas de informação, Web, workflow, e afins);
  • Demais áreas relacionadas à Computação (incluindo mas não limitado a todas as que possuem Grupo de Interesse ou Comissão Especial na SBC, e suas aplicações como benchmarks, baselines, ground truths e afins);
  • Diferentes tipos de Bancos de Dados (ativos, Web, streams, strings, documentos, na nuvem, dados interligados, Web semântica e RDF, heterogêneos, semiestruturados, XML, móveis, de sensores, multidimensionais, temporais, espaciais e GPS, multimídia, NoSQL, NewSQL, estatísticos, e afins);
  • Engenharia de Dados (armazéns de dados e OLAP; autorização, privacidade, anonimização e segurança em bancos de dados; integração de informação e interoperabilidade; processamento de dados em novo hardware; proveniência de dados).

COORDENAÇÃO DO DSW 2021

Carina F. Dorneles, UFSC

Eric Araújo, UFLA

Mirella M. Moro, UFMG

Anais das edições anteriores estão disponíveis em http://bit.ly/sbbd-dsw