SBBD Dataset Showcase Workshop

SBBD DSW – Dataset Showcase Workshop
Novo workshop a ser realizado junto ao SBBD 2017
02 a 05 de outubro de 2017 em Uberlândia, MG

https://www.sbc.org.br/sbbd/2017/dsw

A publicação e a disponibilização de conjuntos de dados (abertos ou não) têm se tornado altamente relevante devido à grande atenção dada por vários segmentos, como a mídia, indústria, academia e governo. A tarefa de disponibilização de dados é importante por inúmeros motivos, que vão desde sua reutilização em aplicativos digitais desenvolvidos pela sociedade, até a possibilidade de reprodução de experimentos desenvolvimentos pela comunidade científica. Portanto, no contexto da comunidade brasileira de bancos de dados, tornar conjuntos de dados disponíveis é intrisincamente importante devido ao fomento para novas questões de pesquisa e desenvolvimento que tal tarefa pode atingir. Como exemplos de casos de sucesso de disponibilização pública (e organizada) de dados citam-se:

– Centre for Environmental Data Analysis, UK – https://www.ceda.ac.uk/blog/dataset-showcase-cru-data;
– CODATA – https://www.codata.org/task-groups/data-citation-standards-and-practices/datacitation-past-achievements;
– Data.BetaNYC – https://data.beta.nyc/showcase;
– Data Citation Synthesis Group (2014). Joint Declaration of Data Citation Principles. Martone M. https://www.force11.org/group/joint-declaration-datacitation-principles-final;
– Data Viva – https://dataviva.info;
– Portal Brasileiro de Dados Abertos – https://dados.gov.br; e
– SF OpenData – https://data.sfgov.org/showcase.

Porém, mesmo com tanta publicidade, as tarefas de criar, coletar, tratar e disponibilizar dados publicamente continuam apresentando muitos desafios técnicos. Na verdade, a simples tarefa de encontrar uma boa fonte de dados e extraí-los podem ser atividades tecnicamente complexas. Talvez, mais complexo ainda, seja tratar os dados de modo a apresentá-los através de uma representação coerente e cujas informações obtidas sejam úteis e semanticamente corretas. Da mesma forma, a coleta e o tratamento dos dados para o relato de experimentos científicos para uma comunidade de banco de dados pode ser considerada uma tarefa exaustiva, trabalhosa e muito desafiadora — por outro lado, se o conjunto de dados estiver bem organizado, com uma metodologia de execução bem elaborada, a implementação e comparação de algoritmos pode ser altamente facilitada.

NOVO WORKSHOP DO SBBD

O propósito do SBBD DSW é prover um fórum para compartilhar e discutir as formas de construção e organização de conjuntos de dados que servem como base para os trabalhos de pesquisa desenvolvidos na comunidade do SBBD ou de seu interesse. A contribuição de um artigo a ser publicado no SBBD DSW é o produto final na forma de um dataset, geralmente extraído de algum banco de dados ou plataforma Web, limpo e tratado, muitas vezes incrementado com dados externos, e possível de ser reutilizado em outras cenários, ou para a reprodução de experimentos. A contribuição é o produto na forma do dataset, mas o artigo deve apresentar todas as informações necessárias para compreender e utilizar o mesmo.

Complementando as vantagens técnico-científicas, o SBBD DSW é uma maneira interessante de levar mais participantes para o evento principal. Por exemplo, considerando o caso em que um artigo seja aceito no SBBD e seus autores são dois estudantes e o/a respectivo/a orientador/a. Como via de regra, as agências de fomento só auxiliam um autor por artigo. Se esse mesmo artigo estiver utilizando um dataset interessante, os autores poderiam submetê-lo para o workshop e, com mais um artigo aceito, procurar fomento para outro autor.

Além de aumentar a participação no evento, existe a possibilidade real de melhorar a colaboração entre diferentes grupos através do compartilhamento dos dados utilizados em artigos científicos. Tal compartilhamento também permitiria aumentar a visibilidade do SBBD em termos de citações para seus workshops, nesse caso o SBBD DSW.

SUBMISSÕES

Os artigos devem descrever os dados conforme tratados pelos seus autores e disponibilizados publicamente. Por princípio, o conjunto de dados precisa ser útil e de rápida reutilização por terceiros, através de por exemplo: (1) adição de valor aos dados para outras pessoas da comunidade, sendo pré-processados ou filtrados de alguma maneira; (2) organização fácil de entender através de um esquema, dicionário, taxonomia, ontologia, ou outro formalismo; (3) acesso facilitado por mecanismos próprios; ou (4) apresentação de qualidade diferenciável por meio de curadoria e limpeza complexas.

Artigos submetidos para o SBBD DSW devem: ser escritos em português, inglês ou espanhol, possuir obrigatoriamente um resumo em inglês, estar no formato da SBC, ter entre 6 e 10 páginas (sendo possível uma página extra dedicada apenas a referências e agradecimentos) e ser submetidos via JEMS. Cada submissão deve incluir:

– uma descrição da(s) fonte(s) de dados, ou como os mesmos foram gerados e/ou coletados;
– uma descrição da metodologia completa de coleta (com a ferramenta utilizada para criar ou gerar os dados, e disponibilização pública da mesma);
– uma descrição do mecanismo de armazenamento, incluindo, se existir, o esquema ou dicionário de dados que facilite a sua utilização por terceiros;
– uma descrição quantitativa ou apresentação de estatísticas sobre conjunto de dados criado;
– uma descrição de como os dados têm sido utilizados (no caso, se existir, referenciar explicitamente artigos já publicados ou em processo de submissão que utilizam os dados e como);
– uma descrição que comprove o caráter inédito (ou seja, mesmo que o dataset tenha sido utilizado em algum artigo publicado, a sua descrição completa conforme realizada na submissão para o Workshop precisa ser inédita);
– discussão de desafios existentes e possíveis limitações na utilização dos dados;
– ideias para diferentes utilizações dos dados, cenários, questões de pesquisa que poderiam ser elaboradas ou resolvidas a partir da disponibilização dos mesmos, e quais melhorias poderiam ser aplicadas aos dados; e
– localização pública para download, pois o conjunto de dados deve estar publicamente disponível no momento de submissão do artigo para revisão.

É importante notar que as submissões para o SBBD DSW não devem se sobrepor às submissões para o evento principal e seus satélites, pois a contribuição é completamente distinta da dos artigos atualmente publicados no SBBD. Em especial, artigos de data showcase *não* são:

– survey, revisões sistemáticas, estudos empíricos ou de avaliação experimental;
– artigos com proposta de ferramentas para geração e tratamento de dados;
– baseados em heurísticas de coleta fracas e duvidáveis; ou
– aplicações simples de ferramentas genéricas para gerar dados que podem ser rápida e facilmente utilizadas por qualquer pessoa.

Cada submissãos será avaliada por pelo menos três membros do comitê de programa, a fim de prover maior e diversificado feedback para os autores das submissões. Os quesitos de avaliação consideram: legibilidade do artigo (incluindo organização, apresentação, ortografia e fluxo de ideias), disponibilidade pública do dataset e de ferramentas necessárias para acessá-lo ou replicá-lo, complexidade dos processos de coleta e tratamento dos dados, utilização realizada e potenciais utilizações futuras para os dados, bem como desafios e limitações existentes.

A publicação dos trabalhos aceitos é condicional à inscrição no SBBD e apresentação oral de um dos autores durante o evento.

TÓPICOS DE INTERESSE

Os tópicos de interesse do SBBD DSW são os mesmos da conferência principal. Em especial, espera-se que os artigos apresentem conjuntos de dados que possam ser utilizados em pesquisas relacionadas a (lista não exaustiva):

– Análise e Visualização de Dados;
– Aplicações Científicas, Ciência dos Dados e Interdisciplinaridade com outras Ciências (incluindo e-science e Data Science);
– Armazéns de Dados e OLAP;
– Autorização, Privacidade, Anonimização e Segurança em Bancos de Dados;
– Bibliotecas Digitais;
– Diferentes tipos de Bancos de Dados (ativos, Web, streams, strings, documentos, na nuvem, dados interligados, Web semântica e RDF, heterogêneos, semiestruturados, XML, móveis, de sensores, multidimencionais, temporais, espaciais e GPS, multimídia, NoSQL, NewSQL, estatísticos, etc.);
– Integração de Informação e Interoperabilidade;
– Mineração de Dados;
– Processamento de Dados em Novo Hardware;
– Proveniência de Dados;
– Recuperação de Informação;
– Redes Sociais;
– Sistemas de Recomendação; e
– Workflow.

DATAS IMPORTANTES

– Data limite para submissão: ~~15 de julho~~ 29 de julho de 2017 (prazo final)
– Notificação de trabalhos aceitos: ~~16 de agosto~~ 20 de agosto de 2017
– Versão final para publicação nos anais: ~~23 de agosto~~ 25 de agosto de 2017

COORDENAÇÃO

Mirella M. Moro, Universidade Federal de Minas Gerais
Carina F. Dorneles, Universidade Federal de Santa Catarina

COMITÊ DE PROGRAMA (em formação)

Alberto H. F. Laender, UFMG
Bernadette Farias Lóscio, UFPE
Daniel de Oliveira, UFF
Daniel Kaster, UEL
Eduardo Ogasawara, CEFET RJ
Giseli R. Lopes, UFRJ
Helena Grazziotin, UCS
João Eduardo Ferreira, USP
José Palazzo M. de Oliveira, UFRGS
Jussara Almeida, UFMG
Luciano Barbosa, UFPE
Renata M. Galante, UFRGS
Robson Cordeiro, USP São Carlos
Ronaldo S. Mello, UFSC
Sérgio Lifschitz, PUC Rio
Vanessa Braganholo, UFF
Vaninha Vieira, UFBA