SBBD2024 – Tutoriais

Title:  Mario A. Nascimento (Northeastern University @ Vancouver) –  Approximate Nearest Neighbor Queries and Vector Databases 

Abstract:
A comunidade de bancos de dados tem lidado, de uma forma ou de outra, com dados espaciais e de alta dimensão há muito tempo. No entanto, com o uso crescente de IA/Machine Learning, especialmente modelos de linguagem de grande porte e os chamados embeddings, vetores de altíssima dimensão precisam ser gerenciados como cidadãos de primeira classe, o que leva ao que é conhecido como bancos de dados vetoriais. Neste tutorial, após apresentar o contexto necessário, focaremos em uma importante classe de consultas dentro dos bancos de dados vetoriais, a saber, consultas aproximadas de vizinhos mais próximos, apresentando e contrastando várias abordagens para processá-las. Também listaremos os desafios atuais que merecem mais pesquisas e, se o tempo permitir, discutiremos os sistemas de gerenciamento de bancos de dados vetoriais comerciais existentes.

Short-bio:
Mario Nascimento está atualmente na Northeastern University, atuando como o primeiro Diretor de Pesquisa do Pacífico Noroeste do Khoury College of Computer Sciences, baseado no campus de Vancouver, no Canadá. Antes disso, ele foi Professor no Departamento de Ciência da Computação da University of Alberta (incluindo servir como Chefe do departamento), pesquisador na Agência Brasileira de Pesquisa Agropecuária e membro do corpo docente adjunto no Instituto de Computação da Universidade de Campinas no Brasil. Mario também foi professor visitante na Escola de Computação da National University of Singapore, no Departamento de Ciência da Computação da Aalborg University na Dinamarca, no Instituto de Informática da LMU87 na Alemanha e na Universidade Federal do Ceará no Brasil. Seu principal interesse de pesquisa está relacionado ao gerenciamento de dados espaço-temporais e, de acordo com o Google Scholar, suas publicações foram citadas mais de 4.800 vezes, resultando em um índice H de 33

Mario A. Nascimento


Title: Composable Data Management: An Execution Overview
Presenter: Pedro Perdreia (Meta)

Abstract:
O modelo monolítico de desenvolvimento de sistemas integrados verticalmente resultou em um cenário fragmentado, dominado por APIs de usuário e dialetos SQL inconsistentes; isso limitou a reutilização entre sistemas de dados e, em última análise, desacelerou a inovação. Nesta apresentação, vou apresentar a nova pilha de sistemas de dados componíveis que surgiu na comunidade, impulsionada em grande parte pelo código aberto. Vou destacar como projetos como Velox, Prestissimo, Nimble, Gluten e outros, criados pela nossa equipe na Meta e pela comunidade de código aberto, estão melhorando tanto a eficiência quanto a eficiência de engenharia no desenvolvimento de sistemas de dados, ao mesmo tempo em que fornecem uma estrutura mais adaptável às plataformas de hardware em evolução.

Short-bio:
Pedro Pedreira é engenheiro de software na Meta. Em seus mais de 10 anos de carreira, ele liderou uma série de projetos de Infraestrutura de Dados em colaboração com a comunidade de pesquisa e de código aberto. Pedro lidera o programa Velox, um esforço interorganizacional que envolve mais de 20 empresas, com o objetivo de unificar mecanismos de execução usando uma biblioteca de código aberto, além de esforços relacionados ao processamento de dados em grande escala, focados em acelerar tanto as cargas de trabalho tradicionais de Análise quanto as novas de Machine Learning. No passado, ele trabalhou em mecanismos de análise de logs (como o Scuba) e criou o Cubrick, um SGBD analítico em memória. Pedro possui doutorado, mestrado e bacharelado em Ciência da Computação pela Universidade Federal do Paraná (UFPR), no Brasil.

Pedro Pedreira


Title: Javan Machado, Paulo Amora, Francisco Praciano (UFC), “Purpose and Consent Enforcement in DBMS”

Abstract:
Atualmente, os dados pessoais estão sujeitos a leis e regulamentos que obrigam os detentores de dados a garantir o devido cumprimento do consentimento dos usuários em relação a como seus dados devem ser utilizados. Ferramentas existentes no SGBD, como RBAC/FGAC, podem alcançar algum nível de controle sobre os dados. No entanto, elas não conseguem modelar e aplicar corretamente as restrições necessárias e desejadas, trazendo esse tema à tona novamente. Neste tutorial, exploramos uma linha do tempo de abordagens para resolver o controle de acesso baseado em finalidade e comparamos trabalhos recentes a partir de uma base comum para identificar pontos fortes e fracos, além de sugerir novos tópicos de pesquisa sobre esse tema.

Short-bio:

Javam C. Machado é professor titular do Departamento de Ciência da Computação da Universidade Federal do Ceará (UFC). Ele obteve o título de Mestre em Ciência da Computação pela Universidade Federal do Rio Grande do Sul (UFRGS) e o título de Doutor em Ciência da Computação pela Université Joseph Fourier, em Grenoble, França. Em 2010, Javam fundou o Laboratório de Sistemas e Bancos de Dados (LSBD) e desde então atua como seu coordenador. Durante 12 anos, Javam foi diretor de infraestrutura de TI da UFC e atuou por 2 anos como coordenador de pesquisa e inovação tecnológica na Pró-Reitoria de Pesquisa da UFC. Ele foi coordenador da Comissão Especial de Banco de Dados da SBC (2017) e pesquisador visitante na TelecomSudParis, França (2001), e nos AT&T Labs, EUA (2018, 2020 e 2023). Javam publicou mais de 170 artigos científicos e orientou 40 estudantes de mestrado e 6 de doutorado. Como membro da SBC e da ACM, o Prof. Javam tem interesse em privacidade de dados e práticas de IA responsável.

Paulo Roberto Pessoa Amora é doutorando em Ciência da Computação na UFC – Universidade Federal do Ceará sob a orientação do Prof. Javam Machado e professor adjunto no IFCE – Instituto Federal do Ceará. Ele é membro do Laboratório de Sistemas e Banco de Dados (LSBD), atualmente trabalhando em estruturas de dados privadas para processamento de consultas. Paulo obteve o título de Bacharel em Engenharia de Computação no IFCE, com um ano de intercâmbio na Universidade de Pittsburgh, e o título de Mestre em Ciência da Computação na UFC, com um estágio de verão na Carnegie Mellon University. Ele tem interesse nos seguintes tópicos de pesquisa: Armazenamento de Bancos de Dados, Privacidade de Dados, Estruturas de Dados.

Francisco Daniel Bezerra de Souza Praciano é doutorando em Ciência da Computação na UFC – Universidade Federal do Ceará sob a orientação do Prof. Javam Machado e professor assistente no IFCE – Instituto Federal do Ceará. Ele é membro do Laboratório de Sistemas e Banco de Dados (LSBD), atualmente trabalhando em operadores privados para processamento de consultas. Daniel obteve o título de Bacharel em Ciência da Computação na UFC e o título de Mestre em Ciência da Computação na UFC. Ele tem interesse nos seguintes tópicos de pesquisa: Operadores de Banco de Dados, Processamento de Consultas, Privacidade de Dados.

Paula Amora

Javam Machado

Francisco Praciano


Title:  Andre Gomes Regino – Unicamp, Anderson Rossanez – Unicamp, Ricardo da Silva Torres – Wageningen University & Research, Julio Cesar dos Reis – Unicamp – Methods and Tools for Generating Knowledge Graphs from Natural Language Text

Abstract:
Este tutorial introdutório apresenta métodos e técnicas de software para converter dados textuais em Grafos de Conhecimento (Knowledge Graphs, KGs) usando Processamento de Linguagem Natural (NLP) e Modelos de Linguagem de Grande Porte (LLMs). Ao longo de três horas, exploramos conceitos fundamentais como triplas RDF, Grafos de Conhecimento, Ontologias e engenharia de prompt. Por meio de apresentações dos aspectos teóricos e técnicos, demonstrações de casos e exercícios práticos, nosso objetivo é ensinar aos participantes métodos práticos para gerar KGs a partir de textos, abordando técnicas estabelecidas e desafios abertos atuais.

Short-bio:

André Gomes Regino (apresentador): Bacharel em Ciência da Computação pela UNESP e Mestre em Ciência da Computação pela UNICAMP. Atualmente, é doutorando na mesma instituição, com foco de pesquisa em processamento de linguagem natural, Web Semântica e grafos de conhecimento.

Anderson Rossanez (apresentador): Doutor em Ciência da Computação pela Universidade de Campinas (UNICAMP), obtido em 2024. Possui Mestrado em Ciência da Computação pela mesma universidade, obtido em 2017, e Bacharelado em Engenharia de Computação pela Universidade Federal de São Carlos (UFSCar), obtido em 2005. Seus principais interesses de pesquisa estão nas áreas de Web Semântica, especialmente na geração de Grafos de Conhecimento a partir de textos, utilizando Processamento de Linguagem Natural.

Ricardo da Silva Torres: Ricardo da S. Torres é Professor em Ciência de Dados e Inteligência Artificial na Wageningen University and Research. Dr. Torres também possui uma posição como Professor em Computação Visual na Norwegian University of Science and Technology (NTNU) desde 2019. Anteriormente, ocupou uma posição como Professor na Universidade de Campinas, Brasil (2005 – 2019). Dr. Torres obteve seu Bacharelado em Engenharia de Computação pela Universidade de Campinas, Brasil, em 2000 e seu doutorado em Ciência da Computação na mesma universidade em 2004. Dr. Torres tem desenvolvido projetos de pesquisa multidisciplinares em eScience, envolvendo Análise Multimídia, Recuperação Multimídia, Aprendizado de Máquina, Bancos de Dados, Visualização de Informação e Bibliotecas Digitais. Dr. Torres é autor/coautor de mais de 200 artigos em revistas e conferências revisadas por pares e atua como membro do comitê de programa em várias conferências internacionais e nacionais. Atualmente, ele atua como editor associado do Pattern Recognition Letters. Ele é membro do IEEE.

Julio Cesar dos Reis: Professor Associado no Instituto de Computação (IC) da Universidade de Campinas (UNICAMP). Possui doutorado em Ciência da Computação (2014) pela Faculdade de Ciências da Universidade de Paris-Sud XI (França); mestrado em Ciência da Computação (2011) pelo IC/UNICAMP e graduação em Tecnologia da Informação (2008) pela Faculdade de Tecnologia da UNICAMP. Seus interesses de pesquisa incluem Engenharia de Ontologias Computacionais, Grafos de Conhecimento, Compreensão e Geração de Linguagem Natural e Interação Humano-Computador. Ele investiga principalmente os seguintes tópicos: representação de conhecimento; grafos de conhecimento; semântica computacional; design, alinhamento e evolução de ontologias; compreensão e geração de linguagem; recuperação semântica de informação; detecção e representação de intenções declaradas pelos usuários; design de interação; design participativo e universal.

André Gomes Regino