Modelo de entidades e relacionamentos.
Modelo relacional: teoria e normalização.
Linguagem SQL ANSI. Consultas, procedures, packages, funções, triggers e views. SQL, DDL, DML, DQL, DTL e DCL. Interfaces de utilização: principais propriedades e características das bibliotecas mais difundidas.
Técnicas de implementação de SGBD. Transações: conceito, propriedades e implementação. Recuperação e concorrência.
Processamento e otimização de consultas.
Distribuição de dados e transações.
Segurança em bancos de dados.
Administração de bancos de dados. MS SQL Server,
Sistemas de Suporte à Decisão: inteligência de negócios. Processo de Data Warehousing, Data Warehouses, Tipos de Data Marts, Técnicas Básicas e Avançadas de Modelagem Multidimensional de Dados. Recuperação e visualização de dados - OLAP, Painéis e dashboards.
Integração de dados - Extração, transformação e carga (ETL).
Big Data. Fundamentos. Tipos de dados: estruturados, semiestruturados e não estruturados. Fluxo de Big Data: ingestão, processamento e disponibilização. Armazenamento de Big Data. Pipeline de dados. Processamento distribuído e MapReduce. Conceito de data lake. ETL X ELT. Soluções de Big Data. Arquiteturas de Big Data. Big Data e Qualidade da Informação.
1 - CIÊNCIA DE DADOS Aprendizado de máquina e suas técnicas. Técnicas de classificação. Técnicas de regressão. Técnicas de agrupamento. Técnicas de redução de dimensionalidade. Técnicas de associação e recomendação. Noções de visão computacional. Deep learning e suas principais arquiteturas. Aprendizado por reforço. Aprendizado Semissupervisionado. Descoberta do Conhecimento / Knowledge Discovery in Database (KDD). Aprendizado de máquina aplicado a séries temporais. Conceitos de aprendizado de máquina. Fontes de erro em modelos preditivos. Avaliação de modelos preditivos. Underfitting, overfitting e técnicas de regularização. Otimização de hiperparâmetros. Validação cruzada. Métodos de seleção de atributos. Comitês (Ensemble). Separabilidade de dados. (Supervisionado)
1 - CIÊNCIA DE DADOS Aprendizado de máquina e suas técnicas. Técnicas de classificação. Técnicas de regressão. Técnicas de agrupamento. Técnicas de redução de dimensionalidade. Técnicas de associação e recomendação. Noções de visão computacional. Deep learning e suas principais arquiteturas. Aprendizado por reforço. Aprendizado Semissupervisionado. Descoberta do Conhecimento / Knowledge Discovery in Database (KDD). Aprendizado de máquina aplicado a séries temporais. Conceitos de aprendizado de máquina. Fontes de erro em modelos preditivos. Avaliação de modelos preditivos. Underfitting, overfitting e técnicas de regularização. Otimização de hiperparâmetros. Validação cruzada. Métodos de seleção de atributos. Comitês (Ensemble). Separabilidade de dados. (NÃO Supervisionado)
Redes neurais com TensorFlow, Keras e PyTorch.
Processamento de linguagem natural (PLN). Modelos grandes de linguagem (Large Language Models). Conceito e arquitetura. Aplicações em PLN. Geração de dados sintéticos. Fine tuning.
Tratamento de dados. Normalização numérica. Discretização. Tratamento de dados ausentes. Tratamento de outliers e agregações. Tratamento de dados desbalanceados. Superamostragem. Subamostragem. Desidentificação de dados sensíveis. Organização e identificação de variáveis qualitativas e quantitativas, nominais e ordinais, discretas e contínuas
Qualidade de dados. Conceitos e definições. Dimensões da qualidade de dados (visão DMBOK). Principais técnicas em qualidade de dados. Profiling. Matching. Deduplicação. Data cleansing. Enriquecimento. Boas práticas para adoção da qualidade de dados. Processos de qualidade para modelos de dados. Noções de governança de dados (visão DMBOK).
Ingestão de dados. Conceito. Ingestão de dados estruturados, semiestruturados e não estruturados. Ingestão de dados em lote (batch). Ingestão de dados em streaming. Ingestão de dados full × incremental. Ingestão de dados CDC (change data capture).
Processamento de dados. Conceitos de processamento massivo e paralelo. Processamento em lote (batch). Processamento em tempo real (real time). Processamento MapReduce. Aprendizado de máquina distribuído, federado e em múltiplas GPUs.
Plataforma Microsoft Power BI. Apresentação de dados, elaboração e interpretação de gráficos, tabelas e mapas. Diagrama boxplot. Detecção de outliers.
Ética e privacidade em ciência de dados. Princípios éticos na análise de dados. Regtech: conceito e aplicações no mercado de capitais. Suptech: conceito e aplicações no mercado de capitais.
Inferência bayesiana aplicada ao aprendizado de máquina. Seleção bayesiana de modelos. Média bayesiana de modelos. Redes neurais bayesianas. Modelos hierárquicos bayesianos. Inferência sequencial bayesiana.