IV- DADOS E BASES DE DADOS: 1. Conceitos fundamentais de dados: o que são dados; processos geradores de dados; tipos e classes de dados; formatos de arquivos de dados comuns (txt, csv, xlsx, xml, json e parquet). 2. Introdução a Bases de Dados: o que são bases de dados; tipos de bases de dados; metadados; tidy data. 4. Sistemas Gerenciadores de Base de Dados (SGBD): definição de SGBD; principais funções; principais tipos de SGBDs (SQL) e suas diferenças; transações e índices. VI - QUALIDADE E PREPARAÇÃO DE DADOS: 1. Metadados: a sua importância para avaliação da qualidade de dados; linhagem de dados;
5.Modelo de dados: modelo de entidade-relacionamento (ER); modelo relacional: tabelas, esquemas, chaves, consultas; dados estruturados, semiestruturados e não estruturados; modelo chave-valor; modelo colunar; modelo orientado a documentos; modelo orientado a grafos
3. Linguagem SQL (Structured Query Language): conceitos introdutórios; comandos básicos para consultas (inserção, atualização e exclusão de dados) e para análise de dados (como funções de agregação, filtros, joins, subconsultas e demais). (Parte 1 - SQL - Sublinguagens)
3. Linguagem SQL (Structured Query Language): conceitos introdutórios; comandos básicos para consultas (inserção, atualização e exclusão de dados) e para análise de dados (como funções de agregação, filtros, joins, subconsultas e demais). (Parte 2 - SQL - Sintaxe)
3. Introdução ao armazenamento de dados: armazenamento de arquivos; principais estruturas de armazenamento de dados analíticos (data warehouse, data mart, data lake data lakehouse, vector stores), suas diferenças conceituais e casos de uso; armazenamento na nuvem. 6. Ingestão e armazenamento de dados; definição de ingestão em lote (batch) e em tempo real (stream). 2. Coleta de dados: fontes comuns de dados (internas e externas); interface de programação de aplicação (API); técnicas de web scraping. 4. Preparação de dados: técnicas de tratamento e limpeza de dados; técnicas detecção de vieses; data profiling. 5. Préprocessamento de dados: técnicas de normalização e padronização; discretização; metodologias de codificação de variáveis categóricas (encoding). 6. Feature engineering: processos para enriquecimento de dados, com criação e seleção de features relevantes; transformações matemáticas e estatísticas comuns em variáveis.
Modelagem Dimensional; OLAP; [conteúdo não explícito no edital, mas ajuda a entender as aulas seguintes]
7. Big Data: conceito de big data; conceitos gerais sobre técnicas e ferramentas para lidar com grandes volumes de dados (HDFS e MapReduce). 2. Metodologias de gestão de projetos de ciência de dados: CRISPDM; Microsoft Team Data Science Process (TDSP); 6. Sistemas de recomendação: Filtragem colaborativa (baseadas em usuários ou itens); filtragem baseada em conteúdo; sistemas híbridos; problemas comuns (cold start, escalabilidade, data sparsity).
4. Sistemas Gerenciadores de Base de Dados (SGBD): definição de SGBD; principais funções; principais tipos de SGBDs (NoSQL) e suas diferenças; transações e índices. [Bancos de Dados NoSQL; principais SGBDs NoSQL;]
7. Big Data: Spark e Hadoop.
VII - MODELAGEM: 1. Pipeline de treinamento de modelos e suas etapas. 7. Modelagem de IA centrada em dados (datacentric). 12. Visão Computacional: técnicas de pré-processamento de imagem; OCR; segmentação e extração de características de imagens; detecção; segmentação e reconhecimento de objetos; classificação de imagens. 13. Modelos multi-modais: principais aplicações. XIII - GOVERNANÇA, SEGURANÇA E APLICAÇÃO RESPONSÁVEL DE IA: 1. Noções de governança de IA: conceitos e objetivos da governança de IA; gestão de riscos em IA; gestão de ciclo de vida de modelos. 2. Principais riscos e vulnerabilidades relacionados a IA: viés algorítmico; exposição de dados sensíveis; envenenamento de dados de treinamento; ataques adversariais; ataques de manipulação de modelos; roubo de modelos; ataque de inferência; alucinações. 3. Aplicação de IA responsável: definição; ética; transparência; justiça e equidade; responsabilização; segurança cibernética; compliance regulatório. V - GESTÃO DE PROJETOS DE
2. Técnicas de clusterização: K-Means; agrupamento hierárquico; Gaussian Mixture Models; DBSCAN. 3. Técnicas de classificação: Regressão logística; K-Nearest Neighbors (KNN); Suport Vector Machines (SVM); Decision Trees (CART); classificadores Naive-Bayes (Binomial-Beta, Poisson-Gama, Normal-Normal); Florestas Aleatórias (Random Forest)
8. Tópicos em regressão: modelos de dados em painel; GLM; regressão espacial; regressão quantílica; regressão de Poisson; modelos VAR; ECM e GARCH. 11. Modelos de aprendizado por reforço: Q-Learning; Deep Q-Networks (DQN); Policy Gradient Methods; multiarmed bandit.
10. Redes neurais: Introdução a Redes Neurais Artificiais (arquitetura, funções de ativação, treinamento, forward pass, backpropagation, loss functions, algoritmos de otimização, épocas, batch size e demais); embeddings; redes profundas (deep learning); Redes Neurais Convolucionais (CNNs) e Recorrentes (RNNs); LSTM; GRU; GAN; modelos multimodais.
6. Sistemas de recomendação: Filtragem colaborativa (baseadas em usuários ou itens); filtragem baseada em conteúdo; sistemas híbridos; problemas comuns (cold start, escalabilidade, data sparsity). 7. Modelos de séries temporais: definição; componentes (tendência, sazonalidade, ciclos e ruído); autocorrelação e autocorrelação parcial; conceito e testes de estacionaridade; cointegração; modelos AR, ARMA e ARIMA; modelos de suavização exponencial; modelos de decomposição; modelos de regressão com variáveis temporais (ARIMAX). 9. Introdução a modelos causais: fundamentos de causalidade estatística, experimentos e quase-experimentos, desenho de descontinuidade de regressão, modelos de variáveis instrumentais, diferenças em diferenças, modelos de equações estruturais (SEM), métodos de pareamento. 14. Quantificação de incertezas em modelos preditivos: Programação Probabilística; Amostragem de Gibbs; Inferência Variacional; Hamiltonian Monte Carlo; Modelos de Markov Ocultos; Aprendizado Profun
IX - PROCESSAMENTO DE LINGUAGEM NATURAL (NLP): 1. Técnicas de pré-processamento de texto: limpeza; normalização; remoção de stop words; stemming; lematização e demais. 2. Representação de texto: N-grams; CBoW; FTD-IDF; word embeddings (Word2Vec, GloVe e demais) e document embeddings (Doc2Vec, BERT, ELMo e demais). 3. Modelagem de tópicos: latent dirichlet allocation (LDA); non-negative matrix factorization (NMF). 4. Modelos de linguagem: modelos de linguagem tradicionais; redes neurais recorrentes; redes neurais convolucionais; transformers. 5. Tarefas básicas em NLP: classificação de texto; análise de sentimento; extração de informação (NER; REL); similaridade textual; sumarização de texto; rotulação de partes do discurso (POS-tagging) e tradução automática. 6. Aplicações relacionadas a modelos de NLP: geração de texto; question answering e diálogo conversacional; retrieval augmented generation (RAG); chatbots; extração estruturada de informações; agentes de IA (IA agents).
3. Métricas para avaliação e seleção de modelos: métricas para regressão (MSE; RMSE; MAE; R²; R² ajustado); métricas para classificação (accuracy, precision, recall, F1-score e ROC-AUC); análise de matriz de confusão; trade-off entre viés e variância; detecção de overfitting e underfitting. 8. Interpretabilidade de modelos: feature importance; valores de Shapley (SHAP) e LIME.
2. Otimização de hiperparâmetros: grid search; random search; algoritmos de otimização avançados; automl; autotuning; autofeature engineering. 4. Técnicas de regularização: lasso; ridge; elastic net; dropout; early stopping; batch normalization. 6. Validação de Modelos: K-fold crossvalidation; leave-one-out cross-validation; bootstrap. VIII - CLASSES DE MODELOS: 1. Redução de dimensionalidade: Principal Component Analysis (PCA); LDA; ICA; T-SNE; uso de autoencoders. 5. Ensembling de modelos: Bagging; boosting (AdaBoost, Gradient Boosting, XGBoost, LightGBM e CatBoost); stacking.
9. Implantação de modelos em produção: exportação de modelos (pickle, PMML e ONNX); conceitos de MLOps; implantação local (on premise) e na nuvem. 10. Monitoramento de modelos: monitoramento de desempenho; data drift; concept drift; detecção de drifts; retreino e atualização de modelos.
XII - GOVERNANÇA E SEGURANÇA DE DADOS: 1. Noções de governança de dados (DMBOK): conceitos e objetivos da governança de dados; principais técnicas de qualidade e integridade de dados; princípios de privacidade e proteção a dados.
XI - VISUALIZAÇÃO; STORYTELLING E COMUNICAÇÃO CORPORATIVA: 1. Principais tipos de visualizações e gráficos: tabela; gráfico de barras; linhas; pizza; dispersão; histograma; área; boxplot; bolhas; radar; mapas cartográficos; mapa de calor. 2. Visualização de dados: princípios de design de gráficos efetivos; principais conceitos de codificação visual; interatividade; acessibilidade em gráficos. 3. Dashboards: técnicas para construção de interfaces e layout; abordagens para escolha de designs; organização de elementos visuais e gráficos; seleção de gráficos e visualizações; interatividades e drill-downs; acessibilidade. 4. Storytelling com dados: construção de narrativas visuais e contextualizações; componentes de um storytelling efetivo. 5. Reportes executivos: princípios de comunicação corporativa; interpretação e apresentação de dados de resultados de análises e de insights. 6. Microsoft Power BI: conexão e importação de dados; modelagem de dados; criação de medidas e colunas calculada