BNDES (Analista - Profissional Básico - Ciência de Dados) Banco de Dados e Ciência de Dados - 2024 (Pós-Edital)

Aula demonstrativa disponível
Download liberado

OBSERVAÇÃO:
Os tópicos abaixo estão redundantes no edital.

3. Problemas comuns de qualidade de dados: valores ausentes; duplicatas; outliers; desbalanceamento; erros de imputação.

7. Divisão de dados: técnicas de amostragem; divisão entre treinamento, validação e teste; abordagens para cross-validation.

5. Dados desbalanceados: técnicas para lidar com dados desbalanceados; oversampling; undersampling; dados sintéticos; ajuste de pesos.
 

Garantia de Satisfação OU SEU DINHEIRO DE VOLTA
Se você, dentro do período de 30 dias não estiver satisfeito, nós devolveremos seu dinheiro
Veja as regras
R$ 380,00
ou 12x de R$ 31,67
Certificado
Ao final do curso receba um certificado de conclusão
Cronograma
Vendas até: 20/10/2024
Acesso até: 20/03/2025
Carga Horária
40 horas
Garantia de Satisfação OU SEU DINHEIRO DE VOLTA
Se você, dentro do período de 30 dias não estiver satisfeito, nós devolveremos seu dinheiro
Veja as regras

Conteúdo do curso

IV- DADOS E BASES DE DADOS: 1. Conceitos fundamentais de dados: o que são dados; processos geradores de dados; tipos e classes de dados; formatos de arquivos de dados comuns (txt, csv, xlsx, xml, json e parquet). 2. Introdução a Bases de Dados: o que são bases de dados; tipos de bases de dados; metadados; tidy data. 4. Sistemas Gerenciadores de Base de Dados (SGBD): definição de SGBD; principais funções; principais tipos de SGBDs (SQL) e suas diferenças; transações e índices. VI - QUALIDADE E PREPARAÇÃO DE DADOS: 1. Metadados: a sua importância para avaliação da qualidade de dados; linhagem de dados;
Disponível em 10/08/2024
5.Modelo de dados: modelo de entidade-relacionamento (ER); modelo relacional: tabelas, esquemas, chaves, consultas; dados estruturados, semiestruturados e não estruturados; modelo chave-valor; modelo colunar; modelo orientado a documentos; modelo orientado a grafos
Disponível em 15/08/2024
3. Linguagem SQL (Structured Query Language): conceitos introdutórios; comandos básicos para consultas (inserção, atualização e exclusão de dados) e para análise de dados (como funções de agregação, filtros, joins, subconsultas e demais). (Parte 1 - SQL - Sublinguagens)
Disponível em 20/08/2024
3. Linguagem SQL (Structured Query Language): conceitos introdutórios; comandos básicos para consultas (inserção, atualização e exclusão de dados) e para análise de dados (como funções de agregação, filtros, joins, subconsultas e demais). (Parte 2 - SQL - Sintaxe)
Disponível em 25/08/2024
3. Introdução ao armazenamento de dados: armazenamento de arquivos; principais estruturas de armazenamento de dados analíticos (data warehouse, data mart, data lake data lakehouse, vector stores), suas diferenças conceituais e casos de uso; armazenamento na nuvem. 6. Ingestão e armazenamento de dados; definição de ingestão em lote (batch) e em tempo real (stream). 2. Coleta de dados: fontes comuns de dados (internas e externas); interface de programação de aplicação (API); técnicas de web scraping. 4. Preparação de dados: técnicas de tratamento e limpeza de dados; técnicas detecção de vieses; data profiling. 5. Préprocessamento de dados: técnicas de normalização e padronização; discretização; metodologias de codificação de variáveis categóricas (encoding). 6. Feature engineering: processos para enriquecimento de dados, com criação e seleção de features relevantes; transformações matemáticas e estatísticas comuns em variáveis.
Disponível em 26/08/2024
Modelagem Dimensional; OLAP; [conteúdo não explícito no edital, mas ajuda a entender as aulas seguintes]
Disponível em 01/09/2024
7. Big Data: conceito de big data; conceitos gerais sobre técnicas e ferramentas para lidar com grandes volumes de dados (HDFS e MapReduce). 2. Metodologias de gestão de projetos de ciência de dados: CRISPDM; Microsoft Team Data Science Process (TDSP); 6. Sistemas de recomendação: Filtragem colaborativa (baseadas em usuários ou itens); filtragem baseada em conteúdo; sistemas híbridos; problemas comuns (cold start, escalabilidade, data sparsity).
Disponível em 05/09/2024
4. Sistemas Gerenciadores de Base de Dados (SGBD): definição de SGBD; principais funções; principais tipos de SGBDs (NoSQL) e suas diferenças; transações e índices. [Bancos de Dados NoSQL; principais SGBDs NoSQL;]
Disponível em 10/09/2024
7. Big Data: Spark e Hadoop.
Disponível em 15/09/2024
VII - MODELAGEM: 1. Pipeline de treinamento de modelos e suas etapas. 7. Modelagem de IA centrada em dados (datacentric). 12. Visão Computacional: técnicas de pré-processamento de imagem; OCR; segmentação e extração de características de imagens; detecção; segmentação e reconhecimento de objetos; classificação de imagens. 13. Modelos multi-modais: principais aplicações. XIII - GOVERNANÇA, SEGURANÇA E APLICAÇÃO RESPONSÁVEL DE IA: 1. Noções de governança de IA: conceitos e objetivos da governança de IA; gestão de riscos em IA; gestão de ciclo de vida de modelos. 2. Principais riscos e vulnerabilidades relacionados a IA: viés algorítmico; exposição de dados sensíveis; envenenamento de dados de treinamento; ataques adversariais; ataques de manipulação de modelos; roubo de modelos; ataque de inferência; alucinações. 3. Aplicação de IA responsável: definição; ética; transparência; justiça e equidade; responsabilização; segurança cibernética; compliance regulatório. V - GESTÃO DE PROJETOS DE
Disponível em 20/09/2024
2. Técnicas de clusterização: K-Means; agrupamento hierárquico; Gaussian Mixture Models; DBSCAN. 3. Técnicas de classificação: Regressão logística; K-Nearest Neighbors (KNN); Suport Vector Machines (SVM); Decision Trees (CART); classificadores Naive-Bayes (Binomial-Beta, Poisson-Gama, Normal-Normal); Florestas Aleatórias (Random Forest)
Disponível em 21/09/2024
8. Tópicos em regressão: modelos de dados em painel; GLM; regressão espacial; regressão quantílica; regressão de Poisson; modelos VAR; ECM e GARCH. 11. Modelos de aprendizado por reforço: Q-Learning; Deep Q-Networks (DQN); Policy Gradient Methods; multiarmed bandit.
Disponível em 22/09/2024
10. Redes neurais: Introdução a Redes Neurais Artificiais (arquitetura, funções de ativação, treinamento, forward pass, backpropagation, loss functions, algoritmos de otimização, épocas, batch size e demais); embeddings; redes profundas (deep learning); Redes Neurais Convolucionais (CNNs) e Recorrentes (RNNs); LSTM; GRU; GAN; modelos multimodais.
Disponível em 23/09/2024
6. Sistemas de recomendação: Filtragem colaborativa (baseadas em usuários ou itens); filtragem baseada em conteúdo; sistemas híbridos; problemas comuns (cold start, escalabilidade, data sparsity). 7. Modelos de séries temporais: definição; componentes (tendência, sazonalidade, ciclos e ruído); autocorrelação e autocorrelação parcial; conceito e testes de estacionaridade; cointegração; modelos AR, ARMA e ARIMA; modelos de suavização exponencial; modelos de decomposição; modelos de regressão com variáveis temporais (ARIMAX). 9. Introdução a modelos causais: fundamentos de causalidade estatística, experimentos e quase-experimentos, desenho de descontinuidade de regressão, modelos de variáveis instrumentais, diferenças em diferenças, modelos de equações estruturais (SEM), métodos de pareamento. 14. Quantificação de incertezas em modelos preditivos: Programação Probabilística; Amostragem de Gibbs; Inferência Variacional; Hamiltonian Monte Carlo; Modelos de Markov Ocultos; Aprendizado Profun
Disponível em 24/09/2024
IX - PROCESSAMENTO DE LINGUAGEM NATURAL (NLP): 1. Técnicas de pré-processamento de texto: limpeza; normalização; remoção de stop words; stemming; lematização e demais. 2. Representação de texto: N-grams; CBoW; FTD-IDF; word embeddings (Word2Vec, GloVe e demais) e document embeddings (Doc2Vec, BERT, ELMo e demais). 3. Modelagem de tópicos: latent dirichlet allocation (LDA); non-negative matrix factorization (NMF). 4. Modelos de linguagem: modelos de linguagem tradicionais; redes neurais recorrentes; redes neurais convolucionais; transformers. 5. Tarefas básicas em NLP: classificação de texto; análise de sentimento; extração de informação (NER; REL); similaridade textual; sumarização de texto; rotulação de partes do discurso (POS-tagging) e tradução automática. 6. Aplicações relacionadas a modelos de NLP: geração de texto; question answering e diálogo conversacional; retrieval augmented generation (RAG); chatbots; extração estruturada de informações; agentes de IA (IA agents).
Disponível em 25/09/2024
3. Métricas para avaliação e seleção de modelos: métricas para regressão (MSE; RMSE; MAE; R²; R² ajustado); métricas para classificação (accuracy, precision, recall, F1-score e ROC-AUC); análise de matriz de confusão; trade-off entre viés e variância; detecção de overfitting e underfitting. 8. Interpretabilidade de modelos: feature importance; valores de Shapley (SHAP) e LIME.
Disponível em 26/09/2024
2. Otimização de hiperparâmetros: grid search; random search; algoritmos de otimização avançados; automl; autotuning; autofeature engineering. 4. Técnicas de regularização: lasso; ridge; elastic net; dropout; early stopping; batch normalization. 6. Validação de Modelos: K-fold crossvalidation; leave-one-out cross-validation; bootstrap. VIII - CLASSES DE MODELOS: 1. Redução de dimensionalidade: Principal Component Analysis (PCA); LDA; ICA; T-SNE; uso de autoencoders. 5. Ensembling de modelos: Bagging; boosting (AdaBoost, Gradient Boosting, XGBoost, LightGBM e CatBoost); stacking.
Disponível em 27/09/2024
9. Implantação de modelos em produção: exportação de modelos (pickle, PMML e ONNX); conceitos de MLOps; implantação local (on premise) e na nuvem. 10. Monitoramento de modelos: monitoramento de desempenho; data drift; concept drift; detecção de drifts; retreino e atualização de modelos.
Disponível em 28/09/2024
XII - GOVERNANÇA E SEGURANÇA DE DADOS: 1. Noções de governança de dados (DMBOK): conceitos e objetivos da governança de dados; principais técnicas de qualidade e integridade de dados; princípios de privacidade e proteção a dados.
Disponível em 29/09/2024
XI - VISUALIZAÇÃO; STORYTELLING E COMUNICAÇÃO CORPORATIVA: 1. Principais tipos de visualizações e gráficos: tabela; gráfico de barras; linhas; pizza; dispersão; histograma; área; boxplot; bolhas; radar; mapas cartográficos; mapa de calor. 2. Visualização de dados: princípios de design de gráficos efetivos; principais conceitos de codificação visual; interatividade; acessibilidade em gráficos. 3. Dashboards: técnicas para construção de interfaces e layout; abordagens para escolha de designs; organização de elementos visuais e gráficos; seleção de gráficos e visualizações; interatividades e drill-downs; acessibilidade. 4. Storytelling com dados: construção de narrativas visuais e contextualizações; componentes de um storytelling efetivo. 5. Reportes executivos: princípios de comunicação corporativa; interpretação e apresentação de dados de resultados de análises e de insights. 6. Microsoft Power BI: conexão e importação de dados; modelagem de dados; criação de medidas e colunas calculada