1 Dado, informação, conhecimento e inteligência. 1.1 Dados estruturados e não estruturados. 1.2 Dados abertos. 1.3 Coleta, tratamento, armazenamento, integração e recuperação de dados. 2 Banco de dados relacionais. 2.1 Conceitos e características. 2.2 Metadados. 2.3 Tabelas, visões (views) e índices. 2.4 Chaves e relacionamentos. (Parte 1)
1 Dado, informação, conhecimento e inteligência. 1.1 Dados estruturados e não estruturados. 1.2 Dados abertos. 1.3 Coleta, tratamento, armazenamento, integração e recuperação de dados. 2 Banco de dados relacionais. 2.1 Conceitos e características. 2.2 Metadados. 2.3 Tabelas, visões (views) e índices. 2.4 Chaves e relacionamentos. (Parte 2)
9 Álgebra relacional e SQL (padrão ANSI).
1.3 Segurança de banco de dados.
1.2 Técnicas de análise de desempenho e otimização de consultas (tuning).
II BUSINESS INTELLIGENCE: 1 Conceitos, fundamentos, características, técnicas e métodos de business intelligence (BI). 2 Sistemas de suporte a decisão e gestão de conteúdo. 3 Arquitetura e aplicações de data warehouse com ETL e OLAP. 4 Definições e conceitos de data warehouse. 5 Visualização de dados: BD individuais e cubos. 6 Técnicas de modelagem e otimização de bases de dados multidimensionais. 7 Mapeamento das fontes de dados: técnicas para coleta de dados. 3 Modelagem dimensional. 3.1 Conceito e aplicações. (Parte 1)
II BUSINESS INTELLIGENCE: 1 Conceitos, fundamentos, características, técnicas e métodos de business intelligence (BI). 2 Sistemas de suporte a decisão e gestão de conteúdo. 3 Arquitetura e aplicações de data warehouse com ETL e OLAP. 4 Definições e conceitos de data warehouse. 5 Visualização de dados: BD individuais e cubos. 6 Técnicas de modelagem e otimização de bases de dados multidimensionais. 7 Mapeamento das fontes de dados: técnicas para coleta de dados. 3 Modelagem dimensional. 3.1 Conceito e aplicações. (Parte 2)
4 Definições e conceitos de data mining. 4 Mineração de dados. 4.1 Modelo de referência CRISP-DM. 4.2 Técnicas para pré-processamento de dados. 4.3 Técnicas e tarefas de mineração de dados. 4.4 Classificação. 4.5 Regras de associação. 4.6 Análise de agrupamentos (clusterização). 4.7 Detecção de anomalias. 4.8 Modelagem preditiva. 4.10 Mineração de texto. 5 Técnicas de associação. 5.1 Descoberta de conjuntos frequentes. 5.2 Descoberta de regras de associação.
5 Big data. 5.1 Conceito, premissas e aplicação. 5.2 Tipos de dados: estruturados, semiestruturados e não estruturados. 5.3 Conceitos dos três Vs. 5.4 Fluxo de big data: ingestão, processamento e disponibilização. 5.5 Armazenamento de big data. 5.6 Pipeline de dados. 5.7 Processamento distribuído. 5.8 Conceitos de data lake. 5.9 ETL X ELT. 5.10 Soluções de big data. 5.10.1 Arquitetura do ecossistema Apache Hadoop. 5.10.2 Componentes Hadoop: HBase, Kudu, Sqoop, Nifi, Hive, Impala, Spark, Spark Streaming, SOLR, Oozie, Yarn, Kafka, Flink e AirFlow. 5.11 Arquiteturas de big data. 5.11.1 Arquitetura Lambda. 5.11.2 Arquitetura Kappa. 8 Ecossistema de big data Apache Hadoop. Arquitetura e análise de requisitos para sistemas analíticos.
6 Visualização e análise exploratória de dados.
11 Visualização e análise exploratória de dados 11.1 Ferramentas de criação de dashboards (Power BI). 11.2 Storytelling. 11.3 Elaboração de painéis e dashboard. 11.4 Elaboração de relatórios analíticos.
4.9 Aprendizado de máquina. 1 Técnicas de classificação. 1.1 Naive Bayes. 1.2 Regressão logística. 1.4 Árvores de decisão (algoritmos ID3 e C4.5) e florestas aleatórias (random forest). 1.5 Máquinas de vetores de suporte (SVM – support vector machines). 1.6 K vizinhos mais próximos (KNN – K-nearest neighbors). 1.7 Comitês de classificadores. 3 Técnicas de agrupamento. 3.1 Agrupamento por partição. 3.2 Agrupamento por densidade. 3.3 Agrupamento hierárquico.
1.3 Redes neurais artificiais. 1.3.1 Funções de ativação: limiar, linear, ReLU, logística, softmax, maxout e gaussiana. 1.3.2 Redes Perceptron de única e múltiplas camadas.
1.8 Avaliação de modelos de classificação: treinamento/teste/validação; validação cruzada; métricas de avaliação (matriz de confusão, acurácia, precisão, revocação, F1-score e curva ROC).
2 Técnicas de regressão. 2.1 Regressão linear. 2.2 Séries temporais (tendências, suavização exponencial e modelos ARIMA). 2.3 Redes neurais para regressão. 2.4 Árvores de decisão para regressão. 2.5 Máquinas de vetores de suporte para regressão. 2.6 Intervalos de confiança em regressão. 2.7 Avaliação de modelos de regressão: mean absolute error (MAE), mean square error (MSE), root mean square error (RMSE) e coeficiente de determinação (R2). 6 Sistemas de recomendação.
4 Técnicas de redução de dimensionalidade. 4.1 Seleção de características (feature selection). 4.2 Análise de componentes principais (PCA – principal component analysis).
7 Processamento de linguagem natural (PLN). 7.1 Normalização textual (stop words, estemização, lematização e análise de frequência de termos). 7.2 Rotulação de partes do discurso (POS-tagging – part-of-speech tagging). 7.3 Reconhecimento de entidades (NER – named entity recognition) e rotulação IOB. 7.4 Modelos de representação de texto: Ngramas, modelos vetoriais de palavras (CBOW, Skip-Gram e GloVe), modelos vetoriais de documentos (booleano, TF e TF-IDF, média de vetores de palavras e Paragraph Vector). 7.5 Métricas de similaridade textual (similaridade do cosseno, distância euclidiana, similaridade de Jaccard, distância de Manhattan e coeficiente de Dice). 7.6 Aplicações de PLN: sumarização automática de texto (abordagens extrativa e abstrativa), modelagem de tópicos em texto (algoritmos LSI, LDA e NMF), classificação de texto, agrupamento de texto, tradução automática de texto, análise de sentimentos e emoções em texto, reconhecimento de voz (STT – speech to text).