Mineração de Dados para Concursos Fiscais: Resumo e Dicas de estudo

Neste artigo apresentaremos um resumo de mineração de dados. Traremos os pontos mais cobrados pelas bancas nas questões de mineração de dados nas provas de concursos fiscais.

Além disso, traremos dicas de estudo para você gabaritar esse assunto nas suas provas!

Mineração de Dados para concursos fiscais

O artigo será dividido da seguinte forma:

Conceito de Mineração de Dados
Incidência de Mineração de Dados nos concursos da área fiscal
Ementa de Mineração de Dados nos concursos da área fiscal
CRISP-DM
Técnicas de Mineração: Regressão, Classificação, Associação, Agrupamento
Conclusão e Dicas de Estudo

Conceito de Mineração de Dados nos Concursos Fiscais

A mineração corresponde ao processo de extrair algo. Na mineração tradicional estamos vasculhando o solo em busca de minérios. Na mineração de dados estamos vasculhando os dados em busca do nosso ouro: padrões nos dados.

Mineração de dados, ou em inglês, Data Mining, consiste em buscar padrões em grandes conjuntos de dados. Guarde bem esse nome: padrões, isso já é suficiente para acertar algumas questões.

Colocando de outra forma, mineração de dados é o processo de buscar, automaticamente, informação útil nos repositórios de dados.

Os padrões são encontrados via inferências e induções. Basicamente o computador varre os dados buscando exemplos que se repetem. Essa repetição caracteriza um padrão, uma tendência. Esses padrões nos mostram para onde os dados apontam, ajudando a entendê-los e interpretá-los.

Alguns exemplos desses padrões são: séries temporais (evento que acontece de tempos em tempos), anomalias (um evento que se destaca dos demais por fugir do padrão esperado), correlações (influência de um grupo de dados sobre o comportamento de outro grupo de dados).

Nesse processo, o uso de computadores e softwares é indispensável, pois o volume de dados é muito grande, seria muito improdutivo colocar pessoas para realizar esse trabalho.

Estamos falando de dados gerados pelas mais diversas fontes, portanto, são dados não estruturados. Os dados podem vir das redes sociais, dos celulares, da navegação na internet, de compras, etc.

Não há um padrão ou uma forma pré-definida para os dados que serão minerados. Não há uma estrutura pré-determinada para esses dados, entretanto nada impede que a mineração rode sobre dados estruturados.

O fato é que não é comum encontrar os dados organizados e padronizados na internet. A internet é um mundo de tecnologias, protocolos e convenções. Os dados circulam nas mais variadas formas e estruturas, o que exige um grande esforço para capturá-los, organizá-los e minerá-los.

Incidência de Mineração de Dados nos Concursos da Área Fiscal

Antigamente, ao se falar de informação, a maior dificuldade era onde encontrá-las. Não existia internet, as informações demoravam a chegar.

Hoje em dia, com a internet, o problema mudou. Não é a informação que demora chegar, pelo contrário, chega informação demais e em pouco tempo. Com tanto volume de informação, o problema está em filtrar e entender o que é relevante.

Os hábitos de consumo, as necessidades, as vontades das pessoas, está tudo expresso nos dados. É por isso que a mineração de dados vem ganhando importância, ela é a ferramenta capaz de extrair essas informações, gerando valor para as instituições a partir dos dados.

As últimas provas já refletem essa nova necessidade da administração pública. Nos últimos concursos fiscais, dentro da ementa de Tecnologia da Informação, mineração de dados se destaca, pois junto com banco de dados, foi um dos assuntos mais cobrados nos últimos concursos.

Para dominar esse assunto, um bom resumo é fundamental! Mas não precisa se preocupar, nesse artigo vamos te ajudar a montar o seu.

Neste vídeo do canal do Estratégia no Youtube são apresentados os assuntos mais cobrados nas últimas provas de T.I. da área fiscal.

Assuntos mais cobrados em T.I. para área fiscal

Ementa de Mineração de Dados nos Concursos da Área Fiscal

Ao analisar as últimas provas da área fiscal, podemos levantar uma ementa “padrão” de mineração de dados. Os editais costumam cobrir os seguintes pontos:

Conceito e características.
Modelo de referência CRISP-DM.
Técnicas de pré-processamento de dados.
Técnicas e tarefas de mineração de dados:
- Classificação
- Regressão
- Associação
- Agrupamentos (clusterização)
Aplicações de Data Minining
- Detecção de anomalias
- Modelagem preditiva
- Aprendizado de máquina
- Mineração de texto

Dentro desses assuntos, o conceito de mineração e as técnicas são os assuntos mais cobrados nas provas e exigem uma atenção especial do estudante para que não confunda os termos.

CRISP – DM

Vamos supor que você precise iniciar um projeto de mineração de dados. Por onde começar?

Uma alternativa é seguir a metodologia CRISP-DM. Ela não é a única metodologia, mas é a mais popular e a mais cobrada nas provas.

Essa metodologia traz um passo a passo para que um projeto de mineração de dados seja criado e implementado.

CRISP-DM é uma metodologia não-proprietária. Isso significa que não pertence a uma empresa específica e pode ser usada por qualquer entidade que deseje montar um projeto de mineração de dados.

A metodologia divide o processo de criação de um Data Mining em 6 fases:

Entendimento do Negócio
- Não adianta olhar para os dados sem entender o negócio. O passo inicial é entender as necessidades e oportunidades do negócio.
Entendimento dos Dados
- Entendido o negócio, olhamos para os dados que temos disponíveis.
- Nessa fase estamos preocupados em olhar e entender como os dados estão organizados hoje e o caminho que vamos precisar trilhar para conseguir extrair valor deles.
- Em regra, não há manipulação sobre os dados nessa fase, guarde isso.
Preparação dos Dados
- Essa é a fase mais trabalhosa do processo.
- Vamos coletar os dados das mais diversas fontes (websites, formulários, compras, smartphones, redes sociais…) e prepará-los para que o Data Mining consiga extrair informação útil.
- Aqui sim, estamos manipulando os dados.
- Apesar da mineração de dados rodar sobre dados não-estruturados, precisamos organizá-los de uma forma que favoreça a mineração.
Modelagem
- Nessa fase aplicamos as técnicas de mineração.
- Rodamos modelos de mineração e ajustamos os parâmetros para escolher os melhores.
Avaliação/Validação dos Dados
- O desempenho dos modelos é verificado e são propostas melhorias.
Utilização/Implementação
- Os modelos de mineração de dados selecionados são implementados.

Destaque no seu resumo a diferença entre entendimento dos dados x preparação dos dados x avaliação dos dados.

Técnicas de Mineração de Dados cobradas nos concursos fiscais

Assunto campeão de cobrança em provas, atenção aqui! As técnicas podem ser dívidas em 2 grupos: Descritivas x Preditivas.

As técnicas preditivas buscam fazer previsões baseadas no histórico dos dados. Ao analisar os dados elas inferem sobre os padrões e permitem fazer previsões. A classificação e a regressão são técnicas preditivas.

Já as técnicas descritivas são usadas para descrever os dados. Elas nos ajudam a entender as características dos dados. A associação e o agrupamento são técnicas descritivas.

Classificação

A classificação é uma técnica de mineração supervisionada, pois o algoritmo vai buscar classificar os dados em classes pré-definidas. Em outras palavras, antes de minerar, eu defino quais os grupos possíveis para cada dado.

Um bom exemplo de classificação é o algoritmo que os bancos usam para conceder crédito aos clientes. Há classes pré-definidas: bons pagadores, pagadores medianos, mal pagadores. Os dados dos clientes são minerados pelo algoritmo e cada cliente é classificado em uma das 3 classes.

Perceba a característica preditiva dessa técnica. Não sabemos se o cliente classificado como mal pagador é de fato um mal pagador, mas baseado em seus dados podemos “prever” uma classificação para ele.

Estamos nos baseando em outros clientes mal pagadores e nos dados deles para fazer essa classificação, inclusive podemos usar os dados dos mal pagadores para treinar o algoritmo, melhorando sua performance.

Regressão

A regressão também busca fazer uma predição, mas tem como característica principal a descoberta de uma função.

Na regressão temos uma relação dentro dos dados y = f(x). Colocando de outra forma, alguns dados definem o comportamento de outros dados. Esse comportamento é expresso por uma função, eu entro com os dados e recebo como retorno um valor.

O objetivo aqui é usar os dados para calcular uma função que retorne um valor real. A partir dessa função podemos prever comportamentos futuros.

Dado —-função de regressão—> Valor

Um bom exemplo seria uma função que retorna a probabilidade de um paciente sobreviver a partir dos dados desse paciente.

(pressão arterial, idade, tempo de internação…) —-função de regressão—> % sobreviver

Agrupamento / Clusterização

Uma questão recorrente nas provas trata da diferença entre agrupamento e classificação. Na classificação as classes são pré-determinadas. No agrupamento não há classes pré-definidas, portanto, é uma técnica não supervisionada. Entretanto é possível determinar quantas classes o algoritmo deve montar.

O agrupamento é usado para descrever os dados, dividindo-os em grupos de acordo com suas similaridades. Um outro nome para os grupos formados é clusters. O nome vem do inglês e significa aglomerado/agrupamento.

Um exemplo seria a mineração dos dados dos contribuintes do Fisco. O algoritmo de agrupamento dividiria os contribuintes de acordo com suas similaridades, colocando contribuintes com características semelhantes no mesmo grupo.

Veja que não definimos de antemão quais seriam os grupos possíveis para cada contribuinte, apenas disponibilizamos os dados ao algoritmo, e ele, de forma não supervisionada, monta os grupos.

A partir dos grupos criados eu posso entender as similaridades entre os contribuintes que foram colocados no mesmo grupo. Isso possibilita reduzir burocracias ou montar estratégias de fiscalização mais adequadas para cada grupo.

O algoritmo de agrupamento aponta similaridades entre contribuintes que não seriam triviais para uma pessoa que olha os dados brutos. Ao aplicar o algoritmo de agrupamento é possível descrever e entender melhor os dados.

Associação

A Associação busca eventos que acontecem juntos. Algumas bancas a chamam de coocorrência, ou seja, ao ocorrer o evento x, o evento y tem grandes chances de acontecer.

O exemplo mais famoso é a cesta de compras. Ao minerar os dados de compras de todos os usuários de um supermercado usando associação, obteremos relações do tipo: grande parte dos clientes que compraram pão, também compraram queijo.

Seria extremamente trabalhoso achar todas essas relações a olho nu. Teríamos que buscar em todas as compras do supermercado, é um volume muito grande de dados. Mas com a mineração essa tarefa fica mais fácil e automática.

Por fim, não confunda associação com séries temporais. Séries temporais está relacionada ao TEMPO, a ordem cronológica que os eventos ocorrem é importante. A associação está relacionada puramente à ocorrência dos EVENTOS, não há uma ordem cronológica específica. Tenha em mente essa diferença na hora de marcar na prova.

Neste link, coloquei um artigo do colega Kassio sobre Data Mining. Ele aborda a cobrança desse assunto para prova da Polícia Federal. Apesar de ser um concurso para área policial, muitas dicas são válidas para área fiscal.

No tópico sobre a técnica de Associação ele apresenta um exemplo prático, ilustrando os conceitos de suporte e confiança, recomendo a leitura.

Conclusão e dicas de estudo de mineração de dados para os concursos fiscais

Pessoal, não subestimem esse assunto! Mineração de dados vem aparecendo bastante nos concursos fiscais.

Nesse artigo abordamos os pontos que mais apareceram nas últimas provas. Passamos pelo conceito, pela metodologia para desenvolver um Data Mining (CRISP-DM) e pelas principais técnicas de mineração.

A dica é fazer muitas questões e a partir delas entender a profundidade que cada banca exige dos candidatos.

Assim como os outros assuntos de Tecnologia da Informação, mineração de dados pode trazer questões bem complexas e técnicas. A dica é começar pelas questões mais básicas. No primeiro momento, não entre nas questões de provas específicas para o cargo de T.I.

À medida que for ganhando familiaridade com o assunto, você pode entrar nas questões mais complexas, mas com cuidado para não ir além do que normalmente é exigido nas provas fiscais para o seu cargo.

Use as questões das provas anteriores de cargos similares ao seu como bússola para entender o limite do aprofundamento necessário.

Bons estudos e boa sorte!