Ciência de Dados Passo a Passo: Mineração de Dados.
Introdução
Retomando a nossa série de temas sobre Ciência de Dados, área que despenca nas provas de Tecnologia da Informação, vamos falar hoje sobre mineração de dados (ou data mining, para os íntimos).
Ainda que o tópico seja extremamente técnico e concernente aos concurseiros de TI, as bancas não querem saber disso e estão cobrando-o de forma recorrente nas provas de áreas gerais, especialmente as que exigem alto grau de desempenho.
Dessa forma, esse artigo é recomendado aos concurseiros das áreas Fiscal e Controle, além de cargos específicos de TI. No entanto, se você estuda para carreiras Policiais e Tribunais, fique atento porque esse conteúdo pode eventualmente aparecer também. Segue o nosso roteiro:
- Definição de Mineração de Dados
- Objetivos da Mineração de Dados
- Aprendizado de Máquina
- Técnicas de Mineração de Dados
- Modelagem para Mineração dos Dados
- CRISP-DM
Sem mais delongas, vamos partir para o conteúdo porque hoje é dia de “arrancar o couro”. Esperamos sinceramente que você consiga aproveitar o artigo e ter um excelente desempenho na prova. Vamos lá?
Tempo de leitura aproximada: 15 a 20 minutos
Definição de Mineração de Dados
Antes de mais nada, mineração de dados é o processo de encontrar anomalias, padrões e correlações em conjuntos de dados. As descobertas permitem que sejam feitas análises sobre os resultados, incluindo previsões.
Se você não conhece ainda o conceito de dado, vamos aproveitar a oportunidade para explicá-lo também. Dados podem ser definidos como sucessões de fatos brutos, que não foram organizados, processados, relacionados, avaliados ou interpretados.
Observando apenas o dado, você vai perceber que ele não faz sentido algum; entretanto, ele constitui a unidade básica para elaborar ou obter informações (que farão algum sentido posteriormente).
Ex: 57, casaco, 1.54, Rio de Janeiro etc.
Minerar lembra garimpar, correto? Perfeito, é isso mesmo. De forma clara, o processo de mineração é um garimpo dos dados, a fim de analisar seu comportamento. De acordo com essa análise, são extraídos padrões, tendências etc.
Objetivos da Mineração de Dados
A mineração de dados tornou-se a “queridinha” das empresas e do comércio digital nos últimos anos, principalmente das equipes de marketing e vendas. Com suas técnicas, é possível identificar tendências de compra de produtos pelos clientes, lojas que não atingem a expectativa das metas etc.
Principal Exemplo
Um exemplo bem simples da mineração de dados pode ser visto em um site de compras. Suponha que você se mudou recentemente e resolveu fazer um churrasco open-house para mostrar a casa nova a familiares e amigos (que delícia, heim).
No entanto, você percebeu que perdeu algumas coisas na mudança, incluindo o seu tradicional jogo de churrasco. Diante desse fato, você resolve comprar um novo kit pela Internet. Ao buscar pelo produto, você vai reparar que a loja oferece outras sugestões:
Veja que a loja sugeriu diversos utensílios, incluindo conjunto de copos, conjunto de talheres etc. Ok, se você perdeu alguns produtos na mudança e está fazendo um churrasco, talvez seja interessante comprar outras coisas também. A questão é a seguinte: como a loja leu seu pensamento?
Entendendo a Aplicação Prática
Meu caro, isso é mineração de dados pura. A loja tem um histórico dos clientes, incluindo os que compraram jogo de churrasco. Ou seja, ela sabe que os clientes que compram jogo de churrasco também se interessam por conjunto de copos, conjunto de talheres etc.
Como outras pessoas que compraram a mesma coisa se interessam por outros produtos, a loja tenta oferecê-los a você. Talvez você não compre, mas possivelmente muitos irão adquirir. Desta forma, a empresa aumenta suas vendas de acordo com perfil traçado dos clientes.
Em outras palavras, a mineração de dados é capaz de influenciar indiretamente no faturamento das companhias, haja vista que suas técnicas empregadas aumentam o lucro. Por este motivo, atualmente é uma área bastante visada e estratégica nas corporações.
Momento Curiosidade: A mineração de dados é um campo interdisciplinar, envolvendo áreas como Estatística, Banco de Dados etc. Em razão da alta demanda e dos poucos profissionais que atuam na atividade, é uma das carreiras mais promissoras no mercado.
Aprendizado de Máquina
Certamente você já deve ter visto algum desenho ou filme com um roteiro futurista, em que um robô aprende informações e acumula conhecimento como se fosse um ser humano.
Saiba que aquele futuro chegou ao presente e o aprendizado pelas máquinas (também chamado de machine learning) já está ocorrendo. Para facilitar, as máquinas a que nos referimos são equipamentos que dispõem de inteligência computacional, capaz de compreender e assimilar os dados.
Será que as máquinas precisam de alguém que as ensine ou elas são autodidatas e aprendem sozinhas? Ambos são possíveis. Os dados podem ser previamente apresentados a essas máquinas, como uma espécie de histórico, ou elas podem formar sozinhas a sua base de conhecimento.
No jargão computacional, a apresentação dos dados é uma supervisão. Quando a máquina aprende com esse apoio, estamos diante de um aprendizado supervisionado.
Por outro lado, caso não haja “ajuda” externa, o aprendizado é não supervisionado. Ressaltamos que as bancas cobram também o conceito de aprendizado semissupervisionado, que é um intermediário entre os dois.
O aprendizado de máquina está diretamente atrelado à mineração de dados. Para minerar, é necessária a aplicação de algumas técnicas. Falaremos sobre isso na próxima seção.
Técnicas de Mineração de Dados
As técnicas de mineração de dados variam de acordo com o tipo de supervisão. A decisão a respeito da escolha da técnica deve estar embasada nas necessidades do negócio. Neste artigo, vamos “dar uma pincelada” das principais técnicas cobradas em prova.
Consideramos este tópico um pouco mais avançado. Como costuma dizer um professor famoso de Tecnologia da Informação, “vamos ter que mergulhar mais fundo na piscina”.
Deixando as brincadeiras de lado, parabéns por ter chegado até aqui. Independentemente se é da área de TI ou não, demonstra ser persistente e focado em seus objetivos. Bom, chega de enrolação e vamos lá.
Técnicas de Mineração de Dados com Aprendizado Supervisionado
CLASSIFICAÇÃO
Nesta técnica, os rótulos são definidos previamente. Pense em rótulos como se fossem legendas, pois ficará fácil de entender. Os dados são classificados de acordo com os rótulos.
A base é dividida em testes (1/3 do total) e treinamento (2/3 do total). Enquanto a base de treinamento é utilizada para construir um modelo de classificação dos dados a partir dos rótulos, a base de teste é utilizada para validar o modelo.
Vamos pensar em um exemplo juntos. Suponha que temos a base de treinamento abaixo, para definir qual disciplina um professor do Estratégia Concursos irá ministrar, de acordo com o perfil. Os rótulos então seriam Tecnologia da Informação, Língua Portuguesa e Raciocínio-Lógico.
Formação | Disciplina |
---|---|
Ciência da Computação | Tecnologia da Informação |
Letras | Língua Portuguesa |
Matemática | Raciocínio-Lógico |
Dessa forma, caso Cristiane, formada em Ciência da Computação, resolvesse se candidatar a uma vaga de professora, ela seria classificada em Tecnologia da Informação.
REGRESSÃO
A regressão é um método mais matemático, utilizado para prever dados a partir de uma série histórica. Para não ficar muito técnico e abstrato, vamos ilustrar novamente com um exemplo bem simples.
Hipoteticamente, suponha que o Estratégia queira fazer uma previsão a respeito do valor gasto pelos assinantes em 2023, para fazer um planejamento do caixa. Considerando uma ordem de grandeza dos dados históricos, podemos usar a regressão para prever:
Observe que os pontos seguem uma tendência e um alinhamento. Seria possível inclusive traçar uma reta no entorno dos pontos, de forma linear. Veja que a abordagem da classificação é totalmente diferente da regressão, utilizada para problemas distintos.
Técnicas de Mineração de Dados com Aprendizado Não Supervisionado
AGRUPAMENTO OU CLUSTERIZAÇÃO
Como o próprio nome diz, dados são separados em grupos que tenham características similares ou homogêneas. Assim, dados do mesmo grupo são semelhantes uns aos outros e diferentes dos dados de outros grupos. O agrupamento não é tão difícil, mas vamos ver melhor com um exemplo?
Suponha agora que você foi finalmente aprovado e recebeu um convite para conhecer a sede do Estratégia, em São Paulo. No entanto, você não estará sozinho. Para facilitar a logística, a equipe de Marketing agrupou você junto com os demais aprovados do seu concurso e outros semelhantes.
Consegue visualizar que os grupos não estão predefinidos, como na classificação? Eles são variáveis de acordo com os concursos. Em outras palavras, esse agrupamento é feito dinamicamente.
ASSOCIAÇÃO
Esta última técnica é uma relação de coocorrência, considerando eventos que ocorrem simultaneamente. Baseia-se na regra X => Y (se X ocorre, então Y também ocorre), onde X e Y são conjuntos de itens, sem hierarquia entre eles.
Além disso, a associação trabalha com medidas de suporte e de confiança. A medida de suporte considera as transações que contêm os itens de X e Y, dividido pelas transações totais.
Por outro lado, a medida de confiança considera as transações que contêm os itens de X e Y, dividido pelas transações que contêm os itens de X. Confuso? Ou esse assunto parece familiar?
Nós já apresentamos um exemplo de associação neste mesmo artigo. Lembra do churrasco open-house? O site da loja associou o jogo de churrasco com conjunto de copos e conjunto de talheres. Veja que a associação está mais presente na sua vida do que você imagina.
Mapa Mental Aprendizados X Técnicas
Como sabemos que esse conteúdo não é dos mais fáceis, preparamos um resumo bem interessante para ajudá-lo a memorizar os conceitos. No artigo de hoje, você irá notar que optamos por esquematizar aos poucos, para facilitar o seu aprendizado.
Se não conseguir entender tudo na primeira leitura, não fique desanimado. Veja o quanto você evoluiu até aqui. Ademais, o assunto é complicado mesmo. Dê tempo ao tempo, pois cada um tem uma maneira e o momento de absorver o conteúdo.
Modelagem para Mineração de Dados
Antes de mais nada, é preciso criar um modelo para efetuar a mineração dos dados. Essa ação é conhecida como modelagem. Destacamos que nem todas as minerações seguirão a mesma modelagem. A escolha irá variar de acordo com a necessidade do negócio.
As provas não pedem para você criar um modelo na prática, mas cobram as definições a respeito das modelagens. Dessa forma, segue um quadro esquematizado com os tipos mais cobrados em prova. Memorize-o e você acertará muitas questões.
Modelagem | Definição |
---|---|
Descritiva | Busca padrões e correlações para descrever os dados atuais. |
Diagnóstica | Busca padrões e correlações existentes em um problema para encontrar suas causas. |
Preditiva | Busca padrões e correlações nos dados atuais para inferir/deduzir a respeito dos dados futuros. |
Prescritiva | Busca padrões e correlações nos dados atuais para determinar o que deve ser feito. |
CRISP-DM
Já que estamos falando em modelagem para mineração de dados, não poderíamos deixar de abordar neste artigo o CRISP-DM (Processo Padrão entre Indústrias para Mineração de Dados).
Atualmente, ele é o método mais cobrado pelas bancas. Uma informação importante é que o CRISP-DM não é uma metodologia proprietária, ou seja, não pertence a nenhuma empresa específica que cobra pela sua utilização. Fique atento, pois as provas sempre batem nesta tecla.
Para não deixar o artigo muito extenso, vamos esquematizar as 6 etapas do CRISP-DM, contemplando uma descrição breve em tópicos a respeito de cada uma delas. Garantimos que isso fará com que você acerte muitas questões:
Conclusão
No artigo de hoje, apresentamos um pouco sobre mineração de dados, um tema que despenca nas provas de Tecnologia da Informação que exigem Ciência de Dados. Assim, se você entendeu bem os conceitos, o próximo passo agora será realizar muitas questões para treinar.
Alunos aprovados realizam centenas ou até milhares de questões para atingir seu objetivo. O acesso ao Sistema de Questões do Estratégia é feito pelo link: https://concursos.estrategia.com/.
Não esqueça também de retornar ao tópico periodicamente para fazer revisões. Os esquemas disponibilizados ao longo do artigo irão ajudá-lo muito na memorização do conteúdo, juntamente com o material do Estratégia Concursos.
Por fim, lembramos que o Estratégia oferece diversos cursos em pdf, videoaulas e áudios para você ouvir onde quiser.
Bons estudos e até a próxima!
Cristiane Selem Ferreira Neves é Bacharel em Ciência da Computação e Mestre em Sistemas de Informação pela Universidade Federal do Rio de Janeiro (UFRJ), além de possuir a certificação Project Management Profissional pelo Project Management Institute (PMI). Já foi aprovada nos seguintes concursos: ITERJ (2012), DATAPREV (2012), VALEC (2012), Rioprevidência (2012/2013), TJ-RJ (2022) e TCE-RJ (2022). Atualmente exerce o cargo efetivo de Especialista em Previdência Social – Ciência da Computação no Rioprevidência, além de ser colaboradora do Blog do Estratégia Concursos.