Artigo

Ciência de Dados Passo a Passo: Data Lake.

Introdução

Retomando a nossa coletânea de artigos da área de Ciência de Dados, uma das grandes novidades no mundo dos concursos dos últimos tempos, vamos falar hoje sobre Data Lake.

Certamente você vai encontrar material na Internet sobre Data Lake, mas nós apostamos um capuccino que não há muita coisa relacionada a concursos. Não podemos afirmar que este artigo é inédito e pioneiro no tema, mas é bem provável que seja um dos primeiros.

Isso porque a cobrança de Data Lake é relativamente recente e ainda superficial, quando comparada a outros temas. As bancas começaram a elaborar questões sobre o assunto há alguns anos, porém a frequência aumentou a partir de 2022.

Como você sabe, nós temos que dançar conforme a música. Neste momento, não é necessária uma especialização em Data Lake para acertar as questões. Sendo assim, vamos apresentar os conceitos básicos e aprofundar um pouco mais para o caso da banca subir de nível. Veja o que vamos abordar:

  • O que é Data Lake?
  • Arquiteturas de Data Lake
  • Data Lake X Data Warehouse
  • Mapa Mental

Data Lake é um assunto que aparece nas provas específicas de Tecnologia da Informação e da área fiscal. Se você não faz prova dessas áreas, então está dispensado da leitura. Além disso, recomendamos também que você tenha noções prévias de Ciência de Dados para entender melhor o conteúdo.

Para facilitar e dinamizar os seus estudos, escrevemos este artigo em versão reduzida, sem perda da qualidade. Esperamos que você goste e consiga aproveitar ao máximo o conteúdo que preparamos. Vamos começar então.  

Tempo de leitura aproximada: 5 a 10 minutos

O que é Data Lake?

Data Lake é um repositório centralizado para armazenar dados estruturados, semiestruturados e não estruturados. Em outras palavras, ele é projetado para trabalhar com conjuntos variados de dados, que apresentam volumetria significativa.

Você Sabia? Dados estruturados contêm organização no armazenamento, sendo fáceis de serem processados. Já dados não estruturados não seguem organização, com processamento e recuperação difíceis. Por último, dados semiestruturados são intermediários entre os dois.  

Data Lake é muito utilizado em análises gerais de dados, tais como aplicações de inteligência de negócios, aprendizado de máquina, mineração de dados, Big Data etc.

Arquiteturas de Data Lake

Basicamente, existem duas opções de arquitetura de Data Lake: on-premises e nuvem. Vamos falar um pouquinho sobre cada uma delas nesta seção:

Arquitetura on-premises: tradicionais servidores físicos, que são hospedados localmente no Data Center da sua empresa. Requerem alguns cuidados básicos, incluindo segurança, ambiente de conservação, etc., típicos de quem lida com hardware diretamente.

Arquitetura em nuvem: transfere a responsabilidade do armazenamento para a empresa provedora do serviço. Além disso, como os servidores não estão fisicamente no local, é possível escalar facilmente a solução, de acordo com a necessidade do negócio. Tendência do momento.  

Momento Curiosidade: o serviço de arquitetura em nuvem é fornecido por diversas empresas de tecnologia do mercado, tais como Amazon (AWS), Microsoft (Azure), Red Hat (Ceph Storage) etc. 

Não existe uma melhor arquitetura de Data Lake do que a outra. A melhor é a que atende às necessidades do seu negócio, com custo-benefício mais favorável. Para definir a arquitetura, avalie sempre o contexto em que a empresa se encontra.

Data Lake X Data Warehouse

Muitas pessoas confundem os conceitos de Data Lake e Data Warehouse. Como diz um professor famoso, se os dois fossem iguais, teriam o mesmo nome. De fato, não são.

A principal diferença refere-se à capacidade de armazenamento dos dados. O Data Warehouse trabalha essencialmente com dados estruturados. Pense naquele modelo relacional de tabelas, bonitinho…

Por outro lado, o Data Lake pode trabalhar com dados estruturados, semiestruturados e não estruturados. Ou seja, pode trabalhar com qualquer tipo de dado. É um universo de opções maior do que o Data Warehouse oferece.

Da mesma forma que as arquiteturas, a decisão sobre qual delas escolher está relacionada às necessidades do negócio. Se você só vai trabalhar com tabelas, planilhas, é preferível o Data Warehouse. Em contrapartida, se está lidando com muitos vídeos, áudios etc., opte pelo Data Lake.

Mapa Mental

Antes de terminar o artigo, preparamos um fechamento dos conceitos em grande estilo, por meio de um mapa mental. Esperamos que o nosso esquema ajude-o na fixação do conteúdo e nas próximas revisões.

Figura 1 – Mapa Mental do Data Lake.
Figura 1 – Mapa Mental do Data Lake.

Se você gostou do mapa mental e achou que ele fez a diferença nos estudos, salve-o nos seus arquivos pessoais. Alternativamente, você também poderá armazenar este artigo para ler e reler quantas vezes quiser.  

Conclusão

O artigo de hoje apresentou Data Lake, um dos temas promissores na área de Ciência de Dados para os próximos concursos. Assim, se você concluiu a leitura e entendeu os conceitos, o próximo passo será realizar muitas questões para sedimentar o aprendizado.

Historicamente, alunos aprovados realizam várias baterias de exercícios e simulados para atingir seu objetivo. O acesso ao Sistema de Questões do Estratégia Concursos é feito pelo link: https://concursos.estrategia.com/.

Além disso, não esqueça de retornar ao tópico de tempos em tempos para fazer revisões. Aproveite o mapa mental disponibilizado neste artigo para isso, pois irá ajudá-lo nesta jornada.

Por fim, se você quiser aprofundar o conteúdo ou tirar dúvidas específicas, busque o material do Estratégia Concursos. Nós oferecemos diversos cursos em pdf, videoaulas e áudios para você ouvir onde quiser. Saiba mais por meio do link http://www.estrategiaconcursos.com.br/cursos/.

Bons estudos e até a próxima!

Cristiane Selem Ferreira Neves é Bacharel em Ciência da Computação e Mestre em Sistemas de Informação pela Universidade Federal do Rio de Janeiro (UFRJ), além de possuir a certificação Project Management Professional pelo Project Management Institute (PMI). Já foi aprovada nos seguintes concursos: ITERJ (2012), DATAPREV (2012), VALEC (2012), Rioprevidência (2012/2013), TJ-RJ (2022) e TCE-RJ (2022). Atualmente exerce o cargo efetivo de Auditora de Controle Externo – Tecnologia da Informação no Tribunal de Contas do Estado do Rio de Janeiro (TCE-RJ), além de ser produtora de conteúdo dos Blogs do Estratégia Concursos, OAB e Carreiras Jurídicas.

Concursos Abertos

Quer Saber Tudo de Concursos Previstos?

Confira Nossos Artigos

Concursos 2023

Deixe seu comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Veja os comentários
  • Nenhum comentário enviado.