Ciência de Dados Passo a Passo: Data Mesh.
Introdução
Retomando os temas da área de Ciência de Dados, uma disciplina bastante cobrada de Tecnologia da Informação (TI), vamos conversar hoje sobre Data Mesh. E aí, já conhece? Ou nunca ouviu falar?
Embora seja um conceito novo (como tudo em Ciência de Dados), saiba que Data Mesh está começando a aparecer nos editais de TI. Como não há tanto material disponível para concursos, achamos oportuno preencher essa lacuna e elaborar um artigo fresquinho para você. Veja o nosso roteiro de hoje:
- O que é Data Mesh?
- Princípios do Data Mesh
- Benefícios do Data Mesh
- Mapa Mental
Sem dúvida, a leitura deste artigo é recomendada aos concurseiros de TI, principalmente os que pretendem realizar provas específicas de Ciência de Dados. Caso pretenda fazer prova para um concurso concorrido da área geral, continue conosco também (principalmente se o edital cobrar o tema).
Não se preocupe se você é novato no mundo dos concursos, pois preparamos um artigo bem completo, com explicações detalhadas. Aproveite bastante, porque é raríssimo esse tipo de material para concursos em um artigo gratuito. Vamos começar então?
Tempo de leitura aproximada: 5 a 10 minutos
O que é Data Mesh?
Definição
Primeiramente, Data Mesh (em português, malha de dados) é um modelo de arquitetura de dados. Em outras palavras, ela é uma abordagem para gerenciar os dados de uma organização. Isso é bastante natural, pois tudo é pautado em dados na realidade em que vivemos.
Dê uma olhada atentamente nos detalhes da figura abaixo. Além de trazer um exemplo de Data Mesh, ela também explora muito bem os pontos que abordaremos nas próximas subseções.
Primeiras Impressões
Analisando a figura anterior, veja que a organização em questão é composta por setores distintos, típicos das empresas: Marketing, Finanças, Recursos Humanos e Vendas. Cada um dos setores trabalha com conjuntos de dados, que podem ser comuns ou não a outras equipes.
Por exemplo, Finanças e Recursos Humanos lidam com dados pessoais. O nome de uma pessoa pode aparecer em uma lista de contracheques (Finanças) e em uma lista de colaboradores (Recursos Humanos). Porém, o valor bruto da remuneração é um dado relativo ao setor de Finanças.
Momento Curiosidade: Embora não seja nosso objetivo relacionar Data Mesh com a Lei Geral de Proteção de Dados Pessoais (LGPD) neste artigo, veja que a privacidade dos dados aparece no centro da figura. De fato, esse assunto também faz parte do contexto do Data Mesh.
Observe também que os dados podem partir de diversas fontes (logs, mensagens, APIs etc.). Esses dados podem ser utilizados pelos setores da empresa ou podem provocar saídas para outros destinos (aplicativos da empresa, mídias sociais etc.).
Se você está acompanhando o nosso raciocínio até aqui, ótimo. Na próxima seção, vamos voltar mais uma vez à figura para explicar os princípios. Você verá como tudo vai fazer sentido.
Princípios do Data Mesh
O Data Mesh contém 4 princípios, que são espécies de características gerais da sua arquitetura. Como nunca sabemos o que as bancas pretendem “aprontar”, vamos apresentar as nomenclaturas mais comuns em inglês, juntamente com os termos mais prováveis em português.
Atenção: As nomenclaturas apresentadas podem sofrer pequenas variações. Às vezes, a tradução não “bate ao pé da letra” porque ele é conhecido de forma diferente no Brasil. Fique preparado e busque a melhor resposta na hora da prova.
Princípios Data as a Product (Dados como Produtos) e Domain-Oriented Ownership (Arquitetura Descentralizada Orientada ao Domínio)
Data as a Product (Dados como Produtos): no Data Mesh, os dados propriamente ditos são conhecidos como produtos. Por que produtos, de onde vem esse nome? Porque eles são considerados saídas, resultados de várias fontes, origens de dados.
Na nossa figura de exemplo, as fontes de dados podem ser logs, mensagens, APIs etc., conforme já vimos anteriormente. Os dados partem daí e são utilizados pelos setores, em aplicações operacionais (rotinas) ou analíticas (análises de negócios).
Domain-Oriented Ownership (Arquitetura Descentralizada Orientada ao Domínio): os dados são organizados em domínios, que são espécies de conjuntos divididos por área de negócio. Ou seja, veja que não há uma centralização dos dados. De fato, o tratamento é descentralizado.
Se você voltar na seção anterior, irá reparar que diversos setores lidam com os dados simultaneamente, participando do seu controle. Cada setor possui um domínio próprio. Os dados que fazem parte de cada domínio podem ser compartilhados ou não com os demais.
Por exemplo, os dados pessoais podem ser utilizados pelo setor de Finanças e Recursos Humanos, conforme explicamos. Nesse caso, teríamos um compartilhamento. Por outro lado, veja que não há um único setor responsável pelos dados. Ou seja, estamos diante de uma descentralização.
Princípios Federated Computational Governance (Governança Federada de Dados) e Self-Serve Data Plataform (Plataforma para Dados Self-Service)
Federated Computational Governance (Governança Federada de Dados): para a administração dos dados, é importante existir um conjunto de políticas e padrões comuns a todos, assim como em um país, uma federação (daí o termo “federada”).
As políticas e padrões favorecerão a troca de informações entre os setores e, por conseguinte, o reaproveitamento dos dados. Para isso, é importante discriminar as regras de sua utilização, deixando claro que elas existem.
Voltando ao exemplo da LGPD, suponha que o setor de Finanças trate os dados pessoais em desconformidade com a legislação. Mesmo que o setor de Recursos Humanos haja de forma contrária, a empresa certamente sofreria as sanções.
Self-Serve Data Plataform (Plataforma para Dados Self-Service): o conceito de dados self-service significa que cada setor irá tratar, utilizar os dados de acordo com as necessidades do negócio. Para isso, haverá uma plataforma / infraestrutura apropriada.
Certamente, você já foi em algum restaurante com buffet self-service. Pense naquele filé mignon com arroz à piamontese… Nesse modelo, cada uma das comidas fica exposta e os clientes se servem sozinhos.
Dados self-service é a mesma ideia. O setor escolhe os dados com que vai trabalhar, de acordo com a necessidade do negócio, utilizando plataformas / infraestruturas específicas. Por exemplo, o setor de Recursos Humanos pode selecionar nome, endereço, telefone, e-mail etc.
Benefícios do Data Mesh
Quando aplicado corretamente no universo empresarial, o Data Mesh pode trazer muitos benefícios. Um deles é o estímulo à organização. Pelo que já expusemos, Data Mesh exige uma maturidade e estrutura para a sua implementação. Ou seja, a arquitetura vai forçar a empresa a atingir isso.
Outro benefício é a facilidade na análise de dados e, por conseguinte, na tomada de decisões. Conforme explicamos, os setores utilizam os produtos em aplicações analíticas, que realizam análises no contexto do negócio. Com os resultados em mãos, fica fácil decidir qual rumo tomar.
Perceba também que os setores dividem as responsabilidades, decorrentes da descentralização da arquitetura. A vantagem é que nenhuma área se sobrecarrega para manter tudo atualizado. Por conseguinte, a qualidade dos dados ofertados tende a melhorar.
Mapa Mental
Fechamos o conteúdo propriamente dito, mas preparamos um material bônus para auxiliar nas suas revisões. O mapa mental abaixo contém um resumo de tudo que falamos sobre Data Mesh, de uma forma ainda mais sintetizada.
Se você achou que a imagem ficou pequena, experimente baixá-la e dar um zoom para ampliar a visualização. Outra opção alternativa é dar um zoom diretamente no seu navegador.
Conclusão
Em suma, o artigo de hoje apresentou um overview de Data Mesh, um dos temas mais recentes da área de Ciência de Dados. Porém, o aprendizado não para por aqui. Se você conhece o nosso trabalho, já sabe o que vamos dizer, pois repetimos isso em todos os artigos.
Concurseiro, você precisa fazer questões. Historicamente, alunos aprovados realizam milhares de exercícios para atingir seu objetivo. O acesso ao Sistema de Questões do Estratégia Concursos é feito pelo link: https://concursos.estrategia.com/.
As questões podem servir como base para a revisão, mas é importante que você também conte com outros tipos de material para apoiá-lo nessa tarefa. Uma boa opção são mapas mentais, similares ao disponibilizado neste artigo. Revise-os periodicamente para memorizar os conceitos.
Por fim, para aprofundar o conteúdo ou tirar dúvidas específicas, busque o material do Estratégia Concursos. Nós oferecemos diversos cursos em pdf, videoaulas e áudios para você ouvir onde quiser. Saiba mais por meio do link: http://www.estrategiaconcursos.com.br/cursos/.
Bons estudos e até a próxima!
Cristiane Selem Ferreira Neves é Bacharel em Ciência da Computação e Mestre em Sistemas de Informação pela Universidade Federal do Rio de Janeiro (UFRJ), além de possuir a certificação Project Management Professional pelo Project Management Institute (PMI). Já foi aprovada nos seguintes concursos: ITERJ (2012), DATAPREV (2012), VALEC (2012), Rioprevidência (2012/2013), TJ-RJ (2022), TCE-RJ (2022) e CGE-SC (2022/2023). Atualmente exerce o cargo efetivo de Auditora de Controle Externo – Tecnologia da Informação e integra o corpo docente da Escola de Contas de Gestão do TCE-RJ, além de ser produtora de conteúdo dos Blogs do Estratégia Concursos, OAB e Carreiras Jurídicas.