Plano de qualidade e outras ações para limpeza de dados

É difícil imaginar que um prato feito com ingredientes de má qualidade possa ser saboroso. Obviamente a receita, o talento do cozinheiro e os instrumentos da cozinha podem fazer diferença, mas no final do dia tudo começa por ingredientes de boa qualidade. E assim também o é com dados. O primeiro fator de sucesso para análises estatísticas e execução de modelos de machine learning são dados limpos e de qualidade. Uma outra forma de colocar essa verdade é o famoso (ou infame talvez?) dito: “garbage in, garbage out“. Ao efetuarmos quaisquer processos, sejam eles análises informativas, preditivas ou prescritivas, baseados em informações qualidade duvidosa, estaremos colocando em risco a confiabilidade dos resultados, o que no limite pode resultar em perdas financeiras, dependendo do tipo de decisão que o processo de dados vai apoiar.

Mas então, como melhorar, ou ainda, garantir, a qualidade dos dados? É possível utilizar um plano de qualidade de dados ubíquo, respeitado por todas as áreas de uma empresa? Bom, em teoria, sim. Mas se descrever boas práticas para a criação e armazenamento de dados, num formato que atinja todos os que participam destes processos, pode ser um desafio complexo, fazer as pessoas seguirem este plano é ainda mais difícil.

O problema básico de um plano, na forma de diretrizes registradas em um documento é que, para ter alguma efetividade, ele precisa ser seguido pelas pessoas. Para não ficarmos somente em uma descrição de alto nível, de maneira prática, no plano de qualidade, nos treinamentos dos desenvolvedores e nos contratos com eventuais terceiros, devem ser abordados os assuntos de como devemos representar os dados desde os formulários de entrada, passando pela validação de campos nos sistemas de frontend e backend, até sua gravação nos bancos de dados transacionais e posterior extração para Data Lakes e Data Warehouses, além de quaisquer outras representações que se fizerem necessárias. É importante deixar claro que a intenção não é retirar a autonomia das diversas equipes em como representar os dados em seus sistemas, mas sim obter certa conformidade para o bem da própria empresa.

Por sorte nas áreas de tecnologia podemos recorrer à mesma para nos ajudar neste ponto. O plano de qualidade de dados pode ser implantado não apenas como uma série de diretrizes, mas diretamente nas pipelines de código, para sistemas proprietários que se utilizem de boas práticas de programação. Para o caso de sistemas terceiros ou legados, uma validação automática periódica, diretamente nos bancos de dados, pode fazer o mesmo papel.

Exaurido o poder de padronização e validação dos dados no momento de sua criação, é possível que ainda tenhamos algumas inconsistências nos mesmos que precisem ser resolvidas. Processos automáticos de deduplicação têm se tornado comuns e bem eficientes. É fato que para melhores resultados é sempre bom que um humano com um olho treinado avalie o processo de maneira constante, de modo a evitar perda de dados por falhas de julgamento dos algoritmos de limpeza.

A palavra chave para o sucesso de todas as ações aqui listadas é colaboração. A capacidade de garantir que pessoas sigam padrões utilizando documentação, validações e penalizações para casos de não conformidade é bem limitada. Melhores resultados podem ser obtidos através do engajamento de todos os envolvidos nos objetivos a serem alcançados pelas áreas de dados da empresa. Ao estimular a colaboração e criar um senso de responsabilidade compartilhada, maximizamos o efeito de lidar com o problema logo em seu início, durante a construção dos sistema de entrada de dados.

Leave a Reply

Your email address will not be published. Required fields are marked *