>

Página inicial do glossário

O que é ETL? Um detalhamento completo

ETL, um acrônimo para Extract, Transform, Load (extração, transformação e carregamento), é o processo fundamental que permite às empresas compreender seus vastos cenários de dados. Vamos dar uma olhada no que as ferramentas de ETL fazem e como elas evoluíram ao longo dos anos. Também abordaremos brevemente o que as ferramentas modernas de preparação de dados podem fazer e como elas melhoram os processos de ETL legados.

O que é ETL?

ETL, que significa Extract, Transform, Load (extração, transformação e carregamento), é um processo de integração de dados do domínio de data warehouse que envolve extrair dados de várias fontes, transformá-los em um formato adequado para análise e carregá-los em um repositório central. Esse repositório único e coerente às vezes é chamado de "fonte única da verdade".

Quais são as várias etapas envolvidas no ETL?

O ETL pode ser dividido em três etapas distintas:

  • Extração de dados de sistemas de origem.
  • Transformação dos dados para atender às necessidades analíticas e de negócios.
  • Carregamento dos dados em um data warehouse ou banco de dados.

Quais eram os principais objetivos dos primeiros sistemas de ETL?

O ETL foi introduzido na década de 1970, coincidindo com a origem e o crescimento de data warehouses. Foi originalmente projetado para requisitos computacionais e analíticos, e se tornou o método padrão para processar dados para data warehouse.

O objetivo do processo era reunir dados de diferentes fontes e transformá-los para se adequar a um esquema ou modelo de dados padrão.

O ETL estabeleceu as etapas preparatórias para análise de dados e aprendizado de máquina, organizando-os por meio de regras de negócios para servir a inteligência de negócios e analytics avançados.

Visava aprimorar tanto a eficiência operacional quanto a interação do usuário por meio de:

  • Recuperação de dados de sistemas antigos.
  • Refinamento dos dados para qualidade e uniformidade.
  • Integração dos dados em um banco de dados designado.

Desconstrução do processo de ETL

Como os sistemas de ETL evoluíram ao longo dos anos? Qual foi o impacto da computação em nuvem sobre eles?

A arquitetura do gerenciamento moderno de dados é muito diferente do que era praticado nos primórdios do ETL. A era moderna da computação em nuvem, IoT e IA gerou um salto quântico na quantidade de dados registrados pelas empresas. Elas passaram de registrar milhões para bilhões de transações. Os sistemas modernos de gerenciamento de dados evoluíram em sintonia com essas mudanças.

Hoje, as empresas não estão apenas analisando dados transacionais para tomar decisões, mas também estão identificando e isolando "sinais" das vastas quantidades de dados. Não se trata apenas de melhorar gradativamente os processos de negócios, mas também de identificar novas oportunidades.

A computação em nuvem trouxe consigo soluções como armazenamento de dados em nuvem, que oferecem armazenamento escalável e econômico. Organizações que anteriormente armazenavam dados estruturados em data warehouses locais hoje têm uma variedade de opções de armazenamento, incluindo data lakes e sistemas de blob em nuvem. Esses sistemas podem acomodar dados não estruturados e, frequentemente, armazenam dados em seu formato bruto.

Quais são as vantagens dos sistemas modernos de gerenciamento de dados em relação aos sistemas legados baseados em ETL?

Os sistemas modernos de gerenciamento de dados são impulsionados pela necessidade de mais flexibilidade, escalabilidade e eficiência no tratamento de dados.

Assim como os primeiros sistemas de ETL surgiram com os sistemas de data warehouse, as ferramentas modernas de dados estão intimamente ligadas ao surgimento de sistemas de armazenamento de dados da nova geração.

O rápido desenvolvimento de sistemas de armazenamento de dados flexíveis e escaláveis resultou na separação da movimentação e da preparação de dados. Na prática, os aspectos de extração e carregamento do ETL foram dissociados do aspecto de transformação do gerenciamento de dados.

Vamos examinar isso com um exemplo em um contexto moderno. Vamos considerar uma empresa que está presente em diferentes locais e possui vários departamentos. Cada departamento ou local processa seus dados separadamente. Os dados de vendas são armazenados em um CRM, as informações de funcionários são gerenciadas em um sistema de RH e o inventário e registros relacionados são registrados em um sistema personalizado.

Os engenheiros de dados no departamento de TI executavam processos de ETL para extrair dados dessas fontes díspares, transformá-los em um formato ideal para análise e carregá-los em data warehouses.

No entanto, o gerenciamento de dados moderno não requer a ajuda de engenheiros de dados ou mesmo de uma equipe de TI para prepará-los para análise. É possível até mesmo para pessoas sem conhecimento técnico preparar os dados da maneira que considerem adequada para suas análises e tomadas de decisão.

O que são ferramentas de preparação de dados? Como elas se diferenciam das ferramentas legadas de ETL?

As ferramentas de preparação ou transformação de dados, como às vezes são chamadas, são ferramentas modernas que tratam da parte de "transformação" do ciclo convencional de ETL. Também são a parte de "conteúdo" do processo de ETL em que os dados estão sendo preparados para consumo downstream.

Embora funcionem com os mesmos princípios básicos dos sistemas de ETL iniciais, como o mapeamento de esquemas entre bancos de dados relacionais, o cálculo de fórmulas e o carregamento de bancos de dados, as ferramentas modernas de preparação de dados vão muito além.

Enquanto as ferramentas tradicionais de ETL dependiam de engenheiros de dados e de um departamento de TI para executar os processos, as ferramentas modernas de preparação de dados capacitam um novo grupo de usuários a trabalhar com dados. Por meio de uma interface de usuário amigável e fornecendo análises visuais sobre a qualidade dos dados, sugestões inteligentes e outros elementos visuais, hoje a preparação de dados pode ser feita até mesmo por usuários não técnicos.

As ferramentas modernas de preparação de dados democratizam o processo de transformação de dados ao abri-lo a usuários não técnicos com elementos visuais.

Ferramentas de preparação de dados de autoatendimento usam visualizações e recomendações com base em IA para levar esse processo para uma nova geração de usuários, incluindo entusiastas de dados.

As ferramentas modernas de preparação de dados permitem que os usuários preparem dados em uma interface fácil de usar e aproveitem tecnologias modernas como inteligência artificial.

Quais são alguns dos principais benefícios do uso de ferramentas de preparação de dados?

As ferramentas modernas de preparação de dados, que hoje formam uma das partes essenciais do fluxo de trabalho de gerenciamento de dados, oferecem três grandes benefícios: aceleração do tempo de retorno do investimento, redução dos custos operacionais e melhoria no monitoramento e na governança.

Conclusão

Em um nível superficial, o fluxo de dados por um sistema de gerenciamento de dados hoje permanece, em essência, semelhante ao que ocorria durante os anos formativos dos sistemas de ETL. No entanto, o processo atual de preparação foi democratizado graças às ferramentas modernas, que fornecem aos usuários elementos visuais sobre como preparar dados com facilidade.