>

Inicio del glosario

¿Qué es el ETL? Un resumen completo

ETL, o “extraer, transformar y cargar” en inglés, es el proceso clave que permite a las empresas darles sentido a sus vastos paisajes de datos. Veamos qué hacen las herramientas de ETL y cómo han evolucionado con los años. También abordaremos brevemente lo que pueden hacer las herramientas modernas de preparación de datos y cómo mejoran los procesos de ETL heredados.

¿Qué es el ETL?

ETL, que significa “extraer, transformar y cargar” en inglés, es un proceso de integración de datos proveniente del dominio de los almacenes de datos, que implica extraer datos de diversas fuentes, transformarlos en un formato adecuado para el análisis y cargarlos en un repositorio central. Este repositorio único y coherente a veces se conoce como la “única fuente de la verdad”.

¿Cuáles son los diferentes pasos involucrados en el ETL?

El ETL puede desglosarse en tres etapas distintas:

  • Extraer los datos de los sistemas de origen.
  • Transformar los datos para que cumplan con las necesidades analíticas y comerciales.
  • Cargar los datos en un almacén de datos o base de datos.

¿Cuáles eran los objetivos principales de los primeros sistemas de ETL?

El ETL surgió en la década de 1970, junto con el origen y crecimiento de los almacenes de datos. Fue diseñado originalmente para satisfacer los requisitos computacionales y analíticos, y se convirtió en el método por defecto para procesar datos para los almacenes de datos.

El objetivo de este proceso era integrar datos de diferentes fuentes y transformarlos para que se ajustaran a un esquema o modelo de datos estándar.

El ETL sentó las bases para el análisis de datos y el aprendizaje automático, agilizando los datos a través de reglas comerciales para servir a la inteligencia empresarial y a los análisis avanzados.

Buscaba mejorar tanto la eficiencia operativa como la interacción con el usuario mediante:

  • Recuperación de datos de sistemas antiguos.
  • Refinamiento de datos para garantizar su calidad y uniformidad.
  • Integración de datos en una base de datos designada.

Desglose del proceso de ETL

¿Cómo han evolucionado los sistemas de ETL con los años? ¿Cuál ha sido el impacto de la computación en la nube en ellos?

La arquitectura de la gestión moderna de datos es muy diferente a la que existía en los primeros días del ETL. La era moderna de la computación en la nube, IoT e IA ha provocado un salto cuántico en la cantidad de datos que las empresas registran: las empresas han pasado de registrar millones de transacciones a miles de millones. Los sistemas modernos de gestión de datos han evolucionado para mantenerse al ritmo de estos cambios.

Hoy en día, las empresas no solo miran los datos de transacciones para tomar decisiones, sino que también identifican y aíslan “señales” de las vastas cantidades de datos. Ya no se trata solo de mejorar los procesos comerciales de manera incremental, sino también de identificar nuevas oportunidades.

La computación en la nube trajo consigo soluciones como el almacenamiento de datos en la nube, que ofrece almacenamiento rentable a gran escala. Las empresas que antes almacenaban datos estructurados en almacenes de datos locales ahora tienen diversas opciones para almacenar datos, incluidos los lagos de datos y los sistemas de blobs en la nube. Estos sistemas admiten datos no estructurados y, a menudo, almacenan datos en formato sin procesar.

¿Cuáles son las ventajas de los sistemas modernos de gestión de datos sobre los sistemas tradicionales basados en ETL?

Los sistemas modernos de gestión de datos están impulsados por la necesidad de mayor flexibilidad, escalabilidad y eficiencia en el manejo de datos.

Así como los primeros sistemas de ETL surgieron junto con los sistemas de almacenamiento de datos, las herramientas modernas de datos están estrechamente vinculadas con el surgimiento de los nuevos sistemas de almacenamiento de datos de próxima generación.

El rápido desarrollo de sistemas de almacenamiento de datos flexibles y escalables ha llevado a la desvinculación de la circulación de datos de la preparación de datos. En efecto, los aspectos de extraer y cargar del ETL se han desvinculado del aspecto de transformación en la gestión de datos.

Analicemos un ejemplo del contexto moderno. Consideremos una empresa que está presente en diferentes ubicaciones y tiene varios departamentos. Cada departamento o ubicación maneja sus datos de forma separada. Los datos de ventas se almacenan en un CRM, la información de los empleados se gestiona en un sistema de recursos humanos, y el inventario y registros relacionados se almacenan en un sistema personalizado.

Los ingenieros de datos del departamento de TI ejecutaban procesos de ETL para extraer datos de estas fuentes dispares, transformarlos en un formato adecuado para el análisis y cargarlos en los almacenes de datos.

Sin embargo, la gestión moderna de datos ya no requiere la ayuda de ingenieros de datos ni siquiera de un equipo de TI para preparar los datos para su análisis. Es posible que incluso personas sin formación técnica preparen los datos de la manera que consideren adecuada para su análisis y toma de decisiones.

¿Qué son las herramientas de preparación de datos? ¿Cómo se diferencian de las herramientas tradicionales de ETL?

Las herramientas de preparación de datos, o transformación de datos, como a veces se les llama, son herramientas modernas de datos que abordan la parte de “transformación” del ciclo convencional de ETL. Es también la parte de “contenido” del proceso de ETL donde los datos se preparan para el consumo posterior.

Aunque trabajan sobre los mismos principios fundamentales que los primeros sistemas de ETL, como el mapeo de esquemas entre bases de datos relacionales, el cálculo de fórmulas y la carga de bases de datos, las herramientas modernas de preparación de datos van mucho más allá.

Mientras que las herramientas tradicionales de ETL dependían de ingenieros de datos y un departamento de TI para ejecutar los procesos, las herramientas modernas de preparación de datos empoderan a un nuevo conjunto de usuarios para trabajar con los datos. A través de una interfaz amigable y proporcionando resúmenes visuales sobre la calidad de los datos, sugerencias inteligentes y otras señales visuales, la preparación de datos hoy permite que incluso los usuarios sin formación técnica preparen los datos.

Las herramientas modernas de preparación de datos democratizan el proceso de transformación de datos, abriendo este proceso a usuarios sin formación técnica mediante señales visuales.

Las herramientas de preparación de datos en modalidad de autoservicio utilizan visualización y recomendaciones impulsadas por IA para abrir el proceso de preparación de datos a una nueva generación de usuarios, incluidos los entusiastas de los datos.

Las herramientas modernas de preparación de datos permiten a los usuarios preparar datos en una interfaz fácil de usar y aprovechar tecnologías modernas como la inteligencia artificial.

¿Cuáles son algunos de los beneficios clave de usar herramientas de preparación de datos?

Las herramientas modernas de preparación de datos, que forman parte crítica del flujo de trabajo de gestión de datos hoy en día, ofrecen tres grandes beneficios en lo que respecta a la gestión de datos: aceleran el tiempo para obtener valor Reducen los costos operativos Mejoran la supervisión y el control

Conclusión

Aunque, desde una perspectiva superficial, el flujo de datos a través de un sistema de gestión de datos hoy sigue, en espíritu, siendo similar a lo que ocurría en los primeros años de los sistemas de ETL, el proceso actual de preparación de datos se ha democratizado gracias a herramientas modernas que proporcionan señales visuales sobre cómo preparar los datos de manera fácil.