martes, 14 de octubre de 2014

Procesos ETL

Los procesos ETL son una parte de la integración de datos, pero es un elemento importante cuya función completa el resultado de todo el desarrollo de la cohesión de aplicaciones y sistemas.

La palabra ETL corresponde a las siglas en inglés de:


    •   Extraer: extract.
    •   Transformar: transform.
    •   Y Cargar: load.

Con ello, queremos decir que todo proceso ETL consta precisamente de estas tres fases: extracción, transformación y carga. Vamos a definir en qué consisten cada una de estas fases.

La extracción, transformación y carga (el proceso ETL) es necesario para acceder a los datos de las fuentes de información al datawarehouse.

Los procesos ETL se divide en 5 subprocesos:

1. Extracción: Este proceso recupera los datos físicamente de las distintas fuentes de información. En este momento disponemos de los datos en bruto.

2. Limpieza: Este proceso recupera los datos en bruto y comprueba su calidad, elimina los duplicados y, cuando es posible, corrige los valores erróneos y completa los valores vacíos, es decir se transforman los datos -siempre que sea posible para reducir los errores de carga. En este momento disponemos de datos limpios y de alta calidad.

3. Transformación: Este proceso recupera los datos limpios y de alta calidad y los estructura y sumariza en los distintos modelos de análisis. El resultado de este proceso es la obtención de datos limpios, consistentes, sumarizados y útiles.

4. Integración: Este proceso valida que los datos que cargamos en el data warehouse son consistentes con las definiciones y formatos del data warehouse; los integra en los distintos modelos de las distintas áreas de negocio que hemos definido en el mismo. Estos procesos pueden ser complejos.


5. Actualización: Este proceso es el que nos permite añadir los nuevos datos al data warehouse.

No hay comentarios.:

Publicar un comentario