Los 34 Subsistemas y Procesos de ETL

David Aldana
Mind Map by David Aldana, updated more than 1 year ago
David Aldana
Created by David Aldana about 6 years ago
65
0

Description

Mind Map on Los 34 Subsistemas y Procesos de ETL, created by David Aldana on 08/25/2015.

Resource summary

Los 34 Subsistemas y Procesos de ETL
  1. Se clasifican en 4 grupos
    1. Extracción
      1. Se extraen los datos de los sistemas fuentes
        1. Subsistema 1 - Data Profiling
          1. Consiste en
            1. El análisis técnico de los datos para describir su contenido, consistencia y estructura. En cierto sentido, cada vez que se realiza una consulta de investigación SELECT DISTINCT, se está haciendo Data Profiling.
          2. Subsistema 2 - Change Data Capture
            1. Consiste en
              1. Transferir sólo la información que ha cambiado desde la última carga
                1. Hay varias formas para captar los cambios en la fuente de datos
                  1. Algunas formas son
                    1. Auditar columnas
                      1. Medir los cambios en los tiempos de extracción
                        1. Comparación completa - Registro por registro
                          1. Revisar logs de la base de datos
                            1. Monitorear la cola de mensajes del Sistema de Transacciones Basados en Mensajes
                    2. Subsistema 3 - Extract System
                      1. Consiste en
                        1. Extraer la información desde la fuente de origen hasta la fuente de destino.
                          1. Hay dos métodos principales
                            1. Extraer los datos en archivos. Como en formato XML por ejemplo.
                              1. Extraerlos en un flujo de información: stream.
                      2. Limpieza y Conformación
                        1. Se depuran la información para garantizar una mejor Calidad de Datos
                          1. Subsistema 4 - Data Cleansing System
                            1. Consiste en
                              1. Implementar procesos que permitan detectar inconsistencias en los datos.
                                1. Son importantes las
                                  1. Pantallas de Calidad - Quality Screens
                                    1. Son el corazón de la arquitectura ETL por cuanto actúan como filtros de diagnóstico en el flujo de datos
                            2. Subsistema 5 - Error Event Schema
                              1. Consiste en
                                1. Mantener un esquema para el manejo de eventos de error cuyo propósito es registrar cada evento de error lanzado por una pantalla de calidad en cualquier parte del proceso de ETL.
                              2. Subsistema 6 - Audit Dimension Assembler
                                1. Consiste en
                                  1. Crear metadatos asociados a cada tabla para validar la evolución de la Calidad de los Datos
                                2. Subsistema 7 - Deduplication
                                  1. Consiste en
                                    1. Eliminar información redundante de tablas importantes como cliente o producto.
                                      1. Implica
                                        1. Cruzar múltiples tablas en múltiples sistemas de información para detectar un patrón que permita identificar cuando un registro está duplicado.
                                  2. Subsistema 8 - Conforming
                                    1. Consiste en
                                      1. Identificar elementos equivalentes que permiten compartir información entre tablas relacionadas.
                                  3. Entrega
                                    1. Se prepara la información para su posterior entrega
                                      1. Subsistema 9 - Slowly Changing Dimension Manager (SCD)
                                        1. Consiste en
                                          1. Implementar la lógica para crear atributos de variabilidad lenta a lo largo del tiempo. El sistema ETL debe determinar cómo manejar el valor de un atributo de dimensión que ha cambiado desde el valor ya almacenado en la DW.
                                              1. Tipos de acciones a tomar
                                                1. Tipo 1: Sobrescribir
                                                  1. Tipo 2: Crear un nuevo registro
                                                    1. Tipo 3: Agregar una nueva columna
                                                      1. Híbrido: Combinación de tipos
                                                2. Subsistema 10 - Surrogate Key Generator
                                                  1. Consiste en
                                                    1. Crear claves subrogadas independientes para cada tabla
                                                  2. Subsistema 11 - Hierarchy Manager
                                                    1. Consiste en
                                                      1. Hacer inserciones en estructuras jerárquicas de tablas.
                                                    2. Subsistema 12 - Special Dimensions Manager
                                                      1. Consiste en
                                                        1. Crear dimensiones especiales
                                                          1. Tales como
                                                            1. Date/Time
                                                              1. Junk
                                                                1. Mini-dimensions
                                                                  1. Shrunken
                                                                    1. Small static
                                                                      1. User maintained
                                                              2. Subsistema 13 - Fact Table Builders
                                                                1. Consiste en
                                                                  1. Crear Tablas de Hecho las cuales conservan mediciones importantes para la organización
                                                                    1. Tipos de Tablas de Hecho
                                                                      1. Transaction Grain Fact Table (Loader)
                                                                        1. Periodic Snapshot Fact Table (Loader)
                                                                          1. Accumulating Snapshot Fact Table Loader
                                                                    2. Subsistema 14 - Surrogate Key Pipeline
                                                                      1. Consiste en
                                                                        1. Incluir un paso para reemplazar las claves operacionales por las claves subrogadas.
                                                                      2. Subsistema 15 - Multi-Valued Dimension Bridge Table Builder
                                                                        1. Consiste en
                                                                          1. Construir tablas puente para soportar las relaciones de Muchos a Muchos.
                                                                        2. Subsistema 16 - Late Arriving Data Handler
                                                                          1. Consiste en
                                                                            1. Permitir aplicar cambios a los procesos en caso de que los datos tarden en llegar.
                                                                          2. Subsistema 17 - Dimension Manager System
                                                                            1. Consiste en
                                                                              1. Preparar y publicar dimensiones conformadas al equipo de DW
                                                                                1. Una dimensión conformada
                                                                                  1. Es por necesidad un recurso gestionado de forma centralizada; cada dimensión conformada debe tener una única fuente y esta debe ser consistente.
                                                                            2. Subsistema 18 - Fact Provider System
                                                                              1. Consiste en
                                                                                1. El proveedor de Tablas de hecho es responsable de una o más Tablas de hecho, de su creación, mantenimiento y uso.
                                                                              2. Subsistema 19 - Aggregate Builder
                                                                                1. Consiste en
                                                                                  1. Gestionar las agregadas ya que pueden afectar dramáticamente el rendimiento del entorno de DW.
                                                                                    1. Las agregaciones son como indices; son estructuras de datos específicas creadas para mejorar el rendimiento.
                                                                                      1. El Sistema de ETL debe manejar muy bien las agregaciones/agregadas para no afectar el rendimiento con el uso excesivo de recursos y ciclos de procesamiento.
                                                                                  2. Subsistema 20 - OLAP Cube Builder
                                                                                    1. Consiste en
                                                                                      1. Alimentar de datos a cubos OLAP desde esquemas dimensionales relacionales.
                                                                                    2. Subsistema 21 - Data Propagation Manager
                                                                                      1. Consiste en
                                                                                        1. Responsabilizarse de los procesos de ETL requeridos para transferir datos conformados e integrados desde la DW a otros entornos para usos especiales.
                                                                                    3. Gesión
                                                                                      1. Administrar muy bien los criterios de Confiabilidad, Disponibilidad y Manejabilidad
                                                                                        1. Subsistema 22 - Job Scheduler
                                                                                          1. Consiste en
                                                                                            1. Administrar el proceso completo de ETL, en la medida de lo posible, a través de un único entorno de control de trabajo.
                                                                                              1. Los servicios necesitados de control de trabajo incluyen
                                                                                                1. Job definition
                                                                                                  1. Job scheduling
                                                                                                    1. Metadata capture
                                                                                                      1. Loggin
                                                                                                        1. Notification
                                                                                                  2. Subsistema 23 - Backup System
                                                                                                    1. Consiste en
                                                                                                      1. Realizar copias de respaldo de los datos generados durante los procesos ETL
                                                                                                        1. Un completo sistema de respaldo debe proveer excelentes capacidades
                                                                                                          1. Entre ellas
                                                                                                            1. High performance
                                                                                                              1. Simple administration
                                                                                                                1. Automated, lights out operations
                                                                                                        2. Subsistema 24 - Recovery and Restart System
                                                                                                          1. Consiste en
                                                                                                            1. Permitir reiniciar un proceso ETL en el caso de error. Para este proceso es fundamental un Backup System (Sub. 23) robusto
                                                                                                          2. Subsistema 25 - Version Control System
                                                                                                            1. Consiste en
                                                                                                              1. Permitir hacer control de versiones de un proyecto ETL y de los metadatos asociados. Es una capacidad "snapshotting" para archivar y recuperar toda la lógica y metadatos del flujo de los procesos ETL.
                                                                                                                1. Controla las entradas y las salidas procesadas para todos los módulos ETL y para los trabajos.
                                                                                                            2. Subsistema 26 - Version Migration System
                                                                                                              1. Consiste en
                                                                                                                1. Permitir pasar proyectos en fase de desarrollo a fase de pruebas y de pruebas a producción mediante versionado. Habilitando además la reversión, es decir pasar de pruebas a desarrollo, por ejemplo.
                                                                                                              2. Subsistema 27 - Workflow Monitor
                                                                                                                1. Consiste en
                                                                                                                  1. Monitorizar el Sistema de ETL para medir su rendimiento y tomar decisiones en base a los resultados para garantizar que la DW está siendo cargada periódicamente de manera consistente.
                                                                                                                2. Subsistema 28 - Sorting System
                                                                                                                  1. Consiste en
                                                                                                                    1. Ordenar los datos de origen en un orden particular para potenciar la eficiencia de los procesos subsecuentes y, en general, el rendimiento del Sistema de ETL y DW/BI
                                                                                                                  2. Subsistema 29 - Lineage and Dependency Analyzer
                                                                                                                    1. Consiste en
                                                                                                                      1. Identificar elementos dependientes, además de identificar las transformaciones en las que participan o han participado. También, permite la trazabilidad del dato.
                                                                                                                    2. Subsistema 30 - Problem Escalation System
                                                                                                                      1. Consiste en
                                                                                                                        1. Apoyar la gestión de incidencias reportadas y comprobadas por QA.
                                                                                                                      2. Subsistema 31 - Parallelizing/Pipelining System
                                                                                                                        1. Consiste en
                                                                                                                          1. Permitir el uso de procesos en paralelo, Grid Computing y Clustering para mejorar el rendimiento y reducir tiempo de los procesos en el Sistema de ETL.
                                                                                                                        2. Subsistema 32 - Security System
                                                                                                                          1. Consiste en
                                                                                                                            1. Gestionar el acceso a ETL y metadatos por parte de personal no autorizado. Incluso los privilegios deben ser restringidos dentro de los miembros del equipo de DW/BI.
                                                                                                                          2. Subsistema 33 - Compliance Manager
                                                                                                                            1. Consiste en
                                                                                                                              1. Permitir soportar la legislación vigente respecto a "la cadena de custodia" y responsabilidad de datos que debe aplicarse a la organización. Este proceso se debe validar en el Levantamiento de Requerimientos.
                                                                                                                                1. Este sistema se debe apoyar en otros como
                                                                                                                                  1. Lineage analysis
                                                                                                                                    1. Dependency analysis
                                                                                                                                      1. Version control
                                                                                                                                        1. Backup and restore
                                                                                                                                          1. Security
                                                                                                                                            1. Audit dimension
                                                                                                                                      2. Subsistema 34 - Metadata Repository Manager
                                                                                                                                        1. Consiste en
                                                                                                                                          1. Capturar y guardar los metados de los procesos ETL, de los datos de negocio y de los aspectos técnicos
                                                                                                                                    2. PAULO ALEXANDER CHIRÁN
                                                                                                                                      Show full summary Hide full summary

                                                                                                                                      Similar

                                                                                                                                      Jekyll and Hyde
                                                                                                                                      elliesussex
                                                                                                                                      Work, Energy & Power: Quiz
                                                                                                                                      alex.examtime9373
                                                                                                                                      CHEMISTRY C1 5
                                                                                                                                      x_clairey_x
                                                                                                                                      HRCI Glossary of Terms A-N
                                                                                                                                      Sandra Reed
                                                                                                                                      Poppies - Jane Weir
                                                                                                                                      Jessica Phillips
                                                                                                                                      GCSE AQA Biology 2 Plants & Photosynthesis
                                                                                                                                      Lilac Potato
                                                                                                                                      Biology B1.3
                                                                                                                                      raffia.khalid99
                                                                                                                                      The Circulatory System
                                                                                                                                      Johnny Hammer
                                                                                                                                      1PR101 2.test - Část 11.
                                                                                                                                      Nikola Truong
                                                                                                                                      Geography - Population Flash Cards
                                                                                                                                      T Kilcoyne