Informática y Sistemas (β)

2009/11/17 - 17 noviembre 2009

Datawarehouse y sistemas auditables

Filed under: Inteligencia de Negocios — Mario Mendez @ 00:31
Tags:

Anteriormente mencioné  al datawarehouse como el almacén de las operaciones de una empresa u organización; y su enfoque más acotado en relación a las técnicas de Inteligencia de Negocios. Pero en general el almacén de datos trata de conformar un registro limpio y con una selección de datos descriptivos que representan la principal información que contenían sus registros originales; que normalmente se consiguen gracias a la limpieza y selección de atributos representativos que se obtienen por los procesos ETL (extracción y limpieza de datos). Esto tiene el beneficio adicional de poder aliviar las bases de datos operativas extrayendo a un almacén histórico aquella información que no tiene más relevancia para los procesos actuales o futuros.

La información que se elimina por la limpieza consiste principalmente en aquellos registros “basura” producto de operaciones abortadas, identificadores que quedan obsoletos por cierto grado de desnormalización, pero muchas veces también se dejan de lado los historiales de transacciones y atributos de orígenes o rastreo de las modificaciones de las operaciones electrónicas. Esto generalmente es así desde que solo se traspasan al almacén de datos las operaciones en estados finales, o que hayan implicado transacciones documentadas.  A los efectos de análisis estadísticos, esta información resulta más que suficiente; sin embargo este proceso de limpieza intermedio acaba con la posibilidad o fiabilidad de realizar auditoría de las operaciones.

En efecto, para que un sistema sea auditable, es esencial poder reconstruir los pasos críticos de los procesos por los que sus documentos electrónicos o registros fueron pasando; o por lo menos almacenar de algún modo fiable y completa esta información para que esté disponible ante posibles eventos de auditoría de los sistemas. Eso coloca a las organizaciones ante un problema de capacidad de almacenamiento, ya que si guardan todos los datos en el datawarehouse, prácticamente se convierte en una copia levemente menor, pero duplicada de sus bases de datos operativas como una partición más parecida a un repositorio secundario que un datawarehouse. Pero si realiza la limpieza, nunca se pueden librar de sus bases de datos operativas originales o aliviarlas por el hecho de traspasar solo la información primaria al datawarehouse y no sus trazas auditables. A todo esto se suma el inconveniente de las operaciones electrónicas que nunca tienen estados finales, ya que por requerimientos generalmente se reserva siempre la posibilidad de anular, o deshacer ciertas transacciones; por lo que difícilmente se las pueda aliviar de los sistemas de producción salvo la pequeña fracción que alcance uno de estos estados finales de anulados o eliminados.

Estos problemas no son menores, considerando el costo de inversión que representa un datawarehouse debe estudiarse a fondo no solo la factibilidad de implementación, sino el planeamiento cuidadoso de qué tipo de información, el modo de organizar los datos en el almacenamiento, y la perspectiva futura de alivio de las bases de datos de los sistemas de producción. Y por sobre todo debe evitarse la réplica de las bases de datos de producción u operativas en esquemas datawarehouse, dado que los sistemas de origen pueden cambiar radicalmente, pero el datawarehouse debe tener organizada la información de modo tal que sobreviva los sistemas actuales o permita concentrar los datos esenciales del negocio desde diferentes entornos operativos futuros. En este sentido un poco se aclara el criterio con el que se deben resolver los problemas planteados respecto a la auditoría, ya que los datos relacionados a los procesos auditables dependen en gran medida de los procedimientos y detalles de la implementación a través de los sistemas de producción, por lo que difícilmente puedan aislarse y en cierto modo abstraerse de las bases de datos de origen. Por esto mismo no es útil llevar registros de auditoría a los datawarehouse, y se deberán establecer otros criterios para permitir aliviar las bases de datos de producción en forma coordinada pero independiente a la creación y alimentación del almacén centralizado de datos.

Preferentemente se debe tratar de crear una normativa interna antes de la creación del datawarehouse que contemple en primer lugar la imposibilidad de modificar registros después de pasado cierto tiempo (lo que por otra parte otorgará más confiabilidad a la información traspasada al datawarehouse); y en segundo lugar establecer la antigüedad de las operaciones que pueden ser auditables (esto último muchas veces se debe apoyar en aspectos legales del tipo de operaciones involucradas); solo así podrán establecerse no solo los procesos que implica mantener un datawarehouse, sino también el determinar los procesos de limpieza y alivio de las bases de datos operativas; constituyéndose en los cimientos de procedimientos que permitan un almacén de datos centralizado de verdadera utilidad y un ciclo de vida extenso que justifique la inversión en el mismo.

(tiny)

Anuncios

2 comentarios »


RSS feed for comments on this post. TrackBack URI

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

Crea un blog o un sitio web gratuitos con WordPress.com.

A %d blogueros les gusta esto: