Informática y Sistemas (β)

2009/10/29 - 29 octubre 2009

El Datawarehouse dentro del enfoque de la Inteligencia de Negocios

BI esquematico

esquema básico de BI

El desafío inicial de los almacenes de datos o datawarehouse era contar con la capacidad suficiente de almacenamiento como para albergar la totalidad de operaciones de una organización. Con el tiempo y el abaratamiento de los servidores y hardware dedicado (discos duros tradicionales o de estado sólido, storage, etc.) el siguiente gran desafío era integrar los distintos sistemas para alimentar el datawarehouse corporativo, batalla que se está ganando exitosamente. Pero un tema primordial y que ahora tiene mayor relevancia es saber qué hacer con todo este bagaje de datos; como explotar u obtener conocimiento aprovechable de ellos.

La propuesta de la disciplina de Inteligencia de Negocios propone dos técnicas principales no excluyentes, que son la generación de Indicadores de Gestión (para conformar Cuadros de Mando, por ejemplo) y el análisis mediante la Minería de Datos (Datamining). Sin embargo nunca se aplican estas técnicas directamente sobre el datawarehouse, sino que se utilizan datamarts que ofician de vistas parciales, donde se concentran la información necesaria para responder cierta gama acotada de preguntas. En este sentido un error muy común es sobrecargar los datamarts con un sinnúmero de datos, a veces pocos relacionados, a efectos de poder plantear la mayor cantidad de consultas posibles, muchas veces sin saber a ciencia cierta cuáles serán. Esto generalmente desemboca en monstruosas infraestructuras OLAP casi inmanejables, cuya esfuerzo principal de los responsables consiste en tratar de optimizar los cubos para que respondan las consultas en tiempos dentro de los límites razonables, muchas veces infructuosamente. Este desacierto de plantear un cubo gigante que “haga todo” parte muchas veces del error conceptual de asimilar al OLAP como parte integral del datawarehouse.

En un enfoque moderno se limita el datawarehouse al almacén de bases de datos (relacionales o documentales), consistiendo solo en un repositorio de datos, sin fines operacionales ni de análisis por sí mismo. Los datamarts se obtienen como vistas parciales de estos datos, o consisten directamente en cubos de sistemas OLAP, como mencioné anteriormente relativamente pequeños y diseñados previamente bajo requerimientos específicos. En algunos casos en los que no interesa guardar los datos operativos, a veces el datawarehouse propiamente dicho no existe, y se encuentra formado virtualmente por el conjunto de datamarts que se utilizan y contienen la totalidad de la información distribuida entre ellos. La finalidad de esto es obtener un excelente rendimiento de los sistemas, basados en lograr la eficiencia desde el punto de vista de los recursos de hardware utilizados y rapidez de respuesta.

Un tema que a veces atenta contra esta eficiencia es la capacidad de análisis en los cubos por taladreo (drilldown), o sea obtener apertura en detalle de ciertos resultados. Para conseguir una navegación en profundidad rica, y no ralentizar los cubos con un exceso de detalle incorporado que puede atentar en los tiempos de respuesta; una técnica que da muy buenos resultados en productos de la línea de MS Sql Server es combinar las consultas en cubos con informes en Reporting Services. Esto es que a partir de cierto nivel de detalle en las consultas a los cubos, los informes naveguen directamente a las bases de datos que alimentan los cubos para conseguir una apertura imposible de obtener de los agregados de los mismos. Para un usuario que esté utilizando el sistema de informes de Reporting Services es completamente transparente este salto, el que se produce naturalmente al enlazar un informe de jerarquía inferior con origen de consulta dirigido a las bases de datos, con las celdas de detalle de un informe alimentado con una consulta OLAP. El rendimiento se encuentra asegurado desde que el detalle del reporte de jerarquía inferior ya tiene un filtro inicial dado por los parámetros de navegación que limita el volumen de resultados a procesar.

Todo ello permite obtener resultados rápidos y simplicidad de uso por parte de los usuarios finales, facilitando su tarea primordial que es el análisis de datos para evaluar decisiones; en entornos de sistemas relativamente económicos con un balance de rendimiento optimizado.

(tiny)

Anuncios

Dejar un comentario »

Aún no hay comentarios.

RSS feed for comments on this post. TrackBack URI

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

Crea un blog o un sitio web gratuitos con WordPress.com.

A %d blogueros les gusta esto: