Visualizaciones de valor para el negocio, sacando el máximo provecho de un Data Lake con Google

Caso de éxito | Google Cloud


Se redujo el tiempo de generación de reportes (de días/semanas) a 4 horas. Significando una reducción en más del 70% en los tiempos de carga y generación de paneles de visualización de información, logrando así una eficiencia por encima de las expectativas de la empresa.



Sus objetivos:

  • Contar con un sistema centralizado de almacenamiento de datos eficiente, rápido y seguro.
  • Desarrollar un flujo de trabajo optimal que permitiera organizar los datos con el fin de construir los indicadores de apoyo al negocio necesarios.
  • Disponibilizar información de acuerdo a las necesidades de cada área del negocio.
  • Explorar nuevos usos de la información obtenida para el apoyo a la toma de decisiones.

La solución:

  • Implementación del data lake “Agenda BI” respetando las buenas prácticas de gobierno y ecosistema de herramientas sugeridas por Google.
  • Desarrollo de una cadena de suministros de datos de acuerdo a una estrategia de negocio basada en fases.
  • Implementación de nuevas métricas y KPIs (Key Performance Indicators) en base a las reglas definidas por el negocio.
  • Diseño y automatización de paneles gráficos para la visualización de reportes y resultados procedentes del análisis de sus datos.

Beneficios:

  • Se disminuyó de 21 fuentes de datos (con complejidades diferentes) a solo una, gobernada, accesible y eficiente.
  • Se redujo el tiempo de generación de reportes (de días/semanas) a 4 horas. Significando una reducción en más del 70% en los tiempos de carga y generación de paneles de visualización de información, logrando así una eficiencia por encima de las expectativas de la empresa.
  • Se logró la automatización total en el proceso de generación de reportes “Agenda BI”, disminuyendo los errores humanos y permitiendo reasignar el personal que realizaba estas actividades de forma manual (en 26 centros médicos, 9 clínicas y 39 clínicas dentales con una persona promedio en cada lugar), en actividades estratégicas dentro de Red Salud.
  • Los nuevos indicadores permiten realizar una asignación eficiente de los recursos (box médicos, bloques horarios, liberaciones, cupos disponibles, cupos vendidos, confirmaciones, entre otros.) permitiendo aumentar la eficiencia de los centros de atención en un 10% promedio.
  • Se pasó de reportes estáticos a reportes dinámicos (con drill-up y drill-down de datos). Estos 12 reportes que cuentan con hasta 6 métricas. Optimizar su flujo de trabajo, aumentando la eficiencia en la generación de reportes en un 100%.

Resumen

La empresa

Red Salud es la red de clínicas, centros médicos y clínicas dentales, de la Cámara Chilena de la Construcción. Su propósito es acoger, cuidar y sanar a las familias de Chile, entregándoles salud y atención calidad a sus afiliados, a lo largo del país. Para tal fin ponen a disposición profesionales, colaboradores, infraestructura y tecnología de punta. Red Salud es la red de salud privada con mayor cobertura en Chile. Trabaja en conjunto con Isapres y Fonasa para tener los mejores planes y convenios en todas sus prestaciones, logrando satisfacer completamente las necesidades de sus afiliados. Cuentan con una amplia gama de especialidades médicas y sus centros médicos, dentales y clínicas están ubicados estratégicamente para facilitar su acceso. Mantiene un desarrollo tecnológico continuo fortaleciendo así a cada uno de los prestadores de la red y a la organización como un todo.

El desafío

Dada la cantidad de datos generada por Red Salud (Al menos 600.000 registros diarios de citas), la empresa buscaba una forma rápida y eficiente de almacenarlos. Por tanto, uno de los retos principales fue entender cómo operaba su flujo de trabajo, para así poder automatizar todos los procesos involucrados en la generación y almacenamiento de la información. Dado que las fuentes de datos son múltiples, poder limpiar, cotejar, formatear, unificar, estandarizar y consolidar los datos históricos fue un reto altamente demandante. Más aún, que nuevos datos son agregados y actualizados diariamente, y pueden requerirse ciclos de actualización adicionales a petición. La solución debe permitir que los datos sean almacenados y recuperados de manera rápida y precisa, y lograr optimizar el flujo de trabajo de la empresa.

Adicionalmente, dada la inclinación vanguardista y tecnológica de la empresa, la cual buscaba la manera de poder analizar y extraer información de dichos datos, almacenados en una base de datos que soporte corte y generación de cubos de datos para su consulta constante. Los filtros pueden incluir oferta de cupos disponibles, cupos vendidos, clientes atendidos, etc. Estas bases de datos deben tener la posibilidad de escalamiento. Finalmente, se deseaba visualizar los resultados a través de una serie de dashboards que permitan aprovechar de manera efectiva la información disponible en dicha base de datos para la toma de decisiones.


Tomamos la decisión de mover toda nuestra plataforma de BI y ML a GCP dado que estamos convencidos (y lo hemos confirmado) que en esta plataforma podemos crecer rápido e iterar a bajo costo avalado por una empresa líder mundial en temas de ML e IA.

-- Guillermo Wilson Tirado,
Jefe de Tecnología e Información de Red Salud CCHC


La solución

Los datos se encuentran divididos en un conjunto de 21 archivos, para poder realizar la ingesta de los mismos, se implementó la canalización de ingestión usando Cloud Compute Engine junto con CRON y scripts nativos de Python de forma diaria (no excediendo el orden de GB), recibiendo la información desde una fuente FTP y agregando a los datos históricos, permitiendo una completa migración a la nube y la realización eficiente y autónoma de los procesos de extracción, transformación y carga. El proceso de carga concluye vaciando los datos en un bucket de Cloud Storage. Luego los datos son estructurados en un modelo relacional utilizando Cloud SQL. Sobre las tablas SQL se realizan todos los productos cruzados (cross joins) pertinentes, necesarios para el cálculo de diversas métricas y KPIs (e.g., ofertas programadas, bloqueos, ofertas disponibles, etc.) y el resultado de tales cálculos, junto con los campos de consultas frecuentes son almacenados en Cloud Storage. Luego, se usa BigQuery como el Data Warehouse por excelencia de GCP para cargar las tablas ya procesadas en función de las necesidades de los grupos de trabajo, para su consulta. En este caso, hablamos de un total de 35 GB compuesto por las tablas procesadas diariamente y cargadas al BigQuery. La razón principal para elegir BigQuery es su excepcional rendimiento/precio y su capacidad para poder obtener insights de los datos de manera rápida, que es precisamente donde esta herramienta destaca. Para entregar resultados de consultas más rápidos, solo los registros activos están disponibles en la tabla de BigQuery que el usuario consulta. La solución completa ya implementada, no solo liberó personal de la empresa, sino que además logró reducir en más del 70% el tiempo de procesamiento y generación de reportes previamente implementados.

Los datos no estaban procesados de una forma que el negocio pudiera entenderlo y tomar decisiones en base a ellos, i.e., no tenían una soberanía total de la información.

Un tema de gran interés para los usuarios era poder aprovechar la información obtenida a partir de los datos de manera eficiente. Por tanto, se diseñaron diversos dashboards en Data Studio, convirtiendo toda la información en reportes y gráficos tangibles y de fácil lectura.

Las preocupaciones de seguridad y privacidad son primordiales cuando se trata de información sensible. Por tal motivo, se establecieron restricciones de acceso a cada grupo de usuarios, delimitando sus roles y los recursos a los que cada uno puede acceder a través de IAM, siguiendo el esquema de otorgar los mínimos permisos/privilegios necesarios para que cada grupo de usuarios pueda realizar sus tareas.

Se utilizó Cloud Source Repository, para almacenar todos los scripts y códigos desarrollados, cumpliendo así con las buenas prácticas de GCP.

En resumen, la plataforma fue diseñada usando los siguientes componentes de GCP:

  • Compute Engine
  • Cloud Storage
  • Cloud SQL (PostgreSQL)
  • BigQuery
  • Data Studio
  • Cloud Source Repository
  • Cloud IAM

Resultados

Para Red Salud, uno de los beneficios tangibles de migrar a GCP es la posibilidad de poder utilizar una plataforma sin servidores, robusta, confiable, de alta disponibilidad y escalable, eliminando posibles sobrecargas operativas, donde la seguridad y el monitoreo se controlan automáticamente. Adicionalmente, los equipos de desarrollo cuentan ahora con el poder y todas las herramientas adicionales que ofrece la plataforma de Google. Particularmente, los trabajadores de Red Salud han apreciado los beneficios directos de poder procesar sus datos en la nube, y poder visualizarlos con una herramienta tan útil e intuitiva como Data Studio. Su uso ha sido totalmente aceptado por parte de sus clientes internos y externos, mejorando enormemente el flujo de trabajo de sus usuarios.

Otro beneficio de esta plataforma es que permite un desarrollo rápido de nuevas opciones para las agendas de Red Salud, la implementación de nuevas métricas y su incorporación a las diversas tablas en BigQuery para su posterior análisis y consulta. En general la gestión y administración de los datos se hizo mucho más simple.

El uso de Compute Engine particularmente habilitó a los desarrolladores de Red Salud emigrar de forma suave, y usar tanto sus propios scripts como sus herramientas favoritas y conocidas. El uso de Cloud SQL facilitó darle estructura a los datos de entrada de manera simple y rápida. Adicionalmente, el cálculo de productos cartesianos es fácilmente realizable en Cloud (Postgre) SQL y entre las buenas prácticas se sugiere no hacerlo en BigQuery.

Finalmente, el uso de GCP, y en particular de BigQuery habilita en un futuro posibles aplicaciones basadas en las herramientas de machine learning disponibles en el ecosistema GCP.