Análisis de encuestas de texto libre, usando todo el potencial de Google y Machine Learning

Caso de éxito | Google Cloud


Se disminuyó de 1 semana a 6 horas en la alta, baja y modificación de tópicos de clasificación, involucrando su testeo y disponibilización en producción, permitiendo bajar en un 80% de falsos positivos y falsos negativos en la clasificación.



Sus objetivos:

  • Mejorar sustancialmente el análisis de sentimiento y clasificación actual de encuestas de satisfacción, disminuyendo el esfuerzo y los errores basados en la intervención humana.
  • Mejorar la disponibilidad, gobernabilidad, rapidez y eficiencia del repositorio datos.
  • Disminuir los esfuerzos en la modificación de clasificadores, permitiendo agregar, modificar o eliminar tópicos de clasificación con un esfuerzo menor al actual.
  • Aumentar precisión en la clasificación de las encuestas en tópicos basados en los espacios, lugares y servicios usados por los clientes de sus centros comerciales.
  • Obtener KPIs asociadas al análisis de las encuestas para contextualizar las opiniones de los clientes, en forma de reportes y visualizaciones con el fin de tomar acciones para mejorar su satisfacción.

La solución:

  • Implementación del data lake “encuestas” respetando las buenas prácticas de gobierno de datos y ecosistema de herramientas sugeridas por Google.
  • Desarrollo de una cadena de suministros de datos de acuerdo a una estrategia de negocio basada en fases.
  • Se extendió la cadena de suministro de datos para alimentar el flujo de trabajo de entrenamiento y validación de modelos de clasificación.
  • Se construyen, entrenan y validan dos modelos de clasificación que permiten identificar los diferentes tópicos relacionados con el comentario.
  • Se construye y automatiza el flujo que orquesta el proceso de separación de frases, clasificación y análisis de sentimientos.
  • Se disponibiliza un almacén de datos con los resultados de la clasificación para su posterior análisis.
  • Se calculan las KPIs asociadas a las encuestas, se disponibilizan en forma de reportes y visualizaciones, permitiendo una navegación dinámica sobre los datos para su estudio y compresión.

Beneficios:

  • El tiempo de acceso a los datos para el análisis se simplificó, dejando de tener que hacer solicitudes a las áreas de tecnología y pasando de demorar en días a acceso inmediato.
  • Se disminuyó de 1 semana a 6 horas en la alta, baja y modificación de tópicos de clasificación, involucrando su testeo y disponibilización en producción.
  • Automatización total en el proceso de scoring y clasificación de las opiniones de los usuarios incluidas en las encuestas, recuperando el personal que antes se dedicaba a esas tareas, y aprovechando el tiempo para la realización de tareas de gestión, logística e innovación. Por lo tanto se agregó un valor adicional a la empresa.
  • Disminución de un 80% de falsos positivos y falsos negativos en la clasificación.
  • La correcta clasificación y derivación de quejas de los clientes a cada área involucrada (limpieza, atencion a clientes, seguridad) permitió el aumento en promedio del 30% en la percepción de satisfacción de los clientes.

Proyecto de IA desarrollado para Mallplaza donde se aplicaban técnicas de Análisis de comentarios para obtener características como sentimientos, categorización, entre otros detalles. En este proyecto se aplicaron técnicas de ingeniería de datos, desarrollo de paneles y desarrollo de modelos de ML.

La empresa

Mallplaza es una cadena Chilena de centros comerciales con presencia en varios países de América Latina. Opera en nueve ciudades en Chile, sumando un total de diecisiete centros comerciales, con un área total de 1.372.000 metros cuadrados.

Adicionalmente posee 5 centros comerciales fuera de Chile, tres de ellos en Perú y dos en Colombia. Su misión se centra en desarrollar espacios públicos y de encuentro que sean modernos y atractivos, para satisfacer las necesidades de la comunidad y mejorar su calidad de vida a través de bienes, servicios y experiencias. Es partner de grandes marcas, de prestigio local y mundial. Mas aún, incluyen también servicios tan variados como centros médicos, instituciones educacionales, bibliotecas públicas, museos, cines y mucho más.

El desafío

Para Mall Plaza es de importancia poder hacer seguimiento del buen rendimiento de los diferentes subcontratistas encargados de la limpieza de los espacios, la gestión de los estacionamiento, la experiencia de sus clientes, entre otros servicios. Para tal fin creó un sistema de encuestas en formato texto libre para evaluar la calidad de los servicios contratados mediante la experiencia de los usuarios. Sin embargo, estas encuestas deben clasificarse por tópico, y medir la satisfacción a partir del texto escrito por los usuarios en las encuestas. Así, el desafío era poder automatizar el procesamiento, clasificación y visualización de los resultados (reportes). Esta tarea era realizada anteriormente mediante la intervención humana en un árbol de clasificación, lo que involucra un costo en horas/hombre del orden de las semanas, y su eficiencia era muy baja, pues para poder dar una solución, la empresa debía identificar el problema, lo que significaba esperar hasta poder procesar las encuestas de la semana.

Así, la esencia del desafío radicó en el diseño e implementación de pipeline de datos que iniciara con las encuestas diarias en su estado crudo, y se procesan hasta culminar con encuestas clasificadas por tópicos y por intensidad del sentimiento (positivo, neutro o negativo), con las correspondientes KPIs visualizadas en un dashboard a modo de reporte.

Para tal fin, fue necesario tratar con los problemas típicos de la minería de textos, i.e., heterogeneidad, palabras incompletas o mal escritas, además de la limpieza y formateo de los datos, los cuales son estándares en minería de textos.

Finalmente, además del sistema de procesamiento de encuestas fue necesario diseñar la forma de acoplarlo con el workflow y reglas de negocio de la empresa, para tomar decisiones conducidas por los datos y así poder responder efectivamente a las necesidades de sus clientes.


Mall Plaza, el tener nuestro propio entorno de datos en GCP, nos permitió avanzar a un mundo de posibilidades de generación de casos de uso que generan valor a la compañía, acelerando nuestro time to market y nuestro proceso de transformación digital.

--Felipe Reyes Pérez (Chile)
Business Intelligence, Gerencia Regional Tic


La solución

Con el objetivo de dar un servicio de almacenamiento seguro, rápido y eficiente, se eligió Google Cloud Storage como landing zone para almacenar todas las encuestas. Al realizar la carga de las encuestas una Cloud Functions gatilla la ejecución del pipeline en Dataflow. En el pipeline, las encuestas son pre-procesadas secuencialmente, segmentando las por frases, y calculando su score positivo o negativo usando el análisis de sentimientos de la API Google Natural Language y clasificandola por tópicos usando un modelo entrenado desarrollado en Auto ML para la tarea. Los resultados son ingestados en Google BigQuery para su posterior consulta.

Finalmente, aprovechando de la versatilidad de BigQuery en el sentido que permite conexión natural con herramientas que no son propias de GCP, los resultados son visualizados usando Tableau, según las necesidades y exigencias de MallPlaza, y permitiendo la posibilidad de realizar decisiones conducidas por los datos adquiridos en las encuestas, responder a tiempos muy cortos las necesidades de sus clientes y re-adaptar las políticas adoptadas por la compañía. En general, la solución fue implementada usando las siguientes herramientas:

  • Cloud Storage
  • Dataflow
  • Cloud Functions
  • Natural Language API
  • AutoML
  • BigQuery
  • Tableau

Resultados

Para Mall Plaza, los principales beneficios de la solución implementada por Zenta a través del uso de Google Cloud Platform fueron la mejora en la calidad de los servicios contratados que operaban dentro del mall. Más aún, debido a las políticas conducidas por los datos e implementadas por Mallplaza, hubo un incremento en la satisfacción de los clientes del 30% en promedio, por zonas sobre los centros comerciales, (e.g. baños, estacionamiento, patio de comidas, tiendas, etc.). Adicionalmente, la clasificación para su validación de cada encuesta en términos de satisfacción del usuario, y por zona del mall tomaba aproximadamente 2 minutos por trabajador humano versus 500 ms de la solución implementada. Por otro lado, la solución implementada con GCP tarda aproximadamente 6 horas, en entrenar el modelo en Auto ML (lo que solo se hace una vez) versus el orden de una semana en la solución anterior. Es decir, si comparamos con el tiempo que tardaría una persona en clasificar/validar las encuestas recibidas en un día, estamos hablando de que el proceso sería 540 veces más rápido, o bien, de un incremento en la velocidad de 1080% versus el tiempo que tardaría una sola persona en realizar este trabajo.

Otro beneficio quizá menos evidente de la solución implementada es que los trabajadores que antes dedicaban tiempo al análisis de encuestas, generación de paneles gráficos y reportes ahora agregan valor a la industria a través de actividades de gestión, logística e innovación. Cabe destacar que la solución implementada automatiza totalmente el proceso de puntuación (scoring) de los sentimientos de las encuestas, clasificación por tópicos y generación de reportes a través de paneles gráficos usados para la detección de anomalías y mal funcionamiento de las subcontratistas prestadoras de servicios. También, la solución permite enviar de forma más precisa los requerimientos de mejoras extraídos desde el análisis de las encuestas a cada uno de los subcontratistas (dado que los falsos positivos existentes disminuyeron en un 80%). Esto permitió dar una respuesta rápida a los usuarios, logrando una mejor cercanía con los clientes, propiciando su fidelización, y dando soporte para la toma de decisiones tempranas y efectivas.

Otro beneficio añadido por esta solución es la posibilidad de contar con el respaldo de Google en Machine Learning, gracias a su API de lenguaje natural, que permitió obtener fácilmente la puntuación del sentimiento de las encuestas, y a AutoML que permitió el entrenamiento e implementación del clasificador para capturar los tópicos de cada encuesta. Adicionalmente, dada la versatilidad y multiplicidad de opciones disponibles en GCP, esta solución abre las puertas para su futura implementación para el análisis de opiniones en redes sociales y respuestas a tiempo real.