Universidad, Ciencia y Tecnología
versión impresa ISSN 1316-4821
uct vol.18 no.72 Puerto Ordaz set. 2014
Modelo predictivo de fuga de clientes utilizando minería de datos para una empresa de telecomunicaciones en Chile
Jélvez Caamaño, Arnaldo1 Moreno Echeverría, Mauricio2 Ovalle Retamal, Víctor3 Torres Navarro, Carlos1 Troncoso Espinosa, Fredy1
1 Académico Departamento de Ingeniería Industrial, Universidad del Bío-Bío. Av. Collao 1202, Concepción, Chile.
2 Masonite Chile S.A. - Ruta 5, Cabrero, Chile
3 Distribuidora Loncomilla Ltda. Avenida Chorrillos # 1107, San Javier, Chile.
Resumen:
Este trabajo muestra una aplicación de un modelo de fuga de clientes para una empresa de telecomunicaciones que compite en dos mercados, Concepción y Temuco, de Chile. Se utilizan como metodologías el análisis de cluster para generar perfiles de clientes fugados y la técnica de regresión logística multivariable para generar un modelo de ocurrencia de fuga de servicios. La base de datos incluyó productos contratados, variables socio demográficas, sistemas de pago, número y tipo de reclamos, entre otros. Se generan modelos de regresión logística multivariable para las dos plazas. Para la plaza Concepción el modelo clasifica en forma correcta el 71% de los casos analizados. Para la plaza Temuco clasifica en forma correcta el 72%. La información obtenida permitiría proponer planes de acción para disminuir la fuga a través de actividades de capacitación y promoción y publicidad.
Palabras Claves: Análisis de grupos, Fuga de clientes, Minería de datos, Regresión logística multivariable.
Predictive model of leak of customers using data mining for a telecommunication company in Chile
Abstract:
This works shows an application of a churn model for a company of the telecommunications industry in Chile with two major markets. Cluster analysis and multivariate logistic regression were used as data mining methodologies to generate the churn model. Data base considered the period January 2009 and June 2011, and variables such as products, demographic data, payment systems, number and types of complaints filled were used. Two models using regression analysis were developed were generated for both markets. For the Concepción market the model estimates successfully 71% of the total cases, and for Temuco market was 72%. The above informations allows the company for the proposal of promotional efforts and training of the sales force primarily
Key Words: Cluster analysis, Churn model, Data mining, Multivariate logistic regression.
Recibido 05/08/14 - Aceptado 15/10/14
INTRODUCCIÓN
El origen del tema es resultado del aumento paulatino en las fugas de clientes en una empresa de telecomunicaciones en los últimos años de operación, producto principalmente de la fuerte competencia en el sector. Estas empresas manejan grandes cantidades de información, que si no es procesada correctamente, sólo es un conjunto de datos. Esto motiva la utilización de técnicas como data mining (minería de datos) para transformar dichos datos en información útil, la cual permite tomar decisiones importantes para seguir siendo competitivos [1, 2 ,3].
Este trabajo muestra una aplicación de la técnica de minería de datos a una empresa de telecomunicaciones con dos mercados relevantes, Concepción y Temuco y desarrollado en extenso por Moreno y Ovalle (2011) [4]. Se pretende identificar factores que permitan clasificar clientes nuevos y antiguos como potencialmente fugables por medio de conglomerados, y además, generar un modelo predictor que estime la probabilidad de fuga como función de otras variables. En este sentido, la minería de datos permite descubrir información en forma de patrones, cambios, asociaciones y estructuras significativas de grandes cantidades de datos almacenados. [5]
El presente estudio recopila información proveniente de la base de datos de información de clientes de la empresa que adquirieron integralmente los servicios de Internet, Telefonía y TV Cable, correspondiente a las plazas de Concepción y Temuco, con el propósito de encontrar un modelo de predicción de fuga de clientes. En Gordillo, Martínez & y Stephens (2012) [6], para fines similares, se refiere al propósito de encontrar una huella de estrategias utilizadas, en este caso, por clientes de telefonía celular.
La base de datos bajo estudio considera el período comprendido entre enero 2009 y junio 2011, contando con información de productos contratados por clientes, datos sociodemográficos, sistemas de pago, número y tipos de reclamos, entre otras informaciones, ocupando para el análisis de la información software especializados para data mining como Excel 2010, Access 2010 y SPSS v19.
ANTECEDENTES
Molina (2009) [7] señala que la minería de datos se refiere al proceso de extraer conocimiento de base de datos. Su objetivo es descubrir situaciones anómalas y/o interesantes, tendencias, patrones y secuencia en los datos. Su insumo son los datos pre-procesados en las fases anteriores de la metodología, el objetivo es construir un modelo a partir de ellos, el cual pueda producir nuevo conocimiento que sea útil para el usuario.
Dentro de la minería de datos existen distintos algoritmos que pueden resolver determinadas tareas, éstas son descriptivas (conglomerado, reglas de asociación secuenciales y correlaciones) o predictivas (clasificación y regresión). Sus aplicaciones y limitaciones se encuentran descritas en Barrientos y Ríos (2013) [8] y en Weber y Miranda (2010) [9].
Dada la gran cantidad de información que manejan en la actualidad las instituciones, es posible aplicar estos algoritmos de minería de datos en diferentes áreas de negocios, de manera de apoyar la toma de decisiones. Un ejemplo concreto es la fuga de clientes. La fuga de clientes busca identificar los clientes con mayor probabilidad de renunciar a un producto, a un conjunto de producto o a la totalidad de los productos ofrecidos por una institución. La acción de evitar que un cliente se fugue es conocida como retención de clientes. La retención de clientes está compuesta por dos procesos: la identificación y seguimiento de los clientes con mayor tendencia a la fuga y la definición de política comercial y procedimientos que hagan desistir al cliente de la fuga. La identificación efectiva de estos clientes permite centrar en forma eficiente los recursos destinados por estas políticas comerciales y procedimientos.
La fuga de clientes acarrea un conjunto de problemas al negocio, pues el tamaño de la cartera de clientes está relacionado directamente con la rentabilidad del negocio [10, 11]. Además, estudios señalan que un cliente se vuelve más rentable con el paso del tiempo, pues la utilidad obtenida de él se compone por elementos como: incremento en las compras, reducción de costos operacionales y referencias dadas a terceros, entre otras [12]. En este sentido en Glady (2009) [13] se presenta a una cliente que se fuga constantemente de las compañías o churn como un individuo que posee una utilidad marginal decreciente para el negocio.
En el siguiente apartado se presenta la metodología aplicada en el trabajo.
II. METODOLOGÍA
1. Análisis de Agrupaciones
El Análisis de agrupaciones, es una técnica estadística multivalente, que divide un conjunto de datos observados en distintas categorías, permitiendo que los perfiles de los objetos pertenecientes a un mismo grupo sean lo más similares entre sí (cohesión interna del grupo) y los perfiles de los objetos de las agrupaciones diferentes sean distintos (aislamiento externo del grupo).
Esta etapa se realizó en conjunto con analistas de la empresa, y fue condicionado al período de tiempo elegido para el desarrollo de la investigación. La población de datos utilizada fue aproximadamente 80.000 datos en conjunto para las plazas de Concepción y Temuco.
Se propusieron veinte variables importantes para el estudio [14], las cuales se detallan en la Tabla I.
Como medida de distancia para el agrupamiento, se utilizó el estadístico chi-cuadrado según la recomendación de los autores para variables de tipo categóricas [15]. Se eligieron tres criterios de agrupación, para comparar resultados que ayudaron a determinar el número de agrupaciones en cada plaza. Los criterios de aglomeración utilizados fueron: su vinculación fuera de grupos, vecino más lejano y agrupación de centroides. Utilizando métodos de agrupamiento no jerárquicos se obtuvieron los perfiles de clientes fugados.
2. Regresión Logística Multivariante
La regresión logística multivariante se define por la existencia de una variable dependiente con dos estados y múltiples variables de tipo independiente que pueden ser de carácter categóricas o cuantitativas, obteniendo una estimación no sesgada o ajustada de la relación entre la variable dependiente (o resultado) y múltiples variables independientes que se estime importantes para el estudio.
Para el trabajo desarrollado, la variable dependiente dicotómica se define como [16]:
La población de datos utilizada en esta técnica fue aproximadamente de 35.000 datos en conjunto para ambas plazas. Se lograron obtener nueve variables a priori importantes las cuales se detallan con un (*) según se indica más arriba, para facilitar el manejo de información dentro de la investigación.
En relación al análisis univariado, se realizó una comparación de distribución de cada una de las variables independientes en función de la variable dependiente (Activo/Fuga). Se estableció como importante cualquiera que presentara una diferencia absoluta igual o mayor a 5% en la comparación de ambas distribuciones. Con respecto a las relaciones bivariantes, se analizó mediante tablas de contingencia las variables independientes con la variable dependiente mediante la prueba chicuadrado. Posteriormente, se realizó un análisis de regresión logística simple permitiendo ver la existencia de relación entre la variable dependiente y la independiente por medio del estadístico de Wald. En ambos casos, si el nivel de significancia es menor a 5%, la hipótesis nula es rechazada.
Para la evaluación de posibles interacciones o modificaciones de tipo efecto y/o confusión se eligió como base de estudio la variable independiente PERMA_MESES y la variable dependiente ESTAD_SERV (Estados Activo/ Fuga), para luego explorar el papel de las restantes variables independientes sobre las anteriores [15].
Dentro de los resultados, se detallarán los niveles de sensibilidad y especificidad para los modelos generados de ambas plazas, y también su porcentaje global de acierto. Para la validación del modelo, se utilizó una muestra aleatoria simple de 50 casos de servicios fugados para los meses de Abril, Mayo y Junio de 2011, en ambas plazas.
RESULTADOS Y DISCUSIÓN
1. Análisis Grupos
Luego de aplicar los criterios de agrupación se estableció que para la plaza de Concepción, el número de conglomerados a utilizar en esta plaza fuese de cuatro, y que el número de conglomerados a utilizar en la plaza de Temuco fuese de tres. Luego se procedió a utilizar el método de las K-medias para interpretar los resultados del análisis cluster para cada plaza o ciudad en estudio.
1.1 Plaza Concepción
El número total de desconexiones estudiadas fue de 63.850, donde el conglomerado más representativo, con un 37%, corresponde al conglomerado número 4 como se muestra en el gráfico de la Figura 1.
El empaquetamiento de producto en este grupo es Cable Hogar, que tiene un valor de categorización de nivel medio para la empresa. Este conglomerado no presenta promociones de retención de ningún tipo al momento de la desconexión, y luego de la desconexión no existe intención por parte del cliente en volver a reconectar el servicio dado de baja.
1.2 Plaza Temuco
El número total de desconexiones estudiadas fue de 22.383, donde el conglomerado más representativo, con un 55%, es el número 2 como se muestra en el gráfico de la Figura 2.
Este grupo de clientes es de tipo residencial, la edad del mismo fluctúa entre los 38 y 47 años de edad, sexo de tipo masculino y grupo socioeconómico C2. El motivo de la desconexión se debe a cambios a la competencia, con deudas que fluctúan entre CL$30.000 y CL$59.999. Este grupo presenta un reclamo acumulado hasta la fecha de desconexión, y su carácter es de tipo técnico.
La antigüedad de los servicios al momento de la desconexión fluctúa entre los 13 y los 24 meses de contratación del mismo. El canal de entrada utilizado para la contratación del servicio es similar a lo utilizado en la plaza de Concepción.
Los clientes poseen un tipo multiservicio de internet y telefonía, y la desconexión del servicio para este grupo es telefonía, pasando luego de la desconexión a un paquete de un servicio (Internet). El empaquetamiento de producto en este conglomerado es Internet 2MB, que tiene un valor de categorización de nivel medio para la empresa. Este conglomerado no presenta promociones de retención de ningún tipo al momento de la desconexión, y luego de la desconexión no existe intención por parte del cliente en volver a reconectar el servicio dado de baja. A partir de anterior cobra relevancia el tratamiento espacial a los datos debido a que logra obtener información más precisa y efectiva para apoyar el proceso de toma de decisiones y con una mejor capacidad para generar conocimiento. [5, 17]
2. Regresión Logística Multivariante
A continuación, se resumen los resultados de los análisis estadísticos utilizados con esta técnica.
2.1 Análisis Univariado para Concepción y Temuco
Para el caso de Concepción, las variables GSE, DEUDA, PERMA_MESES, EDAD_C, RECLAM, CPAGO y C_ENTRADA son variables candidatas de incluir en el modelo, ya que la comparación de distribuciones para cada variable es igual o superior en valor absoluto a 5%. Las variables SEXO y PROMO_ASOC por el contrario, no son candidatas de incluir en la generación del modelo, dado que la comparación de distribuciones para cada variable es menor en valor absoluto a 5%.
Para el caso de Temuco, las variables GSE, DEUDA, PERMA_MESES, EDAD_C, RECLAM y CPAGO son variables candidatas de incluir en el modelo, ya que la comparación de distribuciones para cada variable es igual o superior en valor absoluto a 5%. No así las variables SEXO, PROMO_ASOC y C_ENTRADA, ya que la comparación para cada variable resulto ser menor en valor absoluto a 5%.
2.2 Análisis Bivariado Concepción y Temuco
De las pruebas de independencia Chi-Cuadrado entre la variable dependiente y las variables independientes, para el caso de Concepción, se observó que en todas el valor de significación es menor a 0,05 para las variables GSE, DEUDA, PERMA_MESES, EDAD_C, RECLAM, CPAGO y C_ENTRADA lo que permite concluir que la hipótesis nula (las variables son independientes) se rechaza, y se acepta la hipótesis alternativa (las variables están relacionadas entre sí). Del análisis de regresión logística simple, se observa que en todas las pruebas el valor de significación es menor a 0,05 para las variables GSE, DEUDA, PERMA_MESES, EDAD_C, RECLAM, CPAGO y C_ENTRADA con lo que se concluye que la hipótesis nula (la variable independiente no influye significativamente sobre la variable dependiente) se rechaza, y se acepta la hipótesis alternativa (la variable independiente influye significativamente sobre la variable dependiente).
De las pruebas de independencia, para el caso de Temuco, se observa que en todas el valor de significación es menor a 0,05 para las variables GSE, DEUDA, PERMA_MESES, EDAD_C, RECLAM y PAGO lo que permite concluir que la hipótesis nula (Las variables son independientes) se rechaza, y se acepta la hipótesis alternativa (las Variables están relacionadas entre sí). Del análisis de regresión logística simple, el valor de significación es menor a 0,05 para las variables GSE, DEUDA, PERMA_MESES, EDAD_C, RECLAM y CPAGO con lo que se concluye que la hipótesis nula (la variable independiente no influye significativamente sobre la variables dependiente) se rechaza, y se acepta la hipótesis alternativa (La variable independiente incluye significativamente sobre la variable dependiente).
De los seis modelos generados para la plaza de Concepción, y cinco para la plaza de Temuco (donde cada uno de ellos incluye una variable multiplicativa distinta), solo se observa este fenómeno cuando se introduce la variable PERMA_ MESES * RECLAM, dado que es el único caso que la variable multiplicativa tiene significancia estadística <0,05. Es por ello que para la generación del modelo, tanto para la Plaza de Concepción y Temuco, se debe incluir esta variable.
En relación al análisis de confusión se observa que en todos los modelos generados, tanto para la plaza de Concepción y Temuco, hay presencia de confusión, dado que existe un cambio porcentual absoluto igual o superior al 10% del OR de la variable independiente PERMA_MESES, con respecto al valor de la misma variable resultante del análisis de regresión logística simple.
Del análisis de interacción y confusión se establece que las variables GSE, DEUDA, EDAD_C, PERMA_MESES, CPAGO, RECLAM, C_ ENTRADA y PERMA_MESES * RECLAM deben ser incluidas en el modelo para la plaza de Concepción. Del mismo análisis se establece que las variables GSE, DEUDA, EDAD_C, PERMA_ MESES, RECLAM, CPAGO y PERMA_MESES
* RECLAM deben ser incluidas en el modelo para la plaza de Temuco.
3. Modelo de Regresión Logística Multivariante
Para el caso de la Plaza de Concepción, todas las covariables incluidas en el modelo mantienen la significación estadística <0,05 en el contraste de hipótesis que las relaciona con la variable dependiente ESTAD_SERV (Molina y Ovalle, 2011).
Por otra parte, como se muestra en la Tabla II, el modelo clasifica de forma correcta 5.708 casos (de los 9752 totales) de fugas (y=1), por lo que su sensibilidad es de 58,5%, además, clasifica de forma correcta 10.840 casos (de los 13.477 totales) activos (y=0), por lo que su especificidad es de 80,4%, porcentaje más alto que el de sensibilidad. El modelo de forma global clasifica de forma correcta al 71,2% de los casos analizados.
Para el caso de la Plaza de Temuco, al igual que para la Plaza de Concepción, se observa que todas las covariables incluidas en el modelo mantienen la significancia estadística <0,05 en el contraste de hipótesis que las relaciona con la variable dependiente ESTADO_SERV.
En la Tabla III, Se puede apreciar que el modelo clasifica de forma correcta 2.661 casos (de los 3.212 totales) de fugas (y=1), por lo que su sensibilidad es de 82,8%, por otra parte, clasifica de forma correcta 1142 casos (de los 2064 totales) activos (y=0), por lo que su especificidad es de 55,3%, porcentaje más bajo que el de sensibilidad. Finalmente el modelo de forma global clasifica de forma correcta al 72,1% de los casos analizados.
Para el proceso de validación se realizó una toma de muestra aleatoria simple de 50 casos de servicios fugados para los meses de Abril, Mayo y Junio de 2011 para ambas plazas.
En relación con la validación del Modelo de RLM, con tres niveles de corte (Plaza Concepción), en la Tabla IV se observa que el modelo tiene un mayor número de aciertos en el mes de Junio 2011, muy superior con respecto a los otros meses. Además, a medida que el nivel de corte disminuye, se puede observar que el nivel de acierto aumenta.
Para el caso de la Plaza de Temuco, se observa que el modelo tiene un mejor número de aciertos que el modelo a generado para la Plaza de Concepción. Se puede ver que el número de aciertos promedio es muy similar para todos los meses, existiendo una leve mejora en los meses de Abril y Junio. Por último, sucede de igual forma con la plaza de Concepción, a medida que disminuye el nivel de corte, se observa que hay un mayor número de aciertos.
Los planes de acción que la empresa decide llevar a cabo y que se derivan del análisis de los modelos anteriores, se describen en extenso en Moreno y Ovalle (2011) [4]. Estos además son acciones que aplican específicamente a una empresa del sector industrial en cuestión, y no necesariamente tienen una aplicación general.
IV. CONCLUSIONES
El modelo generado con la metodología de data mining permitió generar perfiles de clientes potencialmente fugables para la empresa, estableciéndose números de conglomerados y porcentajes de representación de estos últimos para las plazas de Concepción y Temuco y con esta información, la empresa podrá tener distintos perfiles de conglomerados en donde a cada uno de ellos se le podrá asignar un nivel de riesgo, lo que ayudará a tomar decisiones de marketing y/o planes de acción para disminuir la tasa de fuga de clientes a lo largo del tiempo.
Utilizando regresión logística multivariante permitió identificar los factores de riesgo que influyen en la fuga de servicios para cada plaza y de esta forma se establece la probabilidad de fuga de los clientes actuales, como por ejemplo, los que cumplan con los perfiles o patrones de fuga realizado en análisis de agrupaciones, lo que permitiría ser aún más exacto en la aplicación de esta técnica, y por ende darle un mayor sentido a todo el fruto de esta investigación.
V. REFERENCIAS
1. Hernández O, J. Introducción a la minería de datos. España, Pearson. 2004. 680p.
2. Pérez, C. & Santínz, D. Minería de datos. Técnicas y Herramientas. Madrid: Ed. Thomson, 2007. [ Links ]
3. Hernández, J.; Ramírez, M.J. & Ferri, C. Introducción a la Minería de Datos. Madrid: Pearson. Prentice Hall, 2005. [ Links ]
4. Moreno, M. & Ovalle, V. Aplicación de un modelo predictivo de fuga de clientes mediante la utilización de Data Mining en VTR Globalcom S.A. Zona Sur. Proyecto de título, Departamento de Ingeniería Industrial, Universidad del Bío-Bío, Concepción, Chile. 2011. 229p. [ Links ]
5. Dueñas, M. X. Minería de datos espaciales en búsqueda de la verdadera información. Ing. Univ.; 13(1); 137-156; 2009-01. Recuperado de: http://www.scielo.org.co/pdf/inun/v13n1/v13n1a07.pdf
6. Gordillo, J. L.; Martínez, E. & Stephens, C. Develando estrategias de mercado: minería de datos aplicada al análisis de mercados financieros. Comp. y Sist.; 16(2); 221-231; 2012-06. Recuperado de: http://www.scielo.org.mx/pdf/cys/v16n2/v16n2a8.pdf
7. Molina, S. Aplicación de técnicas de minería de datos para predicción del churn de clientes en una empresa de telecomunicaciones. Tesis de maestría, Escuela de Ingeniería de la Pontificia Católica de Chile. 2009. 114p. [ Links ]
8. Barrientos, F. & Ríos, S. Aplicación de minería de datos para predecir fuga de clientes en la industria de Telecomunicaciones. Revista Ingeniería Industrial, Volumen XXVII, Septiembre, 2013.
9. Weber, R. & Miranda, J. Caso de Estudio, Sistemas de predicción de fugas de clientes. Instituto Sistemas Complejos de Ingeniería, Universidad de Chile. 2010. [ Links ] 6p.
10. Athanassopoulos, A. D. Customer satisfaction cues to support market segmentation and explain switching behavior. Journal of business research, 47(3). 2000. pp 191-207. [ Links ]
11. Ganesh, J.; Mark A. & Reynolds, K. E. Understanding the customer base of service providers: an examination of the differences between switchers and stayers." Journal of marketing 64(3). 2000. pp 65-87. [ Links ]
12. Reichheld, F. & Sasser, E. J. Zero defections: quality comes to services. Harvard business review 68(5). 1989. pp 105-111. [ Links ]
13. Glady, N.; Bar. & Croux, C. Modeling churn using customer lifetime value. European Journal of Operational Research 197(1). 2009. pp 402-411. [ Links ]
14. De la Garza, J.; Morales, B. & González, B. Análisis Estadístico Multivariable. Ed. Mc Graw Hill, edición 1, 2012. ISBN 9786071508171 [ Links ]
15. Pérez, C. Técnicas estadísticas con SPSS 12. Madrid. Pearson Prentice Hall. 2008. 802p. [ Links ]
16. Hair J.; Anderson, R.; Tatham, R. & Black, W. Análisis Multivariante. España, Pearson Education. 2007. 799p. [ Links ]
17. Marcano, Y.J. & Talavera, R. Minería de Datos como soporte a la toma de decisiones empresariales. Opcion; 23(52); 104-118; 2007-01. Recuperado de: http://www.scielo.org.ve/scielo.php?pid=S1012-15872007000100008&script=sci_arttext