Clasificación de aceptación de campañas para una entidad financiera, usando random forest con datos balanceados y datos no balanceados
Abstract
En este trabajo de tesis se planteó abordar un enfoque de modelamiento de aprendizaje supervisado de clasificación mediante el modelo de random forest, se utilizó la librería h2o, que permitió tener una comparación de los modelos planteados dando un balanceo de la variable respuesta (target) y sin balancear y asimismo ejecutar en un menor tiempo estos modelos, puesto que la librería trabaja en procesamiento en paralelo, también realizar el tuning de parámetros del modelo de random forest y compararlos mediante los indicadores de Área Bajo la Curva (AUC), especificidad y sensibilidad.
Los datos a utilizar pertenecen a una entidad financiera en el mes de abril del 2018, donde la variable target es la aceptación de una campaña de tarjeta de crédito.
Los principales resultados obtenidos fueron para el caso del indicador AUC, los 4 modelos planteados obtuvieron similar indicador alrededor de 0.75, en el indicador de especificidad, los mejores modelos fueron los que trabajaron con datos desbalanceados, en el indicador de sensibilidad, los mejores modelos fueron los que trabajaron con datos balanceados. Dado el interés del negocio se escogió un modelo con datos balanceados y con mejor desempeño en la sensibilidad.