Evaluación del rendimiento de modelos de Machine Learning para el análisis de sentimientos en tweets en español bajo diferentes escenarios de desbalance de clases
Abstract
El análisis de sentimientos ha adquirido gran relevancia en la clasificación de polaridades en textos no estructurados, sin embargo, uno de sus principales desafíos lo constituye el desequilibrio de clases, el cual afecta de manera significativa el rendimiento de los modelos de aprendizaje automático, por lo que, el presente estudio compara el desempeño de seis algoritmos de clasificación (Naive Bayes, SVM, Logistic Regression, Decision Tree, Random Forest y XGBoost) en tweets en español, considerando tres escenarios: distribución equilibrada, moderadamente desequilibrada y totalmente desequilibrada, evaluación que se realizó mediante las métricas de exactitud, precisión, recall y f1-score, a partir de lo cual se evidencia que un mejor rendimiento en escenarios balanceados es presentado por los modelos lineales, aunque su desempeño disminuye conforme aumenta el desequilibrio, mientras que un comportamiento más estable entre escenarios es mantenido por Naive Bayes y, por otro lado, una alternativa competitiva es representada por XGBoost, asimismo, se observa que el impacto del desbalance no es reflejado adecuadamente por la exactitud, siendo el f1-score una métrica más representativa, lo que en conjunto resalta la importancia de considerar el desequilibrio en la selección de modelos.





