1. Limpieza y Exploración de Datos (EDA)
El núcleo de este proyecto comenzó con la consolidación y limpieza de un conjunto de datos recopilado a partir del alumnado universitario. El objetivo fue transformar datos crudos en información accionable para las instituciones educativas.
- Procesamiento con Pandas: Se realizó la imputación de valores faltantes, categorización de variables cualitativas y estandarización de formatos para garantizar la integridad del dataset.
- Análisis Descriptivo: Cálculo automatizado de medidas de tendencia central, dispersión y tablas de frecuencias dinámicas utilizando la regla de Sturges.
- Visualización Multidimensional: Integración de Plotly para graficar matrices de correlación y detectar cómo influyen variables como las horas de trabajo, la calidad de sueño y el nivel de responsabilidad en el índice de reprobación.
2. Ingeniería del Modelo Predictivo (Machine Learning)
Para evolucionar el sistema de un entorno puramente analítico a una herramienta de prevención, se implementó un flujo completo de aprendizaje automático (Machine Learning) utilizando Scikit-learn.
- Preprocesamiento y Escalamiento: Dado que las variables presentan rangos muy dispares (por ejemplo, horas de estudio frente a promedios generales), se construyó un motor de normalización que equilibra los datos antes de evaluarlos, evitando que el modelo se sesgue hacia los valores numéricamente más grandes.
- Algoritmo de Árbol de Decisión: El motor predictivo opera mediante un algoritmo de clasificación supervisada. Este modelo fue entrenado con datos históricos para comprender las complejas ramificaciones y umbrales de los hábitos estudiantiles, logrando identificar el punto exacto donde la combinación de factores inclina la balanza hacia el fracaso académico.
3. Arquitectura de la Interfaz y Diagnóstico
La lógica matemática y estadística fue encapsulada en una aplicación web interactiva desarrollada en Streamlit, diseñada específicamente para ser utilizada por tutores o asesores académicos sin necesidad de conocimientos en programación.
Flujo de Operación:
El usuario introduce las métricas de un alumno (edad, género, horas de trabajo a la semana, participación en clase, entre otros) mediante controles deslizantes e inputs dinámicos en el panel lateral. El sistema procesa la información en milisegundos a través del modelo de Machine Learning y emite de forma automática uno de dos diagnósticos estructurados:
- ALERTA DE RIESGO: Señala una alta probabilidad de que el alumno repruebe materias bajo su esquema de hábitos actual, sugiriendo una intervención oportuna.
- ESTABLE: Indica que las métricas del estudiante corresponden a un perfil académico con condiciones favorables para la aprobación.
4. Galería del Sistema
Módulos de la aplicación en ejecución: visualización interactiva de correlaciones, formularios de captura de datos y emisión del diagnóstico predictivo.