Minería de datos para descubrir tendencias en la clasificación de los trabajos de titulación

Resumen

La minería de datos tiene como fin encontrar patrones que expliquen la tendencia de los datos, es por ello que con el objetivo de extraer conocimiento de los trabajos de titulación de la Facultad de Ciencias de la Escuela Superior Politécnica de Chimborazo; se aplicaron cinco modelos de clasificación: Máquinas de Soporte Vectorial, Redes Neuronales, Árbol de Decisión, Bosque Aleatorio y Potenciación; considerando las líneas Diseño de Experimentos y Análisis Multivariable. Para identificar el modelo óptimo se aplicó Rattle, se calcularon tres medidas de rendimiento, las precisiones: global, positiva y negativa; siendo la curva ROC y los Árboles de Decisión, gráficas que permitieron visualizar el modelo de predicción con mejor ajuste, así como los programas que caracterizan las líneas de investigación. Los resultados mostraron que para la línea Diseño de Experimentos, el modelo con mayor precisión fue Bosque Aleatorio, con un 71,48% de predicciones que son correctas respecto al total; mientras que al considerar la línea Análisis Multivariable no se evidenció diferencia significativa en la precisión global, fluctuando en el 97%; esto significa que con el 97% de certeza la línea de investigación de Análisis Multivariable y con el 71,48% de precisión la línea de Diseño de Experimentos se enmarcan en los programas de investigación institucionales. En el modelo Árbol de Decisión, el nodo principal fue la Carrera cuando se consideró la línea Diseño de Experimentos, debido a que en Bioquímica y Farmacia se impulsa la utilización de estudios de este tipo; y en el caso de la línea Análisis Multivariable fue el programa Consumo Humano para mejorar las condiciones de nutrición y salud, debido a que los trabajos de titulación tienen una baja utilización de técnicas multivariable.
PDF

Referencias

[1] Y. Zheng, “Trajectory data mining: An overview,” ACM Trans. Intell. Syst. Technolog., vol. 6, no. 3, 2015.

[2] I. H. Witten, E. Frank, M. A. Hall, and C. J. Pal, Data Mining: Practical Machine Learning Tools and Techniques: Elsevier Inc., 2016.

[3] B. Frénay and M. Verleysen, “Classification in the presence of label noise: A survey,” IEEE Trans. Neural Networks Learn. Sys., vol. 25, no. 5, pp. 845–869, 2014.

[4] A. M. Cheriyadat, “Unsupervised feature learning for aerial scene classification,” IEEE Trans Geosci Remote Sens, vol. 52, no. 1, pp. 439–451, 2014.

[5] A. Peña-Ayala, “Educational data mining: A survey and a data mining-based analysis of recent works,” Expert Sys Appl, vol. 41, no. 4 PART 1, pp. 1432–1462, 2014.

[6] G. B. Ermentrout, S. E. Folias, and Z. P. Kilpatrick, “Spatiotemporal pattern formation in neural fields with linear adaptation,” in Neural Fields: Theory and Applications: Springer-Verlag Berlin Heidelberg, 2014, pp. 119–151.

[7] R. Medina and C. Ñique, “Bosques Aleatorios como extensión de los árboles de clasificación con los programas R y Python,” Interfases, pp. 165–189, 2017.

[8] Y. Robles and A. Sotolongo, “Integración de los algoritmos de minería de datos 1R, PRISM E ID3 A POSTGRESQL,” Gestión de Tecnología y Sistemas de Información, pp. 389–406, 2013.

[9] S. Valero, A. Vargas, and M. García, “Minería de datos: predicción de la deserción escolar mediante el algoritmo de árboles de decisión y el algoritmo de los k vecinos más cercanos,” Recursos Digitales para la Educación y la Cultura, 33-30, 2010.

[10] W. Graham, Data Mining with Rattle and R. New York, USA: Springer, 2011.

[11] IDI, Reglamento del Instituto de Investigaciones de la Escuela Superior Politécnica de Chimborazo 2014. Ecuador.

[12] IDI, Plan de investigación ESPOCH 2014-2018. Ecuador, vol. 2018-10-04.

Los autores que publican en el Congreso de Ciencia y Tecnología están de acuerdo con los siguientes términos: Los autores conservan los derechos de autor y garantizan al congreso el derecho de ser la primera publicación del trabajo al igual que licenciado bajo una Creative Commons Attribution License que permite a otros compartir el trabajo con un reconocimiento de la autoría del trabajo y la publicación inicial en el congreso. Los autores pueden establecer por separado acuerdos adicionales para la distribución no exclusiva de la versión de la obra publicada en el congreso (por ejemplo, situarlo en un repositorio institucional o publicarlo en un libro), con un reconocimiento de su publicación inicial en este congreso. Se permite y se anima a los autores a difundir sus trabajos electrónicamente (por ejemplo, en repositorios institucionales o en su propio sitio web) antes y durante el proceso de envío, ya que puede dar lugar a intercambios productivos, así como a una citación más temprana y mayor de los trabajos publicados.