Minería de datos sobre selectividad
Transcription
Minería de datos sobre selectividad
Minería de datos sobre selectividad Vanesa Tejada Muñoz Alicia Moreno Miguel Departamento de Ingeniería Telemática Universidad Carlos III de Madrid Madrid, España {vanesa.tejada, alicia.mmiguel}@uc3m.es ABSTRACT En este paper se hace un análisis sobre los alumnos que han realizado la selectividad entre los años 1993 y 2002 en función de unos atributos que componen el análisis, como pueden ser la localidad del alumno, la convocatoria en la que se presenta, la nota de bachiller obtenida, las asignaturas que se eligen como optativas… 1. INTRODUCCIÓN El proyecto a desarrollar está basado en la Minería de Datos. Primeramente vamos a definir qué es y lo que aporta al conocimiento del ser humano. La Minería de Datos comprende un conjunto de técnicas, algoritmos y métodos que permiten a partir de un conjunto de información alcanzar razonamientos y proposiciones de ámbito general, partiendo de algo particular. Este conjunto masivo de información de la que se parte, se denomina también Conocimiento Oculto, es aquel desconocido a priori, pero que tras su estudio y análisis es potencialmente útil. La información resultante tras trabajar con la Minería de Datos es aplicable a la toma de decisiones, formando parte del conjunto de tecnologías de la Inteligencia de Negocio. Muchas grandes empresas e instituciones han creado y alimentan bases de datos especialmente diseñadas para proyectos de minería de datos, en las que centralizan información potencialmente útil de todas sus áreas de negocio, estrategias de marketing, etc. Desde los años 60's ya se hablaba de data fishing o data archeology con la idea de encontrar correlaciones en las bases de datos. En los años 80 empezaron a consolidar el tema de Data Mining y Knowledge Discovery. Los proyectos de Minería de Datos deben completar las siguientes fases: 1. Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente desea. 2. Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Es la etapa que consume más de la mitad del tiempo del proyecto. 3. Determinación del modelo. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial. 4. Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones. 2. DETERMINACIÓN DE LOS OBJETIVOS El fin de este proyecto es el análisis de un conjunto exacto de 18803 muestras correspondientes a los resultados de alumnos en el examen de selectividad. El estudio va a resaltar diversos puntos considerados de interés, para los cuales se listan primeramente los atributos de los que se dispone: - Año académico real - Convocatoria {JUNIO, SEPTIEMBRE} - Localidad {ALPEDRETE, ARANJUEZ, C, CERCEDILLA, CIEMPOZUELOS, COLLADO _ VILLALBA, EL _ ESCORIAL, FUENLABRADA, GALAPAGAR, GETAFE, GRIÑÓN, GUADARRAMA, LEGANÉS, LOS _ PEÑASCALES, MORALZARZAL, PARLA, PINTO, SAN_LORENZO_DEL_ESCORIAL, TORREJÓN, TORREJÓN DE LA CALZADA, TORRELODONES, VALDEMORO, VILLANUEVA_DE_LA_CAÑADA, XX} Opcion1ª {1,2,3, 4,5} - Nota _ lengua real - Nota _ historia real - Nota _ idioma real - - - Descripcion_Idioma {INGLES, FRANCES, ALEMÁN} Descripcion_asig1 {BIOLOGÍA, DIB.ARTISTICO_II, H.ARTE, LATÍN_II, MATEM.CCSS, MATEM.II, QUÍMICA} Calificacion_asig1 real Descripcion _asig2 {BIOLOGÍA, C.TIERRA, DIB.ARTISTICO_II, ECONOMÍA, FÍSICA, GEOGRAFÍA, H.ARTE, H. FILOSOFÍA, LATÍN_II, MATEM.CCSS, QUÍMICA} Calificacion_asig2 real Descripcion_asig3 {BIOLOGÍA, C.TIERRA, DIB.ARTISTICO_II, DIB.TECNICO, ECONOMÍA, ELECTROTECNIA, F.DISEÑO, FÍSICA, GEOGRAFÍA, H.ARTE, H. FILOSOFÍA, IMAGEN, LATÍN_II, MATEM.CCSS, MATEM.II, MECANICA, PLASTICA, QUÍMICA, TEC.INDUSTRIAL_II} Calificacion_asig3 real Calificacion_prueba real Nota_bachi real Calificacion_final real Presentado {SI, NO} Por último, se relacionan estos estudios individuales con las poblaciones y opciones del tipo de examen. Atributos que inicialmente se consideran menos significativos en los resultados académicos de los alumnos. 3. DETERMINACIÓN DE LOS OBJETIVOS 3.1 Procesado del atributo presentado Se quiere analizar el número de alumnos que se han presentado a la prueba y el número de alumnos que no lo han hecho. Si se realiza una selección de atributos se puede comprobar que conociendo la calificación de la prueba y la calificación final sólo con estos atributos se puede saber si se ha presentado o no un alumno. El comportamiento queda plasmado en el siguiente árbol. A partir de esta información se realizan estudios sobre los siguientes puntos que son considerados interesantes: La diferencia entre los alumnos que se presentan en cada convocatoria respecto al número de aprobados y suspensos. Qué idioma es el más solicitado por los alumnos y si realmente es el que se supera con mayor facilidad. Si la media obtenida por los alumnos a lo largo de bachillerato se mantiene con la nota de selectividad, si es más beneficiosa para ellos o si por el contrario, generalmente les perjudica en su resultado final de cara a la universidad. Análisis de las notas de Lengua e Historia, son dos de las asignaturas obligatorias en el examen de selectividad y tienen mucha importancia. Se puede ver como afectan estas asignaturas en los resultados de los alumnos de las diferentes opciones. El número de aprobados en las asignaturas optativas de cada opción. Indica, junto con el estudio anterior de las asignaturas obligatorias, si dichas materias ayudan a subir o no la media del alumno en la prueba final. Selección de los atributos más importantes para la obtención más detallada de información como: Nota Historia, Selección de Idioma, Calificación de la prueba, Nota de bachillerato, Calificación final. Figura 3-1. Árbol J-48 – Presentado En conclusión, si la calificación en la prueba ha sido de 0, es que no se ha presentado y que si ha sido mayor de 0 es que se ha presentado. 3.2 Procesado en función de la localidad Hay ciertas localidades cuyo numero de alumnos presentados es mayor que en otras, este estudio nos permite conocer si ante estas diferencias, el número de aprobados es mayor en aquellas localidades con menos presentados, respecto las predominantes. Para ello se realiza un estudio probabilístico en dos localidades que tengan características extremas como pueden ser: Leganés y Griñón. En Griñón el número de aprobados es de 122 de los 126 que se han presentado por lo tanto un 97% de los que se presentan aprueban. En Leganés aprueban 3666 de los 4926 alumnos presentados, un 74% de éstos han superado la prueba. La diferencia es bastante significativa, se puede concluir en este punto que las poblaciones cuyo número de alumnos presentados es menor, tienen un porcentaje más alto de aprobados. 3.3 Procesado de la nota de Historia Se ha realizado un estudio para ver cuales son los atributos que se encuentran relacionados con la nota de Historia y se ha comprobado que son la localidad junto con la calificación de la prueba. Esto parece no tener ningún tipo de relación, pero ahora veremos que estudiándolo más a fondo podemos obtener resultados interesantes. Se puede ver que hay 9950 personas que aprobaron el examen de selectividad y que tienen aprobada Historia. Por el contrario, tan solo 962 personas aprobaron Historia y suspendieron Selectividad. En conclusión las personas que aprueba el examen de Historia tienen más probabilidades de superar la prueba de selectividad. Esto es debido a que la nota de Historia es una de las notas troncales y su influencia en la nota es superior a otras. Figura 3-2. Árbol RepTree – Idioma A través de esta gráfica resultante del árbol de clasificación RepTree con los atributos anteriormente citados, se puede llegar a la conclusión de que los alumnos que eligen la opción 3 y seleccionan como idioma francés, obtienen los resultados más satisfactorios. 3.5 Procesado Nota de bachiller junto con Calificación en la prueba Tomamos las notas de bachiller del grupo más prioritario, del 5 al 8. Por el contrario, obtenemos las notas del grupo menos prioritario, a partir del 8 y vemos como se han enfrentado a la prueba estos 2 tipos de alumnos, es decir, los más destacados de su clase y los casos más comunes. Análisis caso 1: Los alumnos que poseen una nota entre el 5 y el 8 y que han suspendido selectividad son 4554, de los cuales se procede a analizar sus aspectos: 1273 proceden de la opción 1 1052 proceden de la opción 2 453 proceden de la opción 3 3.4 Procesado del idioma La selección de atributos más relevante para obtener información óptima del idioma son: tipo de idioma, nota del idioma y la opción elegida. 1674 proceden de la opción 4 102 proceden de la opción 5 A continuación se puede ver que combinación de optativas da lugar a este grupo de alumnos suspensos con las características anteriormente seleccionadas. Para la opción 1, sólo 276 alumnos aprobaron el examen de Lengua. En el mismo grupo, son 343 alumnos los que aprueban la asignatura de Historia, y por último, 323 alumnos aprueban el examen del idioma escogido. Tras haber analizado los resultados de las tres asignaturas obligatorias, se puede decir que los bajos resultados en estas materias afectan negativamente a la calificación total. Análisis caso 2: Alumnos que han sacado una nota superior al 8 en bachillerato y han suspendido la prueba final. Analizando los datos se puede ver que casi todos los que han suspendido pertenecen a la opción1, además muchos de ellos tienen la asignatura de Historia suspensa en la prueba y sus notas en Lengua no sobrepasan el 5. El estudio está basado en localidades de las afueras de Madrid. A continuación se presenta la gráfica de valores de este atributo: Entre estos alumnos también cabe destacar que la gran mayoría han escogido como idioma inglés y que sólo un 25% lo ha aprobado. Si tenemos en cuenta todos estos factores, se puede observar que un alto porcentaje de la nota de selectividad lo componen las notas de las comunes Historia+Idioma+Lengua, que casualmente son las asignaturas que en estos casos más están suspendiendo. 4. DETERMINACIÓN DEL MODELO En el primer punto, donde detallamos los objetivos de este estudio, listamos los atributos que poseen nuestros datos. A continuación, vamos a realizar una breve descripción de cada uno de ellos, junto con las gráficas más representativas proporcionadas por la aplicación de análisis Weka. Convocatoria El examen de selectividad se puede realizar en dos convocatorias: junio y septiembre. En el estudio propuesto el número de alumnos presentados en junio asciende a 14099 y el número de alumnos presentados en septiembre asciende a 4703. Esta información indica, lógicamente, que el número de alumnos que realizan la prueba en junio es muy superior al número de alumnos que la realizan en septiembre. Entre los 4703 alumnos se puede pensar que de ellos, 2514 son alumnos que están repitiendo la selectividad ya que 2514 sería el número de alumnos que suspenden en junio y por tanto repetirán el examen en septiembre. Figura 4-2. Histograma sobre la localidad En esta gráfica se muestran las localidades donde se han tomado datos sobre los alumnos presentados a selectividad. En ella se observa como hay dos localidades en las que hay un mayor número de alumnos que se presentan a selectividad, son Leganés y Getafe. La primera, presenta un mayor índice de presentados. En algunas de las localidades como Torrejón no figura ningún presentado. Nota de Lengua Este atributo es uno de los más importantes a analizar, pues representa una de las asignaturas obligatorias para cualquier opción escogida. Este atributo presenta un comportamiento muy atípico con respecto al resto atributos ya que en su representación gráfica se ve que hay valores en los cuales el número de muestras es mayor que en otros. Esto quiere decir que hay ciertas notas que son muy comunes en Lengua, de manera que la estructura del examen hace que sea más fácil sacar entre un cierto rango de notas. Figura 4-3. Histograma sobre la Figura 4-1. Histograma sobre la convocatoria Localidad nota de Lengua El mayor pico de todos que presenta la gráfica se encuentra entre el 4.88 y el 5.11. Éste sería el rango en el que se encuentran la mayoría de las notas de los alumnos. Alrededor del 8, 6,4 y 2 son las notas en las que aparece un menor número de alumnos. Esto puede ser porque son notas con numeración decimal, en vez de estar redondeadas y por ello la calificación es muy ajustada. Posteriormente, en análisis más detallados veremos gráficas con zonas muy determinadas por estos valores característicos. Figura 4-5. Histograma sobre la elección del idioma Nota de Historia Atributos relacionados con optativas En este caso se va a realizar un estudio sobre las optativas más elegidas por los alumnos en cada opción. Generalmente las asignaturas de cada grupo están relacionadas, entre ellas y con la especialidad u opción del alumno. Figura 4-4. Histograma sobre la nota de Historia La nota de historia presenta un comportamiento más uniforme que la nota de Lengua. De la misma manera, es uno de los atributos más importantes a estudiar por la importancia que tiene en el examen. Se puede ver que hay un caso típico entre el que se encuentran la mayoría de los resultados, entre el 4.72 y el 5, aunque en todos los rangos hay un porcentaje de notas significativo. En análisis posteriores se puede apreciar una dispersión de muestras muy significativa, que al contrario que la nota de lengua, no muestra zonas concretas donde predomine un valor de resultado. Atributos sobre el idioma Las tres opciones de idioma son: inglés, francés o alemán. Prioritariamente los alumnos se examinan de inglés porque es el idioma más conocido desde su inicio en la escuela, siendo francés y alemán los elegidos sólo en bachillerato. Si se realiza un estudio sobre el idioma se observa este comportamiento, ya que el número de alumnos que se examinan de inglés asciende a 18616, tan sólo 185 se examinan de francés y uno de alemán. Cuando se elige dentro del grupo I la asignatura Matemáticas Ciencias Sociales se suele elegir del grupo II la asignatura Geografía y del grupo III la asignatura de Economía. Este comportamiento se da en 4074 alumnos. Cuando se elige dentro del grupo I la asignatura Matemáticas II y del grupo II Física aparecen 5131 alumnos que realizan esta selección, pero a la hora de elegir otra asignatura del III grupo hay más diversidad ya que 1406 eligen Dibujo Técnico, 363 eligen Electrotecnia, 1397 eligen Química, 360 Ciencias de la Tierra… Cuando se elige Historia del Arte dentro del grupo I todo el mundo elige Dibujo Artístico en el grupo II, y dentro del grupo III con casi la misma probabilidad seleccionan Imagen, Plástica o Diseño, sin resaltar ninguna como opción más prioritaria. Cuando en el grupo I se elige la asignatura de Biología, en el grupo II todos los alumnos eligen la opción de Química y en cuanto a la asignatura que eligen del grupo III, la más seleccionada es Ciencias de la Tierra con 3125 alumnos, seguida de Matemáticas II con 1390 alumnos y Física con 325 alumnos. Hay más opciones elegidas pero el número de alumnos que las escogen no es significativo para el estudio. Calificación de la prueba La calificación de la prueba demuestra un comportamiento que ya se ha observado en otras gráficas como en la nota de Historia con un gran número de valores entorno al 5. A pesar de las diferentes ramas, existen tres asignaturas obligatorias en selectividad, que se evalúan basándose en los mismos conocimientos, éstas son Lengua y Literatura, Historia y el idioma. Figura 4-6. Histograma sobre la calificación de la prueba Los alumnos escogen un determinado tipo de bachillerato generalmente orientado a su futuro en la universidad, esto puede dar lugar a un interés más profundo por determinadas materias, que no tienen por qué ser las obligatorias en el examen. Por ello vamos a estudiar si los resultados de estas asignaturas bajan o suben la calificación final de la prueba. Aspectos relevantes sobre la asignatura Lengua. En los años que se han tomado los datos, sólo la mitad de los alumnos han aprobado con 5 o nota superior este examen, concretamente 9588 de 18803, de los cuales el 91% aprobaron el examen de selectividad. Nota de bachillerato De los 9214 alumnos que suspendieron lenguaje, el 40’4% suspendieron la calificación final. Ver Y (nota_lenguaje) en la siguiente gráfica. Figura 4-7. Histograma sobre la nota de Bachillerato En esta gráfica se puede ver la nota de bachillerato obtenida por los alumnos donde se encuentran ciertos picos en los que hay un mayor índice de notas en ese rango. Rango 5. 65-5. 78 2335 alumnos Rango 6.18-6.31 1762 alumnos Rango 6.57 -6.71 1219 alumnos 5. ANÁLISIS DE LOS RESULTADOS 5.1 Nota Lengua y Nota Historia. Los alumnos de bachillerato pueden elegir cursar estos estudios vinculados a diferentes especialidades, podemos considerar tres grandes grupos que son: Ciencias de la Naturaleza y de la Salud, Tecnológico, y por último Humanidades, Ciencias Sociales y Artístico. Figura 5-1. Gráfica nota de lengua y calificación final Respecto las localidades con mayor número de alumnos presentados, Leganés, Getafe, Fuenlabrada, Pinto y Aranjuez, en todos los casos casi el 50% de sus alumnos suspenden la asignatura obligatoria de Lengua. En proporción, según las probabilidades calculadas, de los 2106 alumnos presentados provenientes de Fuenlabrada, 1141 suspendieron dicho examen, es decir, el 54,17%. Interesante la relación de los resultados de la asignatura según las opciones escogidas por los alumnos, pues los de ciencias puras no son los que menos interés o peores resultados tienen en ella. OPCIÓN N. ALUMNOS SUSPENSOS % OPCIÓN TOTAL ALUMNOS SUSPENSOS % 1 - TECN. 5131 1884 36.71% 1 - TECN. 5131 2036 39 % 2 – C. NAT. 4877 2406 49 % 2 – C. NAT. 4877 2088 42.81% 3 - HUM 2367 1036 43.76% 4 - CCSS 5984 2601 43.46% 5 - ARTISTICO 443 281 63.43% 3 – HUM. 2367 1101 46 % 4 – CCSS 5984 3122 52 % 5 - ARTISTICO 443 279 62 % Al igual que se comentó antes sobre la nota de Historia, la asignatura de Lengua es una de las troncales, su peso es mayor en la nota y por tanto el hecho de aprobarla aumenta las probabilidades de aprobar la prueba final. Aspectos relevantes sobre la asignatura Historia. De los 18803 alumnos presentados en los años de convocatoria estudiados 7890 alumnos suspendieron el examen de historia. De éstos, 3613 suspendieron la prueba de selectividad, concretamente un 45%. Esto indica que el número de aprobados es mayor respecto la nota de Lengua, pero respecto la nota final, el porcentaje genérico de suspensos es más elevado que en Lengua. Una observación más sobre la nota de Historia, tal y cómo se había comentado en el apartado de descripción del modelo, es que las gráficas de este atributo representan un conjunto de valores muy dispersos, gráficas que a simple vista sin un análisis numérico y probabilístico no ofrecen información relevante. Respecto las localidades, teniendo en cuenta las prioritarias anteriormente citadas, los alumnos provenientes de Pinto tienen un porcentaje de suspensos similar al de Lengua, con un 43%. Sin embargo, las poblaciones anteriormente con mayor valor, que también eran las de mayores alumnos presentados, bajan notablemente al 39% respecto el 50% en la nota de Lengua, es decir, suspenden menos Historia. Teniendo en cuenta ahora las opciones a escoger, realizamos una nueva tabla para comparar las ramas y los resultados obtenidos en la materia. De nuevo los valores están relacionados, las opciones más relacionadas con las letras, no son las que mejores resultados obtienen en el examen de Historia. Como detalle final, hemos realizado una comparativa específica para la convocatoria de septiembre. En septiembre se presentan al examen 4703 alumnos. 2958 suspenden el examen de Lengua, y 2612 el de Historia, que suspendan en esta convocatoria ambos exámenes son 1848 alumnos. En junio esto les ocurre a 3143 alumnos. Muy poca diferencia teniendo en cuenta el número de presentados en una convocatoria y otra. 5.2 Opciones escogidas y asignaturas optativas que predominan en ellas. En cada opción, los aprobados son referentes a la prueba final, selectividad. OPC. Asig 1 Asig 2 1 MATE II FÍSICA 2 BIOLOGÍA QUÍMICA 3 LATÍN II 4 MATE.CCSS 5 H. ARTE HIST. FILS GEOGRAF DIBUJO ARTIST Asig 3 D.TECN. / QUIM. C.TIERRA /MAT II % 75 78 H. ARTE 80 ECONOMÍA 71 PLASTICA 76 En la opción 5, el número de alumnos es notablemente menor y las asignaturas elegidas 2 y 3 están muy repartidas. En el resto de las opciones, las diferencias son notables salvo la asignatura número 3 de las opciones 1 y 2. La última columna de la tabla representa el número de alumnos de esa opción que han aprobado en cal_final respecto el número de alumnos total que han escogido dicha opción. Resultan curiosos los resultados según las opciones y asignaturas comunes respecto las troncales Lenguaje e Historia. Los alumnos de la opción 1 son quienes más aprueban Historia y Lenguaje, pero no son los que al final consiguen más aprobados en la prueba final, por lo que podemos decir que sus especialidades les bajan el resultado final. Los alumnos de la opción 3 se mantienen estables tanto en los resultados de Lenguaje como de Historia, y son los que mayor índice de aprobados tienen en selectividad. El caso de las opciones 4 y 5 son muy similares. Ambos grupos tienen el mayor índice de suspensos en Lenguaje e Historia, sin embargo, los resultados en sus especialidades les hace subir la media y el índice de aprobados en la calificación final. Caso contrario respecto los alumnos del Tecnológico. Dada esta importancia de las troncales y en menor grado, las optativas a la hora de la nota final, se puede hacer un nuevo análisis de qué optativas de las más comunes en cada opción se aprueba más. Se puede llegar a la conclusión de que esas asignaturas ayudan a los a alumnos a mantener una calificación que les lleve a un aprobado final, si alguna de las troncales no tiene un resultado satisfactorio. OPCIÓN Asig 1/%Apr Asig 2/%Apr Asig 3/%Apr 1 - TECN. MATE II / 37% FÍSICA / 47% D. TECN / 32% QUIM. / 63% 2 - C. NAT. BIOLOG / 55% QUÍMICA 46% / C. TIERRA 75% / MAT II / 26% 3 - HUM. LATÍN II / 65% H. FILOS. 53,5% / H. ARTE / 47,7% 4 - CCSS MAT. CCSS / 28% GEOGRAF 60% / ECONOMÍA 53% 5 – ARTIST. H. ARTE / 44% D. ARTIST 73% / PLASTICA / 76% / Vamos a mostrar gráficas obtenidas a partir del análisis de estas asignaturas optativas respecto la calificación final. Relación: Calificación Final, Selección Asignatura grupo 1. Opción escogida y En la siguiente tabla se aprecia que los alumnos que escogieron la opción 1 tienen peores resultados en las materias optativas, mientras que los de la opción 5, tienen unos elevados resultados en las optativas, siendo éstos los que peores notas tenían en Lenguaje e Historia, y mejor resultado en la calificación final. Podemos decir que sus optativas les ayudan a subir esta media. Las dos primeras opciones, tiene en el caso de la asignatura 3, dos temáticas muy elegidas en el examen, y significativamente, cada una de estas opciones tiene resultados muy dispares respecto la otra. Podemos decir en el caso de la opción 2, que aquellos que escogieran la asignatura de Matemáticas II se verían afectados negativamente en la calificación de la prueba, al contrario de los que escogieran Ciencias de la Tierra. En la opción 1, también les condiciona mucho la elección de la asignatura del grupo 3. Figura 5-2.Calificación final & Grupo I En esta gráfica se aprecia el volumen de alumnos que escogieron dicha asignatura, que concretamente predominan las anteriormente comentadas. Relación: Calificación Final, Opción escogida y Nota Asignatura grupo 1. Relación: Calificación Final, Opción escogida y Nota Asignatura grupo 2. Ahora vemos cómo han sido los resultados de dichas optativas en cada opción. Resulta que en esta situación los resultados son muy similares, es decir, en ninguno de los casos hay un tono muy predominante en las escalas de las notas. Figura 5-3. Calificación final y nota asignatura En esta gráfica apreciamos que en la opción 4 los resultados de esta asignatura son más bajos, por ejemplo, respecto la asignatura del grupo 3, ya que el tono azul predomina más que el anaranjado. En el caso de la opción 1 también predominan los resultados negativos en esta asignatura. Podemos decir que las opciones 2 y 3 en este caso son las más positivas. Relación: Calificación Final, Selección Asignatura grupo 2. Opción escogida y Podemos ver a continuación la gráfica con las asignaturas más seleccionadas del grupo 2 en cada una de las opciones, de nuevo, tal y como se presentó en la tabla las inclinaciones por ellas son notables en la mayorías de los alumnos de cada opción. Figura 5-5. Calificación final y nota asignatura grupo II Relación: Calificación Final, Selección Asignatura grupo 3. Opción escogida y La asignatura 3 es la más variada en las opciones, además este atributo tiene más valores a elegir que los demás. La elección principal de alguna de ellas, en la opción 1, es muy dispersa, un poco también y la opción 2, aunque en esta calidad de imagen no se aprecia demasiado. Aún así las predominantes se corresponden con las listadas en la tabla superior. Figura 5-4. Calificación final y asignatura grupo II sea menor, en proporción el color azul es muy pequeño. En el caso de la opción 1, vemos un fuerte color azulado concentrado cerca de la calificación final del 4’86. Podemos decir que muchos de los que suspendieron esta asignatura tuvieron una calificación final cercana al aprobado. 5.3 Relaciones del idioma Figura 5-6. Calificación final y asignatura grupo III El idioma se encuentra relacionado con la población ya que hay idiomas que se estudian más en determinadas poblaciones, como puede ser el francés que en la población que más se estudia es en Pinto. Realizando una selección de atributos para encontrar relaciones con el idioma, podemos decir que la nota del idioma está ligada a la opción que el alumno ha escogido, así como cada idioma seleccionado tiene una importancia notable en la calificación de la prueba final. Algunos de estos atributos son lógicos que estén relacionados como puede ser la elección del idioma con la calificación de la prueba. Relación: Calificación Final, Opción escogida y Nota Asignatura grupo 3. Figura 5-7. Calificación final y nota asignatura grupo III En este caso, las calificaciones, ante la variedad de elecciones en la asignatura 3, son muy parecidas por las tonalidades que vemos. Creemos que la opción 5 es la que mejores resultados tiene, aunque el volumen de muestras Idioma Aprobados Total % Inglés 8916 18616 47% Francés 133 185 71% Alemán 1 1 100% Para los datos que se han propuesto según la elección del idioma, se puede observar que, los alumnos que eligen francés aprueban más el examen de idioma que los que eligen inglés. Además, los alumnos que eligen alemán aprueban todos, aunque esto no es del todo orientativo porque sólo hay una muestra sobre alumnos que se presentan a alemán y aprueban. Un aspecto curioso respecto el idioma, relacionado con la convocatoria es que, de los que no se presentaron en junio todos habían elegido Ingles. No hay absolutamente nadie que tuviera la opción de francés. En septiembre en esta misma situación sólo había 2 personas que eligieron francés. Esto refuerza aún más la conclusión anterior donde aquellos que han seleccionado la lengua francesa han tenido más éxito en las pruebas. 5.4 Sobre los presentados Primeramente decir que hay un total de 155 alumnos que no se han presentado a la prueba entre las convocatorias de junio y septiembre. Más detalladamente si se observan estos datos, se puede ver que 85 de estos alumnos pertenecen a la convocatoria de junio y equitativamente 70 pertenecen a la convocatoria de septiembre. Lo curioso de estas cifras es sin duda el valor tan similar de no presentados en ambas convocatorias cuando el valor de presentados entre estas convocatorias es tan diferente como 14014 en junio y 4633 en septiembre. Inicialmente se espera una equiprobabilidad entre presentados y No presentados según el número de alumnos de junio y septiembre, como podemos ver el comportamiento es totalmente a atípico. alumnos existentes en cada convocatoria difiere de miles de alumnos. El número de suspensos es muy similar a pesar de la diferencia de alumnos presentados, esto puede llevar a pensar que los alumnos se preparan de manera menos intensa después del verano, influyendo que las materias están más lejanas. Además, los que se presentan en septiembre han tenido que examinarse de las suspensas en junio y se han centrado seguramente más en estas asignaturas suspensas que en el conjunto de la prueba. Veamos a continuación la gráfica que la aplicación de análisis Weka nos propone en esta situación: No hacemos esta imagen más pequeña para poder apreciar qué alumnos escogieron francés (rojo) en cada una de las localidades. X (localidades) Y (nota idioma) Figura 5-9. Calificación de la prueba 6. CONCLUSIONES El estudio de la minería de datos ha de ser muy exhaustivo ya que desde diferentes puntos de partida podemos llegar a las mismas conclusiones, siendo lo bonito continuar con el análisis para ver qué aspectos han sido los más interesantes y de dónde los hemos sacado. Figura 5-8. Relación localidad & nota del idioma 5.5 Calificación de la prueba El número de presentados en septiembre es de 4703 y el número de suspensos en septiembre es de 2062. En junio el número de presentados es de 14099 mientras que el número de suspensos es de 2513. Vemos que tenemos un caso muy similar al de los No presentados en junio y septiembre, el comportamiento es muy relevante teniendo en cuenta que el número de Quizá a veces datos que aparentemente son muy significativos a la vista y comprensión inicial, aportan una cantidad mínima de información ante otros datos que no captan nuestra atención. Esto por ejemplo nos ha ocurrido en el análisis de las asignaturas optativas, ya que inicialmente no pensábamos que aportaran tanta información a la hora de obtener conclusiones sobre cuanto incrementa o decrementa la nota del alumno en la calificación final. Tener en cuenta que a primera vista se valoran muchos las asignaturas obligatorias y en muchos casos los alumnos se salvan por las optativas. En varios aspectos se han encontrado datos donde se indica que, poblaciones con menor número de presentados tiene un porcentaje de aprobados mayor que otras poblaciones con índice de presentados muy elevado. Las personas que aprueba el examen de Historia tienen más probabilidades de superar la prueba de selectividad. Esto es debido a que la nota de Historia es una de las notas troncales y su influencia en la nota final es superior a otras. Respecto los alumnos que escogen la opción 5, se puede decir que sus optativas les ayudan a subir esta media. Sin embargo, los alumnos que escogen la opción uno, tienen buenos resultados en las asignaturas obligatorias siendo las de especialidad, las que les bajan la nota final de la prueba, sin que predominen entre uno de los grupos con mejores resultados en selectividad. Los alumnos que han escogido como opción de idioma francés, tienen mayor índice de aprobados en su examen tanto en la convocatoria de septiembre como de junio. Por último, recordar que, a pesar de la diferencia entre el número de presentados en junio y septiembre, el índice de suspensos en septiembre es casi idéntico al de junio. 7. OTRAS INVESTIGACIONES POSIBLES A DESARROLLAR El número de alumnos que se presentan al examen de selectividad en cada población es muy diferente. No sabemos si esto ocurre por el número de alumnos que hay en esa población o por el nivel de educación existente en sus centros. Por ello, sería interesante tener otros datos de la población, como el número de alumnos que en ese año cursaron 2º de Bachillerato, para saber cuántos de los no presentados suspendieron dicho curso. El objetivo de hacer este análisis sería intentar equiparar el nivel educacional en todas las poblaciones. Se cree interesante hacer un estudio más exhaustivo de los alumnos con las medias de bachiller. Recodemos que hicimos 2 grupos, unos con las notas más comunes, entre 5 y 8, y otro con los alumnos de media superior al 8. Se podría buscar si el motivo por el cual suspenden el examen de selectividad, es el mismo, es decir, o por deficientes resultados en las asignaturas troncales, y cuáles de ellas, o si el motivo del suspenso se debe a las materias de especialidad.