Minería de datos sobre selectividad

Transcription

Minería de datos sobre selectividad
Minería de datos sobre selectividad
Vanesa Tejada Muñoz Alicia Moreno Miguel
Departamento de Ingeniería Telemática
Universidad Carlos III de Madrid
Madrid, España
{vanesa.tejada, alicia.mmiguel}@uc3m.es
ABSTRACT
En este paper se hace un análisis sobre los alumnos que han
realizado la selectividad entre los años 1993 y 2002 en
función de unos atributos que componen el análisis, como
pueden ser la localidad del alumno, la convocatoria en la
que se presenta, la nota de bachiller obtenida, las
asignaturas que se eligen como optativas…
1. INTRODUCCIÓN
El proyecto a desarrollar está basado en la Minería de
Datos. Primeramente vamos a definir qué es y lo que aporta
al conocimiento del ser humano.
La Minería de Datos comprende un conjunto de técnicas,
algoritmos y métodos que permiten a partir de un conjunto
de información alcanzar razonamientos y proposiciones de
ámbito general, partiendo de algo particular.
Este conjunto masivo de información de la que se parte, se
denomina también Conocimiento Oculto, es aquel
desconocido a priori, pero que tras su estudio y análisis es
potencialmente útil. La información resultante tras trabajar
con la Minería de Datos es aplicable a la toma de
decisiones, formando parte del conjunto de tecnologías de
la Inteligencia de Negocio. Muchas grandes empresas e
instituciones han creado y alimentan bases de datos
especialmente diseñadas para proyectos de minería de
datos, en las que centralizan información potencialmente
útil de todas sus áreas de negocio, estrategias de marketing,
etc.
Desde los años 60's ya se hablaba de data fishing o data
archeology con la idea de encontrar correlaciones en las
bases de datos. En los años 80 empezaron a consolidar el
tema de Data Mining y Knowledge Discovery.
Los proyectos de Minería de Datos deben completar las
siguientes fases:
1. Determinación de los objetivos. Trata de la delimitación
de los objetivos que el cliente desea.
2. Preprocesamiento de los datos. Se refiere a la selección,
la limpieza, el enriquecimiento, la reducción y la
transformación de las bases de datos. Es la etapa que
consume más de la mitad del tiempo del proyecto.
3. Determinación del modelo. Se comienza realizando unos
análisis estadísticos de los datos, y después se lleva a cabo
una visualización gráfica de los mismos para tener una
primera aproximación. Según los objetivos planteados y la
tarea que debe llevarse a cabo, pueden utilizarse algoritmos
desarrollados en diferentes áreas de la Inteligencia
Artificial.
4. Análisis de los resultados. Verifica si los resultados
obtenidos son coherentes y los coteja con los obtenidos por
los análisis estadísticos y de visualización gráfica. El cliente
determina si son novedosos y si le aportan un nuevo
conocimiento que le permita considerar sus decisiones.
2. DETERMINACIÓN DE LOS
OBJETIVOS
El fin de este proyecto es el análisis de un conjunto exacto
de 18803 muestras correspondientes a los resultados de
alumnos en el examen de selectividad. El estudio va a
resaltar diversos puntos considerados de interés, para los
cuales se listan primeramente los atributos de los que se
dispone:
-
Año académico real
-
Convocatoria {JUNIO, SEPTIEMBRE}
-
Localidad
{ALPEDRETE,
ARANJUEZ,
C,
CERCEDILLA, CIEMPOZUELOS, COLLADO _
VILLALBA, EL _ ESCORIAL, FUENLABRADA,
GALAPAGAR,
GETAFE,
GRIÑÓN,
GUADARRAMA,
LEGANÉS,
LOS
_
PEÑASCALES, MORALZARZAL, PARLA, PINTO,
SAN_LORENZO_DEL_ESCORIAL, TORREJÓN,
TORREJÓN
DE
LA
CALZADA,
TORRELODONES,
VALDEMORO,
VILLANUEVA_DE_LA_CAÑADA, XX}
Opcion1ª {1,2,3, 4,5}
- Nota _ lengua real
- Nota _ historia real
- Nota _ idioma real
-
-
-
Descripcion_Idioma
{INGLES,
FRANCES,
ALEMÁN}
Descripcion_asig1
{BIOLOGÍA,
DIB.ARTISTICO_II,
H.ARTE,
LATÍN_II,
MATEM.CCSS, MATEM.II, QUÍMICA}
Calificacion_asig1 real
Descripcion _asig2 {BIOLOGÍA, C.TIERRA,
DIB.ARTISTICO_II, ECONOMÍA, FÍSICA,
GEOGRAFÍA, H.ARTE, H. FILOSOFÍA,
LATÍN_II, MATEM.CCSS, QUÍMICA}
Calificacion_asig2 real
Descripcion_asig3 {BIOLOGÍA, C.TIERRA,
DIB.ARTISTICO_II,
DIB.TECNICO,
ECONOMÍA, ELECTROTECNIA, F.DISEÑO,
FÍSICA,
GEOGRAFÍA,
H.ARTE,
H.
FILOSOFÍA,
IMAGEN,
LATÍN_II,
MATEM.CCSS,
MATEM.II,
MECANICA,
PLASTICA, QUÍMICA, TEC.INDUSTRIAL_II}
Calificacion_asig3 real
Calificacion_prueba real
Nota_bachi real
Calificacion_final real
Presentado {SI, NO}
Por último, se relacionan estos estudios individuales
con las poblaciones y opciones del tipo de examen.
Atributos que inicialmente se consideran menos
significativos en los resultados académicos de los
alumnos.
3. DETERMINACIÓN DE LOS
OBJETIVOS
3.1 Procesado del atributo presentado
Se quiere analizar el número de alumnos que se han
presentado a la prueba y el número de alumnos que no lo
han hecho. Si se realiza una selección de atributos se puede
comprobar que conociendo la calificación de la prueba y la
calificación final sólo con estos atributos se puede saber si
se ha presentado o no un alumno. El comportamiento queda
plasmado en el siguiente árbol.
A partir de esta información se realizan estudios sobre los
siguientes puntos que son considerados interesantes:
La diferencia entre los alumnos que se presentan en
cada convocatoria respecto al número de aprobados y
suspensos.
Qué idioma es el más solicitado por los alumnos y si
realmente es el que se supera con mayor facilidad.
Si la media obtenida por los alumnos a lo largo de
bachillerato se mantiene con la nota de selectividad, si
es más beneficiosa para ellos o si por el contrario,
generalmente les perjudica en su resultado final de
cara a la universidad.
Análisis de las notas de Lengua e Historia, son dos de
las asignaturas obligatorias en el examen de
selectividad y tienen mucha importancia. Se puede ver
como afectan estas asignaturas en los resultados de los
alumnos de las diferentes opciones.
El número de aprobados en las asignaturas optativas
de cada opción. Indica, junto con el estudio anterior
de las asignaturas obligatorias, si dichas materias
ayudan a subir o no la media del alumno en la prueba
final.
Selección de los atributos más importantes para la
obtención más detallada de información como: Nota
Historia, Selección de Idioma, Calificación de la
prueba, Nota de bachillerato, Calificación final.
Figura 3-1. Árbol J-48 – Presentado
En conclusión, si la calificación en la prueba ha sido de 0,
es que no se ha presentado y que si ha sido mayor de 0 es
que se ha presentado.
3.2 Procesado en función de la localidad
Hay ciertas localidades cuyo numero de alumnos
presentados es mayor que en otras, este estudio nos permite
conocer si ante estas diferencias, el número de aprobados es
mayor en aquellas localidades con menos presentados,
respecto las predominantes. Para ello se realiza un estudio
probabilístico en dos localidades que tengan características
extremas como pueden ser: Leganés y Griñón.
En Griñón el número de aprobados es de 122 de los 126
que se han presentado por lo tanto un 97% de los que se
presentan aprueban. En Leganés aprueban 3666 de los 4926
alumnos presentados, un 74% de éstos han superado la
prueba. La diferencia es bastante significativa, se puede
concluir en este punto que las poblaciones cuyo número de
alumnos presentados es menor, tienen un porcentaje más
alto de aprobados.
3.3
Procesado de la nota de Historia
Se ha realizado un estudio para ver cuales son los atributos
que se encuentran relacionados con la nota de Historia y se
ha comprobado que son la localidad junto con la
calificación de la prueba. Esto parece no tener ningún tipo
de relación, pero ahora veremos que estudiándolo más a
fondo podemos obtener resultados interesantes.
Se puede ver que hay 9950 personas que aprobaron el
examen de selectividad y que tienen aprobada Historia. Por
el contrario, tan solo 962 personas aprobaron Historia y
suspendieron Selectividad. En conclusión las personas que
aprueba el examen de Historia tienen más probabilidades de
superar la prueba de selectividad. Esto es debido a que la
nota de Historia es una de las notas troncales y su influencia
en la nota es superior a otras.
Figura 3-2. Árbol RepTree – Idioma
A través de esta gráfica resultante del árbol de clasificación
RepTree con los atributos anteriormente citados, se puede
llegar a la conclusión de que los alumnos que eligen la
opción 3 y seleccionan como idioma francés, obtienen los
resultados más satisfactorios.
3.5
Procesado Nota de bachiller junto con
Calificación en la prueba
Tomamos las notas de bachiller del grupo más prioritario,
del 5 al 8. Por el contrario, obtenemos las notas del grupo
menos prioritario, a partir del 8 y vemos como se han
enfrentado a la prueba estos 2 tipos de alumnos, es decir,
los más destacados de su clase y los casos más comunes.
Análisis caso 1: Los alumnos que poseen una nota entre el
5 y el 8 y que han suspendido selectividad son 4554, de los
cuales se procede a analizar sus aspectos:
1273 proceden de la opción 1
1052 proceden de la opción 2
453 proceden de la opción 3
3.4 Procesado del idioma
La selección de atributos más relevante para obtener
información óptima del idioma son: tipo de idioma, nota del
idioma y la opción elegida.
1674 proceden de la opción 4
102 proceden de la opción 5
A continuación se puede ver que combinación de optativas
da lugar a este grupo de alumnos suspensos con las
características anteriormente seleccionadas.
Para la opción 1, sólo 276 alumnos aprobaron el examen de
Lengua. En el mismo grupo, son 343 alumnos los que
aprueban la asignatura de Historia, y por último, 323
alumnos aprueban el examen del idioma escogido. Tras
haber analizado los resultados de las tres asignaturas
obligatorias, se puede decir que los bajos resultados en
estas materias afectan negativamente a la calificación total.
Análisis caso 2: Alumnos que han sacado una nota superior
al 8 en bachillerato y han suspendido la prueba final.
Analizando los datos se puede ver que casi todos los que
han suspendido pertenecen a la opción1, además muchos de
ellos tienen la asignatura de Historia suspensa en la prueba
y sus notas en Lengua no sobrepasan el 5.
El estudio está basado en localidades de las afueras de
Madrid. A continuación se presenta la gráfica de valores
de este atributo:
Entre estos alumnos también cabe destacar que la gran
mayoría han escogido como idioma inglés y que sólo un
25% lo ha aprobado.
Si tenemos en cuenta todos estos factores, se puede
observar que un alto porcentaje de la nota de selectividad lo
componen
las
notas
de
las
comunes
Historia+Idioma+Lengua, que casualmente son las
asignaturas que en estos casos más están suspendiendo.
4. DETERMINACIÓN DEL MODELO
En el primer punto, donde detallamos los objetivos de este
estudio, listamos los atributos que poseen nuestros datos. A
continuación, vamos a realizar una breve descripción de
cada uno de ellos, junto con las gráficas más representativas
proporcionadas por la aplicación de análisis Weka.
Convocatoria
El examen de selectividad se puede realizar en dos
convocatorias: junio y septiembre. En el estudio propuesto
el número de alumnos presentados en junio asciende a
14099 y el número de alumnos presentados en septiembre
asciende a 4703. Esta información indica, lógicamente, que
el número de alumnos que realizan la prueba en junio es
muy superior al número de alumnos que la realizan en
septiembre.
Entre los 4703 alumnos se puede pensar que de ellos, 2514
son alumnos que están repitiendo la selectividad ya que
2514 sería el número de alumnos que suspenden en junio y
por tanto repetirán el examen en septiembre.
Figura 4-2. Histograma sobre la
localidad
En esta gráfica se muestran las localidades donde se han
tomado datos sobre los alumnos presentados a selectividad.
En ella se observa como hay dos localidades en las que hay
un mayor número de alumnos que se presentan a
selectividad, son Leganés y Getafe. La primera, presenta un
mayor índice de presentados. En algunas de las localidades
como Torrejón no figura ningún presentado.
Nota de Lengua
Este atributo es uno de los más importantes a analizar, pues
representa una de las asignaturas obligatorias para cualquier
opción escogida. Este atributo presenta un comportamiento
muy atípico con respecto al resto atributos ya que en su
representación gráfica se ve que hay valores en los cuales el
número de muestras es mayor que en otros. Esto quiere
decir que hay ciertas notas que son muy comunes en
Lengua, de manera que la estructura del examen hace que
sea más fácil sacar entre un cierto rango de notas.
Figura 4-3. Histograma sobre la
Figura 4-1. Histograma sobre la convocatoria
Localidad
nota de Lengua
El mayor pico de todos que presenta la gráfica se encuentra
entre el 4.88 y el 5.11. Éste sería el rango en el que se
encuentran la mayoría de las notas de los alumnos.
Alrededor del 8, 6,4 y 2 son las notas en las que aparece un
menor número de alumnos. Esto puede ser porque son notas
con numeración decimal, en vez de estar redondeadas y por
ello la calificación es muy ajustada. Posteriormente, en
análisis más detallados veremos gráficas con zonas muy
determinadas por estos valores característicos.
Figura 4-5. Histograma sobre la elección del
idioma
Nota de Historia
Atributos relacionados con optativas
En este caso se va a realizar un estudio sobre las optativas
más elegidas por los alumnos en cada opción.
Generalmente las asignaturas de cada grupo están
relacionadas, entre ellas y con la especialidad u opción del
alumno.
Figura 4-4. Histograma sobre la nota de Historia
La nota de historia presenta un comportamiento más
uniforme que la nota de Lengua. De la misma manera, es
uno de los atributos más importantes a estudiar por la
importancia que tiene en el examen.
Se puede ver que hay un caso típico entre el que se
encuentran la mayoría de los resultados, entre el 4.72 y el 5,
aunque en todos los rangos hay un porcentaje de notas
significativo.
En análisis posteriores se puede apreciar una dispersión de
muestras muy significativa, que al contrario que la nota de
lengua, no muestra zonas concretas donde predomine un
valor de resultado.
Atributos sobre el idioma
Las tres opciones de idioma son: inglés, francés o alemán.
Prioritariamente los alumnos se examinan de inglés porque
es el idioma más conocido desde su inicio en la escuela,
siendo francés y alemán los elegidos sólo en bachillerato.
Si se realiza un estudio sobre el idioma se observa este
comportamiento, ya que el número de alumnos que se
examinan de inglés asciende a 18616, tan sólo 185 se
examinan de francés y uno de alemán.
Cuando se elige dentro del grupo I la asignatura
Matemáticas Ciencias Sociales se suele elegir del grupo II
la asignatura Geografía y del grupo III la asignatura de
Economía. Este comportamiento se da en 4074 alumnos.
Cuando se elige dentro del grupo I la asignatura
Matemáticas II y del grupo II Física aparecen 5131 alumnos
que realizan esta selección, pero a la hora de elegir otra
asignatura del III grupo hay más diversidad ya que 1406
eligen Dibujo Técnico, 363 eligen Electrotecnia, 1397
eligen Química, 360 Ciencias de la Tierra…
Cuando se elige Historia del Arte dentro del grupo I todo el
mundo elige Dibujo Artístico en el grupo II, y dentro del
grupo III con casi la misma probabilidad seleccionan
Imagen, Plástica o Diseño, sin resaltar ninguna como
opción más prioritaria.
Cuando en el grupo I se elige la asignatura de Biología, en
el grupo II todos los alumnos eligen la opción de Química y
en cuanto a la asignatura que eligen del grupo III, la más
seleccionada es Ciencias de la Tierra con 3125 alumnos,
seguida de Matemáticas II con 1390 alumnos y Física con
325 alumnos. Hay más opciones elegidas pero el número de
alumnos que las escogen no es significativo para el estudio.
Calificación de la prueba
La calificación de la prueba demuestra un comportamiento
que ya se ha observado en otras gráficas como en la nota de
Historia con un gran número de valores entorno al 5.
A pesar de las diferentes ramas, existen tres asignaturas
obligatorias en selectividad, que se evalúan basándose en
los mismos conocimientos, éstas son Lengua y Literatura,
Historia y el idioma.
Figura 4-6. Histograma sobre la calificación de la
prueba
Los alumnos escogen un determinado tipo de bachillerato
generalmente orientado a su futuro en la universidad, esto
puede dar lugar a un interés más profundo por determinadas
materias, que no tienen por qué ser las obligatorias en el
examen. Por ello vamos a estudiar si los resultados de estas
asignaturas bajan o suben la calificación final de la prueba.
Aspectos relevantes sobre la asignatura Lengua.
En los años que se han tomado los datos, sólo la mitad de
los alumnos han aprobado con 5 o nota superior este
examen, concretamente 9588 de 18803, de los cuales el
91% aprobaron el examen de selectividad.
Nota de bachillerato
De los 9214 alumnos que suspendieron lenguaje, el 40’4%
suspendieron la calificación final. Ver Y (nota_lenguaje) en
la siguiente gráfica.
Figura 4-7. Histograma sobre la nota
de Bachillerato
En esta gráfica se puede ver la nota de bachillerato obtenida
por los alumnos donde se encuentran ciertos picos en los
que hay un mayor índice de notas en ese rango.
Rango 5. 65-5. 78
2335 alumnos
Rango 6.18-6.31
1762 alumnos
Rango 6.57 -6.71
1219 alumnos
5. ANÁLISIS DE LOS RESULTADOS
5.1 Nota Lengua y Nota Historia.
Los alumnos de bachillerato pueden elegir cursar estos
estudios vinculados a diferentes especialidades, podemos
considerar tres grandes grupos que son: Ciencias de la
Naturaleza y de la Salud, Tecnológico, y por último
Humanidades, Ciencias Sociales y Artístico.
Figura 5-1. Gráfica nota de lengua y
calificación final
Respecto las localidades con mayor número de alumnos
presentados, Leganés, Getafe, Fuenlabrada, Pinto y
Aranjuez, en todos los casos casi el 50% de sus alumnos
suspenden la asignatura obligatoria de Lengua. En
proporción, según las probabilidades calculadas, de los
2106 alumnos presentados provenientes de Fuenlabrada,
1141 suspendieron dicho examen, es decir, el 54,17%.
Interesante la relación de los resultados de la asignatura
según las opciones escogidas por los alumnos, pues los de
ciencias puras no son los que menos interés o peores
resultados tienen en ella.
OPCIÓN
N. ALUMNOS
SUSPENSOS
%
OPCIÓN
TOTAL
ALUMNOS
SUSPENSOS
%
1 - TECN.
5131
1884
36.71%
1 - TECN.
5131
2036
39
%
2 – C. NAT.
4877
2406
49
%
2 – C. NAT.
4877
2088
42.81%
3 - HUM
2367
1036
43.76%
4 - CCSS
5984
2601
43.46%
5 - ARTISTICO
443
281
63.43%
3 – HUM.
2367
1101
46
%
4 – CCSS
5984
3122
52
%
5 - ARTISTICO
443
279
62
%
Al igual que se comentó antes sobre la nota de Historia, la
asignatura de Lengua es una de las troncales, su peso es
mayor en la nota y por tanto el hecho de aprobarla aumenta
las probabilidades de aprobar la prueba final.
Aspectos relevantes sobre la asignatura Historia.
De los 18803 alumnos presentados en los años de
convocatoria estudiados 7890 alumnos suspendieron el
examen de historia. De éstos, 3613 suspendieron la prueba
de selectividad, concretamente un 45%. Esto indica que el
número de aprobados es mayor respecto la nota de Lengua,
pero respecto la nota final, el porcentaje genérico de
suspensos es más elevado que en Lengua.
Una observación más sobre la nota de Historia, tal y cómo
se había comentado en el apartado de descripción del
modelo, es que las gráficas de este atributo representan un
conjunto de valores muy dispersos, gráficas que a simple
vista sin un análisis numérico y probabilístico no ofrecen
información relevante.
Respecto las localidades, teniendo en cuenta las prioritarias
anteriormente citadas, los alumnos provenientes de Pinto
tienen un porcentaje de suspensos similar al de Lengua, con
un 43%. Sin embargo, las poblaciones anteriormente con
mayor valor, que también eran las de mayores alumnos
presentados, bajan notablemente al 39% respecto el 50% en
la nota de Lengua, es decir, suspenden menos Historia.
Teniendo en cuenta ahora las opciones a escoger,
realizamos una nueva tabla para comparar las ramas y los
resultados obtenidos en la materia.
De nuevo los valores están relacionados, las opciones más
relacionadas con las letras, no son las que mejores
resultados obtienen en el examen de Historia.
Como detalle final, hemos realizado una comparativa
específica para la convocatoria de septiembre.
En septiembre se presentan al examen 4703 alumnos. 2958
suspenden el examen de Lengua, y 2612 el de Historia, que
suspendan en esta convocatoria ambos exámenes son 1848
alumnos. En junio esto les ocurre a 3143 alumnos. Muy
poca diferencia teniendo en cuenta el número de
presentados en una convocatoria y otra.
5.2 Opciones escogidas y asignaturas
optativas que predominan en ellas.
En cada opción, los aprobados son referentes a la prueba
final, selectividad.
OPC.
Asig 1
Asig 2
1
MATE II
FÍSICA
2
BIOLOGÍA
QUÍMICA
3
LATÍN II
4
MATE.CCSS
5
H. ARTE
HIST.
FILS
GEOGRAF
DIBUJO
ARTIST
Asig 3
D.TECN.
/ QUIM.
C.TIERRA
/MAT II
%
75
78
H. ARTE
80
ECONOMÍA
71
PLASTICA
76
En la opción 5, el número de alumnos es notablemente
menor y las asignaturas elegidas 2 y 3 están muy repartidas.
En el resto de las opciones, las diferencias son notables
salvo la asignatura número 3 de las opciones 1 y 2.
La última columna de la tabla representa el número de
alumnos de esa opción que han aprobado en cal_final
respecto el número de alumnos total que han escogido dicha
opción.
Resultan curiosos los resultados según las opciones y
asignaturas comunes respecto las troncales Lenguaje e
Historia. Los alumnos de la opción 1 son quienes más
aprueban Historia y Lenguaje, pero no son los que al final
consiguen más aprobados en la prueba final, por lo que
podemos decir que sus especialidades les bajan el resultado
final.
Los alumnos de la opción 3 se mantienen estables tanto en
los resultados de Lenguaje como de Historia, y son los que
mayor índice de aprobados tienen en selectividad.
El caso de las opciones 4 y 5 son muy similares. Ambos
grupos tienen el mayor índice de suspensos en Lenguaje e
Historia, sin embargo, los resultados en sus especialidades
les hace subir la media y el índice de aprobados en la
calificación final. Caso contrario respecto los alumnos del
Tecnológico.
Dada esta importancia de las troncales y en menor grado,
las optativas a la hora de la nota final, se puede hacer un
nuevo análisis de qué optativas de las más comunes en cada
opción se aprueba más. Se puede llegar a la conclusión de
que esas asignaturas ayudan a los a alumnos a mantener una
calificación que les lleve a un aprobado final, si alguna de
las troncales no tiene un resultado satisfactorio.
OPCIÓN
Asig 1/%Apr
Asig 2/%Apr
Asig 3/%Apr
1 - TECN.
MATE II / 37%
FÍSICA / 47%
D. TECN / 32%
QUIM. / 63%
2 - C. NAT.
BIOLOG / 55%
QUÍMICA
46%
/
C. TIERRA
75%
/
MAT II / 26%
3 - HUM.
LATÍN II / 65%
H. FILOS.
53,5%
/
H. ARTE / 47,7%
4 - CCSS
MAT. CCSS /
28%
GEOGRAF
60%
/
ECONOMÍA
53%
5
–
ARTIST.
H. ARTE / 44%
D. ARTIST
73%
/
PLASTICA / 76%
/
Vamos a mostrar gráficas obtenidas a partir del análisis de
estas asignaturas optativas respecto la calificación final.
Relación: Calificación Final,
Selección Asignatura grupo 1.
Opción
escogida
y
En la siguiente tabla se aprecia que los alumnos que
escogieron la opción 1 tienen peores resultados en las
materias optativas, mientras que los de la opción 5, tienen
unos elevados resultados en las optativas, siendo éstos los
que peores notas tenían en Lenguaje e Historia, y mejor
resultado en la calificación final. Podemos decir que sus
optativas les ayudan a subir esta media.
Las dos primeras opciones, tiene en el caso de la asignatura
3, dos temáticas muy elegidas en el examen, y
significativamente, cada una de estas opciones tiene
resultados muy dispares respecto la otra. Podemos decir en
el caso de la opción 2, que aquellos que escogieran la
asignatura de Matemáticas II se verían afectados
negativamente en la calificación de la prueba, al contrario
de los que escogieran Ciencias de la Tierra. En la opción 1,
también les condiciona mucho la elección de la asignatura
del grupo 3.
Figura 5-2.Calificación final & Grupo I
En esta gráfica se aprecia el volumen de alumnos que
escogieron dicha asignatura, que concretamente
predominan las anteriormente comentadas.
Relación: Calificación Final, Opción escogida y Nota
Asignatura grupo 1.
Relación: Calificación Final, Opción escogida y Nota
Asignatura grupo 2.
Ahora vemos cómo han sido los resultados de dichas
optativas en cada opción. Resulta que en esta situación los
resultados son muy similares, es decir, en ninguno de los
casos hay un tono muy predominante en las escalas de las
notas.
Figura 5-3. Calificación final y nota asignatura
En esta gráfica apreciamos que en la opción 4 los resultados
de esta asignatura son más bajos, por ejemplo, respecto la
asignatura del grupo 3, ya que el tono azul predomina más
que el anaranjado. En el caso de la opción 1 también
predominan los resultados negativos en esta asignatura.
Podemos decir que las opciones 2 y 3 en este caso son las
más positivas.
Relación: Calificación Final,
Selección Asignatura grupo 2.
Opción
escogida
y
Podemos ver a continuación la gráfica con las asignaturas
más seleccionadas del grupo 2 en cada una de las opciones,
de nuevo, tal y como se presentó en la tabla las
inclinaciones por ellas son notables en la mayorías de los
alumnos de cada opción.
Figura 5-5. Calificación final y nota asignatura grupo II
Relación: Calificación Final,
Selección Asignatura grupo 3.
Opción
escogida
y
La asignatura 3 es la más variada en las opciones, además
este atributo tiene más valores a elegir que los demás. La
elección principal de alguna de ellas, en la opción 1, es muy
dispersa, un poco también y la opción 2, aunque en esta
calidad de imagen no se aprecia demasiado. Aún así las
predominantes se corresponden con las listadas en la tabla
superior.
Figura 5-4. Calificación final y asignatura
grupo II
sea menor, en proporción el color azul es muy pequeño. En
el caso de la opción 1, vemos un fuerte color azulado
concentrado cerca de la calificación final del 4’86.
Podemos decir que muchos de los que suspendieron esta
asignatura tuvieron una calificación final cercana al
aprobado.
5.3 Relaciones del idioma
Figura 5-6. Calificación final y asignatura grupo III
El idioma se encuentra relacionado con la población ya que
hay idiomas que se estudian más en determinadas
poblaciones, como puede ser el francés que en la población
que más se estudia es en Pinto.
Realizando una selección de atributos para encontrar
relaciones con el idioma, podemos decir que la nota del
idioma está ligada a la opción que el alumno ha escogido,
así como cada idioma seleccionado tiene una importancia
notable en la calificación de la prueba final.
Algunos de estos atributos son lógicos que estén
relacionados como puede ser la elección del idioma con la
calificación de la prueba.
Relación: Calificación Final, Opción escogida y Nota
Asignatura grupo 3.
Figura 5-7. Calificación final y nota asignatura grupo
III
En este caso, las calificaciones, ante la variedad de
elecciones en la asignatura 3, son muy parecidas por las
tonalidades que vemos. Creemos que la opción 5 es la que
mejores resultados tiene, aunque el volumen de muestras
Idioma
Aprobados
Total
%
Inglés
8916
18616
47%
Francés
133
185
71%
Alemán
1
1
100%
Para los datos que se han propuesto según la elección del
idioma, se puede observar que, los alumnos que eligen
francés aprueban más el examen de idioma que los que
eligen inglés. Además, los alumnos que eligen alemán
aprueban todos, aunque esto no es del todo orientativo
porque sólo hay una muestra sobre alumnos que se
presentan a alemán y aprueban.
Un aspecto curioso respecto el idioma, relacionado con la
convocatoria es que, de los que no se presentaron en junio
todos habían elegido Ingles. No hay absolutamente nadie
que tuviera la opción de francés. En septiembre en esta
misma situación sólo había 2 personas que eligieron
francés. Esto refuerza aún más la conclusión anterior donde
aquellos que han seleccionado la lengua francesa han tenido
más éxito en las pruebas.
5.4 Sobre los presentados
Primeramente decir que hay un total de 155 alumnos que no
se han presentado a la prueba entre las convocatorias de
junio y septiembre. Más detalladamente si se observan estos
datos, se puede ver que 85 de estos alumnos pertenecen a la
convocatoria de junio y equitativamente 70 pertenecen a la
convocatoria de septiembre. Lo curioso de estas cifras es
sin duda el valor tan similar de no presentados en ambas
convocatorias cuando el valor de presentados entre estas
convocatorias es tan diferente como 14014 en junio y 4633
en septiembre.
Inicialmente se espera una equiprobabilidad entre
presentados y No presentados según el número de alumnos
de junio y septiembre, como podemos ver el
comportamiento es totalmente a atípico.
alumnos existentes en cada convocatoria difiere de miles de
alumnos.
El número de suspensos es muy similar a pesar de la
diferencia de alumnos presentados, esto puede llevar a
pensar que los alumnos se preparan de manera menos
intensa después del verano, influyendo que las materias
están más lejanas.
Además, los que se presentan en septiembre han tenido que
examinarse de las suspensas en junio y se han centrado
seguramente más en estas asignaturas suspensas que en el
conjunto de la prueba.
Veamos a continuación la gráfica que la aplicación de
análisis Weka nos propone en esta situación:
No hacemos esta imagen más pequeña para poder apreciar
qué alumnos escogieron francés (rojo) en cada una de las
localidades. X (localidades) Y (nota idioma)
Figura 5-9. Calificación de la prueba
6. CONCLUSIONES
El estudio de la minería de datos ha de ser muy exhaustivo
ya que desde diferentes puntos de partida podemos llegar a
las mismas conclusiones, siendo lo bonito continuar con el
análisis para ver qué aspectos han sido los más interesantes
y de dónde los hemos sacado.
Figura 5-8. Relación localidad & nota del idioma
5.5 Calificación de la prueba
El número de presentados en septiembre es de 4703 y el
número de suspensos en septiembre es de 2062. En junio el
número de presentados es de 14099 mientras que el número
de suspensos es de 2513.
Vemos que tenemos un caso muy similar al de los No
presentados en junio y septiembre, el comportamiento es
muy relevante teniendo en cuenta que el número de
Quizá a veces datos que aparentemente son muy
significativos a la vista y comprensión inicial, aportan una
cantidad mínima de información ante otros datos que no
captan nuestra atención. Esto por ejemplo nos ha ocurrido
en el análisis de las asignaturas optativas, ya que
inicialmente no pensábamos que aportaran tanta
información a la hora de obtener conclusiones sobre cuanto
incrementa o decrementa la nota del alumno en la
calificación final. Tener en cuenta que a primera vista se
valoran muchos las asignaturas obligatorias y en muchos
casos los alumnos se salvan por las optativas.
En varios aspectos se han encontrado datos donde se indica
que, poblaciones con menor número de presentados tiene
un porcentaje de aprobados mayor que otras poblaciones
con índice de presentados muy elevado.
Las personas que aprueba el examen de Historia tienen más
probabilidades de superar la prueba de selectividad. Esto es
debido a que la nota de Historia es una de las notas
troncales y su influencia en la nota final es superior a otras.
Respecto los alumnos que escogen la opción 5, se puede
decir que sus optativas les ayudan a subir esta media. Sin
embargo, los alumnos que escogen la opción uno, tienen
buenos resultados en las asignaturas obligatorias siendo las
de especialidad, las que les bajan la nota final de la prueba,
sin que predominen entre uno de los grupos con mejores
resultados en selectividad.
Los alumnos que han escogido como opción de idioma
francés, tienen mayor índice de aprobados en su examen
tanto en la convocatoria de septiembre como de junio.
Por último, recordar que, a pesar de la diferencia entre el
número de presentados en junio y septiembre, el índice de
suspensos en septiembre es casi idéntico al de junio.
7. OTRAS INVESTIGACIONES POSIBLES
A DESARROLLAR
El número de alumnos que se presentan al examen de
selectividad en cada población es muy diferente. No
sabemos si esto ocurre por el número de alumnos que hay
en esa población o por el nivel de educación existente en
sus centros. Por ello, sería interesante tener otros datos de
la población, como el número de alumnos que en ese año
cursaron 2º de Bachillerato, para saber cuántos de los no
presentados suspendieron dicho curso. El objetivo de hacer
este análisis sería intentar equiparar el nivel educacional en
todas las poblaciones.
Se cree interesante hacer un estudio más exhaustivo de los
alumnos con las medias de bachiller. Recodemos que
hicimos 2 grupos, unos con las notas más comunes, entre 5
y 8, y otro con los alumnos de media superior al 8. Se
podría buscar si el motivo por el cual suspenden el examen
de selectividad, es el mismo, es decir, o por deficientes
resultados en las asignaturas troncales, y cuáles de ellas, o
si el motivo del suspenso se debe a las materias de
especialidad.