Datos detallados sobre estudiantes que se matriculan por primera vez en cada grado en el curso académico 2020-21.
ESTOS DATOS ESTÁN ANONIMIZADOS. LOS DATOS DE UNA FILA NO SE CORRESPONDEN CON LOS DE UN SÓLO INDIVIDUO. ES ESENCIAL LEER EL PROCESO DE ANONIMIZACIÓN PARA INTERPRETAR CORRECTAMENTE LOS CONTENIDOS DE LOS FICHEROS, ASÍ COMO LA DEFINICIÓN DEL DATASET. |
Consulte aquí la definición y estructura detalladas de este recurso.
Comentarios:
Comentarios sobre el uso de los datos
Mi hijo se encuentra en proceso de elección de estudios después de las pruebas de EVAU y al ver esta base de datos me pareció que ofrecía una información estupenda.
He estado manejando los datos de Admisión y de Matrícula de Complutense, Autónoma y Rey Juan Carlos en formato hoja de cálculo y al analizarlos hay algunos datos que son imposibles. Por ejemplo, en el campo de edad de los alumnos uno tenía como fecha de nacimiento el 2001 y como fecha de entrada al SUE 2005, lo cual es un poco raro (medicina 2020 UAM). El dato de la nota de acceso, que no coincide con la nota de corte que se ofrece en las Universidades, (que tanta presión supone para los alumnos nuevos), no hay quien entienda el motivo por el que hay alumnos con notas de acceso mucho más bajas, a veces, como en medicina, muchísimos. Y al cruzar los datos de acceso y matrícula para saber cómo les fue en el grado (2019), tomando como referencia la fecha de nacimiento y el lugar de procedencia, tampoco he podido valorar porque no coincidían los alumnos que aparecían en admisión con los que hicieron la matrícula.
En la hoja de cálculo no sé qué criterio de ordenación se toma en la descarga inicial, porque los grados aparecen mezclados, de forma que si quieres tener datos de un grado concreto, hay que proceder a ordenarlos previamente, lo que con una hoja de cálculo como la de matrículas se maneja regular. Es cuestión de un momento, pero vamos, que en mi caso, la primera vez que bajé los datos, estuve valorando datos parciales hasta que de casualidad me dí cuenta de que había más alumnos del mismo grado en otras partes de la hoja.
Los datos de los créditos reconocidos también me parecen un poco raros. Por ejemplo en el doble grado de informática y matemáticas aparecen alumnos con más de quinientos créditos, lo cual es un poco raro.
Aunque después de ver estas inconsistencias, que igual son por mala interpretación mía o porque he manejado mal la hoja de cálculo, los datos en general pierden un poco de credibilidad, pero desde luego, la herramienta y el esfuerzo por aportar datos por parte de las Universidades participantes, merece un sobresaliente. Muchísimas gracias por el esfuerzo.
Espero que mi experiencia pueda resultar de utilidad.
Un saludo.
Re: Comentarios sobre el uso de los datos
Estimada María,
MIL gracias por su comentario y sobre todo por hacernos llegar las dificultades que le surgen al reutilizar los datos, ya que es lo que nos permite identificar los puntos que más dudas generan y plantear mejoras. Sus dudas ya han sido remitidas tanto al equipo técnico como a la Universidad publicadora y en breve se publicarán las respuestas en este mismo foro. No obstante, si desea un apoyo más personalizado a su reutilización no dude en ponerse en contacto con nosotros mediante la sección "Te escuchamos" del portal, especificando su correo electrónico, y estaremos encantados de ponernos en contacto con ud. para entender y atender sus necesidades.
Un cordial saludo,
Equipo UniversiDATA.
Re: Comentarios sobre el uso de los datos
Buenas tardes,
desde el equipo técnico le respondemos a algunas de las cuestiones que plantea (relacionadas con la anonimización), independientemente de que la universidad publicadora pueda responder también respecto a las cuestiones de contenido de los datos que ud. planteaba.
Las dos aparentes inconsistencias que ud. señala tienen ambas su origen en el hecho de que los datos están anonimizados mediante la agrupación por centro/titulación/género y la permutación de bloques de columnas (llamados bloques de coherencia) para evitar el riesgo de reidentificación y proteger la identidad de los estudiantes. La consecuencia directa de esto es que en una misma fila hay datos que pertenecen a estudiantes distintos. En concreto, los datos que ud. menciona: la fecha de nacimiento, la fecha de entrada al SUE y el domicilio, pertenecen a bloques de coherencia distintos, lo cual quiere decir que están permutados dentro del mismo centro/estudio/género, y por tanto que pertenecen a estudiantes distintos (pero del mismo centro/estudio/género) aun estando en la misma fila.
Por eso en el portal y en los propios datasets insistimos tanto en que es esencial leer y entender el proceso de anonimización para hacer una interpretación correcta de los datos, en concreto comprobar si el dataset está anonimizado, y en caso afirmativo consultar en la documentación cuáles son las variables pivote y los bloques de coherencia. Se puede asegurar que las variables que comparten un mismo bloque de coherencia sí pertenecen al mismo estudiante, no así las que pertenecen a bloques de coherencia distintos, como es el caso (aquí puede consultar la documentación de anonimización de los datasets de Matrícula, y aquí la de Acceso).
Por ese mismo motivo la vinculación de los datasets de Acceso y Matrícula a través del año de nacimiento/población tampoco puede hacerse: ambos datos están permutados aleatoriamente en cada dataset al pertenecer también a bloques de coherencia distintos. El vínculo puede hacerse a través de los grupos definidos por Centro/Titulación/Género (las variables pivote), pero no a nivel de individuo.
Respecto a la ordenación, tomamos buena nota de su sugerencia para contemplarlo en las futuras actualizaciones de los datasets.
Como entendemos que el tema de la anonimización es complejo, le recordamos que estamos a su disposición para aclarar cualquier cuestión o darle asesoramiento técnico para cualquier reutilización mediante el formulario de contacto de la sección "Te escuchamos". También puede consultar en la sección de preguntas frecuentes la entrada titulada "Estoy analizando un dataset anonimizado y no sé si llego a entender bien el proceso de anonimización. ¿Es mi análisis correcto?".
Muchas gracias de nuevo por sus preguntas.
Atentamente,
Equipo técnico UniversiDATA.
Re: Comentarios sobre el uso de los datos
Buenas tardes María, tras revisar los datos y las dudas que ud. planteaba en su comentario, desde el equipo de datos de la UAM le aclaramos las cuestiones relativas a los créditos y la nota de admisión:
Esperamos haber aclarado las cuestiones planteadas. En caso contrario no dude en ponerse en contacto con nosotros a través de este mismo foro o mediante la sección "Te escuchamos".
Muchas gracias, una vez más, por sus comentarios.
Atentamente,
Equipo de datos de la UAM.
¿Le han sido útiles los datos? ¿Tiene alguna duda?