Servicios Personalizados
Revista
Articulo
Indicadores
- Citado por SciELO
- Accesos
Links relacionados
- Similares en SciELO
Compartir
Revista de la Facultad de Agronomía
versión impresa ISSN 0378-7818
Rev. Fac. Agron. v.23 n.2 Caracas jun. 2006
Modelos de regresión lineal múltiple en presencia de variables cuantitativas y cualitativas
para predecir el rendimiento estudiantil
Construction of linear regression models with quantitative and qualitative variables in order to
inference about student accomplishment
M. Rosas, F. Chacín, J. García, M. Ascanio, M. Cobo
Facultad de Agronomía, Universidad Central de Venezuela. Apartado Postal 4579, Maracay 2101, Estado Aragua.
Autor para correspondencia email: garciaj@agr.ucv.ve
Resumen
El objetivo de esta investigación fue la construcción de modelos de regresión múltiple en presencia de variables cualitativas y cuantitativas, que permitan predecir el rendimiento estudiantil y sugerir al estudiante una alternativa para lograr el éxito en sus estudios en el Instituto Universitario de Tecnología del Yaracuy. Las variables explicativas eran 28, como variable dependiente se usó el índice de rendimiento académico al egresar del Instituto. Se incluyeron variables cualitativas que plantearon la necesidad del uso de varias variables dummy y se hizo estudio del comportamiento de los modelos bajo tales condiciones. Para cada una de las cuatro especialidades, se obtuvo tanto el modelo completo como los modelos reducidos por los métodos de todas las regresiones posibles y paso a paso. Se realizaron pruebas t en el modelo completo y se compararon las variables seleccionadas con las incluidas en los modelos seleccionados por ambos métodos. Se hizo estudio de los coeficientes de regresión de las variables seleccionadas para detectar su estabilidad. Un modelo fue seleccionado para cada una de las cuatro especialidades estudiadas: Agrícola, Conservación de Recursos Naturales Renovables (C.R.N.R.), Alimentos y Pecuaria. Estos modelos explicaron respectivamente el 56,41%; 89,66%, 69.33% y el 73,10% de la variabilidad total del rendimiento y las variables escogidas difierieron de acuerdo a la especialidad.
Palabras clave: Variables dummy, método de todas las regresiones posibles, método Paso a paso, rendimiento académico, variables cualitativas y cuantitativas, comparación de modelos, R2, Press, Cp de Mallows.
Abstract
The aim of this research was to construct multiple regression models in presence of qualitative and quantitative variables that would allow predicting the student's accomplishment and thus suggesting the student an alternative to fulfill success in his/her studies at the University Institute of Technology of Yaracuy. There were 28 explicative variables, and the index of the academic proficiency was used as a dependent variable once the student graduates. Qualitative variables were included, that mentioned the necessity of the use of some dummy variables, and the study of the models' behavior was done under these conditions. For each of four specialties, was obtained the complete model as well as models reduced as a cause of the methods of all possible regressions and also done step by step. T tests were done in the complete model and selected variables were compared with those included in the selected models by both methods. Regression coefficients of the selected variables were studied in order to detect their stability. A model was selected for each of the four specialties: Agriculture, Conservation of Renewable Natural Resources (C.R.N.R), Food and Livestock. These models explained the 56.41%; 89.66%, 69.33% and 73.10% respectively of the total variability of achievement and chosen variables differed according to their specialties.
Key words: Dummy variables, all possible regressions, stepwise, academic yield, qualitative and quantitative variables, model comparisons, R2, Press, Cp of Mallows.
Recibido el 26-10-2004 Aceptado el 14-5-2005
Introducción
En los actuales momentos, Venezuela vive una etapa de expectativas realistas y estimulantes, de retos excitantes para reconstruir el país sobre bases más éticas y firmes a las vividas hasta hace poco. Esta nueva etapa que vive Venezuela es producto de la actual crisis económica severa, que por lo visto durará todavía algunos años más y que afortunadamente parece que está creando conciencia a todos los niveles y especialmente en el sector educativo. La situación de crisis económica mencionada anteriormente obliga a emprender una búsqueda de soluciones factibles que impidan un deterioro profundo de la Educación Superior. Dentro de esa perspectiva, es dable pensar se redoblaran los esfuerzos para mejorar la Educación Superior, superando los falsos conceptos obsoletos y sus problemas, y preparar la Educación Superior para que cumpla con la comprometedora obligación de ser un instrumento idóneo para hacer frente a la crisis y garantizar un porvenir seguro. El educador, conocedor de que una de las causas primordiales que hacen que la Educación Superior no sea del todo satisfactoria es el bajo rendimiento estudiantil, debe implementar reformas tendientes a mejorarlo; es por esto que a través del presente estudio se pretendió ofrecer un aporte, que sirva de base para mejorar el rendimiento estudiantil en el Instituto Universitario de Tecnología del Yaracuy siendo el objetivo primordial de esta investigación la construcción de modelos de regresión múltiple en presencia de variables cualitativas y cuantitativas, que permitan predecir el rendimiento estudiantil y a la vez sugerir al estudiante una alternativa para lograr el éxito en sus estudios, lo cual se traduciría en mejoras a la Educación Superior. En este estudio se analizó el comportamiento de los modelos con variables explicativas mixtas: cualitativas y cuantitativas, desde el punto de vista de la interpretación de su significación en los modelos. En virtud de la importancia en esta investigación de términos tales como transformaciones, variables falsas y selección de modelos, se desarrollaron brevemente estos aspectos:
Transformaciones: Las transformaciones han sido usadas para encontrar datos que satisfagan los supuestos de un modelo paramétrico conveniente. Barlett (1) señala que el propósito ordinario de la transformación para cualquier tipo de análisis es el de cambiar la escala de mediciones con el objeto de hacerles válidos. El problema consiste en encontrar la transformación adecuada que garantice: 1) la independencia de la media y la varianza, es decir, que la varianza de los datos transformados no se vea afectada por cambios en la media. 2) Que la distribución de la variable transformada sea aproximadamente normal. 3) Que la escala transformada sea una en la cual la media aritmética sea una estimación eficiente del verdadero valor para cualquier grupo de mediciones. 4) Que la escala transformada sea de tal manera que los efectos del modelo sean lineales y aditivos. Las transformaciones más usadas son: el recíproco, logaritmo, raíz cuadrada, arcoseno, entre otras (3).
Variables Falsas: El uso de variables falsas es un método para cuantificar características de tipo cualitativo (que no son susceptibles de ser cuantificadas) o que presentan la conveniencia de separar categorías discretas. En el análisis de regresión se utilizan variables falsas cuando se cumplen las siguientes condiciones: 1) las observaciones originales pueden ser agrupadas en clases o grupos de tipo cualitativo. 2) el efecto de esta agrupación es alterar la ordenada al origen sin alterar la pendiente (4 y 2).
Ruiz-Maya et al. (7) establecen que si los datos originales pueden separarse en dos o más grupos significativos, habría que estudiar los efectos de los diferentes grupos. Por ejemplo si una variable respuesta se hace depender de dos variables explicativas X1 y X2 y suponemos que la función que relaciona estas variables explicativas con la variable respuesta es lineal. La ecuación del modelo es yi=b0+b 1x1i+b2 x2i.Puede presentarse que en el conjunto de variables explicativas contemplamos tres grupos: cuantitativas, cualitativas y mixtas. Si las variables explicativas son cuantitativas (continuas o discretas) y se supone que se han efectuado cuatro observaciones; el sistema de ecuaciones que da lugar puede ser planteado en forma matricial
La matriz formada por los valores observados de las variables explicativas recibe el nombre de matriz de diseño y será designada por X. Si las variables explicativas X1 y X2, son cualitativas y las suponemos dicotómicas se le pueden asignar los valores 1 y 0; matricialmente la representación del sistema de ecuaciones sería:
No resulta imprescindible codificar las variables mediante 0 y 1, sino que pueden asignarse códigos según las necesidades, pero es necesario tener presente que el tipo de codificación elegido influye en las estimaciones del modelo; sin embargo, se obtienen las mismas estimaciones de la variable respuesta así como los mismos valores de los estadísticos de bondad de ajuste y los mismos resultados de los contrastes de hipótesis (7).
La introducción de una variable explicativa categórica cuando el número de niveles de la variable es superior a dos, lleva consigo cambios en la formulación del modelo debido a la codificación. La exposición del procedimiento sigue a Hosmer-Lemeshow (5) y Wrigley (8). Si se tiene el caso de una sola variable explicativa X, presentando cinco niveles, a partir de ella se definen cuatro variables "ficticias"
Codificación de la variable | Variables ficticias | |||
| X11 | X12 | X13 | X14 |
Nivel 1 | 1 | 0 | 0 | 0 |
Nivel 2 | 0 | 1 | 0 | 0 |
Nivel 3 | 0 | 0 | 1 | 0 |
Nivel 4 | 0 | 0 | 0 | 1 |
Nivel 5 o Nivel de referencia | 0 | 0 | 0 | 0 |
:X11 , X12 X13 y X14, una menos que el número de niveles, atribuyéndoles a cada una valores 1 ó 0, según se halle presente o no el correspondiente nivel. En este caso sería:
Una vez introducidas el modelo queda: y=b0+ b11x11+ b12x12+b 13x13+ b14x14. Los coeficientes b1i cuantifican el efecto producido por la presencia del correspondiente nivel de la variable explicativa X. Matricialmente el sistema se plantea:
Si solo el coeficiente b11 es significativo el modelo quedaría y=b0+b11 x11, de la misma manera si la significación es de b12 el modelo sería y=b0+b12 x12 y así sucesivamente, por supuesto si solo b15 es significativo el modelo quedaría y=b0, pudiendo presentarse otros modelos si varios de ellos son simultáneamente significativos.
La razón de definir una variable ficticia menos que el número de niveles de X es que de no hacerlo así, la matriz de diseño no conduciría a una inversa. La complicación del cálculo es manifiesta, debido al elevado número de variables ficticias que es preciso introducir cuando el número de variables explicativas cualitativas es alto e igualmente cuando se incrementa el número de niveles que cada una posee.
Cuando las variables explicativas son mixtas, como por ejemplo si la variable X1 es cuantitativa y X2 cualitativa multinomial y presenta cinco niveles, el modelo es:
yi=b0 +b1x1i+b 21x21+b22 x22+b23x 23+b24x24
La matriz de diseño X del modelo, en este caso es
X1 X21 X22 X23 X24
En el modelo lineal la pendiente de la recta viene dada por el parámetro b1, y los coeficientes que afectan a los diferentes niveles de la variable cualitativa suponen un desplazamiento paralelo de la función en cada uno de los cuatro casos. La estimación de yi se obtiene fácilmente sin más que sustituir en el modelo el correspondiente valor x1i (de la variable explicativa cualitativa) y para cada nivel de la variable ficticia la codificación establecida. Por ejemplo la estimación de yi para el nivel 3 de la variable ficticia es igual a
Selección de Modelos:
Pruebas de hipótesis usando t:
Martínez (6) establece que una vez verificada la significación de la prueba F en el análisis de regresión múltiple, cuando ocurre el caso de una hipótesis sencilla, digamos Ho: bi =0 versus bi ≠0 esta puede realizarse alternativamente usando una prueba de t de dos colas que se denominan pruebas parciales. Así si t1-a/2 es la t tabulada al nivel a de significancia con n grados de libertad, los del error; Ho se rechaza si el valor absoluto de la t calculada es igual o mayor que t1-a/2. La equivalencia de esta prueba con la correspondiente prueba de F se deriva del hecho que el cuadrado de una variable con una distribución t de Student con n grados de libertad, se distribuye como una F con 1 y n grados de libertad.
Criterios de comparación de modelos:
Los criterios de comparación más usados son:
a) el cuadrado medio del error (CME)
b) el coeficiente de determinación (R2)
c) la suma de cuadrados de predicción (PRESS)
d) el estadístico Cp de Mallows
Los criterios CME y R2 están relacionados por la ecuación
En este trabajo se consideró solo el coeficiente de determinación. El uso del R2 se ha popularizado porque toma valores de 0 a 1, esto permite apreciar la calidad del ajuste sin utilizar tablas. El criterio PRESS se usó con el objetivo de predecir el valor yi de la observación i que no se incluyó en el ajuste y se tiene un error estimado yi-ŷi. Al repetir este procedimiento omitiendo cada vez una de las n observaciones, se puede calcular la suma de cuadrados de la predicción:
donde yi se calcula con las n-1 observaciones que quedan al omitir la iésima observación. El Cp es un estimador que mide la eficiencia de las variables, en términos de la suma de los cuadrados medios de residual estandarizado de la predicción o error total y viene dado por:
donde n es el número de variables del modelo completo, p el número de variables del modelo reducido, s2 el CME en el modelo completo y SCEp la suma de cuadrados para un modelo con p parámetros incluyendo el intercepto. Las desviaciones de Cp con respecto a p, se puede tomar como medida del sesgo, siendo E(Cp/sesgo = 0) = p. El sesgo cero es casi ideal, entonces lo que se necesita es un modelo adecuado. Los criterios mencionados se complementan con las pruebas totales sobre todos los coeficientes del modelo y con las pruebas parciales sobre cada coeficiente.
Métodos de selección de variables:
Existe la tendencia a incluir en modelos de regresión todas las variables científicamente relevantes, independientemente de su contribución al modelo. El problema con esta posición es que el modelo puede sobredimensionarse y producir estimados numéricamente inestables. Esta sobredimensión se manifiesta en coeficientes estimados y/o desviaciones estándar demasiado grandes, ello es particularmente problemático en problemas donde el número de variables es grande en relación con el número de sujetos. Es por ello que en algunos casos los métodos de selección son de mucha importancia y se aplican de acuerdo el caso. En este trabajo se compararon solo dos métodos de selección de variables y no se consideran los métodos de selección hacia atrás (backward) y hacia delante (forward) en favor del paso a paso, ya que este realiza una reconsideración de las variables incluidas al realizar una inclusión nueva y además no se presentaron problemas de multicolinealidad lo cual haría que el backward fuese una mejor opción
Materiales y métodos
La muestra estuvo constituida por el total de bachilleres en Ciencias egresados en cinco promociones, la cual fue de 233 alumnos. Se prefirió trabajar con este número de alumnos, por ser relativamente accesible su estudio. Se encontraban distribuidos de acuerdo a las siguientes especialidades:
Agrícola 103 alumnos
Alimentos 56 alumnos
Pecuaria 43 alumnos
Conservación de los Recursos Naturales Renovables 31 alumnos
Definición de variables: Variable dependiente: Indice de rendimiento académico, la cual se define conceptualmente como la valoración cuantitativa del progreso del estudiante y se obtiene multiplicando la calificación dada en cada asignatura por el número de créditos que le corresponden, se suman los productos obtenidos y este resultado se divide entre la suma de los créditos computados. La escala de valorización es del 1 al 9. Su definición operacional establece que el puntaje requerido para egresar está comprendido entre 6 y 9 , de acuerdo a lo establecido en los reglamentos de la institución, cuyas categorías son las siguientes:
Bueno 6
Distinguido 7
Sobresaliente 8
Excelente 9
Variables explicativas o regresoras: Se utilizaron 28, algunas son cuantitativas y otras cualitativas, para las últimas se utilizaron variables falsas cuya codificación aparece en la columna 5 del cuadro 1.
Cuadro 1. Definición y características de las variables explicativas.
Nº | Variable | Notación | Definición operacional | Codificación |
1 | Sexo | X6 | Sexo del estudiante | 0: masculino |
|
|
|
| 1: femenino |
2 | Estado civil | X2 | Estado civil del estudiante | 00: soltero |
|
| X3 |
| 10: casado |
3 | Procedencia del estudiante | X7 | Sitio donde vivía el estudiante antes de iniciar sus estudios | 01: otro |
|
| X8 |
| 0000: Yaracuy |
|
| X9 |
| 1000 Lara |
|
| X10 |
| 0100 Portuguesa |
|
|
|
| 0010 Región de los llanos |
|
|
|
| 0001 Otras regiones |
4 | Tipo de institución | X4 | Tipo de institución donde el estudiante culminó sus estudios de Bachillerato | 00 Oficial |
|
| X5 |
| 10 Privado |
|
|
|
| 01 Otro |
5 | Régimen de estudios | X11 | Régimen de estudios durante el Bachillerato | 00: Regular |
|
| X12 |
| 10: Parasistema |
|
|
|
| 01 Otro |
6 | Turno | X13 | Turno de la institución donde el estudiante realizó sus estudios | 0: Diurno |
|
|
|
| 1: Nocturno |
7 | Lugar al cual pertenece el liceo | X14 | Lugar al cual pertenece el liceo donde el Bachiller obtuvo el título | 00: Capital |
|
| X15 |
| 10: Distrito |
|
|
|
| 01: Otro |
8 | Lugar de residencia | X16 | Lugar de residencia del estudiante durante sus estudios Universitarios | 000: San Felipe |
|
| X17 |
| 100: Otra región de |
|
| X18 |
| Yaracuy |
|
|
|
| 010 Barquisimeto |
|
|
|
| 001 Otro |
9 | Tipo de alojamiento | X19 | Tipo de alojamiento durante | 00: con familia |
|
| X20 | sus estudios universitarios | 10: residencia |
|
|
|
| 01: otro |
10 | Edad | X21 | Edad del estudiante al iniciar sus estudios universitarios | 17,18,... |
11 | Duración del bachillerato | X22 | Años que tardó el estudiante en realizar sus estudios de Bachillerato | 5,6,7,... |
12 | Tiempo para ingresar al instituto | X23 | Diferencia entre la edad al graduarse el estudiante y la edad al iniciar sus estudios | Menos de 1 año,1,2,... |
13 | Calificación del Bachillerato | X24 | Nota obtenida en las asignaturas: | Historia 10,11,...,20 |
. . |
| X25 . . | Universal (X24), Dibujo (X25), Geografía Universal(X26), Historia de Venezuela(X27), Geografía de Venezuela(X28),Geografía |
|
28 |
| . X38 | Económica(X29),Filosofía(X 30), Ciencias de la X38 Tierra(X31), Castellano(X32), Matemática(X33), |
|
|
| X39 | Biología(X34), Inglés(X35), Física(X36), Educación Artística(X37), Sociales(X38) y Química(X39) |
|
Técnicas para el análisis estadístico: Se utilizó el análisis de regresión lineal múltiple, en donde uno de los supuestos básicos es que las variables independientes no estén fuertemente correlacionadas en cuyo caso los coeficientes generados pueden tener graves errores muestrales, lo que afectaría las predicciones (2). El plan a seguir en la construcción del modelo comprendió tres etapas: planificación, desarrollo y validación.
Planificación: En esta etapa se siguieron los pasos consistentes en definir el problema, seleccionar la respuesta y sugerir las variables de mayor importancia y evaluarlas. Posteriormente se obtuvo una muestra de las observaciones (muestra piloto) y se calcularon los valores estadísticos básicos. Se realizó un examen de los residuales con la finalidad de detectar el incumplimiento de los supuestos del análisis de regresión. Se estudió también la matriz de correlación para verificar si existían problemas de multicolinealidad y se analizaron los coeficientes de determinación de los modelos (R2). Se aplicaron transformaciones a algunas de las variables regresoras y ello aumentó la determinación de los modelos. En el presente trabajo se utilizó la raíz cuadrada, la cual se apropia en los casos en los cuales los datos estadísticos son números enteros positivos, tal como es el caso presente, ya que edad, duración del bachillerato, tiempo para ingresar y las calificaciones en algunas de las asignaturas estudiadas, fueron reportadas en esta manera. Las variables transformadas fueron denotadas: edad (RX21), duración del bachillerato (RX22), tiempo para ingresar (RX23) y las calificaciones en las asignaturas : Historia Universal (RX24), Dibujo (RX25), Geografía Universal (RX26), Historia de Venezuela (RX27), Geografía de Venezuela (RX28), Geografía Económica (RX29), Filosofía(RX30) y Ciencias de la Tierra(RX31).
Desarrollo: En esta etapa se recolectó la totalidad de los datos, se verificó su calidad y se aplicaron modelos tentativos. Luego se sometieron los modelos a la consideración de especialistas en la materia, se realizaron los análisis gráficos y estudio de residuales y se verificó si los modelos satisfacían las metas propuestas con relación a los coeficientes de determinación de los mismos. Se compararon también dos métodos de selección de variables: el paso a paso (stepwise) y el de todas las regresiones posibles.
Validación: Una vez comprobado que los modelos cumplían las metas propuestas se estableció la etapa de validación, la cual es una etapa muy útil y necesaria y a veces puede conducir a una reconsideración total del problema. Existen varios métodos de validación, en esta investigación se utilizó el criterio Press el cual consiste en la suma de cuadrados de los residuales calculados eliminando la i-ésima observación del total de los datos.
Resultados y discusión
Estimacion de los modelos de regresion
Para cada una de las cuatro especialidades, se obtuvo tanto el modelo completo como los modelos reducidos por dos métodos de selección de variables. Se verificó el cumplimiento del supuesto de normalidad con la prueba de Wilk y Shapiro y se consideró que valores de W ³ 0,9 tenían una buena aproximación a la distribución normal y la homogeneidad de la varianza de los residuales, en cuyo caso al graficarlos se encontró que se formaron bandas horizontales, no visualizándose ningún patrón que indicara la violación a dicho supuesto. Se estudió la matriz de correlación, no observándose ninguna evidencia de problemas de multicolinealidad; ello se confirmó con el estudio de las raíces características de cada modelo en donde K=l1/ l2 fue el indicador de la no existencia de problemas de esta naturaleza ya que en todos los casos estuvo por debajo de 100.
En la especialidad Agrícola (cuadro 2), las pruebas de t del modelo completo resultaron significativas solo las variables X6, X16, RX21 y X39. Todas ellas fueron incluidas en los modelos seleccionados por ambos métodos. Se hizo un estudio de los coeficientes de las variables seleccionadas, detectándose que eran relativamente estables al compararlos con el modelo completo. En este caso fue preferible el modelo seleccionado por el método de todas las regresiones posibles ya que contenía dos variables regresoras menos con muy poca disminución en el R2 y un menor Cp. De las 28 variables estudiadas (sin considerar las ficticias) se incluyeron: sexo X6, procedencia del estudiante X7 , tipo de institución X4, lugar de residencia X16 edad del estudiante RX21 , tiempo de ingreso RX23 y 6 de las 16 calificaciones en asignaturas de bachillerato. En las variables cualitativas se consideró que si una de las categorías presentaba significación la variable era significativa. En las variables cuantitativas se pueden analizar los signos de los coeficientes: edad del estudiante RX21 es negativa, por ello el rendimiento disminuye en estudiantes de mayor edad; tiempo de ingreso RX23 es positivo, por ello el rendimiento es mayor en estudiantes que tienen un período mayor de espera antes de comenzar sus estudios universitarios. En cuanto a las asignaturas: el rendimiento en la especialidad agricola es mayor en estudiantes con altas calificaciones en Dibujo RX25, Ciencias de la Tierra RX31, Castellano X32, Física X36 y Química X39 pero bajas en Matemáticas X33. Por ello en esta especialidad los estudiantes de bachillerato destacados en asignaturas científicas (sin considerar matemáticas) y buen manejo del idioma, se espera que obtengan buenos índices de rendimiento académicos en sus estudios en esta especialidad.
Cuadro 2. Comparación del modelo completo con los modelos seleccionados usando dos métodos de selección de variables en la especialidad agrícola.
Modelo |
| R2 | Cp | Nº VAR |
Completo | ŷ=4,945+0,192X4-0,147X6+0,186X7+0,011X8+0,016X10+ 0,080X13+0,002X14-0,180X16-0,003X19 -0,412RX21-0,051RX22+0,165RX23-0,165RX24 +0,181RX25-0,078RX26+0,077RX27+0,142RX28- 0,001RX 29+0,042RX30+0,253RX31+0,065X32-0,067X33- 0,020X 34+0,030X35-0,051X 36-0,013X37+0,007X38+0,085X39 | 60,05 | 29 | 28 |
Paso a paso | ŷ=5,593+0,205X4-0,163X6+0,180X7-0,184X16-0,440RX21+ 0,135RX 23+0,184RX24 +0,173RX25+0,219RX31 +0,062X32-0,072X33+0,030X35+0,051X36 +0,089X39 | 58,16 | 6,86 | 14 |
Todas las Reg. | ŷ=5,278+0,195X4-0,152X6+0,177X7-0,197X16-0,462RX21+0,143RX23 +0,170RX25+0,245RX31 +0,064X32-0,073X33 +0,051X36+0,091X39 | 56,41 | 6,20 | 12 |
En la especialidad C.R.N.R. (cuadro 3), las pruebas de t del modelo completo resultaron significativas las variables X4, X8, X16, RX21, RX22, RX23, RX24, RX27, RX28, RX29, RX30, X34, X36, X39. No todas ellas fueron incluidas en los modelos seleccionados por ambos métodos. La diferencia entre los modelos seleccionados fue considerable. Hubo una diferencia del 10% en el R2 y en cuanto al número de variables de 10. Los coeficientes de regresión de los modelos seleccionados al compararlos con los del modelo completo no eran estables, esto es hubo algunos cambios de magnitud e inclusive de signos. Considerando el principio de parsimonia, se escogió el modelo con menor número de variables (paso a paso) el cual incluyó: procedencia del estudiante X10, duración del bachillerato RX22, tiempo para ingresar RX23, y 9 de las 16 calificaciones en asignaturas de bachillerato. Analizando los signos de los coeficientes en las variables cuantitativas se pudo observar: duración del bachillerato RX22 y tiempo para ingresar RX23 son positivos, por ello los estudiantes que obtuvieron el título de bachiller en mayor tiempo y tardan más tiempo para ingresar tienen mejor rendimiento en esta especialidad. En cuanto a las asignaturas, el rendimiento es mayor en estudiantes con altas calificaciones en Historia Universal RX24, Geografía de Venezuela RX28, Castellano X32 y Educación Artística X37 y el rendimiento es menor en aquellos que tenían altas notas en Historia de Venezuela RX27, Filosofía RX30, Matemática X33, Biología X34 e Inglés X35. Esto condujo a pensar que los estudiantes inclinados a las asignaturas científicas no serán los de mejor desempeño en esta especialidad ,sino aquellos inclinados a las humanísticas.
Cuadro 3. Comparación del modelo completo con los modelos seleccionados usando dos métodos de selección de variables en la especialidad C.R.N.R.
Modelo |
| R2 | Cp | Nº VAR |
Completo | ŷ=12,398-0,096X4-0,527X 6-0,702X8- 0,600X 10+0,457X13+ 0,013X 14-0,378X16+0,297X19 -3,454RX21+1,073RX22 +0,606RX23+ 2,163RX 24-0,520RX27+ 1,659RX 28+0,856RX29- 1,107RX 30+0,336RX31+ 0,060X 32+0,073X33-0,330X 34+0,044X35- 0,120X 36-0,014X37-0,052X 38-0,173X39 | 99,12 | 27 | 26 |
Paso a paso | ŷ=0,564+0,349X10+ 0,322RX 22+0,754RX23+0,441RX 24 -0,433RX27+1,788RX28-0,627RX30+0,248X32 -0,092X33-0,179X34-0,054X 35+0,087X37 | 89,66 | 18,00 | 12 |
Todas las Reg. | ŷ=0,632-0,513X4-0,294X 6-0,442X7+ 0,623X 8+0,286X19 -0,586RX21+0,663RX22 +0,493RX23+1,584RX24 +0,774RX25-0,858RX27+ 2,034RX 28+0,487RX29- 0,992RX 30+0,320RX31+0,240X32- 0,154X 33-0,278X34-0,045X 35+0,052X36+ 0,072X 38-0,223X39 | 99,57 | 20,88 | 22 |
En la especialidad Alimentos (cuadro 4), las pruebas de t del modelo completo resultó significativa solo la variable X39 (Calificación en Química durante el bachillerato). Ella fue incluida en los modelos seleccionados por ambos métodos. En relación a los coeficientes de regresión de las variables seleccionadas en ambos modelos al compararlos con los del modelo completo, se observó que hay leves variaciones, pudiendo decirse que eran relativamente estables. En esta especialidad ambos métodos de selección produjeron modelos que explicaron muy poco acerca de la variabilidad total; para los propósitos de predicción no son convenientes y por ello se propuso el modelo completo el cual tenía una determinación de aproximadamente un 70%. Este es un modelo con numerosas variables regresoras, de allí que la ganancia en determinación fue a costa de mayor complejidad. Se considera que todas las variables en estudio son de importancia para la predicción del rendimiento estudiantil en esta especialidad.
Cuadro 4. Comparación del modelo completo con los modelos seleccionados usando dos métodos de selección de variables en la especialidad alimentos.
Modelo |
| R2 | Cp | Nº VAR |
Completo | ŷ=6,230+0,500X4+0,422X 6-0,956X7- 0,990X 8-1,155X9-0,794X10+0,107X12 +1,063X13+0,107X14 -0,064X15-0,159X16-0,396X18+ 0,813X 19-0,987X20- 0,252RX 21-0,628RX22+ 0,530RX 23+0,571RX24- 0,108RX 25+0,181RX26- 0,298RX 27+0,200RX28+0,184RX29+ 0,618RX 30-0,186RX31- 0,220X 32-0,072X33+0,085X 34-0,071X35+ 0,085X 36-0,094X37+0,059X 38+0,181X39 | 69,33 | 35 | 33 |
Paso a paso | ŷ=4,565+0,043X35-0,037X 37+0,064X38+ 0,096X 39 | 37,60 | 10,70 | 4 |
Todas las Reg, | ŷ=4,966+0,870X13-1,686X 20-0,328RX21+ 0,438RX 23+0,359RX30+0,108X 39 | 46,98 | 6,18 | 6 |
En la especialidad Pecuaria (cuadro 5), en las pruebas de t del modelo completo resultó significativa solo la variable X17. Ella fue incluida en los modelos seleccionados por ambos métodos. Hubo variaciones en cuanto a los coeficientes de regresión de las variables incluidas en los modelos seleccionados pero se consideró relativamente estable. En este caso fue preferible (considerando el criterio de parsimonia) el modelo seleccionado por el método de todas las regresiones posibles ya que contenía solo ocho variables regresoras lo cual se tradujo en ganancia en precisión y menor complejidad en el modelo a costa de pérdida en determinación ya que la explicación de la variabilidad total de este modelo difirió en un 10% del modelo paso a paso, pero aún así la explicación del 73% fue bastante buena. Las variables que se incluyeron fueron: lugar de residencia X17 y X18 , edad X21, tiempo para ingresar X23, y 4 de las 16 calificaciones en asignaturas de bachillerato. Considerando el signo de las variables cuantitativas se pudo observar que edad RX21 es negativo y tiempo para ingresar RX23 es positivo, por ello el rendimiento será superior en estudiantes más jóvenes pero que tardan más tiempo en ingresar, las asignaturas de bachillerato que influyeron en esta carrera indicaron que cuanto mayor fue su calificación en las asignaturas Historia de Venezuela RX27 , Geografía de Venezuela RX28 e Inglés X35 es de esperarse que rendimiento de los estudiantes sea mejor en la especialidad Pecuaria, mientras que en relación a la asignatura Química X39 a medida que la nota sea menor en bachillerato el rendimiento será mejor.
Cuadro 5. Comparación del modelo completo con los modelos seleccionados usando dos métodos de selección de variables en la especialidad pecuaria.
Modelo |
| R2 | Cp | Nº VAR |
Completo | ŷ=4,243-0,037X2-0,184X 4-0,103X6- 0,059X 10-0,280X14 -0,041X16-1,100X17 +0,985X18-0,092X19 -0,211RX21-0,4321RX22+ 0,297RX 23+0,275RX24-0,202RX 25-0,133RX26+ 0,581RX 27+0,319RX28+0,162RX 29-0,192RX30+ 0,248RX 31+0,018X32+0,006X 33+0,020X34 +0,035X35-0,004X 36+0,009X37-0,022X 38+0,036X39 | 85,88 | 29 | 28 |
Paso a paso
| ŷ=4,633-0,241X4-0,087X 6-0,304X14- 0,881X 17+0,917X18-0,405RX21-0,240RX22 +0,370X23+0,276RX24-0,407RX25-0,156RX26+ 0,595RX 27+0,195RX28+0,286RX 29+0,241RX31+ 0,025X 34 | 84,22 | 18,8 | 16 |
Todas las Reg,
| ŷ=5,653-0,727X17+0,797X 18-0,568RX21+ 0,445RX 23+0,473RX27+0,292RX28 +0,009X35-0,006X39 | 73,10 | 3,18 | 8 |
Validacion de los modelos seleccionados por los métodos en estudio:
Con la finalidad de examinar la precisión de los modelos seleccionados por los métodos Paso a Paso y de Todas las regresiones posibles en cada una de las especialidades se utilizó el método PRESS. En el cuadro 6 se presenta el resumen de tales resultados:
Cuadro 6. Valores PRESS para los modelos seleccionados.
Especialidad | Paso a paso | Todas las regresiones posibles |
Agrícola | 8,23 | 8,20 |
Alimentos | 10,31 | 9,95 |
Pecuaria | 4,42 | 2,90 |
C,R,N,R, | 1,76 | 0,33 |
En todos los casos resultaron ser más precisos los modelos seleccionados por el método de Todas las regresiones posibles; sin embargo, las diferencias fueron muy pequeñas y ambos modelos pudieron considerarse buenos.
Los resultados obtenidos en los análisis anteriores permiten establecer resultados generalizables hasta el límite definido por las características de la muestra y a medida que las exigencias y condiciones sean semejantes. Las técnicas de análisis de regresión múltiple en presencia de variables cualitativas y cuantitativas permitieron establecer modelos con el fin de sugerir al estudiante que ingrese a la carrera, donde alcanzará el mayor nivel de expectativas permitiendo también incrementar el interés del estudiante hacia una profesión relacionada con el mayor éxito posible. Los modelos seleccionados de acuerdo a su determinación, precisión, número de variables y el criterio del educador, fueron:
Para la especialidad agrícola:
ŷ= 5,278 + 0,195X4 -0,152X6 + 0,177X7 -0,197X16 -0,462RX21 + 0,143RX23 + 0,170RX25 + 0,245RX31 + 0,064X32 -0,073X33 + 0,051X36 + 0,091X39
Para CRNR:
ŷ=0,564+ 0,349X10+ 0,322RX22+ 0,754RX23+0,441RX24 -0,433RX27+1,788RX28 -0,627RX30+ 0,248X32-0,092X33 -0,179X34 -0,054X35+ 0,087X37
Para alimentos:
ŷ=6,230+0,500X4 +0,422X6-0,956X7 -0,990X8-1,155X9 -0,794X10+0,107X12 +1,063X13+0,107X14 -0,064X15-0,159X16 -0,396X18+0,831X19 -0,987X20-0,252RX21 -0,628RX22+ 0,530RX23+0,571RX24 -0,108RX25+ 0,181RX26-0,298RX27 + 0,200RX28+ 0,184RX29+ 0,618RX30-0,186RX31 -0,220X32-0,072X33 +0,085X34-0,071X35 +0,085X36-0,094X37 + 0,059X38+ 0,181X39
Para pecuaria:
ŷ=5,653-0,727X17 +0,797X18-0,568RX21 + 0,445RX23+ 0,473RX27+ 0,292RX28+ 0,009X35 -0,006X39
Estos modelos explicaron respectivamente el 56,41%; 89,66%, 69.33% y el 73,10% de la variabilidad total del rendimiento y las variables escogidas difieren de acuerdo a la especialidad. Los dos métodos de selección de variables discutidos en este trabajo fueron instrumentos muy útiles, sin embargo, en este trabajo no se pudo establecer que un método sea mejor que el otro. Es de notar que en presencia de variables cualitativas y cuantitativas, las pruebas de t como pruebas parciales se comportaron mucho más estrictas que cualquiera de los métodos de selección estudiados.
Cuando se usa en forma mixta variables cuantitativas y cualitativas, la complicación del cálculo es manifiesta, debido al elevado número de variables ficticias que es preciso introducir cuando el número de variables cualitativas es alto e igualmente cuando se incrementa el número de niveles que cada una posee. Tal como fue mencionado, los coeficientes de regresión asociados a las variables dummy cuantifican el efecto producido por la presencia del correspondiente nivel de la variable explicativa, pero solo es posible establecer, si algún nivel es significativo y en cuyo caso la variable es significativa, pero no se puede a ciencia cierta establecer cual es la categoría más importante ya que el nivel de referencia codificado por 0 afecta el intercepto y este es único, por ende, en presencia de varias variables cualitativas es imposible su interpretación. Cuando la intención es determinar en una variable cualitativa cual(es) es el nivel(es) más influyente(s) sobre la variable respuesta, se recomienda fijar modelos de regresión para cada variable cualitativa o modelos de regresión múltiple donde se incluya solo una variable cualitativa y una cuantitativa.
Se recomienda validar este modelo en otras instituciones similares y de esa forma se podría ofrecer como aporte a todas las instituciones del país. Se recomienda además, continuar este estudio incluyendo otras variables que no fueron incluidas, con la finalidad de que la explicación de la variabilidad total de estos modelos se acerque más al 100%; así como también reducir el número de variables regresoras, haciendo uso de métodos multivariados tal como el de componentes principales, para luego realizar los análisis de regresión múltiple.
Literatura citada
1. Barlett, M.S. 1974. "The use of transformations" Biometrics, 3.1. [ Links ]
2. Chacín, F. 1998. Análisis de Regresión y Superficie de Respuesta. Maracay. Revista de la Facultad de Agronomía. U.C.V. [ Links ]
3. Chacín, F. 1999. Avances Recientes en el Diseño y Análisis de Experimentos. Maracay. Revista de la Facultad de Agronomía. U.C.V. [ Links ]
4. Faber, R. 1971. "Use of Dummy Variables in Regression Analysis". Mimeo ECIEL. [ Links ]
5. Hosmer, D.A. y S. Lemeshow. 1989. Applied Logistic Regression. John Wiley and Sons. New York. 307 pp. [ Links ]
6. Martinez, G.A. 1988. Teoría de la regresión con aplicaciones agronómicas. Editorial Trillas. Primera edición. 490 pp. [ Links ]
7. Ruiz-Maya, L., F.J. Martín, J.M. Montero. y P. Uriz. 1995. Análisis Estadístico de Encuestas: datos cualitativos. Colección Plan Nuevo. Editorial AC. Madrid. España. 722 pp. [ Links ]
8. Wrigley, N. 1985. Categorical data analysis for geographers and environmental scientists. Longman. London. 231 pp. [ Links ]