Modelos de regresión lineal múltiple en presencia de variables cuantitativas y cualitativas para predecir el rendimiento estudiantil

Rosas, M; Chacín, F; García, J; Ascanio, M; Cobo, M

Servicios Personalizados

Revista

Articulo

Indicadores

Citado por SciELO
Accesos

Links relacionados

Similares en SciELO

Otros
Otros

Permalink

Revista de la Facultad de Agronomía

versión impresa ISSN 0378-7818

Rev. Fac. Agron. v.23 n.2 Caracas jun. 2006

Modelos de regresión lineal múltiple en presencia de variables cuantitativas y cualitativas
para predecir el rendimiento estudiantil

Construction of linear regression models with quantitative and qualitative variables in order to
inference about student accomplishment

M. Rosas, F. Chacín, J. García, M. Ascanio, M. Cobo

Facultad de Agronomía, Universidad Central de Venezuela. Apartado Postal 4579, Maracay 2101, Estado Aragua.

Autor para correspondencia email: garciaj@agr.ucv.ve

Resumen

El objetivo de esta investigación fue la construcción de modelos de regresión múltiple en presencia de variables cualitativas y cuantitativas, que permitan predecir el rendimiento estudiantil y sugerir al estudiante una alternativa para lograr el éxito en sus estudios en el Instituto Universitario de Tecnología del Yaracuy. Las variables explicativas eran 28, como variable dependiente se usó el índice de rendimiento académico al egresar del Instituto. Se incluyeron variables cualitativas que plantearon la necesidad del uso de varias variables dummy y se hizo estudio del comportamiento de los modelos bajo tales condiciones. Para cada una de las cuatro especialidades, se obtuvo tanto el modelo completo como los modelos reducidos por los métodos de todas las regresiones posibles y paso a paso. Se realizaron pruebas t en el modelo completo y se compararon las variables seleccionadas con las incluidas en los modelos seleccionados por ambos métodos. Se hizo estudio de los coeficientes de regresión de las variables seleccionadas para detectar su estabilidad. Un modelo fue seleccionado para cada una de las cuatro especialidades estudiadas: Agrícola, Conservación de Recursos Naturales Renovables (C.R.N.R.), Alimentos y Pecuaria. Estos modelos explicaron respectivamente el 56,41%; 89,66%, 69.33% y el 73,10% de la variabilidad total del rendimiento y las variables escogidas difierieron de acuerdo a la especialidad.

Palabras clave: Variables dummy, método de todas las regresiones posibles, método Paso a paso, rendimiento académico, variables cualitativas y cuantitativas, comparación de modelos, R², Press, Cp de Mallows.

Abstract

The aim of this research was to construct multiple regression models in presence of qualitative and quantitative variables that would allow predicting the student's accomplishment and thus suggesting the student an alternative to fulfill success in his/her studies at the University Institute of Technology of Yaracuy. There were 28 explicative variables, and the index of the academic proficiency was used as a dependent variable once the student graduates. Qualitative variables were included, that mentioned the necessity of the use of some dummy variables, and the study of the models' behavior was done under these conditions. For each of four specialties, was obtained the complete model as well as models reduced as a cause of the methods of all possible regressions and also done step by step. T tests were done in the complete model and selected variables were compared with those included in the selected models by both methods. Regression coefficients of the selected variables were studied in order to detect their stability. A model was selected for each of the four specialties: Agriculture, Conservation of Renewable Natural Resources (C.R.N.R), Food and Livestock. These models explained the 56.41%; 89.66%, 69.33% and 73.10% respectively of the total variability of achievement and chosen variables differed according to their specialties.

Key words: Dummy variables, all possible regressions, stepwise, academic yield, qualitative and quantitative variables, model comparisons, R², Press, Cp of Mallows.

Recibido el 26-10-2004 Aceptado el 14-5-2005

Introducción

En los actuales momentos, Venezuela vive una etapa de expectativas realistas y estimulantes, de retos excitantes para reconstruir el país sobre bases más éticas y firmes a las vividas hasta hace poco. Esta nueva etapa que vive Venezuela es producto de la actual crisis económica severa, que por lo visto durará todavía algunos años más y que afortunadamente parece que está creando conciencia a todos los niveles y especialmente en el sector educativo. La situación de crisis económica mencionada anteriormente obliga a emprender una búsqueda de soluciones factibles que impidan un deterioro profundo de la Educación Superior. Dentro de esa perspectiva, es dable pensar se redoblaran los esfuerzos para mejorar la Educación Superior, superando los falsos conceptos obsoletos y sus problemas, y preparar la Educación Superior para que cumpla con la comprometedora obligación de ser un instrumento idóneo para hacer frente a la crisis y garantizar un porvenir seguro. El educador, conocedor de que una de las causas primordiales que hacen que la Educación Superior no sea del todo satisfactoria es el bajo rendimiento estudiantil, debe implementar reformas tendientes a mejorarlo; es por esto que a través del presente estudio se pretendió ofrecer un aporte, que sirva de base para mejorar el rendimiento estudiantil en el Instituto Universitario de Tecnología del Yaracuy siendo el objetivo primordial de esta investigación la construcción de modelos de regresión múltiple en presencia de variables cualitativas y cuantitativas, que permitan predecir el rendimiento estudiantil y a la vez sugerir al estudiante una alternativa para lograr el éxito en sus estudios, lo cual se traduciría en mejoras a la Educación Superior. En este estudio se analizó el comportamiento de los modelos con variables explicativas mixtas: cualitativas y cuantitativas, desde el punto de vista de la interpretación de su significación en los modelos. En virtud de la importancia en esta investigación de términos tales como transformaciones, variables falsas y selección de modelos, se desarrollaron brevemente estos aspectos:

Transformaciones: Las transformaciones han sido usadas para encontrar datos que satisfagan los supuestos de un modelo paramétrico conveniente. Barlett (1) señala que el propósito ordinario de la transformación para cualquier tipo de análisis es el de cambiar la escala de mediciones con el objeto de hacerles válidos. El problema consiste en encontrar la transformación adecuada que garantice: 1) la independencia de la media y la varianza, es decir, que la varianza de los datos transformados no se vea afectada por cambios en la media. 2) Que la distribución de la variable transformada sea aproximadamente normal. 3) Que la escala transformada sea una en la cual la media aritmética sea una estimación eficiente del verdadero valor para cualquier grupo de mediciones. 4) Que la escala transformada sea de tal manera que los efectos del modelo sean lineales y aditivos. Las transformaciones más usadas son: el recíproco, logaritmo, raíz cuadrada, arcoseno, entre otras (3).

Variables Falsas: El uso de variables falsas es un método para cuantificar características de tipo cualitativo (que no son susceptibles de ser cuantificadas) o que presentan la conveniencia de separar categorías discretas. En el análisis de regresión se utilizan variables falsas cuando se cumplen las siguientes condiciones: 1) las observaciones originales pueden ser agrupadas en clases o grupos de tipo cualitativo. 2) el efecto de esta agrupación es alterar la ordenada al origen sin alterar la pendiente (4 y 2).

Ruiz-Maya et al. (7) establecen que si los datos originales pueden separarse en dos o más grupos significativos, habría que estudiar los efectos de los diferentes grupos. Por ejemplo si una variable respuesta se hace depender de dos variables explicativas X₁ y X₂ y suponemos que la función que relaciona estas variables explicativas con la variable respuesta es lineal. La ecuación del modelo es y_i=b₀+b ₁x_1i+b₂ x_2i.Puede presentarse que en el conjunto de variables explicativas contemplamos tres grupos: cuantitativas, cualitativas y mixtas. Si las variables explicativas son cuantitativas (continuas o discretas) y se supone que se han efectuado cuatro observaciones; el sistema de ecuaciones que da lugar puede ser planteado en forma matricial

La matriz formada por los valores observados de las variables explicativas recibe el nombre de matriz de diseño y será designada por X. Si las variables explicativas X₁ y X₂, son cualitativas y las suponemos dicotómicas se le pueden asignar los valores 1 y 0; matricialmente la representación del sistema de ecuaciones sería:

No resulta imprescindible codificar las variables mediante 0 y 1, sino que pueden asignarse códigos según las necesidades, pero es necesario tener presente que el tipo de codificación elegido influye en las estimaciones del modelo; sin embargo, se obtienen las mismas estimaciones de la variable respuesta así como los mismos valores de los estadísticos de bondad de ajuste y los mismos resultados de los contrastes de hipótesis (7).

La introducción de una variable explicativa categórica cuando el número de niveles de la variable es superior a dos, lleva consigo cambios en la formulación del modelo debido a la codificación. La exposición del procedimiento sigue a Hosmer-Lemeshow (5) y Wrigley (8). Si se tiene el caso de una sola variable explicativa X, presentando cinco niveles, a partir de ella se definen cuatro variables "ficticias"

Codificación de la variable	Variables ficticias
	X₁₁	X₁₂	X₁₃	X₁₄
Nivel 1	1	0	0	0
Nivel 2	0	1	0	0
Nivel 3	0	0	1	0
Nivel 4	0	0	0	1
Nivel 5 o Nivel de referencia	0	0	0	0

:X₁₁ , X₁₂ X₁₃ y X₁₄, una menos que el número de niveles, atribuyéndoles a cada una valores 1 ó 0, según se halle presente o no el correspondiente nivel. En este caso sería:

Una vez introducidas el modelo queda: y=b₀+ b₁₁x₁₁+ b₁₂x₁₂+b ₁₃x₁₃+ b₁₄x₁₄. Los coeficientes b_1i cuantifican el efecto producido por la presencia del correspondiente nivel de la variable explicativa X. Matricialmente el sistema se plantea:

Si solo el coeficiente b₁₁ es significativo el modelo quedaría y=b₀+b₁₁ x₁₁, de la misma manera si la significación es de b₁₂ el modelo sería y=b₀+b₁₂ x₁₂ y así sucesivamente, por supuesto si solo b₁₅ es significativo el modelo quedaría y=b₀, pudiendo presentarse otros modelos si varios de ellos son simultáneamente significativos.

La razón de definir una variable ficticia menos que el número de niveles de X es que de no hacerlo así, la matriz de diseño no conduciría a una inversa. La complicación del cálculo es manifiesta, debido al elevado número de variables ficticias que es preciso introducir cuando el número de variables explicativas cualitativas es alto e igualmente cuando se incrementa el número de niveles que cada una posee.

Cuando las variables explicativas son mixtas, como por ejemplo si la variable X₁es cuantitativa y X₂ cualitativa multinomial y presenta cinco niveles, el modelo es:

y_i=b₀ +b₁x_1i+b₂₁x₂₁+b₂₂ x₂₂+b₂₃x₂₃+b₂₄x₂₄

La matriz de diseño X del modelo, en este caso es

X₁ X₂₁X₂₂ X₂₃X₂₄

En el modelo lineal la pendiente de la recta viene dada por el parámetro b₁, y los coeficientes que afectan a los diferentes niveles de la variable cualitativa suponen un desplazamiento paralelo de la función en cada uno de los cuatro casos. La estimación de y_i se obtiene fácilmente sin más que sustituir en el modelo el correspondiente valor x_1i(de la variable explicativa cualitativa) y para cada nivel de la variable ficticia la codificación establecida. Por ejemplo la estimación de y_i para el nivel 3 de la variable ficticia es igual a

Selección de Modelos:

Pruebas de hipótesis usando t:

Martínez (6) establece que una vez verificada la significación de la prueba F en el análisis de regresión múltiple, cuando ocurre el caso de una hipótesis sencilla, digamos Ho: b_i =0 versus b_i ≠0 esta puede realizarse alternativamente usando una prueba de t de dos colas que se denominan pruebas parciales. Así si t_1-a/2 es la t tabulada al nivel a de significancia con n grados de libertad, los del error; Ho se rechaza si el valor absoluto de la t calculada es igual o mayor que t_1-a/2. La equivalencia de esta prueba con la correspondiente prueba de F se deriva del hecho que el cuadrado de una variable con una distribución t de Student con n grados de libertad, se distribuye como una F con 1 y n grados de libertad.

Criterios de comparación de modelos:

Los criterios de comparación más usados son:

a) el cuadrado medio del error (CME)

b) el coeficiente de determinación (R²)

c) la suma de cuadrados de predicción (PRESS)

d) el estadístico Cp de Mallows

Los criterios CME y R² están relacionados por la ecuación

En este trabajo se consideró solo el coeficiente de determinación. El uso del R² se ha popularizado porque toma valores de 0 a 1, esto permite apreciar la calidad del ajuste sin utilizar tablas. El criterio PRESS se usó con el objetivo de predecir el valor y_i de la observación i que no se incluyó en el ajuste y se tiene un error estimado y_i-ŷ_i. Al repetir este procedimiento omitiendo cada vez una de las n observaciones, se puede calcular la suma de cuadrados de la predicción:

donde y_i se calcula con las n-1 observaciones que quedan al omitir la iésima observación. El Cp es un estimador que mide la eficiencia de las variables, en términos de la suma de los cuadrados medios de residual estandarizado de la predicción o error total y viene dado por:

donde n es el número de variables del modelo completo, p el número de variables del modelo reducido, s² el CME en el modelo completo y SCEp la suma de cuadrados para un modelo con p parámetros incluyendo el intercepto. Las desviaciones de Cp con respecto a p, se puede tomar como medida del sesgo, siendo E(Cp/sesgo = 0) = p. El sesgo cero es casi ideal, entonces lo que se necesita es un modelo adecuado. Los criterios mencionados se complementan con las pruebas totales sobre todos los coeficientes del modelo y con las pruebas parciales sobre cada coeficiente.

Métodos de selección de variables:

Existe la tendencia a incluir en modelos de regresión todas las variables científicamente relevantes, independientemente de su contribución al modelo. El problema con esta posición es que el modelo puede sobredimensionarse y producir estimados numéricamente inestables. Esta sobredimensión se manifiesta en coeficientes estimados y/o desviaciones estándar demasiado grandes, ello es particularmente problemático en problemas donde el número de variables es grande en relación con el número de sujetos. Es por ello que en algunos casos los métodos de selección son de mucha importancia y se aplican de acuerdo el caso. En este trabajo se compararon solo dos métodos de selección de variables y no se consideran los métodos de selección hacia atrás (backward) y hacia delante (forward) en favor del paso a paso, ya que este realiza una reconsideración de las variables incluidas al realizar una inclusión nueva y además no se presentaron problemas de multicolinealidad lo cual haría que el backward fuese una mejor opción

Materiales y métodos

La muestra estuvo constituida por el total de bachilleres en Ciencias egresados en cinco promociones, la cual fue de 233 alumnos. Se prefirió trabajar con este número de alumnos, por ser relativamente accesible su estudio. Se encontraban distribuidos de acuerdo a las siguientes especialidades:

Agrícola 103 alumnos

Alimentos 56 alumnos

Pecuaria 43 alumnos

Conservación de los Recursos Naturales Renovables 31 alumnos

Definición de variables: Variable dependiente: Indice de rendimiento académico, la cual se define conceptualmente como la valoración cuantitativa del progreso del estudiante y se obtiene multiplicando la calificación dada en cada asignatura por el número de créditos que le corresponden, se suman los productos obtenidos y este resultado se divide entre la suma de los créditos computados. La escala de valorización es del 1 al 9. Su definición operacional establece que el puntaje requerido para egresar está comprendido entre 6 y 9 , de acuerdo a lo establecido en los reglamentos de la institución, cuyas categorías son las siguientes:

Bueno 6

Distinguido 7

Sobresaliente 8

Excelente 9

Variables explicativas o regresoras: Se utilizaron 28, algunas son cuantitativas y otras cualitativas, para las últimas se utilizaron variables falsas cuya codificación aparece en la columna 5 del cuadro 1.

Cuadro 1. Definición y características de las variables explicativas.

Nº	Variable	Notación	Definición operacional	Codificación
1	Sexo	X₆	Sexo del estudiante	0: masculino
				1: femenino
2	Estado civil	X₂	Estado civil del estudiante	00: soltero
		X₃		10: casado
3	Procedencia del estudiante	X₇	Sitio donde vivía el estudiante antes de iniciar sus estudios	01: otro
		X₈		0000: Yaracuy
		X₉		1000 Lara
		X₁₀		0100 Portuguesa
				0010 Región de los llanos
				0001 Otras regiones
4	Tipo de institución	X₄	Tipo de institución donde el estudiante culminó sus estudios de Bachillerato	00 Oficial
		X₅		10 Privado
				01 Otro
5	Régimen de estudios	X₁₁	Régimen de estudios durante el Bachillerato	00: Regular
		X₁₂		10: Parasistema
				01 Otro
6	Turno	X₁₃	Turno de la institución donde el estudiante realizó sus estudios	0: Diurno
				1: Nocturno
7	Lugar al cual pertenece el liceo	X₁₄	Lugar al cual pertenece el liceo donde el Bachiller obtuvo el título	00: Capital
		X₁₅		10: Distrito
				01: Otro
8	Lugar de residencia	X₁₆	Lugar de residencia del estudiante durante sus estudios Universitarios	000: San Felipe
		X₁₇		100: Otra región de
		X₁₈		Yaracuy
				010 Barquisimeto
				001 Otro
9	Tipo de alojamiento	X₁₉	Tipo de alojamiento durante	00: con familia
		X₂₀	sus estudios universitarios	10: residencia
				01: otro
10	Edad	X₂₁	Edad del estudiante al iniciar sus estudios universitarios	17,18,...
11	Duración del bachillerato	X₂₂	Años que tardó el estudiante en realizar sus estudios de Bachillerato	5,6,7,...
12	Tiempo para ingresar al instituto	X₂₃	Diferencia entre la edad al graduarse el estudiante y la edad al iniciar sus estudios	Menos de 1 año,1,2,...
13	Calificación del Bachillerato	X₂₄	Nota obtenida en las asignaturas:	Historia 10,11,...,20
. .		X₂₅ _. _.	Universal (X₂₄), Dibujo (X₂₅), Geografía Universal(X₂₆), Historia de Venezuela(X₂₇), Geografía de Venezuela(X₂₈),Geografía
28		. X₃₈	Económica(X₂₉),Filosofía(X₃₀), Ciencias de la X₃₈Tierra(X₃₁), Castellano(X₃₂), Matemática(X₃₃),
		X₃₉	Biología(X₃₄), Inglés(X₃₅), Física(X₃₆), Educación Artística(X₃₇), Sociales(X₃₈) y Química(X₃₉)

Técnicas para el análisis estadístico: Se utilizó el análisis de regresión lineal múltiple, en donde uno de los supuestos básicos es que las variables independientes no estén fuertemente correlacionadas en cuyo caso los coeficientes generados pueden tener graves errores muestrales, lo que afectaría las predicciones (2). El plan a seguir en la construcción del modelo comprendió tres etapas: planificación, desarrollo y validación.

Planificación: En esta etapa se siguieron los pasos consistentes en definir el problema, seleccionar la respuesta y sugerir las variables de mayor importancia y evaluarlas. Posteriormente se obtuvo una muestra de las observaciones (muestra piloto) y se calcularon los valores estadísticos básicos. Se realizó un examen de los residuales con la finalidad de detectar el incumplimiento de los supuestos del análisis de regresión. Se estudió también la matriz de correlación para verificar si existían problemas de multicolinealidad y se analizaron los coeficientes de determinación de los modelos (R²). Se aplicaron transformaciones a algunas de las variables regresoras y ello aumentó la determinación de los modelos. En el presente trabajo se utilizó la raíz cuadrada, la cual se apropia en los casos en los cuales los datos estadísticos son números enteros positivos, tal como es el caso presente, ya que edad, duración del bachillerato, tiempo para ingresar y las calificaciones en algunas de las asignaturas estudiadas, fueron reportadas en esta manera. Las variables transformadas fueron denotadas: edad (RX₂₁), duración del bachillerato (RX₂₂), tiempo para ingresar (RX₂₃) y las calificaciones en las asignaturas : Historia Universal (RX₂₄), Dibujo (RX₂₅), Geografía Universal (RX₂₆), Historia de Venezuela (RX₂₇), Geografía de Venezuela (RX₂₈), Geografía Económica (RX₂₉), Filosofía(RX₃₀) y Ciencias de la Tierra(RX₃₁).

Desarrollo: En esta etapa se recolectó la totalidad de los datos, se verificó su calidad y se aplicaron modelos tentativos. Luego se sometieron los modelos a la consideración de especialistas en la materia, se realizaron los análisis gráficos y estudio de residuales y se verificó si los modelos satisfacían las metas propuestas con relación a los coeficientes de determinación de los mismos. Se compararon también dos métodos de selección de variables: el paso a paso (stepwise) y el de todas las regresiones posibles.

Validación: Una vez comprobado que los modelos cumplían las metas propuestas se estableció la etapa de validación, la cual es una etapa muy útil y necesaria y a veces puede conducir a una reconsideración total del problema. Existen varios métodos de validación, en esta investigación se utilizó el criterio Press el cual consiste en la suma de cuadrados de los residuales calculados eliminando la i-ésima observación del total de los datos.

Resultados y discusión

Estimacion de los modelos de regresion

Para cada una de las cuatro especialidades, se obtuvo tanto el modelo completo como los modelos reducidos por dos métodos de selección de variables. Se verificó el cumplimiento del supuesto de normalidad con la prueba de Wilk y Shapiro y se consideró que valores de W ³ 0,9 tenían una buena aproximación a la distribución normal y la homogeneidad de la varianza de los residuales, en cuyo caso al graficarlos se encontró que se formaron bandas horizontales, no visualizándose ningún patrón que indicara la violación a dicho supuesto. Se estudió la matriz de correlación, no observándose ninguna evidencia de problemas de multicolinealidad; ello se confirmó con el estudio de las raíces características de cada modelo en donde K=l₁/ l₂ fue el indicador de la no existencia de problemas de esta naturaleza ya que en todos los casos estuvo por debajo de 100.

En la especialidad Agrícola (cuadro 2), las pruebas de t del modelo completo resultaron significativas solo las variables X₆, X₁₆, RX₂₁ y X₃₉. Todas ellas fueron incluidas en los modelos seleccionados por ambos métodos. Se hizo un estudio de los coeficientes de las variables seleccionadas, detectándose que eran relativamente estables al compararlos con el modelo completo. En este caso fue preferible el modelo seleccionado por el método de todas las regresiones posibles ya que contenía dos variables regresoras menos con muy poca disminución en el R² y un menor Cp. De las 28 variables estudiadas (sin considerar las ficticias) se incluyeron: sexo X₆, procedencia del estudiante X₇ , tipo de institución X₄, lugar de residencia X₁₆edad del estudiante RX₂₁ , tiempo de ingreso RX₂₃ y 6 de las 16 calificaciones en asignaturas de bachillerato. En las variables cualitativas se consideró que si una de las categorías presentaba significación la variable era significativa. En las variables cuantitativas se pueden analizar los signos de los coeficientes: edad del estudiante RX₂₁ es negativa, por ello el rendimiento disminuye en estudiantes de mayor edad; tiempo de ingreso RX₂₃ es positivo, por ello el rendimiento es mayor en estudiantes que tienen un período mayor de espera antes de comenzar sus estudios universitarios. En cuanto a las asignaturas: el rendimiento en la especialidad agricola es mayor en estudiantes con altas calificaciones en Dibujo RX₂₅, Ciencias de la Tierra RX₃₁, Castellano X₃₂, Física X₃₆ y Química X₃₉ pero bajas en Matemáticas X₃₃. Por ello en esta especialidad los estudiantes de bachillerato destacados en asignaturas científicas (sin considerar matemáticas) y buen manejo del idioma, se espera que obtengan buenos índices de rendimiento académicos en sus estudios en esta especialidad.

Cuadro 2. Comparación del modelo completo con los modelos seleccionados usando dos métodos de selección de variables en la especialidad agrícola.

Modelo		R²	Cp	Nº VAR
Completo	ŷ=4,945+0,192X₄-0,147X₆+0,186X₇+0,011X₈+0,016X₁₀+ 0,080X₁₃+0,002X₁₄-0,180X₁₆-0,003X₁₉ -0,412RX₂₁-0,051RX₂₂+0,165RX₂₃-0,165RX₂₄ +0,181RX₂₅-0,078RX₂₆+0,077RX₂₇+0,142RX₂₈- 0,001RX₂₉+0,042RX₃₀+0,253RX₃₁+0,065X₃₂-0,067X₃₃- 0,020X₃₄+0,030X₃₅-0,051X₃₆-0,013X₃₇+0,007X₃₈+0,085X₃₉	60,05	29	28
Paso a paso	ŷ=5,593+0,205X₄-0,163X₆+0,180X₇-0,184X₁₆-0,440RX₂₁+ 0,135RX₂₃+0,184RX₂₄+0,173RX₂₅+0,219RX₃₁ +0,062X₃₂-0,072X₃₃+0,030X₃₅+0,051X₃₆ +0,089X₃₉	58,16	6,86	14
Todas las Reg.	ŷ=5,278+0,195X₄-0,152X₆+0,177X₇-0,197X₁₆-0,462RX₂₁+0,143RX₂₃+0,170RX₂₅+0,245RX₃₁ +0,064X₃₂-0,073X₃₃ +0,051X₃₆+0,091X₃₉	56,41	6,20	12

En la especialidad C.R.N.R. (cuadro 3), las pruebas de t del modelo completo resultaron significativas las variables X₄, X₈, X₁₆, RX₂₁, RX₂₂, RX₂₃, RX₂₄, RX₂₇, RX₂₈, RX₂₉, RX₃₀, X₃₄, X₃₆, X₃₉. No todas ellas fueron incluidas en los modelos seleccionados por ambos métodos. La diferencia entre los modelos seleccionados fue considerable. Hubo una diferencia del 10% en el R² y en cuanto al número de variables de 10. Los coeficientes de regresión de los modelos seleccionados al compararlos con los del modelo completo no eran estables, esto es hubo algunos cambios de magnitud e inclusive de signos. Considerando el principio de parsimonia, se escogió el modelo con menor número de variables (paso a paso) el cual incluyó: procedencia del estudiante X₁₀, duración del bachillerato RX₂₂, tiempo para ingresar RX₂₃, y 9 de las 16 calificaciones en asignaturas de bachillerato. Analizando los signos de los coeficientes en las variables cuantitativas se pudo observar: duración del bachillerato RX₂₂ y tiempo para ingresar RX₂₃ son positivos, por ello los estudiantes que obtuvieron el título de bachiller en mayor tiempo y tardan más tiempo para ingresar tienen mejor rendimiento en esta especialidad. En cuanto a las asignaturas, el rendimiento es mayor en estudiantes con altas calificaciones en Historia Universal RX₂₄, Geografía de Venezuela RX₂₈, Castellano X₃₂ y Educación Artística X₃₇ y el rendimiento es menor en aquellos que tenían altas notas en Historia de Venezuela RX₂₇, Filosofía RX₃₀, Matemática X₃₃, Biología X₃₄ e Inglés X₃₅. Esto condujo a pensar que los estudiantes inclinados a las asignaturas científicas no serán los de mejor desempeño en esta especialidad ,sino aquellos inclinados a las humanísticas.

Cuadro 3. Comparación del modelo completo con los modelos seleccionados usando dos métodos de selección de variables en la especialidad C.R.N.R.

Modelo		R²	Cp	Nº VAR
Completo	ŷ=12,398-0,096X₄-0,527X₆-0,702X₈- 0,600X₁₀+0,457X₁₃+ 0,013X₁₄-0,378X₁₆+0,297X₁₉ -3,454RX₂₁+1,073RX₂₂ +0,606RX₂₃+ 2,163RX₂₄-0,520RX₂₇+ 1,659RX₂₈+0,856RX₂₉- 1,107RX₃₀+0,336RX₃₁+ 0,060X₃₂+0,073X₃₃-0,330X₃₄+0,044X₃₅- 0,120X₃₆-0,014X₃₇-0,052X₃₈-0,173X₃₉	99,12	27	26
Paso a paso	ŷ=0,564+0,349X₁₀+ 0,322RX₂₂+0,754RX₂₃+0,441RX₂₄-0,433RX₂₇+1,788RX₂₈-0,627RX₃₀+0,248X₃₂ -0,092X₃₃-0,179X₃₄-0,054X₃₅+0,087X₃₇	89,66	18,00	12
Todas las Reg.	ŷ=0,632-0,513X₄-0,294X₆-0,442X₇+ 0,623X₈+0,286X₁₉-0,586RX₂₁+0,663RX₂₂ +0,493RX₂₃+1,584RX₂₄ +0,774RX₂₅-0,858RX₂₇+ 2,034RX₂₈+0,487RX₂₉- 0,992RX₃₀+0,320RX₃₁+0,240X₃₂- 0,154X₃₃-0,278X₃₄-0,045X₃₅+0,052X₃₆+ 0,072X₃₈-0,223X₃₉	99,57	20,88	22

En la especialidad Alimentos (cuadro 4), las pruebas de t del modelo completo resultó significativa solo la variable X₃₉(Calificación en Química durante el bachillerato). Ella fue incluida en los modelos seleccionados por ambos métodos. En relación a los coeficientes de regresión de las variables seleccionadas en ambos modelos al compararlos con los del modelo completo, se observó que hay leves variaciones, pudiendo decirse que eran relativamente estables. En esta especialidad ambos métodos de selección produjeron modelos que explicaron muy poco acerca de la variabilidad total; para los propósitos de predicción no son convenientes y por ello se propuso el modelo completo el cual tenía una determinación de aproximadamente un 70%. Este es un modelo con numerosas variables regresoras, de allí que la ganancia en determinación fue a costa de mayor complejidad. Se considera que todas las variables en estudio son de importancia para la predicción del rendimiento estudiantil en esta especialidad.

Cuadro 4. Comparación del modelo completo con los modelos seleccionados usando dos métodos de selección de variables en la especialidad alimentos.

Modelo		R²	Cp	Nº VAR
Completo	ŷ=6,230+0,500X₄+0,422X₆-0,956X₇- 0,990X₈-1,155X₉-0,794X₁₀+0,107X₁₂ +1,063X₁₃+0,107X₁₄ -0,064X₁₅-0,159X₁₆-0,396X₁₈+ 0,813X₁₉-0,987X₂₀- 0,252RX₂₁-0,628RX₂₂+ 0,530RX₂₃+0,571RX₂₄- 0,108RX₂₅+0,181RX₂₆- 0,298RX₂₇+0,200RX₂₈+0,184RX₂₉+ 0,618RX₃₀-0,186RX₃₁- 0,220X₃₂-0,072X₃₃+0,085X₃₄-0,071X₃₅+ 0,085X₃₆-0,094X₃₇+0,059X₃₈+0,181X₃₉	69,33	35	33
Paso a paso	ŷ=4,565+0,043X₃₅-0,037X₃₇+0,064X₃₈+ 0,096X₃₉	37,60	10,70	4
Todas las Reg,	ŷ=4,966+0,870X₁₃-1,686X₂₀-0,328RX₂₁+ 0,438RX₂₃+0,359RX₃₀+0,108X₃₉	46,98	6,18	6

En la especialidad Pecuaria (cuadro 5), en las pruebas de t del modelo completo resultó significativa solo la variable X₁₇. Ella fue incluida en los modelos seleccionados por ambos métodos. Hubo variaciones en cuanto a los coeficientes de regresión de las variables incluidas en los modelos seleccionados pero se consideró relativamente estable. En este caso fue preferible (considerando el criterio de parsimonia) el modelo seleccionado por el método de todas las regresiones posibles ya que contenía solo ocho variables regresoras lo cual se tradujo en ganancia en precisión y menor complejidad en el modelo a costa de pérdida en determinación ya que la explicación de la variabilidad total de este modelo difirió en un 10% del modelo paso a paso, pero aún así la explicación del 73% fue bastante buena. Las variables que se incluyeron fueron: lugar de residencia X₁₇y X₁₈, edad X₂₁, tiempo para ingresar X₂₃, y 4 de las 16 calificaciones en asignaturas de bachillerato. Considerando el signo de las variables cuantitativas se pudo observar que edad RX₂₁ es negativo y tiempo para ingresar RX₂₃ es positivo, por ello el rendimiento será superior en estudiantes más jóvenes pero que tardan más tiempo en ingresar, las asignaturas de bachillerato que influyeron en esta carrera indicaron que cuanto mayor fue su calificación en las asignaturas Historia de Venezuela RX₂₇ , Geografía de Venezuela RX₂₈ e Inglés X₃₅ es de esperarse que rendimiento de los estudiantes sea mejor en la especialidad Pecuaria, mientras que en relación a la asignatura Química X₃₉ a medida que la nota sea menor en bachillerato el rendimiento será mejor.

Cuadro 5. Comparación del modelo completo con los modelos seleccionados usando dos métodos de selección de variables en la especialidad pecuaria.

Modelo		R²	Cp	Nº VAR
Completo	ŷ=4,243-0,037X₂-0,184X₄-0,103X₆- 0,059X₁₀-0,280X₁₄-0,041X₁₆-1,100X₁₇ +0,985X₁₈-0,092X₁₉ -0,211RX₂₁-0,4321RX₂₂+ 0,297RX₂₃+0,275RX₂₄-0,202RX₂₅-0,133RX₂₆+ 0,581RX₂₇+0,319RX₂₈+0,162RX₂₉-0,192RX₃₀+ 0,248RX₃₁+0,018X₃₂+0,006X₃₃+0,020X₃₄+0,035X₃₅-0,004X₃₆+0,009X₃₇-0,022X₃₈+0,036X₃₉	85,88	29	28
Paso a paso	ŷ=4,633-0,241X₄-0,087X₆-0,304X₁₄- 0,881X₁₇+0,917X₁₈-0,405RX₂₁-0,240RX₂₂ +0,370X₂₃+0,276RX₂₄-0,407RX₂₅-0,156RX₂₆+ 0,595RX₂₇+0,195RX₂₈+0,286RX₂₉+0,241RX₃₁+ 0,025X₃₄	84,22	18,8	16
Todas las Reg,	ŷ=5,653-0,727X₁₇+0,797X₁₈-0,568RX₂₁+ 0,445RX₂₃+0,473RX₂₇+0,292RX₂₈ +0,009X₃₅-0,006X₃₉	73,10	3,18	8

Validacion de los modelos seleccionados por los métodos en estudio:

Con la finalidad de examinar la precisión de los modelos seleccionados por los métodos Paso a Paso y de Todas las regresiones posibles en cada una de las especialidades se utilizó el método PRESS. En el cuadro 6 se presenta el resumen de tales resultados:

Cuadro 6. Valores PRESS para los modelos seleccionados.

Especialidad	Paso a paso	Todas las regresiones posibles
Agrícola	8,23	8,20
Alimentos	10,31	9,95
Pecuaria	4,42	2,90
C,R,N,R,	1,76	0,33

En todos los casos resultaron ser más precisos los modelos seleccionados por el método de Todas las regresiones posibles; sin embargo, las diferencias fueron muy pequeñas y ambos modelos pudieron considerarse buenos.

Los resultados obtenidos en los análisis anteriores permiten establecer resultados generalizables hasta el límite definido por las características de la muestra y a medida que las exigencias y condiciones sean semejantes. Las técnicas de análisis de regresión múltiple en presencia de variables cualitativas y cuantitativas permitieron establecer modelos con el fin de sugerir al estudiante que ingrese a la carrera, donde alcanzará el mayor nivel de expectativas permitiendo también incrementar el interés del estudiante hacia una profesión relacionada con el mayor éxito posible. Los modelos seleccionados de acuerdo a su determinación, precisión, número de variables y el criterio del educador, fueron:

Para la especialidad agrícola:

ŷ= 5,278 + 0,195X₄ -0,152X₆ + 0,177X₇ -0,197X₁₆ -0,462RX₂₁ + 0,143RX₂₃ + 0,170RX₂₅ + 0,245RX₃₁ + 0,064X₃₂ -0,073X₃₃ + 0,051X₃₆ + 0,091X₃₉

Para CRNR:

ŷ=0,564+ 0,349X₁₀+ 0,322RX₂₂+ 0,754RX₂₃+0,441RX₂₄ -0,433RX₂₇+1,788RX₂₈ -0,627RX₃₀+ 0,248X₃₂-0,092X₃₃ -0,179X₃₄-0,054X₃₅+ 0,087X₃₇

Para alimentos:

ŷ=6,230+0,500X₄ +0,422X₆-0,956X₇ -0,990X₈-1,155X₉ -0,794X₁₀+0,107X₁₂ +1,063X₁₃+0,107X₁₄ -0,064X₁₅-0,159X₁₆ -0,396X₁₈+0,831X₁₉ -0,987X₂₀-0,252RX₂₁ -0,628RX₂₂+ 0,530RX₂₃+0,571RX₂₄ -0,108RX₂₅+ 0,181RX₂₆-0,298RX₂₇ + 0,200RX₂₈+ 0,184RX₂₉+ 0,618RX₃₀-0,186RX₃₁ -0,220X₃₂-0,072X₃₃ +0,085X₃₄-0,071X₃₅ +0,085X₃₆-0,094X₃₇ + 0,059X₃₈+ 0,181X₃₉

Para pecuaria:

ŷ=5,653-0,727X₁₇ +0,797X₁₈-0,568RX₂₁ + 0,445RX₂₃+ 0,473RX₂₇+ 0,292RX₂₈+ 0,009X₃₅-0,006X₃₉

Estos modelos explicaron respectivamente el 56,41%; 89,66%, 69.33% y el 73,10% de la variabilidad total del rendimiento y las variables escogidas difieren de acuerdo a la especialidad. Los dos métodos de selección de variables discutidos en este trabajo fueron instrumentos muy útiles, sin embargo, en este trabajo no se pudo establecer que un método sea mejor que el otro. Es de notar que en presencia de variables cualitativas y cuantitativas, las pruebas de t como pruebas parciales se comportaron mucho más estrictas que cualquiera de los métodos de selección estudiados.

Cuando se usa en forma mixta variables cuantitativas y cualitativas, la complicación del cálculo es manifiesta, debido al elevado número de variables ficticias que es preciso introducir cuando el número de variables cualitativas es alto e igualmente cuando se incrementa el número de niveles que cada una posee. Tal como fue mencionado, los coeficientes de regresión asociados a las variables dummy cuantifican el efecto producido por la presencia del correspondiente nivel de la variable explicativa, pero solo es posible establecer, si algún nivel es significativo y en cuyo caso la variable es significativa, pero no se puede a ciencia cierta establecer cual es la categoría más importante ya que el nivel de referencia codificado por 0 afecta el intercepto y este es único, por ende, en presencia de varias variables cualitativas es imposible su interpretación. Cuando la intención es determinar en una variable cualitativa cual(es) es el nivel(es) más influyente(s) sobre la variable respuesta, se recomienda fijar modelos de regresión para cada variable cualitativa o modelos de regresión múltiple donde se incluya solo una variable cualitativa y una cuantitativa.

Se recomienda validar este modelo en otras instituciones similares y de esa forma se podría ofrecer como aporte a todas las instituciones del país. Se recomienda además, continuar este estudio incluyendo otras variables que no fueron incluidas, con la finalidad de que la explicación de la variabilidad total de estos modelos se acerque más al 100%; así como también reducir el número de variables regresoras, haciendo uso de métodos multivariados tal como el de componentes principales, para luego realizar los análisis de regresión múltiple.

Literatura citada

1. Barlett, M.S. 1974. "The use of transformations" Biometrics, 3.1. [ Links ]

2. Chacín, F. 1998. Análisis de Regresión y Superficie de Respuesta. Maracay. Revista de la Facultad de Agronomía. U.C.V. [ Links ]

3. Chacín, F. 1999. Avances Recientes en el Diseño y Análisis de Experimentos. Maracay. Revista de la Facultad de Agronomía. U.C.V. [ Links ]

4. Faber, R. 1971. "Use of Dummy Variables in Regression Analysis". Mimeo ECIEL. [ Links ]

5. Hosmer, D.A. y S. Lemeshow. 1989. Applied Logistic Regression. John Wiley and Sons. New York. 307 pp. [ Links ]

6. Martinez, G.A. 1988. Teoría de la regresión con aplicaciones agronómicas. Editorial Trillas. Primera edición. 490 pp. [ Links ]

7. Ruiz-Maya, L., F.J. Martín, J.M. Montero. y P. Uriz. 1995. Análisis Estadístico de Encuestas: datos cualitativos. Colección Plan Nuevo. Editorial AC. Madrid. España. 722 pp. [ Links ]

8. Wrigley, N. 1985. Categorical data analysis for geographers and environmental scientists. Longman. London. 231 pp. [ Links ]