SciELO - Scientific Electronic Library Online

 
vol.31 número3Críticas del libromodelos del tamaño de copa de pinus sylvestris l. en bosques del centro de españa índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

Compartir


Interciencia

versión impresa ISSN 0378-1844

INCI v.31 n.3 Caracas mar. 2006

 

Alternativa a la regresión con componentes principales basada en biplot de regresión

Olesia Cárdenas1, Carlos Noguera2, Purificación Galindo3 y José L. Vicente-Villardón4

1Olesia Cárdenas. Doctora en Matemáticas, Universidad de Salamanca (US), España. Magister en Estadística, Universidad Central de Venezuela (UCV). Profesor, UCV, Venezuela. Dirección: Escuela de Economía, Facultad de Ciencias Económicas y Sociales, UCV, Caracas 1041, Venezuela. e-mail: olesiacardenas@cantv.net

2Carlos Noguera. Magister en Investigación Operativa y Profesor, UCV, Venezuela. e-mail: carlen@cantv.net

3Purificación Galindo. Doctora en Matemáticas y Profesora, US, España. e-mail: pgalindo@usal.es.

4José Luis Vicente-Villardón. Doctor en Matemáticas y Profesor, US, España. e-mail: villardon@usal.es.

Resumen

Se presenta un método alternativo de estimación que permite aproximar el biplot de una matriz de datos a través del ajuste de modelos bilineales, en cuyo caso los denominamos Biplot de Regresión. Su ajuste resulta similar a la Regresión con Componentes Principales, cuando las variables se tratan en el análisis en forma simétrica, su distribución es normal y se introduce convenientemente una métrica en el espacio de las mismas. Sin embargo, los Biplots de Regresión tienen la ventaja de permitir ajustes no lineales y representar confiablemente en forma gráfica, las relaciones entre individuos y/o variables. Para su interpretación se analiza la geometría, en la forma clásica y en términos de proyecciones sobre subespacios de mejor ajuste. Finalmente se realiza un análisis comparativo a través de dos aplicaciones prácticas, demostrando su potencialidad para la aplicación en cualquier campo de las ciencias naturales y sociales.

An alternative to principal components regression based on regression biplot

Summary

An alternative estimation method, herein termed Regression Biplots, is shown to approximate a data matrix biplot fitting bilinear models. The biplots and the Principal Components Regression are similar methods when the variables have a symmetrical role, a normal distribution and a convenient meter is introduced in their space. The advantage offered by the Regression Biplots arises from the possibility of being able to demonstrate in graphic form the association, linear or not, between subjects and/or variables. For the interpretation of the graphic representation, its geometry was analyzed in the classic form and in terms of projections onto the best-fitted subspaces. Finally, a comparison is made through two practical applications, showing the usefulness of the method in diverse fields of natural and social sciences research.

Alternativa à regressão com componentes principais baseada em biplot de regressão

Resumo

Apresenta-se um método alternativo de estimação que permite aproximar o «biplot» de uma matriz de dados através do ajuste de modelos bilineares, em cujo caso os denominamos Biplots de Regressão. Seu ajuste resulta similar à Regressão com Componentes Principais, quando as variáveis são tratadas na análise em forma simétrica, sua distribuição é normal e se introduz convenientemente uma métrica no espaço das mesmas. No entanto, os «Biplots de Regressão» têm a vantagem de permitir ajustes não lineares e representar confiavelmente em forma gráfica, as relaçðes entre indivíduos e/ou variáveis. Para sua interpretação se analisa a geometria, na forma clássica e em termos de projeçðes sobre sub espaços de melhor ajuste. Finalmente se realiza uma análise comparativa através de duas aplicaçðes práticas, demonstrando sua potencialidade para a aplicação em qualquer campo das ciências naturais e sociais.

Palabra Clave: Análisis de Datos, Biplot, Componentes Principales, Regresión.

Recibido: 18/02/2005. Modificado: 17/01/2006. Aceptado: 18/01/2006.

Introducción

La gran difusión de los métodos multivariantes de análisis de datos, entre ellos los Biplots introducidos por Gabriel en 1971, se basa principalmente en la posibilidad de poder visualizar con alta confiabilidad, en gráficos bidimensionales, las relaciones existentes entre grandes conjuntos de datos.

El enfoque clásico de los Biplots no considera la distribución probabilística subyacente, realizando la aproximación de la matriz de datos a través de la descomposición en valores singulares, para luego realizar una factorización en marcadores filas y columnas.

Otro enfoque diferente al clásico, basado en la estrecha relación existente entre la teoría de aproximación mínimo cuadrática de matrices y su descomposición en valores singulares, permite enfocar los Biplots como ajustes a través de modelos bilineales, en cuyo caso los denominamos Biplots de Regresión, adoptando la terminología de Gower y Hand (1996), en el sentido que su ajuste requiere la realización de regresiones alternadas. Considerando un análisis simétrico, e introduciendo la métrica identidad en el espacio de las variables de la matriz de datos, se puede demostrar la existencia de similitud entre el ajuste de un Biplot de Regresión y los resultados obtenidos a través de una Regresión con Componentes Principales.

El desarrollo del trabajo se realiza en cuatro secciones. En la primera, se establecen las relaciones entre los métodos de análisis relacionados con los Biplots. Este desarrollo sustenta, en la segunda sección, la aproximación de una matriz a través de Biplots de Regresión, como una alternativa confiable a la Regresión con Componentes Principales. En la tercera sección se presenta un método alternativo de estimación para los Biplots de Regresión, que permite obtener, en ajustes no lineales, una mejor aproximación. En la última sección se presenta una comparación entre los métodos que muestra la bondad de los ajustes obtenidos utilizando dos aplicaciones prácticas.

Biplot, Componentes Principales y Regresión con Componentes Principales

Estos métodos de análisis multivariante tienen como objetivo general, la aproximación en baja dimensión de una matriz de datos Y de orden (nxp), n individuos y p variables.

Los análisis Biplot y de Componentes Principales, se utilizan en el análisis descriptivo de las relaciones entre los n individuos y las p variables de la matriz, para lo cual se realiza su aproximación sin hacer supuestos sobre distribuciones subyacentes ni utilizar modelo alguno, por lo que no se establece diferenciación entre variables dependientes e independientes.

Una Regresión con Componentes Principales se utiliza para realizar predicciones de una matriz Y de variables dependientes normalmente distribuidas, de orden (nxp), a través de la proyección sobre el subespacio óptimo generado por una matriz X de variables independientes, de orden (nxr), utilizando un modelo lineal que establece una relación de las Y en función de las X.

Análisis Biplot

El análisis Biplot se utiliza en el caso de cualquier tipo de variables (continuas y discretas) y cuando la finalidad es aproximar los datos originales y realizar un análisis simultáneo de las relaciones entre individuos y/o variables.

Su fundamentación teórica se basa en la aproximación de una matriz Y, de orden (nxp) y rango r, por otra de rango q (q<r), a través de su descomposición en valores singulares (DVS):

Y@ UåaV'            (1)

siendo U y V matrices de vectores singulares ortonormales, tal que U'U=V'V=I (I es la matriz identidad) y   åa es una matriz diagonal que contiene los ak   mayores valores singulares.

Se puede factorizar la matriz   åa en el producto de dos matrices, o sea

Y@UåaSåa S-1  V'= FC'                 (2)

de donde

F=UåaS y  C=Våa1-s(3)

Las matrices F y C contienen las coordenadas de los marcadores filas (vectores fila fi) y columnas (vectores columna Cj) a utilizar, simultáneamente, sobre la representación gráfica Biplot. Dependiendo de los valores dados al escalar s en la factorización se pueden obtener los Biplots de Gabriel (1971), el JK (cuando s= 1), el GH (cuando s= 0) y el SQRT (cuando s= 0,5). En cada uno de ellos, los marcadores filas y columnas tienen propiedades que los caracterizan y permiten, considerando las propiedades geométricas del producto interno entre ellos, reconstruir los datos originales y aproximar gráficamente el orden de los individuos y/o la variabilidad y correlación de las variables a través, respectivamente, de las proyecciones de los marcadores filas sobre los marcadores columnas y de la longitud y el ángulo que forman los ejes biplot

En un JK-Biplot se aproxima la matriz centrada por columnas , a través de la DVS bajo la restricción V'V=I, lo que equivale a asignar el valor s= 1 en (3), de donde las matrices de marcadores fila y columna son

C=V    (4)

En este tipo de Biplot, son los marcadores filas fi los resaltantes, ya que preservan la métrica entre las filas (row metric preserving) y tienen una calidad de representación óptima.

En un GH-Biplot se aproxima la matriz a través de la DVS, bajo la restricción U'U=I, lo que equivale a asignar el valor s= 0 en (3), siendo las matrices de marcadores fila y columna

F=U   C=Våa        (5)

en cuyo caso son los marcadores columnas Cj los que tienen una calidad de representación óptima, preservando además la métrica entre las columnas (column metric preserving).

Análisis de Componentes Principales

El Análisis de Componentes Principales (ACP) se utiliza en el caso de variables continuas y la finalidad es realizar un análisis de las relaciones entre individuos y/o variables a través de variables latentes denominadas componentes principales, tal que sea posible explicar la máxima variabilidad de las variables a través de las componentes principales.

En este análisis se aproxima la matriz centrada Yc, de rango r, a través de su proyección ortogonal sobre un subespacio de dimensión q (q<r), generado por q vectores linealmente independientes que son las columnas de una matriz T, que sin perdida de generalidad podemos suponer que son ortonormales (T'T=I).

Matemáticamente la solución óptima se basa en la búsqueda de la matriz T, simétrica y definida positiva, tal que se minimice el error cuadrático medio de las predicciones (êêYC - C êê)  , de donde

Yc @YcTT'=ZT'           (6)

La matriz Z = YcT contiene las componentes principales. Cuando T=V sus columnas coinciden con los autovectores asociados a los q mayores autovalores lk(lk=a2k)de la matriz de covarianzas [Y'cYc].

Consideremos la DVS de Yc, entonces de (6),

Yc @(UåaV')VV'

y si I denota las q primeras columnas de la matriz identidad, entonces

Yc@Uåa IV'=UåaV'=ZV'      (7)

De allí que una forma alternativa de abordar un ACP es a través de la DVS. Las filas de la matriz Z=Uåay las columnas de V', contenidas en las matrices F y C de (4), son respectivamente las coordenadas para los individuos y para los ejes biplot. De allí la similitud, bajo la restricción V'V=I, entre los análisis JK-Biplot y Componentes Principales.

Obtenidas las componentes principales se realiza una representación gráfica, proyectando sobre las mismas la nube de individuos para su comparación. También se puede realizar, aunque no simultáneamente, la proyección sobre el gráfico de la nube de variables, lo que permite la comparación entre variables a través de sus posiciones sobre las componentes principales.

Regresión con Componentes Principales

En una Regresión con Componentes Principales (RCP), el análisis se basa también en la aproximación óptima, en el sentido de los mínimos cuadrados, sustentada por la expresión (6), pero utilizando el siguiente modelo lineal multivariante para la aproximación de la matriz de variables dependientes Y de orden (nxp):

Y = XB'+E           (8)

donde X es una matriz (nxr) de regresores o variables independientes, B es la matriz (rxp) de parámetros y E es la matriz (nxp) de perturbaciones aleatorias con distribución normal N(0,s2I).

Cuando existe alto grado de multicolinealidad entre los regresores, en RCP se obtienen las componentes principales Z de la matriz X para corregir la inestabilidad que se produce en la estimación de los parámetros, para lo que se realiza la DVS de X:

X = UåaV' de donde XV = Uåa= Z

Es posible entonces reespecificar el modelo (8) como

Y = (XV)B'+E   o  Y = ZB'+E   (9)

para el cual la esperanza matemática E(Y/Z) será

E(Y/Z) = ZB'         (10)

Ahora bien, consideremos la DVS de Y para luego realizar una factorización Biplot:

Y»Uåa V' = (UåaS ) (åa1-SV') = ZV'

lo que resulta equivalente al caso de ajustar un modelo a las componentes principales Z de la matriz de datos Y, coincidiendo con el modelo (10) cuando V=B, por lo que un Biplot se puede enfocar a través del ajuste de un modelo de regresión.

Si consideramos la matriz Y centrada por columnas e introducimos la métrica V'V=I, entonces el ajuste mínimo cuadrático a través del modelo (10) resulta equivalente a un JK-Biplot, ya que

Yc = (Uåa) V' = FC'

coincidiendo las matrices F y C con las definidas en (4).

La diferencia fundamental entre esos tres métodos se puede resumir así:

- En RCP al igual que en un modelo lineal multivariante, se asignan papeles asimétricos a dos conjuntos de variables estableciendo una relación funcional entre variables dependientes Y e independientes X, que permite realizar predicciones de las variables del conjunto Y a través de proyecciones ortogonales de las columnas de esa matriz, sobre el subespacio óptimo generado por las columnas de X, en el sentido de los mínimos cuadrados.

- En un JK-Biplot no se establece diferenciación alguna entre variables dependientes e independientes por lo que se les da papeles simétricos a las variables que conforman la matriz Y, permitiendo predecir cualquiera de ellas en forma gráfica, utilizando las proyecciones ortogonales sobre subespacios de mejor ajuste, en el sentido de los mínimos cuadrados.

Biplot de Regresión

Householder y Young (1938) demostraron que la aproximación mínima cuadrática de una matriz coincide con su DVS, por lo que es posible aproximar el Biplot de una matriz Y a través del ajuste del siguiente modelo bilineal generalizado, de tipo multiplicativo (Cárdenas et al., 2001, 2004):

h= g (m) = AB'         (11)

siendo g una función enlace, m=E(Y), A y B matrices de parámetros de rango q y ordenes (nxq) y (pxq), respectivamente.

En ese modelo, al igual que en los modelos lineales generalizados (Nelder y Wedderburn, 1972), las variables pueden tener cualquier distribución perteneciente a la familia exponencial, por lo que los valores esperados m se encuentran relacionados con predictores lineales h a través de funciones enlace g, tales como la identidad, la logit, la probit, etc., de donde g(m) resulta en una forma linearizada de la función enlace.

Como las matrices A y B son ambas desconocidas, excepto por su rango q, su estimación en el modelo requiere de la realización iterativa de regresiones en forma alternada, o sea, dada A se estima B y viceversa. Sin embargo, la solución pasa por la estimación inicial 0, lo cual puede hacerse para eliminar el problema de la

 multicolinealidad, utilizando por ejemplo algún método de escalamiento como Componentes Principales, o en su defecto Coordenadas Principales.

Estimadas y se pueden considerar a posteriori las restricciones de

ortonormalidad realizando la DVS de la solución final obtenida, para luego factorizar en matrices de marcadores filas y columnas, lo que permite representar cualquier tipo de Biplot conservando sus propiedades

g() = = Uåasåa1-sV'=FC'    (12)

Siguiendo la terminología de Gower y Hand (1996), a los Biplots ajustados realizando regresiones alternadas, los denominamos Biplots de Regresión (BR), aun cuando el análisis tenga una concepción diferente al realizado en Regresión, desde el punto de vista del papel simétrico dado a las variables y la finalidad descriptiva del análisis.

Cuando la función enlace utilizada es la identidad (g = I) y la distribución de las variables es normal, los denominamos Biplots de Regresión Lineal, mientras que si la función enlace es diferente de la identidad (g ¹ I) y la distribución de las variables es cualquiera perteneciente a la familia exponencial, los denominamos Biplots de Regresión no Lineal.

La representación gráfica de los BR se puede interpretar en la forma clásica, considerando las propiedades geométricas del producto interno entre marcadores fila y columna, y también considerando la geometría de la proyección sobre subespacios de mejor ajuste en el sentido de los mínimos cuadrados.

En el caso de los Biplots de Regresión Lineal, su geometría es similar a la de un ajuste de Regresión Lineal (Gower y Hand, 1996), de donde ajustar un plano de regresión a cada columna de la matriz Y conlleva a la obtención de una superficie de respuesta lineal, cuya proyección sobre un subespacio de baja dimensión es también lineal.

En el caso del ajuste de los Biplots de Regresión no Lineal, Cárdenas et al. (2001) analizan su geometría demostrando que el ajuste de regresión a cada columna de la matriz Y conlleva a la obtención de una superficie de respuesta no lineal, cuya proyección sobre el subespacio de mejor ajuste es siempre lineal, independientemente de la función enlace utilizada en el ajuste. Esos resultados corresponden a una generalización de los obtenidos por Vicente-Villardón y Galindo (1998) en el ajuste de un Biplot Logístico (con función enlace logit) cuya geometría se muestra en la Figura 1.

En dicha Figura 1, supongamos que es el subespacio q-dimensional de mejor ajuste a las columnas de Y. Realizando el ajuste por regresión, se obtiene una superficie de respuesta sigmoidal . El conjunto de puntos de que aproxima un cierto valor de la variable yj, está constituído por la intersección, del plano normal para ese valor, con la superficie . De allí que el conjunto de puntos de que aproxima un cierto valor de la variable yj está sobre la recta que parte del origen y pasa por el centro de la intersección de cada plano normal sobre . Para distintos valores a predecir de yj se obtienen rectas paralelas en la superficie . A la dirección normal a todas esas rectas paralelas se le llama xj, y es el eje de referencia para la predicción de los valores de la variable yj. Generalizando, el conjunto de puntos que predicen diferentes valores de la variable yj está también sobre rectas paralelas. A la dirección normal a sus proyecciones sobre se le llama eje biplot bj , que coincide con la proyección de xj sobre ese subespacio.

En contraste con los Biplots Clásicos, en cuyos gráficos las variables mal representadas se posicionan en torno al origen, por lo que se representan con los ejes biplot más cortos, en los Biplots Logísticos su proyección sobre el subespacio de mejor ajuste dependerá de la pendiente de la misma, o sea, en la medida que la pendiente sea menor se obtienen ejes biplot más largos y una peor discriminación, lo que caracteriza a las variables mal representadas (Cárdenas et al., 2001).

Como se indicó en el apartado anterior, un JK-Biplot es similar a la RCP, aunque con concepciones diferentes. Sus diferencias consisten en sus usos y en la forma en que se consideran las variables, o sea, el JK-Biplot se utiliza solo descriptivamente y se ajusta dando un papel simétrico a las variables.

Cuando se usa el modelo (12) para la aproximación Biplot de la matriz Y, entonces a dicho ajuste se le puede denominar JK Biplot de Regresión (JK-BR), el cual tiene la ventaja, en comparación con la RCP, de permitir la realización de ajustes no lineales para variables con cualquier distribución de la familia exponencial, obteniendo además alta calidad en la representación gráfica.

Generalizando los BR, se puede considerar introducir una matriz X de variables externas para los individuos, de manera tal que los ejes biplot sean combinaciones lineales de ellas, para lo cual se reespecifica el modelo (12) como:

g(m)= X '=(XUåas )(åa1-sV')=(XZ)V'=FC' (13)

y cuando s= 1 ese modelo permite aproximar la matriz Y a través de un JK-BR con Información Externa, en forma similar a una RCP sobre la matriz [XZ] (combinación lineal de las componentes principales). Son varias las ventajas de considerar información externa:

- Es posible ordenar (clasificar) los individuos en función de las variables externas, en el sentido del análisis canónico de correspondencias (Ter Braak, 1986).

- Permite obtener indicadores de las relaciones entre las variables en las matrices Y y X, ya que se puede demostrar que la matriz de parámetros (AB') en ese modelo es equivalente a una matriz ponderada de coeficientes de correlación entre las variables Y y X (Cárdenas et al., 2003).

Estimación en Biplot de Regresión

Para el ajuste de un BR se realiza la estimación de las matrices de parámetros en el modelo (12), a través de la realización alternada de regresiones en dos etapas iterativas, hasta que las estimaciones converjan a un valor con mínima discrepancia.

Para la estimación de la matriz B, en la etapa 1, se realiza la regresión de las columnas de la matriz Y sobre las columnas de la matriz (estimada a priori), de

 donde = ()Y.Para la estimación de la matriz A, en la etapa 2, se 

realiza la 

regresión de las filas de la matriz Y sobre las columnas de la matriz B obtenida en la etapa 1 tal que  =( )-1 Y'

Es posible utilizar los siguientes métodos de estimación, los cuales se diferencian entre ellos en la distribución considerada y en la forma que se realizan las regresiones alternadas, columna a columna, o todas las columnas simultáneamente en la matriz Y.

Mínimos cuadrados alternados

Este método de estimación se puede utilizar cuando las variables se distribuyen normalmente, permitiendo obtener estimaciones realizando alternadamente regresiones mínimo cuadráticas columna a columna, y fila a fila de la matriz Y. Las soluciones vienen dadas por la realización iterativa de las dos etapas antes mencionadas.

Regresiones generalizadas alternadas

Este método de estimación se diferencia del anterior, en que puede utilizarse cuando las variables tienen cualquier distribución de la familia exponencial y la función enlace utilizada puede ser logit, probit, etc. Permite obtener estimaciones máximo verosímiles realizando alternadamente regresiones generalizadas columna a columna, y fila a fila de la matriz Y. En general, las ecuaciones obtenidas en estimación máximo verosímil son no lineales, por lo que tienen que ser resueltas aplicando, por ejemplo, el método de Newton-Raphson, el cual tiene como ventaja que permite obtener la matriz de información y de allí calcular fácilmente las varianzas asintóticas de los estimadores y la "Deviance" para verificar la bondad del ajuste al igual que en los modelos lineales generalizados. La "Deviance" mide la discrepancia entre el modelo y los datos, por lo que se considera como una medida de bondad de ajuste. Utilizando el método de la Razón de Verosimilitud (RV), se toma el valor que hace mas probable obtener la muestra observada que es compatible con la hipótesis nula Ho (establece un modelo solo con constante), o con la hipótesis alternativa H1 (establece un modelo con s parámetros adicionales) y se calcula como D=-2logRV= 2[logL(H1)-logL(Ho)] ~ X2s.

Regresiones bilineales generalizadas

Este método de estimación, propuesto por Gabriel (1998), es una generalización del anterior y permite obtener estimaciones máximo verosímiles realizando alternadamente una regresión generalizada sobre todas las columnas/filas de la matriz Y. Para su aplicación se reescribe el modelo (11) transformando la matriz Y en un vector para lo cual se concatenan sus columnas, se considera el producto Kronecker Å y las propiedades del producto de matrices concatenadas, o sea

g(y) = [AB'I] = [IÅA]b' = [diag(A)]b'  (14)

donde y es un vector columna de orden (npx1) obtenido por la concatenación de las columnas de la matriz Y, a' y b' son vectores columna, (nqx1) y (qpx1) respectivamente, obtenidos por la concatenación de las filas de las matrices A (nxq) y B (qxp), y [AB' I] = [IÅA]b' designa la concatenación de columnas del producto de matrices.

En la etapa 1 se realiza la regresión generalizada del vector y sobre las columnas de la matriz (estimada a priori) para obtener la estimación del vector b', y en la 

etapa 2 se realiza la regresión generalizada del vector y' sobre las columnas de B para estimar el vector a.

Estimación simultánea

Generalizando el método de Regresiones Bilineales Segmentadas (Gabriel, 1998), Cárdenas et al. (2001) proponen un método alternativo que permite obtener estimaciones máximo verosímiles simultáneas y en forma conjunta para todas las columnas y filas de la matriz Y.

Para el ajuste de un BR, se propone utilizar el siguiente modelo, con término independiente (constante), desagregando las matrices A y B en dos submatrices tal que

g(m) = A*B*' = AoB'o + AB'     (15)

siendo A* = [Ao A] y B* = [Bo B], donde los subvectores Ao y Bo permiten la inclusión de un término independiente, ya que sin su inclusión cuando por ejemplo las variables tienen distribución binomial, la predicción de las probabilidades para valores iguales a 0 será constante e igual a 0,5.

Ese modelo se puede expresar pre y postmultiplicando cada sumando por matrices identidad I y para el caso cuando Ao es el vector unitario 1 de orden (nx1), como

g(m) = A*B*' = In1nB'oIp + InAB'Ip (16)

Al igual que en (14) ese modelo se puede reescribir, concatenando las columnas o filas de la matriz E(Y) = m, considerando el producto Kronecker Å y la concatenación del producto de matrices ([A*B*'I] = [IÅA]b*'), o sea

El sistema de ecuaciones resultante se puede resolver realizando estimaciones iterativas en dos etapas hasta que converjan. En la etapa 1, suponiendo A* conocida, se realiza la regresión generalizada del vector concatenado y sobre las columnas de A* para obtener la estimación del vector concatenado b*', y en la etapa 2 se realiza la regresión generalizada del vector y' sobre las columnas de B* (estimadas en la etapa 1) para obtener la estimación del vector a*'.

Aplicaciones

Dos aplicaciones prácticas ilustran y comparan la bondad en las soluciones finales obtenidas. En la primera se utiliza una matriz de datos Y de orden (20×4), tomada de Gower y Hand (1996), mientras que en la segunda se utiliza una matriz de datos Y de orden (38×50), tomada de Golub et al. (1999).

Primera aplicación. En ésta se transforma la matriz Y en una matriz indicadora de orden (20×16), separando las categorías correspondientes en cada una de las variables consideradas: nivel de humedad (H1 bajo, H2 moderado, H3 regular, H4 alto), tipo de granja (GN granja normal, GB granja biológica, GH granja hobby, GC granja conservacionista de la naturaleza), uso de la granja (U1 producción, U2 intermedio, U3 pasto) y nivel de abono (A0 ninguno, A1 bajo, A2 moderado, A3 regular, A4 alto).

Utilizando programas elaborados en MATLAB (Vicente-Villardón, 2000; para detalles contactarlo en villardon@usal.es) se hacen los siguientes ajustes:

1- Un JK-Biplot, equivalente, como se indicó arriba, a la RCP para datos centrados, sin diferenciar entre variables dependientes e independientes. Para la interpretación de la Figura 2 se considera la calidad de la representación y la geometría de los Biplots Clásicos, a través de la cual las variables mal representadas se muestran mediante segmentos cortos en torno al origen, el ángulo entre los ejes biplot aproxima el grado de correlación entre las variables y la proyección de los marcadores filas sobre cada eje biplot aproxima el orden de las granjas de acuerdo a ellas.

2- Un JK-Biplot de Regresión no Lineal (JK-BR), ajustado a cada una de las categorías utilizando el modelo (16) con término independiente y función enlace logit, o sea

   g(y) = logit(p) = log[p/(1-p)] = [A*B'*I] = bjo+ai1 bj1+ai2bj2

En la resolución del sistema de ecuaciones, los valores iniciales ao' se obtuvieron mediante la ordenación de las filas de la matriz Y, a través de un análisis de Coordenadas Principales, aplicado a la matriz de similaridades obtenidas con el coeficiente de Jaccard. Para la interpretación se considera la bondad del ajuste medida a través de la Deviance, el porcentaje de bien clasificados y la geometría de los Biplots Logísticos. En la Figura 3, la probabilidad de presencia (p) de cada categoría se puede aproximar proyectando los marcadores fila sobre cada eje biplot.

Para facilitar la predicción, en la Figura 3 se introducen marcas en los ejes que corresponden a los percentiles 25, 50 y 75, de donde si la proyección cae por encima del punto medio de cada eje, entonces se predice presencia de la categoría (p³0,5) y en caso contrario se predice ausencia. Algunas de las variables, generalmente las mal representadas, tienen todas sus predicciones correspondientes a ausencias y son las que coinciden en el gráfico con los segmentos de mayor tamaño, tal como sucede con A3, U3, H2 y GB.

Siguiendo las pautas dadas para la interpretación de las figuras 2 y 3 y del análisis de los resultados de la Tabla I, se concluye que

- La Deviance en el JK-BR indica un buen ajuste (p valor <0,05) para las variables H1, H4, GN, GH, GC, A2.

- Las variables mal representadas (con baja calidad de representación) en el JK-Biplot son H2, H3, GB, U3, A1, A2 y A3, mientras que en el JK-BR solo son H2, GB, U3 y A3. Para estas variables se deben tomar con cautela las estimaciones obtenidas a través de las proyecciones sobre dichos segmentos.

- Los porcentajes de granjas Bien Clasificadas (BC) en el JK-BR son altos para todas las variables, por lo que la predicción de presencia-ausencia de cada variable es bastante aproximada. Sin embargo, en el JK Biplot (RCP) no se obtienen altos porcentajes de granjas bien clasificadas (%BC <60) para las variables H1, H2, H3, H4, GN, U1, A2 y A3.

Por último se comparan en la Tabla II los resultados con los obtenidos por Gower y Hand (1996) a través del Análisis de Correspondencias (AC), demostrándose que con el JK-BR se obtienen mayores porcentajes de granjas bien clasificadas en cada categoría, que los obtenidos a través del JK-Biplot (o RCP) y el AC, resultado que se esperaba ya que la distribución probabilística de las variables fue considerada en el ajuste del BR.

Las conclusiones obtenidas en esta primera aplicación reflejan aproximadamente, como se esperaba, la estructura de la matriz de datos original: las granjas normales GN se ubican en la zona correspondiente a nivel alto de abono A4, uso intermedio U2 y humedad moderada H2; las granjas biológicas GB y las granjas para hobby GH se ubican en la zona correspondiente a niveles de abono A2 y A3, uso para pasto U3 y humedad H1 y H3; y las granjas conservacionistas GC se ubican en la zona correspondiente a nivel alto de abono A0, uso para la producción U1 y humedad alta H4.

Segunda aplicación. Aquí se utiliza una matriz Y de datos presencia-ausencia, de orden (38×50), para la clasificación de una muestra de medula ósea dividida en dos grupos, Acute Lymphoblastic Leukemia (ALL) con 27 miembros y Acute Myeloid Leukemia (AML) con 11 miembros.

La clasificación se hace utilizando 50 genes (ADN), 22 para ALL (c1, c2, c8, c9, c10, c11, c17, c18, c20, c23, c26, c27, c30, c35, c36, c37, c39, c42, c43, c48, c49, c50), y 28 para AML (c3, c4, c5, c6, c7, c12, c13, c14, c15, c16, c19, c21, c22, c24, c25, c28, c29, c31, c32, c33, c34, c38, c40, c41, c44, c45, c46, c47). Se utiliza la notación ci (i = 1, ···· ,50) para cada gen, pero su identificación científica se presenta en la Tabla III. Una descripción mas detallada de los datos puede encontrarse en Golub et al. (1999).

En el ajuste del BR se utiliza, al igual que en la primera aplicación, el modelo (16) con término independiente y función enlace logit. En la resolución del sistema de ecuaciones se obtuvieron los valores iniciales ao' mediante las componentes principales estandarizadas de las filas de la matriz Y. Para la interpretación se considera la bondad del ajuste medida a través de la Deviance, el porcentaje de bien clasificados y la geometría de los Biplots Logísticos.

La Deviance en la Tabla III indica un buen ajuste para todos los genes (p valor <0,05), siendo el porcentaje de bien clasificados (%BC) superior al 75%, por lo que la predicción de presencia-ausencia de cada gen es bastante aproximada.

Al igual que en la primera aplicación, en la Figura 4 la probabilidad de presencia (p) de cada gen se puede aproximar proyectando los marcadores fila sobre cada eje biplot. Con el fin de facilitar la predicción, se introducen marcas en los ejes para los percentiles 50 y 75.

Para la validación de los resultados se proyectan sobre el gráfico 34 muestras adicionales, 20 ALL y 14 AML, utilizando el procedimiento propuesto por Gower y Hand (1996) para los Biplots de Interpolación, que parte de vectores conocidos yi = (yi1, …., yip)', suponiendo valores fijos para los marcadores columna en la matriz B, de donde  a'i=(B'B)-1 B'Yi= yijbj (ya que B'B=I).

Dada la geometría de los Biplots Logísticos, los genes con baja calidad de representación son los que coinciden en el gráfico con los ejes mas largos, tal como sucede por ejemplo con c6, c47 y c31. Para estos genes se deben tomar con cautela las predicciones obtenidas a través de las proyecciones sobre sus ejes. En forma inversa los ejes más cortos indican los genes con mayor poder de discriminación (los mejor representados), como lo son c4, c5, c8, c10, etc.

En la Figura 4 se observa cómo se separan las muestras en dos grupos claramente diferenciados de acuerdo al tipo de leucemia, y siguiendo las pautas para la interpretación se puede concluir:

- Los genes responsables de la separación de los grupos son: para AML (c4, c5, c6, c7, c12, c13, c14, c15, c16, c19, c21, c22, c24, c25, c28, c29, c31, c32, c33, c34, c38, c40, c41, c44, c45, c46, c47) y para ALL (c1, c2, c8, c9, c10, c11, c17, c18, c20, c23, c26, c27, c30, c35, c36, c37, c39, c42, c43, c48, c49, c50).

- Los genes con mayor poder de discriminación (los mejor representados) son: para AML (c5, c4, c15, c19, c40, c44) y para ALL (c1, c10, c11, c18, c26, c27, c35, c36, c37, c39).

- Dado el ángulo entre vectores asociados a los marcadores columna se observan correlaciones altas positivas entre los siguientes grupos de genes: para AML (c5, c6, c13, c22, c34), (c25, c29, c32, c41, c45, c46, c47) y (c4, c14, c16, c19, c24, c40, c49), y para ALL (c1, c8, c11, c35, c36, c39, c49, c50) y (c10, c20, c26, c27). Este hecho pareciera conformar subgrupos dentro de cada tipo de leucemia.

Las conclusiones obtenidas en esta segunda aplicación deben ser analizadas cuidadosamente por expertos, ya que la diferenciación entre ALL y AML es decisiva para el tratamiento a aplicar. No obstante, el ejemplo resulta bastante ilustrativo de la capacidad de los BR para predecir probabilidad de presencia de los genes que diferencian los dos tipos de leucemia.

Conclusiones

Los resultados en la aproximación de una matriz de datos a través del ajuste de Biplots de Regresión demuestra superioridad al obtenido con una Regresión con Componentes Principales y un Análisis de Correspondencias, por lo que se recomienda contemplar su uso como una alternativa confiable para el caso de ajustes lineales y no lineales, en cualquier campo de la ciencia.

Una ventaja de los Biplots de Regresión está en el hecho que se puede realizar una representación gráfica con alta calidad, permitiendo visualizar confiablemente sobre un plano las relaciones entre individuos y/o entre variables. Otra ventaja es que permite realizar predicciones (estimaciones) para todas las variables en la matriz de datos.

Puede resultar de interés, a nivel computacional, la utilización de estimación máximo verosímil condicional, ya que ello permitiría la reducción del número de parámetros incidentales que son los que se incrementan con el número de observaciones, o sea los que conforman la matriz A en el modelo (12).

También sería de mucha utilidad la aplicación de otro método de estimación en los Biplots de Regresión, que permita considerar asimetría en el papel dado a las variables.

Referencias

1. Cárdenas O, Galindo P (2004) Biplot con información externa basado en modelos bilineales generalizados. Consejo de Desarrollo Científico y Humanístico. Universidad Central de Venezuela. 251 pp. www.cdch-ucv. org.ve        [ Links ]

2. Cárdenas O, Galindo P, Vicente-Villardón JL (2001) Estimación máximo verosímil en aproximaciones biplot. Rev. Venez. Análisis de Coyuntura 7: 333-347. FaCES, UCV. www. faces.ucv.ve/instituto        [ Links ]

3. Cárdenas O, Noguera C, Galindo P, Vicente-Villardón JL (2003) El uso de información externa en aproximaciones biplot. Rev. Venez. Análisis de Coyuntura 9: 257-276. FaCES, UCV. www. faces.ucv.ve/instituto        [ Links ]

4. Gabriel KR (1971) The Biplot-graphic display of matrices with applications to principal component analysis. Biometrika 58: 453-467.        [ Links ]

5. Gabriel KR (1998) Generalised Bilinear Regression. Biometrika 85: 689-700.        [ Links ]

6. Golub TR, Slonim DK, Tamayo P, Huard C, Gaasenbeek M, Mesirov JP, Coller H, Loh ML, Downing JR, Caligiuri MA, Bloomfield CD, Lander ES (1999) Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science 286: 531-537.        [ Links ]

7. Gower JC, Hand DJ (1996) Biplots. Chapman & Hall. Londres, RU. 277 pp.        [ Links ]

8. Householder AS, Young G (1938) Matrix Approximation and Latent Roots. Am. Math. Month. 45: 165-171.        [ Links ]

9. Nelder JA, Wedderburn RW (1972) Generalized Linear Models. J. Royal Stat. Soc.A 135: 370-384.        [ Links ]

10. Ter Braak CJF (1986) Canonical Correspondence Analysis: a new eigenvector technique for Multivariate Direct Gradient Analysis. Ecology 67: 1167-1179.

11. Vicente-Villardón JL, Galindo P (1998) Biplot Externo para datos presencia-ausencia basado en superficies logísticas de respuesta. Departamento de Estadística, Universidad de Salamanca. España. http:// biplot.usal.es        [ Links ]

12. Vicente-Villardón JL (2000) Programas elaborados en MATLAB para el ajuste Biplot. Departamento de Estadística, Universidad de Salamanca. España. villardon@usal.es.        [ Links ]