Interciencia
versión impresa ISSN 0378-1844
INCI v.30 n.9 Caracas sep. 2005
ÁRBOLES DE EXPANSIÓN MÍNIMOS: AYUDAS PARA UNA MEJOR INTERPRETACIÓN DE ORDENACIONES EN BANCOS DE GERMOPLASMA
Alejandra Arroyo, Cecilia Bruno, Julio Di Rienzo y Mónica Balzarini
Alejandra Teresita Arroyo. Ingeniera Agrónoma, Universidad Nacional de Córdoba, Argentina. Becaria doctoral del Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET), Facultad de Ciencias Agropecuarias de la Universidad Nacional de Córdoba (FCA-UNC). Dirección: Av. Valparaíso s/n CC509, Ciudad Universitaria, 5000 Córdoba, Argentina. e-mail: aarroyo@agro.uncor.edu
Cecilia Inés Bruno. Magíster en Ciencias Agropecuarias, UNC, Argentina. Becaria doctoral de CONICET, FCA-UNC, Argentina.
Julio Alejandro Di Rienzo. Magister Scientiae en Biometría, Universidad de Buenos Aires, Argentina. Profesor, FCA-UNC, Argentina.
Mónica Balzarini. Ph. D., Louisiana State University, EEUU. Profesora, FCA-UNC e Investigador CONICET, Argentina.
Resumen
En colecciones de germoplasma, el material genético de interés es caracterizado a través de múltiples descriptores (variables). Cada accesión de la colección es representada por un vector de datos que pertenece a un espacio multidimensional. Las configuraciones multidimensionales son difíciles de interpretar al no ser fácilmente visualizadas. Un objetivo del análisis de matrices de datos de accesiones×descriptores es el ordenamiento del material genético en un espacio bi-dimensional, el cual comúnmente es óptimo por representar la máxima variabilidad. Métodos de análisis vectorial, como el Análisis de Componentes Principales (ACP), permiten reducir la dimensión bajo ese criterio de optimalidad. Los resultados del ACP se visualizan representando las accesiones a ordenar como puntos de un gráfico de dispersión según el valor que éstas asumen sobre los dos ejes principales (de mayor varianza) de ordenación. Por la pérdida de información al ordenar en un espacio de dos dimensiones, las distancias en el plano suelen no ser las distancias en el espacio original, conduciendo a errores de interpretación de relaciones entre accesiones. En este trabajo se cuantifica el error de interpretación en las relaciones inferidas del plano generado por los dos primeros componentes principales (CP), bajo escenarios simulados que involucran distintos tamaños de colecciones de germoplasma para un rango amplio de variabilidad explicada por los dos primeros CP (medida indirecta de la calidad de la representación). Los resultados sugieren que aunque estos componentes expliquen >70% de la variabilidad total mayor, el error de interpretación es estadísticamente >0 y depende del número de objetos ordenados. Los Árboles de Expansión Mínimos, como complemento de ordenaciones producidas por análisis vectoriales, representan una herramienta eficiente para entender mejor las ordenaciones. Se ilustra la utilización de esta técnica en la interpretación de las ordenaciones producidas a partir del ACP.
Summary
In germplasm collections, the genetic material is characterized through several descriptors (variables). Each sampling unit (entry) is represented by a data vector that belongs to a multidimensional space. Multidimensional configurations are difficult to interpret because they cannot be easily visualized. A common goal in the analysis of an entry×descriptor data matrix is the ordination of the genetic material in a bi-dimensional space. Commonly, this space is optimal in the sense of maximum variance representation. Vector analysis methods, like Principal Components Analysis (PCA), allow to reduce the data dimensionality under such optimality criterion. The results from vector analyses are visualized by scatter plots displaying each entry as a point located according to its values on the first two principal axes (maximum variance) of ordination. Due to loss of information by using a bi-dimensional space, the distances in the plane may not correspond with the distances in the original space, leading to miss-interpretation of the true relationship between germplasm entries. In this paper, the miss-interpretation error in the entry relationships from the plane generated by the two first principal components (PC) is quantified. Interpretation errors under several simulated sceneries involving different germplasm collection sizes were estimated for a wide range of percent of variability explained by the two first PC (indirect measure of the ordination quality). The results suggest that even when these components explain >70% of total variability, the interpretation error is statistically >0 and its magnitude depends on the germplasm collection size. The Minimum Spanning Trees as complement of vector analysis results are efficient tools for better understanding of ordinations. The use of this technique in the interpretation of ordinations, arising in PCA, is illustrated.
Resumo
Em coleções de germoplasma, o material genético de interesse é caracterizado através de múltiplos descritores (variáveis). Cada acessão da coleção é representada por um vector de dados que pertence a um espaço multidimensional. As configurações multidimensionais são difíceis de interpretar ao não serem facilmente visualizadas. Um objetivo da análise de matrizes de dados de acessões×descritores é o ordenamento do material genético em um espaço bi-dimensional, o qual comumente é ótimo por representar a máxima variabilidade. Métodos de análise vectorial, como a Análise de Componentes Principais (ACP), permitem reduzir a dimensão sob esse critério de optimalidade. Os resultados da ACP se visualizam representando as acessões a ordenar como pontos de um gráfico de dispersão segundo o valor que estas assumen sobre os dois eixos principais (de maior variação) de ordenação. Pela perda de informação ao ordenar em um espaço de duas dimensões, as distâncias no plano costumam não ser as distâncias no espaço original, conduzindo a erros de interpretação de relações entre acessões. Neste trabalho se quantifica o erro de interpretação nas relações inferidas do plano gerado pelos dois primeiros componentes principais (CP), sob cenários simulados que envolvem distintos tamanhos de coleções de germoplasma para uma faixa ampla de variabilidade explicada pelos dois primeiros CP (medida indireta da qualidade da representação). Os resultados sugerem que ainda que estes componentes expliquem >70% da variabilidade total maior, o erro de interpretação é estatísticamente >0 e depende do número de objetos ordenados. As Árvores de Expansão Mínimas, como complemento de ordenações produzidas por análises vectoriais, representam uma ferramenta eficiente para entender melhor as ordenações. Se ilustra a utilização desta técnica na interpretação das ordenações produzidas a partir da ACP.
Palabras clave / Análisis Multivariado / Error de Interpretación / Reducción de Dimensión/
recibido: 04/03/2005. modificado: 29/07/2005. Aceptado: 01/08/2005.
En los últimos años se ha registrado una explosiva cantidad de información sobre colecciones de germoplasma, tanto ex situ como in situ, debido a su implicancia en el uso, manejo y conservación de recursos. El número de descriptores usados para caracterizar el material genético de interés es generalmente elevado, estando muchos de ellos altamente correlacionados. Para explorar la variación total entre accesiones y ordenar las mismas, resulta satisfactorio analizar pocas funciones lineales de los descriptores, que contengan la mayor parte de la información provista por el conjunto total. Según la naturaleza (cuantitativa o cualitativa) de los descriptores, se usan procedimientos multivariados tales como Análisis de Componentes Principales (variables cuantitativas) y de Coordenadas Principales (variables cuantitativas y/o cualitativas) para obtener ejes de ordenación del material (Bramardi, 2000; Robutti et al., 2000). Ambas técnicas se basan en análisis vectoriales (Anderberg, 1973) y se presentan como alternativas más informativas, para el estudio de la diversidad subyacente, que las técnicas de conglomeración.
El Análisis de Componentes Principales (ACP), aplicable a descriptores cuantitativos continuos o al menos ordinales fue desarrollado por Hotelling (1933). Sin embargo, recién después de los avances computacionales de las últimas décadas se ha facilitado su aplicación (Timm, 1973). El ACP ofrece la posibilidad de reducir un conjunto grande de descriptores correlacionados a un número menor de componentes principales (combinaciones lineales normalizadas de los descriptores) no correlacionados. Estos componentes permiten obtener gráficos de dispersión de las accesiones con propiedades óptimas para la interpretación de la variabilidad y covariabilidad subyacente entre las mismas. Si X denota una matriz de datos accesiones×descriptores, ie. matriz n×p, donde las filas se corresponden con las n accesiones de interés y las columnas con los p descriptores evaluados sobre cada accesión, el ACP opera sobre la factorización única de la matriz X'X (o transformaciones de ésta) produciendo un conjunto de k£p componentes principales (Johnson y Wichern, 1998). Éstos son usados como ejes para producir gráficos de dispersión de las accesiones, donde las distancias entre pares de puntos son función de los valores muestrales observados. El objetivo final del análisis es el ordenamiento y, consecuentemente, el agrupamiento de las accesiones en un espacio de dimensión reducida. El plano generado por los dos primeros componentes principales (CP) es óptimo para inferir relaciones ya que en ningún otro plano cuyos ejes hayan sido generados por combinación lineal de los descriptores originales, es posible capturar mayor variación entre las accesiones. Sin embargo, es importante notar que raras veces en este plano se explica el 100% de la variabilidad entre los objetos a ordenar. Esto se produce debido a las deformaciones que sufre la nube de puntos, que representa las accesiones en el espacio multidimensional, al ser proyectada en un plano. Tales deformaciones pueden producir errores de interpretación en las relaciones (distancias) entre los objetos de interés (Gower y Ross, 1969).
Algoritmos de encadenamiento de objetos en función de la verdadera distancia entre ellos, como es el caso de los árboles de expansión mínimos (AEM) proveen herramientas para mejorar la calidad de la interpretación de ordenaciones en espacios de dimensión reducida (Kruskal, 1964; Rohlf, 1990). Los árboles de expansión se construyen uniendo elementos de un conjunto, como pueden ser los puntos que representan a las accesiones en los gráficos de dispersión. En la construcción de un árbol de este tipo, los puntos son conectados con segmentos de líneas rectas de manera tal, que todos quedan unidos directa o indirectamente y no hay "loops" (Moser, 1992). El AEM tiene un recorrido tal que la suma de las longitudes de los segmentos es mínima, existiendo varios algoritmos para lograrlo (Ross, 1969; Gower y Ross, 1969). El AEM se obtiene a partir de una matriz de distancia entre las accesiones. Las distancias pueden ser definidas de muchas formas, pero cuando el interés radica en el ordenamiento es conveniente que éstas se condigan con las reglas de la geometría euclidiana. La distancia entre los objetos s y t, ambos p-dimensionales, viene dada por la expresión
En la Figura 1 se muestra un AEM entre 10 puntos, obtenido a partir de una matriz de distancias euclidianas.
Algunos puntos que se encuentran a cierta distancia en el espacio de los dos primeros CP podrían estar, en el espacio original (p-dimensional), más lejos de lo que aparentan en el plano. Sin embargo, los AEM son rara vez utilizados como complemento del ACP; generalmente cuando la variabilidad explicada por ambos CP es mayor a 70% se supone que la representación en el plano es buena y se interpretan relaciones directamente desde las distancias de los puntos en ese plano. El AEM permite identificar puntos conflictivos para la interpretación. Por ejemplo, en el ordenamiento de la Figura 2a, donde no se trazó un AEM, se subestimaría la distancia entre las accesiones 6 y 19 ya que 6, en el espacio original, está más cerca de 4 que de 19 y se sobrestimarían las distancias entre 6 y 4 como lo muestra la Figura 2b cuando se superpone el AEM. Otros errores de interpretación podrían producirse si se considerara el ordenamiento sin el AEM. Si bien los AEM, como técnica de ayuda a la interpretación, deben construirse a partir de la matriz de distancias calculadas con las p-dimensiones, éstos también podrían elaborarse desde la matriz de distancias entre puntos en el plano, es decir teniendo en cuenta solo dos dimensiones. En la Figura 2c se ilustra, para un mismo conjunto de accesiones, el AEM construido a partir de las distancias en el plano generado por los dos primeros CP (AEM bi-dimensional) y el AEM construido a partir de la matriz de distancias calculadas con las p-dimensiones (AEM p-dimensional; Figura 2b), proyectados ambos sobre el gráfico de dispersión que tiene como ejes los dos primeros componentes. Esta diferencia en la definición de la longitud de los segmentos que generan el AEM es usada en este trabajo para desarrollar dos criterios que permiten cuantificar el error en la interpretación de distancias multidimensionales a partir de distancias en planos.
En este trabajo se estiman errores de interpretación bajo escenarios simulados que involucran distintos tamaños de colecciones de germoplasma para un rango amplio de porcentaje de variabilidad explicada por los dos primeros CP. Para ello se definen dos criterios de cuantificación de error de interpretación, ambos basados en AEM construidos a partir de las distancias, tanto en el espacio de dimensión completa (AEM p-dimensional) como en el plano (AEM bi-dimensional).
Materiales y Métodos
Se realizaron simulaciones Monte Carlo para generar tablas de datos multivariados de dimensión n×p, donde n representa el número de accesiones (tamaño de la colección) y p el número de descriptores (simulando situaciones donde se utilizan descriptores estandarizados, se utilizaron variables aleatorias normales estándar independientes e idénticamente distribuidas). Así la dimensión de la base generadora del espacio multidimensional es p y los cambios en p permiten generar diferentes proporciones de variabilidad total explicada por los dos primeros CP. Los parámetros de la simulación fueron n=25, 50 y p=3, 4, 5, 6, 7, 8, 9, 10.
Se obtuvieron 50 tablas de cada escenario conformado por la combinación de n y p. Para cada una de las tablas se calcularon los componentes principales que fueron usados para obtener gráficos de dispersión de las accesiones. Se registró, para cada tabla, el porcentaje de variabilidad total explicado y las distancias euclidianas p-dimensionales y bi-dimensionales. A partir de éstas se construyeron diagramas de Shepard (Kruskal, 1964) y los AEM p-dimensional y bi-dimensional.
Para cada gráfico se contó el número de puntos donde dos segmentos se cruzan (C). Estos cruzamientos se producen al proyectar el AEM p-dimensional sobre el plano de ordenación de los dos primeros componentes principales. Por ejemplo, en la Figura 2c se observan 5 cruces de segmentos. Para cada conjunto de datos simulados se definió un primer criterio de cuantificación del error de interpretación (EI1) como función del número de cruces de segmentos respecto al número de segmentos (n-1) que conforman el AEM multidimensional de acuerdo a la expresión

El segundo criterio de cuantificación del error de interpretación (EI2) se definió a partir de las diferencias de las longitudes del AEM p-dimensional (AEMp) y el AEM bi-dimensional (AEM2). La longitud total de un AEM (Gower, 1969) se calcula como la suma de la longitud de los segmentos que lo conforman; por ejemplo, para el AEM de la Figura 1

Sin embargo, en este trabajo se usó la suma de los cuadrados (SC) de las longitudes de segmentos, es decir para la Figura 1

para otorgar mayor ponderación a los segmentos más largos, ya que discrepancias debidas a segmentos de mayor longitud podrían sugerir mayor error de interpretación. La expresión para EI2 es

Las tablas de datos generadas fueron agrupadas en función de los porcentajes de variabilidad total explicada (VE) por el plano en cinco niveles de calidad de representación: VE£40%, 40<VE£50, 50<VE£60, 60<VE£70 y VE>70%. Teniendo en cuenta la calidad de la representación y el número de objetos a ordenar, para cada criterio se realizó un análisis de varianza bi-factorial para evaluar las diferencias promedio en error de interpretación.
El uso de los criterios propuestos se ejemplifica con un conjunto de datos reales provenientes de 28 accesiones del banco de germoplasmas del CATIE, Costa Rica (Phillips, 2003). Las accesiones corresponden a aislamientos de Moniliophthora roreri (Cif.) Evans, agente causal de moniliasis en el cacao, enfermedad que representa uno de los principales factores limitantes del rendimiento en nueve países de América Central y América del Sur. Los aislamientos del hongo fueron clasificados, a través de marcadores moleculares, en grupos genéticos. Para el ejemplo se utilizaron 14 accesiones pertenecientes al grupo Bolívar que se extiende desde el norte de Colombia, a través de Ecuador, Venezuela y sur de Perú y 14 accesiones provenientes de los grupos endémicos de Colombia y del noreste de Ecuador. Para la caracterización de este recurso fitogenético se evaluaron 10 descriptores morfológicos: diámetro radial de esporas a los 10 días, cantidad de días a esporulación, cantidad de anillos a los 20 días, producción de esporas por caja de petri, densidad de esporulación por cm2, germinación a las 24 horas, porcentaje de esporas globosas, ancho de la espora globosa, longitud de la espora alongada (no oblonga) y longitud de esporas elipsoides. Se calcularon los criterios de cuantificación de error de interpretación para cada grupo por separado y para los dos grupos en conjunto (n=28).
Resultados
En la Figura 3 se muestra que el porcentaje de varianza explicado por los dos primeros CP es una función decreciente del número de descriptores independientes (dimensión del espacio original) y del tamaño de la colección.
En la Figura 4 se presentan los diagramas de Shepard para ambos tamaños de colección obtenidos a partir de 50 tablas, tomadas al azar del total de tablas simuladas, que dieron origen a ACP donde la varianza explicada fue mayor al 70% de la variabilidad total. La forma de la nube de puntos sugiere, para ambos tamaños de colecciones, que 1) las deformaciones sufridas al proyectar en el plano conducen a subestimar las distancias entre accesiones, ie. las distancias p-dimensionales son mayores a las distancias en el plano, y 2) existe mayor probabilidad de error cuando se infieren distancias p-dimensionales a partir de objetos cercanos en el plano. Conviene precisar que al proyectar sobre el plano la distancia entre puntos puede disminuir, pero no aumentar.
En la Figura 5 se muestra un diagrama de dispersión para la relación entre SC(AEM p-dimensional) y SC(AEM bi-dimensional) para las mismas situaciones usadas para construir la Figura 4 (VE>70%), para los dos tamaños de colección. Debido a que las distancias entre puntos solo podrían disminuir con la proyección, las longitudes totales de los AEM son menores cuando se calculan a partir del recorrido mínimo en el plano que cuando se usa el recorrido mínimo en el espacio p-dimensional. Las sumas de cuadrados de las longitudes de los AEM bi-dimensionales fueron en promedio entre 35% (n=25) y 44% (n=50) menores a las sumas de cuadrados de los AEM p-dimensionales. Si bien éstas magnitudes (EI2) están asociadas al tamaño de la colección, es claro que ellas dependen de la calidad de la representación. Esta disminución porcentual se espera sea mayor o igual que el complemento a 100 del porcentaje de varianza explicada (Tabla I). Mientras más se aleje de este porcentaje habrá más problemas con la interpretación de las verdaderas distancias.
En la Tabla I se presentan los valores de EI1 y EI2 para distintos niveles de calidad de representación bi-dimensional (VE%). Los valores promedio de ambos criterios fueron estadísticamente ¹0 (p<0,0001) para todos los niveles de VE. Como se puede observar a partir de la tabla, aún con altos porcentajes de variabilidad explicada se podrían cometer errores en la interpretación. Para todos los niveles de calidad de representación existen diferencias estadísticamente significativas (p<0,0001) entre los errores de interpretación promedio cometidos para n=25 y n=50. El efecto del tamaño de la colección en relación a la VE se puede observar en la Figura 6. La diferencia debida al número de accesiones a ordenar es independiente de la VE para el criterio EI2, pero para el criterio EI1 tiende a disminuir a medida que aumenta la calidad de la representación.
Aplicados los criterios de cuantificación del error de interpretación sobre el conjunto de datos reales (Tabla II), se observa que para un mismo número de accesiones (n=14) y un mismo nivel de calidad de representación (VE=50-60%), el EI1 es mayor para el grupo Bolívar que para el grupo Colombia, y que este criterio aumenta cuando se analizan los dos grupos en conjunto, es decir cuando el número de accesiones ordenadas es mayor, aún cuando el nivel de VE es similar. El EI2 para el mismo tamaño de colección (n) y para el mismo nivel de VE resulta mayor en el grupo Bolívar que en el grupo Colombia, lo que sugiere que para el grupo Bolívar el AEM resultaría más útil para evitar errores de interpretación. En las Figuras 7a y b se muestra el ordenamiento de los aislamientos del grupo Bolívar sin AEM y con AEM superpuesto, respectivamente. Sin el árbol se podría concluir que subyacen tres grupos de aislamientos (grupo 1: Co2, E17, E21, E2; grupo 2: V3, V2, E23, V5; y grupo 3: Co1, P1, E32, E37, E22, E36) mientras que el AEM sugiere que los dos primeros grupos debieran ser vistos como un único grupo y además señala que los aislamientos V2 y E23 no se encuentran tan próximos en el espacio p-dimensional como se podría inferir desde el plano si no existiese el árbol (Figura 7b). En el ordenamiento del grupo genético Colombia (Figuras 7c y d), es recomendable el uso del árbol como lo sugiere el EI2 (33,5%) aunque el EI1 sea cero. El menor valor de EI1 y EI2 para este conjunto de accesiones se produce debido a que la cantidad de errores de interpretación en esta ordenación es menor que para el grupo Bolívar. En el grupo Colombia, se identificarían dos grupos de aislamientos (grupo 1: C7, C3, C4, C6, C2, C1, C9, C12, C5; y grupo 2: C10, C11, E2, E1, C8). Esta interpretación se obtendría aún sin usar el AEM (Figura 7c). No obstante, la distancia entre el aislamiento C2 y C5 podría ser mal interpretada si no se usase el árbol como herramienta de interpretación (Figura 7d).
Discusión y Conclusión
Las ordenaciones de material genético a partir de múltiples descriptores, derivadas de métodos de análisis vectorial son ampliamente usadas en colecciones de germoplasma (Bramardi, 2000). Sin embargo, no siempre se contempla que aún cuando una representación bi-dimensional provee un buen ajuste de la configuración multidimensional, podría haber serias distorsiones en el plano de las distancias relativas verdaderas (Gower, 1967). Rohlf (1972) propone algunas medidas para evaluar la calidad de las representaciones gráficas. Para representaciones bi-dimensionales, el porcentaje de varianza explicada por el plano es una de las medidas más usadas. Ésta al igual que el coeficiente de correlación cofenética (Hartigan, 1981) son medidas globales, representadas por un escalar, que no permiten identificar dónde se producen las distorsiones y por tanto no ayudan a mejorar la interpretación. Los diagramas de Shepard (Legendre y Legendre, 1998) resultan más eficientes para identificar los pares de objetos con distancias en el plano diferentes a las distancias multidimensionales, pero por construcción no permiten interrelacionar distancias para ordenar los materiales. Los árboles de expansión mínimos constituyen una manera adicional de evaluar la calidad de las representaciones gráficas. A partir de esta técnica es posible identificar cuáles son las distancias distorsionadas.
En este trabajo se cuantificó el error en el que se puede incurrir al interpretar ordenaciones en espacios vectoriales reducidos, verificando que éstos no son despreciables aún cuando el porcentaje de la variabilidad total representada en el gráfico no sea bajo. Si bien se usó ACP sobre datos estandarizados, al presente las técnicas más usadas en colecciones de germoplasma son el ACP y el escalamiento multidimensional métrico o análisis de coordenadas principales (ACoorP), aplicados sobre matrices de datos de descriptores estandarizados o no. Generalmente, la técnica se elige en función de la naturaleza de los descriptores: ACP para variables cuantitativas y ACoorP para variables discretas, categóricas o mixtas previa obtención de una matriz de similitud que puede ser expresada como matriz de distancias mediante diversas transformaciones (Bruno et al., 2003). El ordenamiento resultante depende de la técnica (Moss, 1968). A partir de un estudio de simulación, Arce (2004) observó dualidad (idénticas ordenaciones) entre ACP sobre matriz de correlaciones (datos estandarizados) y ACoorP sobre matriz de distancias euclidianas de variables estandarizadas. Las ordenaciones obtenidas por componentes principales y coordenadas principales, también mostraron dualidad en los siguientes casos: ACP sobre matriz de varianza-covarianza y ACoorP sobre matriz de distancias euclidianas de variables no estandarizadas y ACP sobre matriz de varianza-covarianza de variables binarias respecto ACoorP sobre matriz basada en el coeficiente emparejamiento simple (similitud). Por lo expuesto, los resultados presentados no se restringen al caso del ACP para variables estandarizadas.
Si bien los dos criterios propuestos en este trabajo proveen una medida de la calidad de la representación, a diferencia de la varianza explicada, ellos aportan información sobre la probabilidad de error de interpretación. El EI2, a diferencia del EI1, tiene una cota inferior asociada directamente con la calidad de la representación y su aumento se asocia a situaciones que probablemente conducen a error de interpretación. Por ello es apropiado para juzgar la necesidad del uso y la interpretación cuidadosa del AEM tanto para situaciones donde se tiene una única ordenación como para comparar ordenaciones. Siempre debe mantenerse en mente que el valor del criterio EI2 dependerá del tamaño de la colección y por ello no resulta apropiado para comparar ordenaciones de colecciones de distinto tamaño. Los resultados sugieren que el criterio EI1 es menos influenciado por el tamaño de la colección que el criterio EI2 cuando la calidad de la representación es buena. La desventaja del criterio EI1 es que su magnitud no es fácil de interpretar cuando se tiene una única ordenación. En la práctica, debido al cálculo, el criterio EI2 resulta más recomendable. Aún cuando la calidad de la representación es buena, siempre conviene superponer el AEM p-dimensional, especialmente cuando los valores de EI2 son altos.
Los AEM producen el mismo agrupamiento de objetos que el análisis de conglomerados realizado con el método de encadenamiento simple o del vecino más cercano, ie. toda la información requerida por ese tipo de conglomeración está contenida en el AEM (Gower, 1967). Así, el uso del AEM permite adecuar no sólo la ordenación sino también la clasificación de las accesiones. Los algoritmos para encontrar los AEM son eficientes, aún cuando hay muchas accesiones y están presentes en la mayoría de los paquetes estadísticos, por lo que su cómputo no se contrapone a las ventajas de su uso. En el software estadístico InfoStat (InfoStat, 2004) se encuentra implementado el cálculo del criterio EI2.
REFERENCIAS
1.Anderberg MR (1973) Cluster Analysis for Applications. Academic Press. New York, EEUU. 359 pp. [ Links ]
2.Arce OE (2004) Componentes principales y coordenadas principales: estudio comparativo con aplicaciones a la taxonomía numérica. Tesis. Universidad Nacional de Córdoba, Argentina. 154 pp. [ Links ]
3.Bramardi S (2000) Estrategias para el Análisis de Datos en la Caracterización de Recursos Fitogenéticos. Tesis. Universidad Politécnica de Valencia, España. [ Links ]
4.Bruno C, Balzarini M, Di Rienzo J (2003) Comparación de Medidas de Distancia entre Perfiles RAPD individuales. J. Bas. Appl. Gen. 15: 69-78. [ Links ]
5.Gower JC (1967) A comparison of some methods of cluster analysis. Biometrics 23: 623-628. [ Links ]
6.Gower JC (1969) Autocoder for the statistician. En Milton RC, Nelder JC (Eds.) Statistical Computation. Academic Press. New York, EEUU. pp. 37-61. [ Links ]
7.Gower JC, Ross GJS (1969) Minimum spanning trees and single linkage cluster analysis. Appl. Stat. 18: 54-64. [ Links ]
8.Hartigan JA (1981) Consistency of single linkage for high-density clusters. J. Am. Stat. Assoc. 76: 388-394. [ Links ]
9.Hotelling H (1933) Analysis of a complex of statistical variables into principal components. J. Educ. Psicol. 24: 417-441, 498-520. [ Links ]
10.InfoStat (2004) InfoStat versión 1.5. Grupo InfoStat. Facultad de Ciencias Agropecuarias. Universidad Nacional de Córdoba, Argentina. [ Links ]
11.Johnson RA, Wichern DW (1998) Applied Multivariate Statistical Analysis. 4a ed. New Jersey, Prentice Hall. EEUU. 816 pp. [ Links ]
12.Kruskal J (1964) Multidimensional scaling by optimizing goodness of fit to a non-metric hypothesis. Psychometrika 29: 1-27. [ Links ]
13.Legendre P, Legendre L (1998) Numerical Ecology. 2a ed. Elsevier. Amsterdam, Holanda. 853 pp. [ Links ]
14.Moser BE (1992) Ordination and Display of Multivariate Data. Proc. 17th Annu. SAS Users Group Int. Conf. Honolulu, HI, EEUU. pp. 1345-1354. [ Links ]
15.Moss W (1968) Experiments with various techniques of numerical taxonomy. Syst. Zool. 17: 31-47 [ Links ]
16.Phillips W (2003) Origin, biogeography, genetic diversity and taxonomic affinities of the cacao (Theobroma cacao L.) fungus Moniliophthora roreri (Cif.) Evans et al. as determined using molecular, phytopathological and morpho-physiological evidence. Tesis. University of Reading, RU. 349 pp. [ Links ]
17.Robutti G, Borrás JL, Ferrer FS, Bietz ME (2000) Grouping and Identification of Argentine Maize Races by Chemometric Analysis of Zein RP-HPLC Data. Cereal Chem. 77: 91-95. [ Links ]
18.Rohlf F (1972) An empirical comparison of three ordination techniques in numerical taxonomy. Syst. Zool. 21: 271-280. [ Links ]
19.Rohlf F (1990) Numerical Taxonomy System of Multivariate Statistical Programs. Version 1.8. New York State University at Stony Brook. New York, EEUU. [ Links ]
20.Ross GJS (1969) Algorithm AS 13, Minimum Spanning Tree. Appl. Stat. 18: 103-104. [ Links ]
21.Timm NH (1973) Multivariate analysis. Brooks-Cole. Monterrey, CA, EEUU. 619 pp. [ Links ]











uBio 









