Interciencia
versión impresa ISSN 0378-1844
INCI v.31 n.11 Caracas nov. 2006
ESTIMACIÓN DE LA VARIABILIDAD INTERNA DE MUESTRAS POBLACIONALES, MEDIANTE ANÁLISIS DE COMPONENTES PRINCIPALES
1Carlos A. Núñez-Colín y 2Alejandro F. Barrientos-Priego
1. ngeniero Agrónomo, Maestro en Ciencias y estudiante de Doctorado en Ciencias en Horticultura, Universidad Autónoma Chapingo (UACh), México. Dirección: Km. 38.5 carretera MéxicoTexcoco, Chapingo, Edo. de México, México 56230. e-mail: lit007a@gmail.com
2. Ingeniero Agrónomo, UACh, México. Maestro en Ciencias y Doctor en Ciencias, Colegio de Postgraduados, México. Profesor-Investigador, UACh, México. e-mail: abarrien@correo.chapingo.mx
RESUMEN
Se propone una nueva fórmula para describir la variación interna de grupos o poblaciones utilizando m variables con un solo dato. Esta fórmula esta basada en el análisis de componentes principales (ACP), ya que este análisis permite reducir la dimensionalidad con mínima pérdida de información, y en la idea empírica de la varianza, la dispersión de los individuos con respecto a su media. A partir de la proyección de individuos en un ACP se observa la dispersión de individuos en planos con dimensionalidad reducida, los componentes principales (CP) necesarios para explicar ~50% de la varianza total. Una variable categórica es usada para dividir a todos los individuos en k grupos de n individuos cada uno dentro de un mismo ACP, teniendo para cada uno de los k grupos un valor que se puede comparar con los otros para determinar la homogeneidad de cada grupo. Además, es posible detectar, mediante el cálculo adicional del error estándar de esta fórmula, si se presentan individuos atípicos dentro de cada uno de estos grupos.
ESTIMATE OF INTERNAL VARIABILITY OF POPULATION SAMPLES BY MEANS OF PRINCIPAL COMPONENT ANALYSIS
SUMMARY
A new formula is proposed in order to describe the internal variability of groups or populations using m variables with only one value. This formula is based on principal component analysis (PCA), as this analysis reduces the dimensionality with a minimal loss of information, and on the empirical idea of variance, the dispersion of the individuals around their average. From the projection of individuals in a PCA, their dispersion in planes with reduced dimensionality can be observed, as well as the principal components (PC) needed to explain ~50% of the total variance. A categorical variable can be used to divide all the individuals in k groups of n individuals, each one inside of the same PCA and having a value for each one of the k groups that can be compared with the other groups to determine the homogeneity of each of them. Also, through the additional calculation of the standard error of this formula, it is possible to detect the presence of atypical individuals in each of these groups.
ESTIMAÇÃO DA VARIABILIDADE INTERNA DE AMOSTRAS POPULACIONAIS, MEDIANTE ANÁLISE DE COMPONENTES PRINCIPAIS
RESUMO
Propõe-se uma nova fórmula para descrever a variação interna de grupos ou populações utilizando m variáveis com um só dado. Esta fórmula esta baseada na análise de componentes principais (ACP), já que esta análise permite reduzir a dimensionalidade com mínima perda de informação, e na idéia empírica da variança, a dispersão dos indivíduos em relação a sua média. A partir da projeção de indivíduos em um ACP se observa a dispersão de indivíduos em planos com dimensionalidade reduzida, os componentes principais (CP) necessários para explicar ~50% da variança total. Uma variável categórica é usada para dividir a todos os indivíduos em k grupos de n indivíduos cada um dentro de um mesmo ACP, tendo para cada um dos k grupos um valor que se pode comparar com os outros para determinar a homogeneidade de cada grupo. Além disso, é possível detectar, mediante o cálculo adicional do erro padrão de esta fórmula, si se apresentam indivíduos atípicos dentro de cada um destes grupos.
PALABRAS CLAVE / Análisis de Homogeneidad de Grupos / Análisis Multivariable / Varianza Multivariable /
Recibido: 16/02/2006. Modificado: 10/10/2006. Aceptado: 13/10/2006.
El estudio de los recursos fitogenéticos, incluyendo los cultivos hortofrutícolas, se ha convertido en una prioridad, sobre todo en aquellos con potencial comercial y escasos estudios. Esto da importancia al análisis de la diversidad mediante métodos cuantitativos que ayuden a agrupar poblaciones de un mismo género o especie a partir de similitudes de caracteres homólogos. Para ello se hace referencia al concepto de unidad taxonómica operativa (operational taxonomic unit; OTU), definida como aquellos individuos o poblaciones que son el objeto del estudio y pueden ser representados en una clasificación (González-Andrés, 2001).
Uno de los análisis más utilizados en los estudios de variabilidad es el análisis en componentes principales (ACP), el cual se utiliza para observar la dispersión, en un espacio bi o tridimensional, de los individuos en los dos o tres primeros componentes principales de variación (Johnson, 1998). Con este análisis se representa en forma gráfica la variación existente entre los diferentes individuos en m dimensiones (hay m variables evaluadas), reduciendo la dimensionalidad al agrupar a todas las variables en unas dos o tres combinaciones lineales (componentes principales; CP) con características óptimas para la representación de la variabilidad subyacente. De esta manera es posible observar la similitud entre los individuos de acuerdo a su cercanía en el plano conformado por las CP (Durán y Sahagún, 1992).
Los datos obtenidos en un estudio de caracterización forman una matriz rectangular de n OTU por m descriptores. En estas matrices generalmente se utilizan las medias de cada descriptor o variable, si en la población no se presenta una gran variación para tales características. Por esta razón, es recomendable encontrar la forma más eficaz de evaluar si las OTU de una población son homogéneas.
El presente estudio propone una prueba para determinar la variabilidad interna, tanto dentro de una OTU como de las OTU que comparten un origen, a partir de la representación m (el número necesario de dimensiones que acumulen el ~50% de la varianza) dimensional de las OTU en un ACP. Se ilustra el procedimiento utilizando ejemplos que involucran variables anatómicas de durazno (Prunus persica (L.) Batsch.), frijol (Phaseolus vulgaris L.) y aguacate (Persea americana Mill.), y variables morfológicas de las OTU de tejocote (Crataegus spp.) que comparten un origen común.
Marco teórico
Medidas de dispersión
Las medidas de dispersión son utilizadas para medir la variabilidad de una variable respuesta dentro de una muestra o población. La más utilizada es la varianza, definida desde el punto de vista estadístico como el momento de segundo orden de una variable con respecto a su media; es decir, es la dispersión promedio que presenta cada dato evaluado con respecto a su valor medio (Infante y Zárate, 2000).
Existen otras medidas de dispersión, como la desviación estándar, que es la raíz cuadrada de la varianza, o el coeficiente de variación, que es el cociente entre la desviación estándar y la media, y que permite comparar la dispersión de variables sin importar la escala de medición en las que originalmente fueron tomados los datos (Sahagún, 1994, Tabla I).
Análisis de componentes principales (ACP)
El ACP es un análisis multivariable del tipo de los análisis factoriales y que es utilizado para condensar o reducir información, contenida en una serie de variables originales, en otra serie más pequeña de dimensiones compuestas o valores teóricos (factores) nuevos con una mínima pérdida de información (Hair et al., 2001).
El ACP comprende un procedimiento matemático que transforma un conjunto de variables respuesta correlacionadas en un conjunto menor de variables no correlacionadas llamadas componentes principales (CP), a partir de la matriz de correlación de las variables originales, o en su defecto a partir de la matriz de varianzas-covarianzas. Los CP a construir son tantos como variables originales existan y acumulan una parte de la varianza total. Entre mayor sea su valor propio más varianza total explica, siendo denotado como primer componente aquel componente con mayor varianza, seguido del componente con la siguiente varianza como segundo componente, y así subsecuentemente (Johnson, 1998)
Con este análisis se hace posible representar gráficamente la variación existente, acumulando la máxima varianza en el menor número de componentes principales, para lograr una verdadera reducción de la dimensionalidad. A partir de estos CP se puede realizar proyecciones de las OTU, lo que permite representar cada una de éstas en un espacio bi o tridimensional, explicando su distribución con mínima pérdida de información (González-Andrés, 2001).
Método de la varianza interna (varianza multivariable)
A partir del concepto empírico de la varianza, que es la dispersión de los individuos con respecto a su media, se desarrolló este concepto de varianza interna, que representa la dispersión entre los individuos de un grupo con su centroide y es calculado a partir de las medias de los valores de proyección de los individuos en un ACP (Figura 1). A partir de una serie de datos para estudios de caracterización, donde existe una variable categórica o clasificatoria para la formación de grupos, se realiza un ACP y se toman en cuenta los primeros CP. Se obtiene la proyección de las OTU en estos CP, que representan un cierto porcentaje de la variabilidad, tomando en cuenta a todas las variables evaluadas, aunque no todas representadas en la misma proporción en cada eje.
El ACP no minimiza la variabilidad intra-grupo como lo hace el análisis discriminante canónico (Johnson, 1998), ya que cada punto es asumido como diferente, sin importar a que clasificación pertenece.
A partir de esta proyección se definen el número de CP que son necesarios para tener una prueba representativa, aproximadamente el 50% de la varianza total. Se supone que este porcentaje de varianza se acumula con 2 o 3 CP. Núñez-Colín y Barrientos-Priego (2004) hicieron una aproximación de la fórmula, pero sin la consideración del aporte de varianza de cada componente, mediante la expresión
donde : distancia euclidiana promedio de los individuos del grupo k con respecto a su centroide, CPij: valor de la proyección del individuo i para el componente principal j, : valor promedio de los individuos del grupo k para el componente principal j, m: número de componentes principales usados, y n: número de individuos del grupo k.
Utilizando esa expresión se podrían cometer algunos errores, ya que se considera que una cierta diferencia en el primer CP pondera de la misma manera que la misma diferencia para cualquier otro CP, sin contemplar el porcentaje de varianza que explica cada componente.
Bajo estas consideraciones se propone una nueva medida de la variabilidad intra-grupo, que se basa en el valor medio de cada grupo en cada CP, valor que también puede ser representado en el espacio bi o tridimensional.
Una vez calculado este valor dentro de cada grupo en cada CP, se obtiene la diferencia de la proyección de cada individuo menos este valor medio, se eleva al cuadrado y se multiplica por el porcentaje de la varianza que aporta cada componente (como ponderación). Sumando todos los CP y luego todos los individuos, y promediando, se obtiene la medida de interés. La expresión de la medida de variabilidad intra-grupo para el grupo k es
donde : distancia euclidiana promedio ponderada de los individuos del grupo k con respecto a su centroide, CPij: valor de la proyección del individuo i para el componente principal j, : valor promedio de los individuos del grupo k para el componente principal j, %Var(CPj): porcentaje de varianza aportada por el CPj entre 100 (valores de 0 a 1), m: número de componentes principales usados, y n: número de individuos del grupo k.
Se recomienda graficar estos valores con su error estándar para tener una mejor perspectiva para su interpretación mediante la fórmula
donde SE(): error estándar de la , : distancia euclidiana promedio ponderada del individuo i del grupo k con respecto a su centroide mediante la fórmula
,yCPij,, %Var (CPj), m y n igual que anteriormente.
La medida permite identificar a los individuos atípicos del grupo, es decir, aquellos que presentan datos no comunes. Además, permite comparar la dispersión dentro de diferentes grupos de un mismo ACP para determinar la homogeneidad de los mismos.
Ejemplos del uso de la medida de variabilidad intra-grupo
Para ejemplificar el uso de esta medida se utilizarán varios ejemplos en diferentes estudios de caracterización. El primero involucra datos anatómicos de durazneros mexicanos, Nemaguard y almendro (Núñez-Colín et al., 2006) con repeticiones de cada genotipo (variable clasificatoria); el segundo contiene datos morfológicos de tejocote de tres orígenes o clases (datos no publicados de Carlos Núñez-Colín); y el tercero utiliza una base de datos anatómicos de tallos de seis líneas de fríjol en condiciones de exceso de humedad (Hernández, 2005) utilizando repeticiones de cada línea, y a la denominación de la línea como variable categórica. Finalmente se usa una cuarta base de datos construida a partir de información anatómica de hojas de ocho genotipos de aguacate (González, 2004) utilizando repeticiones para cada genotipo (variable clasificatoria).
Variables anatómicas de durazneros mexicanos, Nemaguard y almendro
En este estudio (Núñez-Colín et al., 2006) se evaluaron 25 caracteres anatómicos en cinco materiales de duraznos "criollos" (Prunus persica) de México, el portainjerto Nemaguard y un almendro (Prunus dulcis), con cinco repeticiones de cada uno. La prueba de variabilidad interna se realizó para determinar la homogeneidad o heterogeneidad que presentaban y compararlos entre sí, lo que serviría para relacionar su tipo de reproducción (auto o alogamia).
Los dos primeros CP con valores propios de 9,548 y 4,009 representaron 38,19 y 16,03% de la variabilidad de los datos y lograron explicar el 54,23% de la varianza total. A partir de la proyección de los individuos de los grupos establecidos (Figura 2) se puede apreciar que no existe una tendencia para ninguno de los grupos, por lo que la mayoría de éstos no son homogéneos.
A partir de los valores de proyección del ACP de cada individuo se calculó para cada uno de los k grupos, que en este ejemplo en particular son siete. También se obtuvo el error estándar de cada estimación (Figura 3). Se observa que el almendro presenta el mayor error estándar, lo que se asocia con la existencia de uno o más individuos atípicos, lo que se observa en la dispersión de las OTU en los dos primeros CP (Figura 2).
El gráfico permite determinar que el almendro presenta al menos un individuo atípico, por su alto error estándar. También indica que los duraznos de Temascaltepec y Sombrerete son los más homogéneos del estudio, con bajo valor de la y del error estándar, así como que en este estudio existe una homogeneidad general, a excepción del almendro.
Con esto se tiene, mediante una gráfica y con un solo valor, lo que se tendría que determinar en la obtención de medidas de dispersión de cada una de las variables evaluadas, lo que representa una disminución de trabajo y de tiempo.
Variables morfológicas de tejocote de tres diferentes orígenes
En el segundo ejemplo se evaluaron, a partir de datos no publicados de Carlos Núñez-Colín, 46 genotipos de tejocote (Crataegus spp.), 22 accesiones provenientes de Chiapas, 13 de Puebla y 6 del Estado de México, mediante 27 caracteres morfológicos de toda la planta, en donde se pretende determinar en cuál de estos tres orígenes existe mayor variabilidad, esto se realiza para conocer el nivel de domesticación, su estado silvestre o ambos, lo que permitirá discutir su posible centro de origen, así como determinar si existen individuos con características diferentes por su lugar de procedencia.
Los dos primeros CP con valores propios de 7,984 y 5,183, representaron 29,57 y 19,20% de la variabilidad de los datos y lograron explicar el 48,77% de la varianza total. A partir de la proyección de los individuos de los grupos establecidos (Figura 4) se puede observar que los individuos de Chiapas están distribuidos generalmente en la parte negativa del CP1 y separados de los de los de Puebla y México, pero existe una gran dispersión en los tres orígenes.
A partir de las coordenadas de cada punto en el gráfico se procedió al cálculo del centroide para obtener la , a la cual se le calculó el error estándar para representarlo gráficamente (Figura 5). En este caso se puede observar que las accesiones de Puebla presentan una gran dispersión, las de Chiapas una dispersión intermedia y, en contraste, las accesiones del Estado de México son las más homogéneas.
Por el gran error estándar que presenta las accesiones de Puebla se puede intuir que existen algunos genotipos atípicos dentro de este origen, a lo que se puede deber la alta dispersión. En los de Chiapas, aunque presentan una varianza interna alta, el bajo error estándar permite intuir que no existen individuos atípicos, mientras que los del Estado de México son los que presentan mayor homogeneidad.
Variables anatómicas de líneas de fríjol en estrés
En el tercer ejemplo se estudiaron seis diferentes líneas de fríjol evaluando tres plantas de cada línea, sometidas a estrés por exceso de humedad (Hernández, 2005) mediante 15 variables anatómicas. Se pretende identificar si cada línea es homogénea en las condiciones estudiadas, así como, teóricamente, cuál es la línea más adaptada a condiciones de inundación.
Los tres primeros CP con valores propios de 4,32; 2,80 y 2,56 representaron 28,8; 18,66 y 17,07% de la variabilidad de los datos y lograron explicar el 64,53% de la varianza total. A partir de la proyección de los individuos de las diferentes líneas (Figura 6), se puede observar que los individuos correspondientes al genotipo 45 se encuentran en la extrema inferior derecha, los del genotipo 33 en la parte izquierda media y los del 13 en el centro de la gráfica, las otras líneas no presentan una ubicación típica.
A partir de las coordenadas de cada punto en el gráfico se procedió al cálculo del centroide para obtener la , a la cual se le calculó el error estándar para representarlo gráficamente (Figura 7). En este caso se puede observar que las líneas 33 y 45 son las más homogéneas mientras que, por el contrario las líneas 64, 13 y 28 son las más heterogéneas.
Por el alto error estándar que presentan las líneas 28 y 43 se puede intuir que existen algunos individuos atípicos dentro de esta línea, a lo que se puede deber la alta dispersión. Las líneas 13 y 64 presentan una varianza interna alta pero el bajo error estándar permite intuir que no existen individuos atípicos.
Variables anatómicas de hoja de aguacate
En el cuarto ejemplo se estudiaron ocho diferentes genotipos de aguacate evaluando tres plantas de cada genotipo, mediante 12 variables anatómicas de hoja (González, 2004). Se pretende identificar la relación existente entre la anatomía de la hoja y el potencial fotosintético.
Los tres primeros CP con valores propios de 5,1068; 1,696 y 1,4984 representaron 42,56; 14,13 y 12,49% de la variabilidad de los datos y lograron explicar el 69,18% de la varianza total. A partir de la proyección de los individuos de los genotipos (Figura 8) se puede observar que los individuos de los genotipos Hass y Gem se encuentran muy dispersos en diversos cuadrantes, caso similar los correspondientes al Reed, mientras que los otros genotipos presentan una menor dispersión.
A partir de las coordenadas de cada punto en el gráfico se procedió al cálculo del centroide para obtener la , a la cual se le calculó el error estándar para representarlo gráficamente (Figura 9). En este caso se puede observar que los genotipos Harvest, Marvel y Nobel son los más homogéneos y los genotipos Hass y Gem son los más heterogéneos.
Por el error estándar alto que presentan los genotipos Hass, Gem y Reed se puede intuir que existen algunos individuos atípicos dentro de este genotipo, a lo que se puede deber la alta dispersión, probablemente por causas de muestreo ya que se tratan de clones.
Consideraciones finales y conclusiones
La prueba propuesta es una herramienta útil cuando se requiera encontrar la variabilidad intra-grupo de una serie de datos obtenidos de análisis de caracterización y así poder evaluar si la media es realmente representativa para cada accesión, si algún dato es muy desproporcionado conforme a los demás datos, o bien describir la variabilidad de grupos preestablecidos.
Al igual que en la mayoría de los análisis multivariables factoriales, para darle una interpretación biológica a esta prueba el investigador puede correlacionar los vectores propios de las variables más representativas dentro de los valores propios evaluados, a fin de poder explicar en qué variables son mayores las diferencias dentro de cada grupo preestablecido.
Se debe tomar en cuenta que solamente se está evaluando cierto porcentaje de la varianza total, aquella que explican los CP que se utilicen, por lo que se debe tener cuidado en seleccionar el número adecuado de CP a evaluar y se debe preestablecer los grupos de acuerdo al interés que se tenga.
REFERENCIAS
1. Durán Rodríguez R, Sahagún Castellanos J (1992) La interacción genético - ambiental en la genotecnia vegetal. Rev. Chapingo 79-80: 13-16 [ Links ]
2. González-Andrés F (2001) Caracterización morfológica. En González-Andrés F, Pita Villamil JM (Eds.) Conservación y caracterización de recursos filogenéticos. Instituto Nacional de Educación Agrícola. Valladolid, España. pp. 199-217. [ Links ]
3. González Calderón VM (2004) Anatomía de hojas de ocho cultivares de aguacatero (Persea americana Mill.). Tesis. Universidad Autónoma Chapingo. México. 32 pp. [ Links ]
4. Hair JFJr, Anderson RE, Tatham RL, Black WC (2001) Análisis Multivariante. 5ª ed. Traducido por Prense E, Cano D. Prentice Hall. Madrid, España. 799 pp. [ Links ]
5. Hernández Sánchez E (2005) Anatomía de xilema de tallo en seis cultivares de frijol (Phaseolus vulgaris L.) en condiciones de exceso de humedad. Tesis. Universidad Autónoma Chapingo. México. 51 pp. [ Links ]
6. Infante Gil S, Zárate de Lara GP (2000) Métodos Estadísticos, un Enfoque Interdisciplinario. Editorial Trillas. México. 643 pp. [ Links ]
7. Johnson DE (1998) Métodos Multivariados Aplicados al Análisis de Datos. Traducido por Pérez Castellanos H. International Thomson Editores. México. 566 pp. [ Links ]
8. Núñez-Colín CA, Barrientos-Priego AF (2004) Variabilidad interna, un uso alternativo del análisis en componentes principales. Proc. Interam. Soc. Trop. Horticult. 48: 203-207. [ Links ]
9. Núñez-Colín CA, Barrientos-Priego AF, Rodríguez-Pérez JE, Nieto-Ángel R (2006) Variabilidad anatómica de los sistemas de conducción y estomático de genotipos de Prunus spp. de diferentes orígenes. Pesq. Agropec. Bras. 41: 233-241. [ Links ]
10. Sahagún Castellanos J (1994) Estadística Descriptiva y Probabilidad, una Perspectiva Biológica. Universidad Autónoma Chapingo. México. 341 pp. [ Links ]