Serviços Personalizados
Journal
Artigo
Indicadores
-
Citado por SciELO -
Acessos
Links relacionados
-
Similares em
SciELO
Compartilhar
Revista de la Facultad de Ciencias Veterinarias
versão impressa ISSN 0258-6576
Rev. Fac. Cienc. Vet. v.47 n.2 Maracay jul. 2006
Efectos del tamaño de la muestra y de la estructura de la Matriz S sobre la amplitud de los intervalos de confianza de las medias de poblaciones Multinormales
Effects of Sample Sizes and Matrix S Structure on the Amplitude of Confidence Intervals of Multinormal Populations Means
Santiago Armas*,1 y Lusbi Herrera**
*Facultad de Ciencias Veterinarias. ** Facultad de Agronomía. Universidad Central de Venezuela, Apartado 4563. Maracay 2101, Estado Aragua, Venezuela.
Correo-E:s.armas@mailcity.com
RESUMEN
Generalmente, en las investigaciones Veterinarias no es posible contar con tamaños de muestras lo suficientemente grandes, además de que en casi todos los estudios se genera más de una variable respuesta, por lo que se decidió estudiar el efecto del tamaño de la muestra, sobre la amplitud de los intervalos de confianza en el campo multivariado. Además, se realizaron pruebas de hipótesis para estudiar el comportamiento del estadístico de prueba. En total son tres tipos de matrices S,, cuyas estructuras corresponden a: rij = 0,25; 0,65; 0,85, i ¹ j. Se trabajó con tamaños de muestra n = 10, 15, 20, 25 y 30 y p=4 variables. En la metodología de Unión - Intersección se utilizó: a´
±
y en el método de Bonferroni se utilizó:
a´
±
t(a/2m;n-1),
donde
es el vector columna de medias muestrales, p es el número de variables, n es el tamaño de la muestra, S es la matriz insesgada estimada de variancias y covariancias, a es el vector de contrastes entre medias y m es el número de contrastes entre medias. El estadístico de prueba corresponde a T2 de Hotelling,
F =
(
- m0 )´S
(
- m0 ) vs Ft (p, n-p, a).
Se concluye que a medida que aumenta la correlación entre las variables y el tamaño de la muestra, los intervalos son mas estrechos; este resultado es coincidente en ambos métodos de estimación. A medida que se incrementan los contrastes crece igualmente la longitud de los intervalos. Comparando los resultados, se observó que los intervalos obtenidos con la metodología de Bonferroni son más estrechos. El método de Bonferroni mostró mas potencia que Unión-Intersección. Los valores de a, estimado oscilan alrededor de 0,05.
(Palabras clave: Análisis multivariado, estimación, intervalos de confianza, prueba de hipótesis, T2 de Hotelling).
ABSTRACT
Usually, in Veterinary sciences it is not possible to have sample sizes big enough. Moreover, in most studies, more than one response variable is generated. The purpose of the present investigation was to study the effect of sample size on the amplitude of confidence intervals in multivariate data analysis. Two methods were evaluated: The Bonferroni and the Union-Intersection methods. In addition, hypothesis were tested to study the statistic behavior of the tests. A total of three matrixes were S.Their structures correspond to a:rij =0.25; 0.65; 0.85; i ¹ j. The following sample sizes (n) were used = 10, 15, 20, 25 and 30 and p=4 variables. The Union-Intersection method used: a´ ± and the Bonferroni method: a´
±
where: is the column vector of samples average, p the variable numbers, n the sample size, S the unbiased estimated matrix of variances and covariances, a the vector of contrasting means and m is the number of contrasts between means. The statistic test corresponds to T2 of Hotelling,
F =
(
- m0 )´S
(
- m0 ) vs Ft (p, n-p, a).
When results were compared among the three correlation values, it was observed that as the correlation between the variables increases and the sample sizes the intervals get narrower. This result coincides in both of the estimating methods. For the two methods, the intervals were narrower for the contrast m1 - m2; similarly, when the contrasts increase as well do the intervals length. Comparing the results obtained, the intervals were narrower with Bonferroni method. The Bonferroni method showed to be more powerful than the Union-Intersection method. The a estimated values oscillate around 0.05.
(Key words: Multivariate analysis, estimation, confidence intervals, hypothesis tests, T2 of Hotelling)
Recibido: 29/03/07 - Aprobado: 16/05/07
INTRODUCCIÓN
Los estudios y la instrumentación en el campo multivariado, se han comenzado a realizar en fechas relativamente recientes, se sabe que su aplicación es compleja y que muchos son los datos que se orientan hacia esta área de la Estadística, lo que hace necesaria su comprensión para facilitar su implementación práctica.
La Estadística como herramienta fundamental en todas las áreas de la Ciencia se basa, generalmente, en la inferencia, es decir en la estimación de parámetros y pruebas de hipótesis. En la parte de estimación, es necesario tener amplios basamentos teóricos para que estas estimaciones sean en lo posible, lo más acertadas, como es conocer la naturaleza de la muestra con la que se trabaja (características de las variables de trabajo, cálculo de los tamaños apropiados de muestra, funciones de distribución, etc.).
La estimación ha sido ampliamente estudiada en la estadística univariada, pero pocos trabajos se han desarrollado en la estadística multivariada, especialmente en el caso de los contrastes de medias, es por ello que se decidió trabajar con la inferencia estadística en el campo multivariado, en este caso, comparando los métodos de estimación por intervalos basados en la desigualdad de Bonferroni y los obtenidos a través del principio Unión - Intersección, realizando para ello, la simulación de muestras cuyas variables tienen distribución multinormal.
Para la construcción de los intervalos de confianza, es necesario que las variables cumplan con los requisitos básicos para la estadística paramétrica multivariada, es decir, Y ~ MN ( m, S ),, donde Y es un vector de variables aleatorias, distribuido multinormalmente con vector de medias m y matriz de variancias y covariancias S, por lo que se diseñó y construyó un simulador en lenguaje Turbo-Pascal, el cual generó las correspondientes muestras cuyas variables tienen una distribución multinormal.
En el caso de la construcción de intervalos de confianza, se han desarrollado varios trabajos como el de Jean'Dunn (1959), quien trabajó con los intervalos de confianza para las medias de variables dependientes distribuidas normalmente e indica que los intervalos de confianza basados en los métodos de la T2 de Hotelling y Scheffé, para todos los contrastes lineales de medias, resultaron ser mayores que aquellos basados en la distribución t. Este autor señala que en las investigaciones biológicas donde se toman medidas en la misma muestra de n individuos a k tiempos diferentes, estas k medidas para cada individuo deberían estar altamente correlacionadas. Además, este autor construyó intervalos de confianza de la media en el caso univariado, utilizando la desigualdad de Bonferroni cuando las variancias son conocidas siendo estos: (
1 ca s1/
< m1<
1 + ca s1/
), ... , (
k ca sk/
< mk<
k + ca sk /
) de la distribución normal univariada. Además explica que se puede utilizar la distribución T2 de Hotelling para obtener un grupo de intervalos de confianza:
T2 =
=
donde F tiene k y n - k grados de libertad y los intervalos son:
1 ± ca s1 /
, ... ,
k ± ca sk /
, donde
ca =
y f es el valor de la distribución F con k y (n-k) grados de libertad, tal que la probabilidad (F>f ) =a.
Spurrier (1999), comparó los intervalos de confianza obtenidos por los métodos de Scheffé, Tukey y Dunnet con una probabilidad de 100(1-a)% y encontró que los obtenidos por el método Scheffé fueron los mas precisos.
Para el caso multivariado, Chew (1966), Kabe (1967), Morrison (1967), Mardia (1979), Herrera (1986), describieron intervalos de confianza de las medias de la forma:
a´
t (a/2m; n-1) £ a´m £ a´
+
t (a/2m; n-1)
teniendo éstos un coeficiente de confianza conjunto de, al menos, 100(1- a)%. Además indicaron que para probar las m hipótesis individuales de tipo Ho: a´m = a´mo, se puede comparar el estadístico
t(a)=
con t(a/2m; n-1), comparando este método con el de Unión - Intersección en el contraste de medias señalando que en la aplicación de este último método se sabe que:
P { |a´
a´m| £
} = 1 - a, " a
y que bajo Ho; ; F =
T2 ~ F(p; n-p) ,
esto es: a´
±
T (a; p; n-p) .
Peña (2002) llevó a cabo una investigación para describir como realizar el contraste de varias medias (análisis de variancia multivariante), indicando que la diferencia de soportes es: L(H1) =
½Sw½
y se rechazará Ho cuando esta diferencia sea grande. Rencher (2002) describió las pruebas de hipótesis multivariadas vs las univariadas para uno o dos vectores de medias con s conocida y describió igualmente la prueba T2 de Hotelling.
Por otro lado, en varios campos de investigación, particularmente en Ciencias Veterinarias, muchas veces no es posible disponer de muestras grandes, por lo cual es necesario estudiar el comportamiento del estadístico de prueba para tamaños de muestra relativamente pequeños.
En este sentido, se planteó comparar las amplitudes de los intervalos de confianza obtenidos por el método Unión-Intersección y a través de la desigualdad de Bonferroni, bajo diferentes condiciones tales como: tamaño de la muestra y la estructura de la matriz de variancias y covariancias, en cuanto al grado de correlación entre las variables.
MATERIALES Y MÉTODOS
Para cumplir con los objetivos de medir los efectos sobre la amplitud de los intervalos de confianza, se estudiaron los siguientes casos : tamaño de muestra (n =10, 15, 20, 25 y 30); grado de correlación entre las variables (rij = 0,25; 0,65 y 0,85); i ¹ j y p = 4 variables, dando un total de 15 situaciones diferentes.
Para simular los datos multinormales, se partió de la siguiente información:
Y ~ MN
con rij = 0,25, para todo i ¹ j.
Y ~ MN
con rij = 0,65, para todo i ¹ j.
Y ~ MN
con rij = 0,85, para todo i ¹ j.
I.- Simulación de números pseudoaleatorios
Conociendo que una variable aleatoria Y~U(1/2, 1/12), se hizo una serie de pruebas para constatar que el simulador construido en Turbo-Pascal cumplía con los siguientes requisitos:
a) Que el ciclo de repetición en la generación de números pseudoaleatorios sea lo mayor posible.
b) Que al iniciar una secuencia de generación lo hiciera en un nuevo punto de partida, esto lo permite el Turbo-Pascal con la función RANDOMIZE, la cual inicializa el semillero para la generación de números pseudoaleatorios en cero.
c) Que desde el punto de vista estadístico, las medias y las variancias muestrales no difieran de los parámetros poblacionales.
d) Rapidez en la generación de las muestras con números pseudoaleatorios.
Se realizaron pruebas de hipótesis para probar la aproximación a la distribución uniforme no rechazándose la hipótesis de que en las muestras simuladas la variable aleatoria generada tiene distribución uniforme Y ~ U(0,5; 0,0833), además se verificó que el ciclo de simulación siempre partiera de un nuevo punto, ya que al iniciar una nueva corrida, ó al reiniciar el equipo, el resultado obtenido siempre fue diferente, por lo que se deduce que el simulador es confiable en la generación de muestras cuyas variables tienen distribución uniforme, pues ésta constituye la base para simular las variables normales estandarizadas.
II.- Simulación de variables aleatorias distribuidas normalmente y estandarizadas
Se sabe que si las variables aleatorias independientes:
Y1, Y2, ..., Y48 ~ U(1/2, 1/12) entonces
~ U(24, 4).
Se decidió trabajar con 48 variables aleatorias uniformes porque se considera que es una cantidad suficiente para generar una variable aleatoria distribuida aproximadamente como una normal estandarizada, a partir de la transformación:
Zj =
~ N(0, 1).
III.- Simulación de variables aleatorias distribuidas multinormalmente
Usando el método utilizado por De Melo (1985), se procedió a generar las 1000 muestras que contienen las variables aleatorias distribuidas multinormalmente Yi ~ MN (m, S), cada una de estas 1000 muestras se guardaron en un archivo para cada una de las 15 combinaciones: p = 4; n = 10, 15, 20, 25 y 30; rij= 0,25; 0,65; 0,85.
De cada archivo se obtuvieron los intervalos para cada uno de los métodos de estimación (Unión-Intersección y Bonferroni), para todos los contrastes posibles, en cada una de las 1000 muestras calculándose en cada caso un promedio de la diferencia entre el límite superior e inferior de los 1000 intervalos (Tabla 1).
Los contrastes para los cuales se calcularon los intervalos en todas las combinaciones posibles son:
(m1 m2), ( m1 m3), (m1 m4), (m2 m3), (m2 m4), (m3 m4).
Para las estimaciones se utilizaron los métodos de Unión - Intersección y de Bonferroni, explicados, entre otros por Morrison (1967), Mardia et. al. (1979), Seber (1984) y Herrera (1986). En todos los casos se trabajó con un nivel de significación a=0,05, es decir coeficiente de confianza del 95%. Se sabe que los intervalos obtenidos por la metodología Unión - Intersección tienen un coeficiente de confianza conjunto del 100(1- a)%; en cambio, los obtenidos por la metodología de Bonferroni presentan la ventaja que tienen un coeficiente de confianza conjunto de, al menos, 100(1-a)%.
En la metodología de Unión - Intersección se trabajó con el intervalo desarrollado por Morrison (1967) y Mardia et. al. (1979) y explicado y utilizado por Herrera (1986):
a´
±
,
en el método de Bonferroni se utilizó el intervalo igualmente desarrollado por Morrison (1967) y explicado y utilizado por Seber (1984) y por Herrera (1986):
a´
±
t (a/2m; n-1) ,
donde
es el vector columna de medias muestrales, p es el número de variables, n es el tamaño de la muestra, S es la matriz insesgada estimada de variancias y covariancias, a es el vector de contrastes de medias (de acuerdo a las hipótesis que se desee probar), m es la cantidad de contrastes entre medias (dependiendo del número de variables), es decir, m = Cp, 2, F y t son los valores tabulados, los valores para ta/2m están tabulados en el apéndice suministrado por Seber (1984), los que corresponden a las distribuciones de las variables estudiadas según los métodos de estimación. Se realizaron, además, pruebas de hipótesis individuales, comparando entre los tres valores de correlación, construyendo en cada caso individual que sea rechazada la Ho, los intervalos de confianza por Unión-Intersección y Bonferroni para mi.
Las hipótesis a probar:
Ho : m = m0 =
vs. H1: m ¹ m0 =
En este caso, la prueba corresponde a T2 de Hotelling, descrito por Mardia et al. (1979):
Fc =
(
- m0 )´S
(
- m0 ) vs Ft (p, n-p, a)
si S es insesgada, que es la que se utilizó en este trabajo.
La regla de decisión es no rechazar Ho: m = mo si T2 £
F(1-a; p; n-p)
y rechazar Ho en caso contrario, donde T2 = n(
- mo)´S
(
- m0 ).
RESULTADOS Y DISCUSIÓN
En la Tabla 1 se muestran los resultados obtenidos de la amplitud de los intervalos de confianza para todas las combinaciones.
Se observa que a medida que aumenta la correlación entre las variables los intervalos son más estrechos, resultado que es bien interesante, ya que pone de manifiesto la importancia de tomar en cuenta la correlación existente entre las variables en el momento de realizar estimaciones, lo cual justifica el uso de los métodos multivariados en el manejo de datos con varias variables. Es decir que los intervalos con r = 0,25 (correlación baja ) fueron mas amplios. Esto se debe a que al aumentar rij se incrementan los valores de la covariancia entre las variables yi y yj.
De manera similar, a medida que aumenta el tamaño de la muestra los intervalos son mas estrechos, lo cual era de esperarse, ya que en todo tipo de intervalos de confianza la amplitud depende (es inversamente proporcional) del tamaño de la muestra (disminuye el error estándar), por lo que al aumentar el tamaño muestral se reducirá la amplitud y, por supuesto, el intervalo será mas estrecho.
Estos resultados son coincidentes en ambos métodos de estimación y concuerdan, en parte, con los obtenidos por Seber (1984) y por Herrera (1986), aunque éste último autor solo realizó la comparación para cinco contrastes diferentes.
Es importante destacar que al comparar los dos métodos de estimación (Unión-Intersección y de Bonferroni), los intervalos fueron más estrechos para Bonferroni en todos los casos, con la ventaja adicional, que tienen un coeficiente de confianza conjunto de al menos 95%.
En cuanto a las pruebas de hipótesis, se contó la cantidad de casos que rechazan Ho, calculándose de esta manera. En la Figura 1 se presentan los valores de , comparando en el eje x los tamaños de muestra.
El menor valor corresponde a n = 20; r = 0,85; = 0,042 y el mayor valor corresponde a n = 25, r = 0,65; = 0,065, en general el valor oscila en todos los casos alrededor de 0,05, en la gráfica puede observarse cómo cambia el comportamiento de para r = 0,65, comparado con los otros valores de correlación, aunque el cambio no es sustancialmente diferente a los demás.
| | r = 0,25 | r = 0,65 | r = 0,85 | ||||
| n Contrastes | UI | Bonf | UI | Bonf | UI | Bonf | |
| 10 | m1-m2 | 28,16 | 21,11 | 19,33 | 14,49 | 12,91 | 9,68 |
| m1-m3 | 45,39 | 34,03 | 36,22 | 27,15 | 30,75 | 23,05 | |
| m2-m3 | 46,84 | 35,11 | 3589 | 26,91 | 28,89 | 21,66 | |
| m1-m4 | 60,25 | 45,16 | 50,97 | 38,21 | 45,67 | 34,24 | |
| m2-m4 | 60,77 | 45,55 | 49,89 | 37,40 | 43,33 | 32,48 | |
| m3-m4 | 66,95 | 50,19 | 47,15 | 35,35 | 32,99 | 24,73 | |
| 15 | m1-m2 | 18,45 | 15,56 | 12,73 | 10,74 | 8,53 | 7,19 |
| m1-m3 | 28,88 | 25,21 | 23,74 | 20,03 | 20,00 | 16,87 | |
| m2-m3 | 30,54 | 25,77 | 23,32 | 19,67 | 18,69 | 15,77 | |
| m1-m4 | 39,21 | 33,08 | 33,32 | 28,11 | 29,80 | 25,14 | |
| m2-m4 | 39,58 | 33,39 | 32,50 | 27,42 | 28,18 | 23,77 | |
| m3-m4 | 43,65 | 36,82 | 30,81 | 25,99 | 21,61 | 18,23 | |
| 20 | m1-m2 | 14,73 | 12,92 | 10,13 | 8,89 | 6,78 | 5,94 |
| m1-m3 | 23,77 | 20,85 | 18,86 | 16,54 | 15,94 | 13,98 | |
| m2-m3 | 24,37 | 21,37 | 18,59 | 16,30 | 14,94 | 13,10 | |
| m1-m4 | 31,54 | 27,66 | 26,67 | 23,39 | 23,82 | 20,89 | |
| m2-m4 | 31,71 | 27,81 | 26,01 | 22,80 | 22,55 | 19,78 | |
| m3-m4 | 35,21 | 30,88 | 24,83 | 21,77 | 17,38 | 15,24 | |
| 25 | m1-m2 | 12,46 | 11,14 | 8,61 | 7,70 | 5,78 | 5,17 |
| m1-m3 | 20,52 | 18,35 | 16,27 | 14,54 | 13,66 | 12,21 | |
| m2-m3 | 20,84 | 18,63 | 15,88 | 14,20 | 12,70 | 11,36 | |
| m1-m4 | 26,64 | 23,81 | 22,43 | 20,05 | 20,06 | 17,93 | |
| m2-m4 | 26,91 | 24,06 | 21,90 | 19,57 | 18,96 | 16,95 | |
| m3-m4 | 30,10 | 26,90 | 21,12 | 18,88 | 14,74 | 13,17 | |
| 30 | m1-m2 | 11,19 | 10,12 | 7,72 | 6,98 | 5,16 | 4,67 |
| m1-m3 | 18,26 | 16,52 | 14,50 | 13,12 | 12,15 | 10,99 | |
| m2-m3 | 18,54 | 16,76 | 14,15 | 12,80 | 11,32 | 10,24 | |
| m1-m4 | 23,74 | 21,47 | 20,02 | 18,10 | 17,83 | 16,13 | |
| m2-m4 | 23,89 | 21,61 | 19,51 | 17,64 | 16,87 | 15,26 | |
| m3-m4 | 26,51 | 23,98 | 18,63 | 16,85 | 13,00 | 11,76 | |
UI: Unión - Intersección ; Bonf: Bonferroni ; r= Correlación entre las variables; n= tamaño de la muestra
I: Unión - Intersección ; Bonf: Bonferroni ; r= Correlación entre las variables; n= tamaño de la muestra
CONCLUSIONES
El simulador diseñado y construido en Turbo-Pascal para generar muestras cuyas variables tengan distribución multinormal, fue validado mediante prueba de hipótesis de aproximación de las muestras generadas a las distribuciones planteadas, es decir, no se rechazaron las hipótesis nulas, por lo que el simulador es de gran fiabilidad para ser usado en la Estadística Multivariada.
En cuanto a la amplitud de los intervalos obtenidos, se concluye que a medida que aumenta la correlación entre las variables, independientemente del tamaño de la muestra, los intervalos son mas estrechos, resultado que es bien interesante, ya que pone de manifiesto la importancia de tomar en cuenta la correlación existente entre las variables en el momento de realizar estimaciones, lo cual justifica el uso de los métodos multivariados en el manejo de datos con varias variables. Esto se debe a que al aumentar rij se incrementa el valor de la covariancia entre las variables yi y yj. Este resultado es coincidente en ambos métodos de estimación (Unión-Intersección y Bonferroni).
Se observa que a medida que aumenta el tamaño de la muestra, independientemente del grado de correlación entre las variables, los intervalos son mas estrechos, lo cual era de esperarse, ya que en todo tipo de intervalos de confianza la amplitud de los intervalos depende (es inversamente proporcional) del tamaño de la muestra (disminuye el error estándar), por lo que al aumentar el tamaño muestral se reducirá la amplitud de los intervalos. Por lo tanto, es recomendable que los investigadores traten de trabajar con muestras grandes en la medida de sus posibilidades
Comparando los resultados obtenidos con los métodos de Unión - Intersección y Bonferroni, se observa que los intervalos son más estrechos con la metodología de Bonferroni que con el método de Unión - Intersección, por lo que para la estimación del contraste entre medias en el campo multivariado, con las características aquí estudiadas, se recomendaría el uso de la metodología de Bonferroni.
Estos tres resultados se resumen afirmando que al aumentar la correlación entre las variables y al aumentar los tamaños de muestra se obtienen intervalos más estrechos, por lo que finalmente los intervalos mas estrechos se obtuvieron con r = 0,85 y n = 30 con la metodología de Bonferroni.
Los valores de a estimado oscilan alrededor de 0,05, el cual es el valor del nivel de significación fijado en las pruebas, esto es similar tanto para los diferentes tamaños de muestra como para las diferentes correlaciones entre las variables. Por lo que el nivel de significación de la prueba se mantiene alrededor del valor fijado.
Figura 1. Nivel de significación estimado

REFERENCIAS
1. Chew, V. 1966. Confidence, prediction, and tolerance regions for the multivariate normal distribution. JASA, 61: 605.
2. De Melo, G. 1985. Análise Estatistica Multidimensional. Universidade de São Paulo. pp. 25 - 27.
3. Herrera, L. 1986. Desigualdades de Bonferroni, ejemplos e algumas aplicaVoes. Universidade de São Paulo, Piracicaba, Brasil. pp. 6 -10.
4. Jean'Dunn. 1959. Confidence intervals for the means of dependent, normally distributed variables. JASA, 4:613.
5. Kabe, D. G. 1967. On Multivariate prediction intervals for sample mean and covariance based on partial observations. JASA, vol. 62:634.
6. Mardia K.; Kent, J. T.; Bibby, J.M. 1979. Multivariate Analysis. Academic Press, London - New York - Toronto - Sydney - San Francisco. A subsidiary of Harcourt Brace Jovanovich, publishers. pp. 73 - 358.
7. Morrison, D. 1967. Multivariate Statistical Methods, Universidad de Pensilvania. Segunda edición, McGraw - Hill Book Company. pp. 128-136.
8. Peña, D. 2002. Análisis de Datos Multivariantes. Impreso en España, McGraw-Hill/Interamericana, 539 p.
9. Rencher, A. 2002. Methods of multivariate analisis. Impreso en EE.UU. John Wiley Sons, segunda edición. 708 p.
10. Seber, G. A. F. 1984. Multivariate observations. Impreso en EE.UU. John Wiley & Sons. pp. 58-105.
11. Spurrier, J. D. 1999. Exact Confidence bounds for all contrasts of three or more regression lines. Journal of the American Statistical Association, June. 1999, vol. 94, Nro. 446.













