Interciencia
versión impresa ISSN 0378-1844
INCI v.29 n.7 Caracas jul. 2004
TAMAÑO DE MUESTRA EN EXPERIMENTOS BIOTECNOLÓGICOS CON SUSPENSIONES CELULARES
Jhonny R. Demey, Asia Y. Zambrano, Raúl Macchiavelli y Ventura González
Jhonny R. Demey. Master en Estadística, Universidad Central de Venezuela. Bioestadístico, Centro de Biotecnología. Fundación Instituto de Estudios Avanzados (IDEA), Venezuela. Dirección: Apartado 4521. Maracay, 2101. Venezuela. e-mail: jdemey@reacciun.ve.
Asia Yusely Zambrano. Doctor en Ciencias Agrícolas, UCV. Investigador, Instituto Nacional de Investigaciones Agropecuarias (INIA-CENIAP), Maracay, Venezuela. e-mail: azambra@reacciun.ve
Raúl Macchiavelli. Ph.D. en Estadística, Penn State University, EEUU. Profesor, Colegio de Ciencias Agrícolas, Universidad de Puerto Rico, Mayagüez, Puerto Rico. e-mail: raul_macchiavelli@cca.uprm.edu
Ventura González R. Ph.D. en Mejoramiento de Plantas, Iowa State University, EEUU. Investigador, INIA-CENIAP, Maracay, Venezuela. e-mail: ventura_gonzalez@yahoo.com
Resumen
Se propone la metodología del Bootstrap para estudiar la calidad de las estimaciones de la media a través de los errores estándar, sesgo e intervalos de confianza, y determinar el tamaño óptimo de muestra usando muestreo piloto, en experimentos biotecnológicos que involucran el estudio de la dinámica de células en suspensión. Se utilizaron las variables peso seco (mg/ml) y número total de células/ml de los cultivares B6749 y V64-10 de caña de azúcar (Saccharum spp.). El tamaño de muestra óptimo se calculó a partir del mínimo relativo o punto de máxima curvatura de la función generada entre los errores estándar Bootstrap y el tamaño de muestra. Se encontraron reducciones en más del 50% del tamaño de la muestra cuando estos resultados son comparados con los métodos clásicos utilizados para el cálculo del tamaño de muestra.
Summary
The Bootstrap method is proposed to study the accuracy of mean estimates through the standard error, bias and confidence intervals, and to determine the optimal sample size using pilot data from biotechnology experiments involving the study of growth dynamics of cell suspensions. Dry weight (mg/ml) and cell number per ml from B6749 and V64-10 cultivars of Saccharum spp. were used. The optimal sample size was calculated using the minimum relative point from the function generated between the Bootstrap standard errors and sample size. A 50% reduction in sample size was found, as compared to classic methodologies.
Resumo
Se propõe a metodologia do Bootstrap para estudar a qualidade das estimações da media através dos erros estándar, sistemático e intervalos de confiança, e determinar o tamanho ótimo da amostra usando amostragem piloto, em experimentos biotecnológicos que envolvem o estudo da dinâmica de células em suspensão. Utilizaram-se as variáveis peso seco (mg/ml) e número total de células/ml dos cultivares B6749 e V64-10 de cana de açúcar (Saccharum spp.). O tamanho da amostra ótima se calculou a partir do mínimo relativo ou ponto de máxima curvatura da função gerada entre os erros estándar Bootstrap e o tamanho da amostra. Encontraram-se reduções em mais do 50% do tamanho da amostra quando estes resultados são comparados com os métodos clássicos utilizados para o cálculo do tamanho da amostra.
Palabras Claves / Biotecnología / Bootstrap / Células en Suspensión / Saccharum spp. / Tamaño de muestra /
Recibido: 21/04/2004. Modificado: 07/06/2004. Aceptado: 11/06/2004.
Introducción
El mejoramiento genético a través de técnicas in vitro, especialmente el cultivo de células en suspensión, ofrece una serie de ventajas en términos de la reducción del tiempo de experimentación para lograr líneas celulares promisorias a ser reproducidas y que mantienen las características parentales deseadas y/o inducidas (Zambrano et al., 1999, 2001, 2002, 2003a, b). Sin embargo, las principales limitaciones de este método son la disponibilidad del material experimental (restringida, entre otros factores, por su carácter destructivo), la necesidad de efectuar mediciones a través del tiempo, los altos costos operativos asociados al mantenimiento de las células en agitación y la naturaleza de las observaciones, que hacen que la obtención de información esté sujeta a errores de estimación, debido al reducido tamaño de las muestras.
Al igual que en la mayoría de otros experimentos biológicos, la determinación del tamaño de muestra se convierte en un problema delicado ya que no sólo afecta las estimaciones, sino también las pruebas de hipótesis. Para un tamaño de muestra y un nivel de confianza dados, la potencia de la prueba podría no ser la adecuada para lo que se desea estimar y se estaría llegando a conclusiones erróneas de las pruebas de hipótesis aplicadas a las observaciones. Sin embargo, es importante comprender que las pruebas de hipótesis se construyen sobre la incertidumbre que representa un proceso biológico y cualquier decisión que se tome con respecto a una hipótesis estadística es un proceso inferencial, el cual siempre se encuentra sujeto a error. La decisión de rechazar una hipótesis no necesariamente significa que es falsa; pero la evidencia muestral, con base en la cual se toma la decisión, proporciona cierto grado de confiabilidad con el que se puede proceder como si la hipótesis fuese falsa. Entonces la función de potencia se incrementa conforme aumenta el tamaño de la muestra (Cochran, 1977; Hogg y Craig, 1995; Knight, 1999).
Cuando no es posible aumentar el tamaño de la muestra se puede evaluar la precisión en términos del error estándar y el sesgo, y producir estimaciones dentro de intervalos de confianza que permitan, con tamaños de muestra suficientes, obtener conclusiones válidas sobre los experimentos a partir de las hipótesis que se prueban (Efron y Tibshirani, 1986).
Una de las técnicas no paramétricas más utilizadas en la actualidad es el Bootstrap, que permite valorar el sesgo y el error estándar de un estadístico calculado a partir de una muestra y establecer el mejor intervalo de confianza para el parámetro estimado, sin basarse en suposiciones sobre las propiedades estadísticas de la característica muestreada (Efron, 1979; Efron y Gong, 1983; Efron y Tibshirani, 1986, 1993; Leger et al., 1992).
El Bootstrap consiste fundamentalmente en tratar la muestra como si fuese la población y aplicar un muestreo con reposición para generar una estimación empírica de la distribución muestral del estadístico. Al ser una técnica no paramétrica, el Bootstrap tiene la ventaja de que no precisa conocer la función de distribución teórica de los datos pero, contrariamente a las técnicas no paramétricas clásicas, no conlleva a la pérdida de eficiencia al no requerir, entre otras, un reescalamiento de la variable, siendo aplicable a una gran cantidad de datos, diseños o situaciones de índole diferente (Davison y Hinkley, 1997).
Efron (1979), Hinkley (1988), y Efron y Tibshirani (1993) describen los pasos básicos en la estimación Bootstrap:
1. Se construye una distribución de probabilidad empírica, a partir de la muestra disponible asignando probabilidad de 1/n a cada punto, x1, x2, ..., xn. Esta es la función de distribución empírica (FDE) de x, que constituye el estimador no-paramétrico de máxima verosimilitud de la función de distribución de la población, F(x).
2. Partiendo de se extrae una muestra aleatoria simple con reemplazo de tamaño n.
3. A partir de la muestra obtenida en el paso 2, se calcula el estadístico de interés, , dando
*b.
4. Se repite B veces los pasos 2 y 3. La magnitud de B depende en la práctica de las pruebas que se van a aplicar a los datos. En general, B varía entre 50 a 200 para estimar el error estándar de y es mayor que 1000 para estimar intervalos de confianza alrededor de
o si el parámetro es un percentil extremo de la distribución.
5. Se construye una distribución de probabilidad *b a partir de los B, asignando una probabilidad de 1/B a cada punto
Esta distribución es la estimación Bootstrap de la distribución muestral de
y puede usarse para hacer inferencias sobre q. El estimador Bootstrap del parámetro q se define como la media de los valores del estadístico calculados en las B remuestras Bootstrap y su expresión es:
Si, por ejemplo, ¸ es la mediana muestral, entonces
*b es la mediana de la muestra Bootstrap.
6. Una vez calculada a partir de las muestras Bootstrap se procede a calcular el error estándar, el sesgo y los intervalos de confianza, siguiendo los procedimientos descritos por Efron y Tibshirani (1993).
Existen diferentes métodos para estimar los intervalos de confianza. Uno de los métodos descritos por Efron y Tibshirani (1993) propone la obtención de intervalos de confianza BCa, donde los percentiles usados dependerán de 2 números, â y , denominados aceleración y corrección por sesgo, respectivamente.
El intervalo BCa para una confianza de 1-2a, estará dado por:
j
(.): función de distribución acumulativa normal y z(a): el 100a-ésimo punto percentil de la distribución normal estándar. El valor de â se refiere a la tasa de cambio del error estándar deEl presente trabajo tiene como objetivo utilizar la metodología del Bootstrap para estudiar la calidad de la estimación de la media a través del error estándar, sesgo e intervalos de confianza para las variables peso seco y número total de células de los cultivares de caña de azúcar (Saccharum spp.) B6749 y V64-10 en experimentos donde se utiliza el cultivo de células en suspensión y determinar el tamaño óptimo de muestra para la estimación de la media de las variables en estudio a partir del error estándar calculado por la metodología del Bootstrap.
Metodología
Recolección de la información
Para la ejecución de la investigación se requirió previamente la obtención de callos de los cultivares de caña de azúcar (B6749 y V64-10), a partir de plantas provenientes del Campo Experimental del Centro Nacional de Investigaciones Agropecuarias (CENIAP-INIA, Venezuela). Una vez obtenido el tejido calloso en los dos cultivares, aproximadamente de 6 a 8 semanas, se procedió a la obtención de cultivos de células en suspensión, según la metodología descrita por Zambrano et al. (1994). Se tomaron muestras (2ml de cada suspensión) cada 2 días desde la implantación hasta los 60 días (n=35), para la medición de las variables a evaluar: peso seco en mg/ml y número total de células por ml. Estas mediciones se realizaron según la metodología descrita por Zambrano et al. (1994).
Determinación de la calidad de las estimaciones
Utilizando la distribución de probabilidad empírica, construida a partir de los vectores de n=35 con las observaciones originales para las variables peso seco y número total de células para los cultivares B6749 y V64-10, respectivamente, se procedió a calcular las medias, el error estándar e intervalos de confianza por la metodología clásica basada en suposiciones de normalidad.
Para estudiar la calidad de las estimaciones se utilizó la distribución empírica de cada vector original, de la cual se generó para cada una de las variables 200 muestras Bootstrap. En estas muestras se calculó el estadístico de interés (
), y con las 200 medias Bootstrap se calculó el error estándar y el sesgo. El intervalo de confianza BCa (corregido por aceleración y sesgo) fue generado utilizando 1000 muestras Bootstrap.
Tamaño óptimo de muestra
El tamaño óptimo de muestra se calculó a partir de la determinación del error estándar por la metodología del Bootstrap. Para ello se remuestrearon las muestras originales con 7 tamaños distintos de muestras (5, 10, 15, 20, 25, 30 y 35); esta operación se repitió 10 veces, quedando entonces 80 submuestras para cada variable. En cada una de estas submuestras se calculó el error estándar con el algoritmo Bootstrap, luego de lo cual se procedió a graficar el tamaño de muestra en las abscisas y los errores estándar en las ordenadas, para cada una de las dos variables consideradas en el estudio.
Una vez estimados los errores estándar para cada tamaño de muestra fue necesario determinar cuál era el considerado como óptimo. Para ello se calculó el mínimo relativo de la función, comparando el valor de la función, en el punto donde existe la máxima curvatura, con los valores de ésta en las proximidades de dicho punto. Este método supone que la función generada de los errores estándar para cada tamaño de muestra es igual a f(x) y tiene un mínimo relativo en el punto de abscisa x0, cuando existe un entorno (x0-d, x0+d), tal que f(x0)£f(x) para todo punto en el entorno; es decir, si para todo 0<h<d se verifica que f(x0-h)³f(x0)£f(x0+h), se dice que la función f(x) tiene un mínimo relativo en el punto x0 (Hamming, 1987). En ese punto, incrementos del tamaño de muestra no afectarán significativamente el error estándar de la estimación.
La literatura sobre experimentos o estudios del comportamiento de cultivos de células de suspensión no proponen metodologías que permitan el cálculo de tamaño óptimo de muestra, por lo que no existe un referente a la propuesta metodológica que se pretende en este trabajo. Por lo tanto la comparación se realizará con respecto a los resultados que producen los métodos clásicos que se fundamentan en que las variables de interés se distribuyen normalmente. Una de las expresiones más comunes en problemas de estimación es la referida por Di Rienzo et al. (2003):
Este método presupone un muestreo aleatorio simple y tiene por objeto dar una aproximación, basada en la distribución normal, del tamaño muestral necesario para estimar a la media con una precisión determinada. En la expresión, s representa la desviación estándar poblacional y c es la amplitud requerida para el intervalo de confianza con una confianza (1-a)% para la media poblacional. El valor c puede elegirse arbitrariamente o expresarse como una fracción f de la media muestral (c=f). InfoStat (2004) mejora la expresión incorporando como alternativa que el usuario pueda especificar el error estándar máximo aceptable para la estimación, como criterio para el cálculo del tamaño muestral.
Todos los análisis se realizaron utilizando InfoStat versión 2004 (InfoStat, 2004).
Resultados y Discusión
Como paso previo al problema de la estimación de un tamaño óptimo de muestra, el esquema propuesto sugiere la necesidad de evaluar la calidad de las estimaciones. En la Figura 1 se muestra la función de distribución empírica y los resultados de la estimación de la media (), error estándar e intervalos de confianza para cada variable por cultivar, por la metodología clásica de estimación.
La Tabla I muestra la estimación Bootstrap de la media (), error estándar, sesgo, sesgo mejorado e intervalo de confianza BCa para cada variable por cultivar. La comparación de las medias originales con las medias generadas bajo el algoritmo Bootstrap muestra que no existen diferencias significativas (P≤0,001) entre ellas, garantizando que cualquier inferencia que utilice los estimadores Bootstrap representará el verdadero comportamiento de la variable original. En relación a la calidad de las estimaciones los resultados muestran que éstas son insesgadas, dado que los valores obtenidos tanto para el sesgo como para el sesgo mejorado son "despreciables". Esta aseveración se fundamenta en los valores de la relación entre el sesgo y el error estándar Bootstrap de 0,0234 y 0,0018 para la variable peso seco y de 0,0558 y 0,0043 para la variable número total de células, así como los obtenidos para la relación entre el sesgo mejorado y el error estándar Bootstrap de 2,1438x10-14 y 4,5549x10-15 para la variable peso seco y de 3,0064x10-16 y 1,6820x10-15 para la variable número total de células, respectivamente para los cultivares B6749 y V64-10, valores que son considerablemente inferiores al valor de 0,25 recomendado por Efron y Tibshirani (1993) como regla práctica para considerar un estimador insesgado.
En la Figura 2 se muestra la distribución de las variables generadas a través del remuestreo. Los resultados presentados confirman para todas las variables, que la metodología Bootstrap corrige las imperfecciones propias de la información original y errores estándar, y mejora los límites de los intervalos de confianza, los cuales son corregidos por sesgo y aceleración. Esta última toma en cuenta el tipo de simetría de la distribución de los datos, reduciendo la amplitud de éstos entre 4,24 y 6,88%, corrigiendo la forma, lo que se traduce en un aumento de la precisión de la información obtenida, en coincidencia con lo reportado por Efron y Tibshirani (1993). Así mismo, la precisión de las estimaciones es comprobada a través de la reducción de los coeficientes de variación obtenidos para cada variable. En este caso se sustituye el error estándar muestral por el error estándar Bootstrap. Los resultados obtenidos son 4,34 y 2,84% para la variable peso seco, y 11,60 y 10,38% para la variable número total de células, para los cultivares B6749 y V64-10, respectivamente. Estos valores son considerablemente menores al compararlos con los coeficientes de variación observados para la muestra original, los cuales oscilan entre 16,92 a 73,01%.
Determinación del tamaño de muestra
En la Figura 3 se observa la distribución de las variables en la muestra piloto n=35. En cada caso las variables no siguen una distribución simétrica y presentan alta variación. Los tamaños de muestra calculados a partir de la Eq. (2) y usando InfoStat (2004) son n=33 y n=32 para la variable peso seco en los cultivares B6749 y V64-10, respectivamente, y n=33 para la variable número total de células para ambos cultivares.
En la Figura 4 se aprecia la dispersión del error cometido en la estimación como función del tamaño de muestra. La flecha indica el punto f(x0) donde se encuentra la máxima curvatura, es decir, el tamaño de muestra n a partir del cual el error estándar se considera homogéneo. La relación entre el error estándar y las medias de los valores son: 6,88 y 3,64% para la variable peso seco, y 18,52 y 16,01% para la variable número total de células para los cultivares B6749 y V64-10, respectivamente. Estas relaciones disminuyen a medida que se aumenta el tamaño de muestra.
Estos resultados sugieren que para n=15, punto de máxima curvatura o mínimo relativo, las estimaciones que se hagan de estas variables tendrán una calidad similar a la obtenida con valores de n originales o superiores, reduciendo en más del 50% el tamaño de muestra con respecto a la metodología clásica utilizada para la comparación, optimizando el uso de los recursos en términos de costos, trabajo y tiempo de experimentación. Estos resultados coinciden con los reportados por Parra (1995) y Alis (1997) para parámetros productivos en rumiantes y variables que miden la calidad microbiológica de la leche cruda, respectivamente.
Los resultados muestran la ventaja que ofrece la metodología Bootstrap en la determinación del tamaño óptimo de muestra y en el estudio de la calidad de las estimaciones de parámetros de interés y evita los errores por aproximación derivados de la suposición de normalidad en la estimación de parámetros y sus medidas de confianza y en el cálculo del tamaño de muestra.
REFERENCIAS
1. Alis J (1997) Aplicación de la metodología del Bootstrap para determinar el mejor estimador de las variables que miden la calidad microbiológica de la leche cruda. Tesis. Facultad de Agronomía, Universidad Central de Venezuela. 60 pp. [ Links ]
2. Cochran WG (1977) Sampling Techniques. Wiley. Nueva York, EEUU. 448 pp. [ Links ]
3. Davison AC, Hinkley DV (1997) Bootstrap Methods and Their Applications. Cambridge University Press. Nueva York, EEUU. 610 pp. [ Links ]
4. Di Rienzo JA, Casanoves F, González LA, Tablada EM, Díaz MP; Robledo CW, Balzarini MG (2003) Estadística para las ciencias agropecuarias. 5ª ed. Editorial Triunfar. Argentina. 304 pp. [ Links ]
5. Efron B (1979) Bootstrap methods: another look at the jackknife. Ann. Stat. 7: 1-26. [ Links ]
6. Efron B, Gong G (1983) A leisurely look at the bootstrap, the jackknife and cross-validation. American Statistician 37: 36-48. [ Links ]
7. Efron B, Tibshirani R (1986) Bootstrap methods for standard errors, confidence intervals, and other measures of statistical accuracy. Stat. Sci. 1: 54-77. [ Links ]
8. Efron B, Tibshirani R (1993) An introduction to the Bootstrap. Chapman & Hall. Nueva York, EEUU. 436 pp. [ Links ]
9. Hamming R (1987) Numerical Methods for Scientists and Engineers. 2a ed. Dover. Nueva York, EEUU. 721 pp. [ Links ]
10. Hinkley DV (1988) Bootstrap Methods. J. Roy. Stat. Soc., Ser. B. 50: 321-337. [ Links ]
11. Hogg RV, Craig AT (1995) Introduction to mathematical statistics. 5ª ed. Prentice Hall. Nueva Jersey, EEUU. 576 pp. [ Links ]
12. InfoStat (2004) InfoStat, versión 2004. Manual del usuario. Grupo InfoStat, FCA, Universidad Nacional de Córdoba. Editorial Brujas. Argentina. 314 pp. [ Links ]
13. Knight K (1999) Mathematical statistics. CRC Press. Boca Raton, EEUU. 504 pp. [ Links ]
14. Leger C, Politis D, Romano J (1992) Bootstrap technology and applications. Technometrics 34: 378-398. [ Links ]
15. Parra E (1995) Aplicación de la metodología del Bootstrap para evaluar la calidad de estimadores de parámetros productivos en rumiantes. Tesis. Facultad de Agronomía, Universidad Central de Venezuela. 52 pp. [ Links ]
16. Zambrano AY, González V, Demey JR (1994) Tiempo óptimo para el cambio de medio en suspensiones celulares de cuatro cultivares de caña de azúcar Saccharum spp.: B6749, CP5659, V58-4 y V64-10. Agronomía Tropical. 44: 179-202. [ Links ]
17. Zambrano AY, Demey JR, González V (1999) Selection of an Ametryn tolerant sugarcane cellular line. J. Agric Univ. Puerto Rico 83: 47-54. [ Links ]
18. Zambrano AY, Demey JR, González V (2001) Estabilidad genética in vitro en cultivares de caña de azúcar. J. Agric Univ. Puerto Rico. 85: 49-61. [ Links ]
19. Zambrano AY, Demey JR, González V (2002) Selección in vitro de líneas celulares de caña de azúcar resistentes a Glifosato. Agronomía Tropical. 52: 139-160. [ Links ]
20. Zambrano AY, Demey JR, Fuchs M, González V, Rea R, De Sousa O, Gutiérrez Z (2003a) Selection of sugarcane plants resistant to SCMV. Plant Sci. 165: 221-225. [ Links ]
21. Zambrano AY, Demey JR, González V (2003b) In vitro selection of a Glyphosate tolerant sugarcane cellular line. Plant Mol. Biol. Rep. 21: 365-373. [ Links ]