SciELO - Scientific Electronic Library Online

 
vol.40 número1Estimación de la presión atmosférica de localidades venezolanasInfluencia de la Degradación durante el Procesado en las Propiedades de un Material Compuesto Poli (Ácido Láctico) con Montmorillonita y Sepiolitas índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

  • No hay articulos similaresSimilares en SciELO

Compartir


Revista Técnica de la Facultad de Ingeniería Universidad del Zulia

versión impresa ISSN 0254-0770

Rev. Téc. Ing. Univ. Zulia vol.40 no.1 Maracaibo mar. 2017

 

Proposal of a methodology to calculate propagation of a variable statistical error (VEE): applications to well log data and thermocronologic dating

Hely Saúl Socorro Mac-Quhae 1 , Mauricio A. Bermúdez 2

1 Escuela de Geología, Minas y Geofísica, Facultad de Ingeniería, Universidad Central de Venezuela. Caracas 1050. Email: socorroh1@gmail.com

2 Facultad de Ciencias Naturales y Matemáticas, Universidad de Ibagué, Colombia

Abstract

The purpose of this research on Basic Statistics is to propose an alternative method to calculate errors based on the data natural variability. Because of the world wide application of the Standard Deviation formula, proposed methodology is defined in a similar manner. This methodology consists in defining an Error Function corresponding to the regression function with maximum Pearson correlation factor of deviation magnitudes, which are defined in relation to a generic model, arithmetic average in this case. Accordingly, firstly deviations are calculated, secondly negative signs are discarded by means of absolute value function, thirdly, to propagate error over the statistical set of samples, regression function with maximum correlation factor is taken as “Error function” and, finally, errors are calculated for each sample. This way, statistical error varies as inverse function to representativeness, more representative samples/observations, which are closer to average have a relative smaller error, less representative samples/observations are associated to greater errors. Proposed methodology is applied to well log and thermocronologic data, the latter experimentally obtained in the laboratory.

Keywords: Error function; Pearson correlation factor; standard deviation; representativeness; regression.

Propuesta de una metodología para el cálculo de la propagación de un error estadístico variable (EEV): aplicaciones a registros de pozos y datación termocronológica

Resumen

El objeto de la presente investigación de estadística básica es proponer un método alternativo para el cálculo de errores tomando en cuenta la variabilidad natural de los datos. Debido a lo universalmente aplicada de la fórmula desviación estándar, la metodología propuesta se define de una manera semejante. La metodología consiste en definir una función error correspondiente a la función de regresión de máximo factor de correlación, tipo Pearson, de las magnitudes de las desviaciones respecto a un modelo genérico, en este caso el promedio aritmético. Así, primeramente, se calculan las desviaciones respecto al promedio aritmético, segundo se descarta el signo negativo, por medio de la función valor absoluto, tercero, con la finalidad de propagar el error sobre el conjunto muestral, se toma la función de regresión de máximo coeficiente de correlación como la “Función error” y, finalmente se calcula la magnitud del error para cada muestra. De esta manera, el error varía según la representatividad, a mayor representatividad, mayor cercanía al promedio, el error es menor, en caso contrario es mayor. La metodología propuesta es aplicada a datos provenientes de registros de pozos y a medidas termocronológicas obtenidas experimentalmente en el laboratorio.

Palabras clave: Función error; factor de correlación de Pearson; desviación estándar; representatividad; regresión.

1. Introducción

La propagación del error o propagación de incertidumbres se define como el efecto de variables de incertidumbre de una respuesta obtenida a partir de un cálculo o expresión matemática [1]. Generalmente, este último depende de diferentes medidas o parámetros. Si tales medidas son usadas en los cálculos existe una incertidumbre asociada a las mismas. Socorro [2,3] ha estudiado la forma como el error se propaga para datos de saturación de petróleo, tomando en cuenta los distintos parámetros de la ley de Darcy [4].

El error estadístico de uso universal es el definido por Karl Pearson y denominado desviación estándar [5,6], éste asocia un único error a todas y cada una de las observaciones o muestras dentro de un conjunto muestral. La desviación estándar se define como la raíz cuadrada positiva de la varianza y se usa para asociar la muestra a su intervalo de error. La desviación estándar muestral viene representada por la siguiente expresión [5,6]:

 

En esta última xi, xprom y n representan la i-ésima observación, el promedio de las observaciones y el número total de observaciones, respectivamente. Matemáticamente se puede expresar así:

Los siguientes aspectos se consideran relevantes respecto a la desviación estándar: 1. La desviación respecto al promedio aritmético se usa para definir el error estadístico. 2. Los valores de desviación o residuos negativos no se toman en cuenta directamente para el cálculo. 3. Los signos negativos se toman como argumentos de una función de rango positivo (función cuadrática), luego se calcula la raíz cuadrada positiva del promedio de los valores cuadrados. 4. Se toma como valor representativo del error un valor constante obtenido de un promedio aritmético, vale decir que se define el error estadístico por medio de una tendencia central de valor constante. Existen diversas expresiones y reglas para el cálculo de la propagación de los errores o incertidumbres en un conjunto de muestras, pero éstas dependen de si existe o no correlación entre los parámetros y entre las incertidumbres asociadas. Con frecuencia en el puede usarse una función generalizada para la incertidumbre, la cual es obtenida considerando la aproximación de Taylor [7,8]. En muchas aplicaciones de ingeniería de petróleo y geología no se conoce esa fórmula explícita, sino que esta es obtenida por un conjunto de medidas experimentales en el laboratorio o en el campo, lo cual hace difícil el uso de una expresión similar para estimar el error o propagar la propiedad en el error, a menudo los errores sobre las observaciones poseen cierto grado de incertidumbre ya que podrían depender de factores como tiempo, en estos casos es necesario una metodología para estimar el error o incertidumbre, lo cual constituye el objetivo del presente artículo.

2. Caso de Estudio: El error estadístico y la representatividad de las muestras

2a. Posible condición variable del error estadístico básico

En esta investigación se considera al error estadístico como susceptible de variabilidad, desde el punto de vista de estadística básica. Se considera que los siguientes aspectos ilustran la posibilidad de aceptar un error estadístico variable: 1) Cuando se tiene un error con tendencia definida, opuesta al llamado comportamiento “errático”. Esto es muy común en el error asociado al cálculo iterativo, el cual es variable y dicha variación comúnmente se relaciona con un criterio de convergencia previamente definido [9]. 2) El descarte de muestras fuera de rango (outliers): Esto se realiza debido a que las desviaciones muestrales (o residuos) se consideran pertenecientes a un cierto rango representativo, asociado a un intervalo de confianza. El descarte de la muestra se condiciona a una distancia usualmente definida por xprom± k*, donde k puede variar de 1 a 3.

2b. El grado de representatividad de las muestras

El grado de representatividad de una muestra tiene que ver con la variabilidad de la característica que se está analizando en la población, es decir, es la capacidad de reproducir a pequeña escala las características de una población. Esta variabilidad puede reconocerse en muchos casos, por ejemplo: 1. Cuando existe una muestra individual que tiene un grado máximo de representatividad (mayor variabilidad) y se usa para representar al conjunto muestral. 2. Cuando existen muestras de grado de representatividad bajo que son potencialmente descartables.

3. Metodología propuesta

En el presente trabajo se asume como hipótesis que la aplicación de la desviación estándar puede dar como resultado la consideración de que algunas muestras tienen un error asociado grande, mientras que para otras el error resulta pequeño. Esto posibilita considerar viable la aplicación de un error estadístico distinto, uno de naturaleza variable. Tal error puede además mostrar consistencia con el grado de representatividad de las muestras y estar caracterizado por una función de regresión de máximo factor de correlación tipo Pearson r de las magnitudes de las desviaciones (o residuos) definidas en el conjunto muestral.

3a. Definición del cálculo de un error estadístico variable

De lo anteriormente expuesto , pueden considerarse tres aspectos relevantes para la definición de un error estadístico variable, los siguientes:

1) Para el cálculo del error estadístico básico se emplea la desviación (o residuo), la cual en su sentido más simple es la desviación de la muestra u observación respecto al promedio aritmético.

2) Se considera la variabilidad del error estadístico consistente con su concepto, por ello se sugiere en esta investigación el empleo de la regresión polinomial asociada a las magnitudes de las desviaciones de las muestras como una adecuación razonable, en el modelo a seguir en la definición del error estadístico, en el marco de la estadística básica. 3) Con respecto a los signos negativos de las desviaciones, se considera lo más apropiado elegir la función valor absoluto para hacer el cálculo con cifras solamente positivas.

Así, el error estadístico variable (EEV) se define como la función de regresión polinomial de mayor coeficiente de correlación del valor absoluto de las desviaciones. Matemáticamente ésta se expresaría como:

Para definir la función f utilizamos el método de regresión polinomial [7]. Suponiendo que se conocen los datos o duplas (x0,y0), (x1,y1), (x2,y2),..., (xn,yn),con x0,x1,...,xn números distintos, se desea encontrar un polinomio:

tal que

sea mínima.

Aunque el grado m del polinomio pm(x) se puede escoger previamente con base en algún resultado teórico, o alguna expectativa, la condición asumida en esta investigación es seleccionar el polinomio de grado 2 y 3 que tenga el mayor grado de correlación con las incertidumbres.

En términos generales, este concepto es aplicado usando como modelo la función promedio aritmético, sin embargo puede ser generalizada con otro modelo. Así a las magnitudes de las desviaciones o residuos generales se les aplica la correlación de los polinomios antes mencionados y esto permite clasificar las observaciones en más representativas y menos representativas. En las secciones siguientes, se hacen algunas consideraciones con otros modelos estadísticos como la moda y mediana.

3b. Procedimiento para la propagación del error estadístico variable (EEV)

Para el cálculo de este error estadístico puede procederse detalladamente así: 1) Se calcula el promedio aritmético. 2) Se calculan las desviaciones de las muestras u observaciones respecto a dicho promedio aritmético. 3) Se calcula el valor absoluto de las desviaciones de las muestras u observaciones. 4) Se grafican los valores absolutos de las desviaciones como función de las muestras. 5) Se determina la función de regresión de factor de correlación máximo asociada a las magnitudes mencionadas. 6) Se toma la función regresión mencionada como EEV y se aplica a todas las observaciones. 7) Finalmente, se discrimina el intervalo de error asociado a cada muestra sumando y restando de la muestra la mitad del EEV. Aunque otros criterios para la construcción del intervalo variable son posibles, nosotros no encontramos diferencias significativas entre ellos.

4. Aplicaciones y resultados

4a. Aplicación a registros de pozos y características de yacimientos de petróleo

Como ejemplo, se usa la relación de la resistividad total (Rt) y la saturación de petróleo (So). La tabla 1 contiene los valores de profundidad, resistividad total (Rt) y saturación de petróleo (So) de un pozo productor de petróleo del yacimiento Lagna-05, en el Bloque 70/80, denominado Pozo A, operado por la empresa mixta de PDVSA Lagopetrol, en el Noreste de la Cuenca del Lago de Maracaibo. Para las saturaciones se usa el modelo siguiente [10]: So + Sw = 1                                                     (5)

Los valores anteriormente mencionados de la tabla 1 se usaron para calcular el EEV objeto de esta investigación, así como la proporción de la muestra que representa el error y su comparación con la desviación estándar. Para estos datos el valor de la desviación estándar es 4,713 y la So promedio es de 56,64. Cabe mencionar que las variables Rt y So presentan un excelente coeficiente de correlación (r = 0,998), por medio de un polinomio de 2° grado (y=-0,0512x2+ 3,783x con R2=1). En la figura 1, se muestran las magnitudes de las desviaciones calculadas y la curva de regresión polinomial asociada, la cual tiene grado 2 y también una correlación excelente (r = 0,95), también se incluye la desviación estándar. El EEV se hace mínimo alrededor del valor promedio (So promedio = 56,6%) y máximo en la muestra u observación más alejada del promedio. Estos valores de la función error calculados son en su mayoría menores a la desviación estándar (σ=4,713), esto hace que representen una proporción menor de la muestra y un intervalo de error menor: 6,51 % para el EEV y 8,38 % para la desviación estándar (Ver tabla 1).

4a-1. Consideración de la mediana en vez del promedio aritmético

Al tomar como fuente del error estadístico la desviación respecto a la mediana los resultados obtenidos fueron son muy similares: El EEV es en la mayoría de los casos menor a la desviación estándar y representa en promedio, un porcentaje menor de las muestras. Los valores mínimos se dan en las cercanías de la mediana, mientras que los valores máximos están en las muestras más alejadas. También la función del EEV resultó bastante similar, con un factor de correlación casi idéntico.

4a-2. Consideración de la moda en lugar del promedio aritmético

En el caso de la moda la consideración es más difícil ya que ningún valor del porcentaje de So se repite (Ver tabla 1), sin embargo la aproximación a números enteros conlleva la aparición de observaciones con más de una ocurrencia. Dicha distribución es polimodal con 2 ocurrencias para los valores 57, 60 y 62, entre estos valores 57 se acerca al promedio y las desviaciones reflejarían al error pero 60 y 62 se acercan al máximo y las desviaciones no serían relevantes para el error básico.

4b. Aplicación a datación termocronológica

La edad del último evento tectónico ocurrido en un área, por el método de datación de trazas de fisión en su modalidad de detector externo es de acuerdo a [11]:

Donde λα= Constante de decaimiento por emisión de partículas alfa = 1,55125 x 10-10 años-1, Ns= Número de trazas espontáneas, Ni= Número de trazas inducidas, Z= Factor de observación derivada del estándar y ρm= Densidad de trazas en el vidrio o monitor.

La ecuación se aplicó a un conjunto de datos del estándar Apatito de Durango, del cual se conoce la edad por el método de datación absoluta K-Ar, dicha edad es de 31,4 ± 0,5 Ma. Los resultados obtenidos de estas dataciones y el error estadístico asociado ( σ y EEV) se muestran en la tabla 2. Las magnitudes de las desviaciones de dichos cálculos y la regresión polinómica asociada (Función Error con r=0,977) se muestran en la figura 2.

A cada datación realizada a la muestra de apatito le corresponden 2 rangos de error (uno para σ y uno para EEV). Esta información se presenta en la figura 3. Puede observarse que a la desviación estándar le corresponde un intervalo constante para todas las muestras u observaciones y, en el caso del EEV, se observa un intervalo de error relativamente menor para las muestras más cercanas al promedio y uno relativamente mayor para las más alejadas (Prom = 30,68). El cálculo de la proporción que representan para las muestras la σ y el EEV arrojó como resultado que en promedio los errores variables (EEV) representan un porcentaje menor de las muestras u observaciones con respecto a la desviación estándar (31,29 % vs. 34,37 %).

5. Discusión de resultados

Desde el punto de vista de la estadística básica, se considera apropiado que en ciertos casos, el error estadístico pueda calcularse tanto por la Desviación Estándar como por el EEV, ya que la variación del error se considera consistente con la interpretación de datos estadísticos. El error estadístico se define con base en las desviaciones y a éstas, generalmente, se les reconoce un rango de variación aceptable, lo cual asocia variabilidad a la fuente del error. Esto puede constatarse cuando se realiza el análisis de las desviaciones durante el descarte de una muestra por estar fuera de rango. La variabilidad del error estadístico básico como condición posible, puede verse también cuando al error se le reconoce una tendencia definida, como por ejemplo cuando se realiza un cálculo iterativo hasta que el resultado es consistente con el criterio de convergencia [9].

Al aplicar la metodología expuesta se obtiene un error estadístico que es relativamente menor en los valores cercanos al promedio aritmético y relativamente mayor en los valores que difieren más de dicho promedio. Esta variabilidad también se considera apropiada ya que se obtiene entonces que las muestras más representativas del conjunto muestral, resultan con un error estadístico relativamente menor y las menos representativas de dicho conjunto resultan con un error estadístico relativamente mayor. Las mismas observaciones se realizaron cuando se consideró la mediana en lugar del promedio aritmético.

El análisis de los ejemplos expuestos muestra además que para el conjunto muestral el EEV, objeto de esta investigación, representa en promedio un porcentaje menor de las muestras y, en el caso de la muestra de termocronología los resultados se encuentran dentro de los límites aceptados: Para la muestra más cercana al promedio, la muestra 20, la edad datada es 30,27 ± 1,04 Ma (EEV=2,08) para el Apatito de Durango de edad 31,4 ± 0,5 Ma. Los límites EEV son de 31,31 y 29,23 Ma y la edad K/Ar va de 31,9 a 30,9 Ma. Si se determina el error estadístico con la desviación estándar, en cambio, la edad datada es 30,27 ± 4,61 (σ=9,22), con rango de 34,88 a 25,66 Ma (Ver tabla 2).

6. Conclusiones y recomendaciones

1. Se considera apropiado incluir entre las características básicas de un conjunto muestral el grado de representatividad, el cual debe ser consistente con las otras características básicas, incluyendo al error estadístico.

2. Considerando que el grado de representatividad de las muestras varía desde el grado máximo de la muestra que representa al conjunto hasta un grado mínimo, presente en las muestras posiblemente descartables, se considera además conveniente que el error estadístico pueda presentar en ciertos casos variabilidad, desde el punto de vista de la estadística básica.

3. Considerando que el error estadístico de uso universal es la desviación estándar y que ésta se define por un valor asociado a una tendencia central constante, se considera factible el uso del EEV como opción variable del error estadístico básico. Este EEV se aplica al conjunto de las desviaciones, después de descartar los signos negativos por medio del uso de la función valor absoluto y según los casos analizados, está constituido por la función de regresión polinomial de máximo factor de correlación tipo Pearson.

4. La función EEV permite estimar la forma como un error se propaga a lo largo de un conjunto de observaciones o muestras. Esta función puede ser usada para imponer condiciones máximas y mínimas a un conjunto o patrón con propiedades similares. Es decir, se espera que la función EEV pueda ser utilizada para imponer rangos. Por ejemplo, en la predicción de litologías, esto debería ser incorporado y analizado a futuro.

5. El EEV asigna a las muestras más representativas un error relativamente menor y a las muestras menos representativas un error relativamente mayor.

6. Por lo anteriormente expuesto se recomienda considerar el posible uso del EEV para los casos de inconsistencia entre la representatividad variable de las observaciones o muestras y la aplicación de un valor único de error estadístico para todas y cada una de las observaciones o muestras. En las aplicaciones de la metodología acá presentada, las muestras son obtenidas en una primera fase y todo el análisis es realizado a posteriori, en el caso de incorporar nuevas muestras es importante realizar una comparación entre los resultados a priori, los que se tenían antes de incorporar las nuevas muestras y los análisis a posteriori, y analizar la influencia de la propagación del error sobre las nuevas mediciones mediante la aplicación de un test estadístico a fin de evitar sesgar el análisis.

7. Agradecimientos

Agradecemos a la empresa mixta de PDVSA Lagopetrol por haber suministrado parte de los datos y el permiso para la publicación de la información suministrada en este trabajo. Al financiamiento proporcionado por el proyecto GIAME-FUNVISIS. Al Proyecto 15-377-INT de la Universidad de Ibagué. Así mismo, agradecemos al Dr. Pedro Alson y a dos árbitros anónimos por los comentarios y explicaciones que ayudaron a mejorar la presente investigación.

8. Referencias Bibliográficas

1. Goodman, L. On the Exact Variance of Products, Journal of the American Statistical Association 55, No 292, 1960, 708-713. doi:10.2307/2281592.

2. Socorro H. Revisión de la ley de Darcy original. Presentado ante el IX Congreso Geológico Venezolano, 2007.

3. Socorro H. The United States Copyright Office, Certificado de Registro TXu 1-751-835., 2010).

4. Darcy H. : Les fontaines publiques de la ville de Dijon’’, Victor Dalmont, Paris, 1856.

5. Walpole R. y Myers R. Probabilidad y Estadística. McGraw-Hill., 1993.

6. Sekander H.K.M. Standard deviation.Miodrag Lovric, ed), International Encyclopedia of Statistical Science. Springer, Berlín, Alemania., 2014, 1378- 1379.         [ Links ] 7. Kendall, M., & Stuart, A. The Advanced Theory of Statistic, Distribution Theory, Charles Griffin & Company Limited, London, 1., 1958, 433.         [ Links ]

8. Tellinghuisen, J. Statistical Error Propagation. J. Phys. Chem. A, 105,, 2001, 3917-3921.         [ Links ]

9. Hagan M.T., Demuth, H.B., Beale, M.H., and De Jesús, O. Neural Network Design Second edition, Oklahoma State University Ebook,, 2014). 1012.

10. InvDFG. Informe Técnico Final. Estudio Integrado de Yacimientos para la Generación del Modelo Estático del Mioceno para el Bloque 70/80. Yacimiento LAGNA 05, Informe Interno Lagopetrol, S. A, Maracaibo,, 2009).         [ Links ]

11. Bermúdez M.A., Alson, P., y Mora, J.L. Equivalencia entre las diversas fórmulas del cálculo de errores de la edad determinada por el método de huellas de fisión. Rev. Fac. Ing. UCV, 19, 1, 2004, 119- 123.

Recibido el 17 de enero de 2016 En forma revisada el 16 de enero de 2017