Suavizado de curvas para ajustar datos con estructura no lineal desde la perspectiva p-splines

Polanco, Maryorys Verónica; Polanco, Maryorys Verónica

doi:10.35381/i.p.v6i11.4158

Servicios Personalizados

Revista

Articulo

Indicadores

Citado por SciELO
Accesos

Links relacionados

Similares en SciELO

Otros
Otros

Permalink

Ingenium et Potentia. Revista Electrónica Multidisciplinaria de Ciencias Básicas, Ingeniería y Arquitectura

versión On-line ISSN 2665-0304

Ingenium et Potentia vol.6 no.11 Santa Ana de Coro dic. 2024 Epub 31-Oct-2024

https://doi.org/10.35381/i.p.v6i11.4158

De investigación

Suavizado de curvas para ajustar datos con estructura no lineal desde la perspectiva p-splines

Curve smoothing for fitting data with nonlinear structure from a p-splines perspective

Maryorys Verónica Polanco¹
http://orcid.org/0000-0002-2641-1671

^¹ Universidad Nacional Experimental Francisco de Miranda, Santa Ana de Coro, Falcón, Venezuela, email: maryorysp@gmail.com

RESUMEN

El objetivo de este trabajo fue realizar una aproximación teórica de carácter documental, descriptivo y aplicado al enfoque de la teoría de aproximación P-splines. La metodología utilizada incluye, primeramente, una revisión documental que permitió identificar las principales características del método y los enfoques existentes; segundo, la etapa experimental que consistió en ajustar seis series de datos provenientes del estudio sobre la dinámica poblacional de Ralstonia Solanacearum en plantas de tomate mediante el software R-Project y, por último, los resultados obtenidos. Se evidenció que el parámetro λ es el responsable de controlar el suavizado y en la búsqueda de un valor para este parámetro que optimice el ajuste, se puede confiar en el estimado por la función GAM, ya que proporcionó ajustes casi idénticos a los modelos con un valor de 𝜆 asignado que de acuerdo a los criterios e índices considerados, fueron seleccionados como modelo final.

Descriptores: Análisis estadístico; suavizado; datos; series

ABSTRACT

The objective of this work was to conduct a theoretical, descriptive, and applied documentary approach to the P-splines approximation theory. The methodology employed included, firstly, a literature review to identify the main characteristics of the method and existing approaches; secondly, an experimental stage consisting of fitting six data series from a study on the population dynamics of Ralstonia Solanacearum in tomato plants using the R-Project software; and finally, the obtained results. It was evident that the parameter λ is responsible for controlling the smoothing, and in the search for a value for this parameter that optimizes the fit, one can rely on the estimate provided by the GAM function, as it provided almost identical fits to the models with an assigned value of λ, which, according to the considered criteria and indices, were selected as the final model.

Descriptors: Statistical analysis; smoothing; data; series

INTRODUCCIÓN

El suavizado de curvas es una técnica estadística fundamental para modelar relaciones no lineales entre variables. En este contexto, los P-splines han emergido como una herramienta poderosa y flexible. Este análisis argumentativo explorará en profundidad las ventajas y aplicaciones de los P-splines en el suavizado de datos con estructura no lineal, así como sus limitaciones y consideraciones.

Un spline es la solución a un problema de optimización. Para ^{Ramírez y Polack (2020)} puede ser considerada “como una técnica de estimación de funciones no paramétricas” (p. 194). En un sentido real, los splines representan una evolución de la inferencia estadística clásica y cierra la brecha entre los métodos paramétricos y no paramétricos. Los P-splines son una extensión de los splines tradicionales, combinando la flexibilidad de las bases de splines con la regularización de las diferencias de orden superior de los coeficientes de la spline. Esta combinación permite obtener ajustes suaves y flexibles a los datos, al tiempo que evita el sobreajuste (^{Barrientos et al., 2007}).

Una técnica no paramétrica basada en splines, que permite ajustar datos sin que sea necesario conocer la relación que guardan las variables, se conoce como P-splines y fue introducida por primera vez con este nombre por ^{Eilers y Marx (1996}) para cubrir la combinación de B-splines y una penalidad de diferencia discreta cuyas propiedades son muy atractivas. Vale destacar, que existe una base para el conjunto de splines naturales llamada base B-spline la cual está formada por trozos de polinomios conectados entre sí. En general, un B-Spline de grado 𝑝 consiste en p+1 trozos de polinomios de grado 𝑝 que se unen en 𝑝 nodos internos (^{Salas et al., 2010}).

Por su parte, ^{Durbán (2009)} expresa que “los factores que han hecho que esta técnica haya alcanzado tanta popularidad en los últimos años han sido la creciente complejidad de los datos con los que se trabaja” (p. 197), y los avances informáticos que han facilitado el ajuste de este tipo de modelos, reduciendo significativamente el costo computacional. Es por ello, que, desde su aparición, un poco más de veinte años, se han vuelto populares en aplicaciones y en trabajos teóricos, ya que la combinación de una base B-spline y una penalidad se prestan para una variedad de generalizaciones, porque se basa en la regresión.

Por lo anterior, es evidente que los P-splines representan una buena solución para la estimación de la función regresora por dos razones: la primera, es su flexibilidad para responder a la variación local sin permitir comportamientos patológicos, y segundo, el actual grado de suavidad es controlable. Aun cuando el grado de suavidad correcto es desconocido, estas características junto con el método de validación cruzada permiten un ajuste no paramétrico, de allí, que se haya convertido rápidamente en una técnica popular de suavizado, debido a su simplicidad y flexibilidad en el manejo de una amplia gama de situaciones de modelado no paramétrico y semiparamétrico (^{Toriz y Sánchez, 2017}).

La idea principal de la estimación P-spline se basa en emplear una base dimensional grande pero finita; esta versión penalizada proporciona un ajuste suave a diferencia del ajuste paramétrico simple, que conduciría a estimaciones variables y ondulantes.

En cuanto a las aplicaciones, el hecho de que los P-splines se puedan escribir como un modelo mixto, proporciona ventajas en dos ámbitos distintos: por un lado, hace que se pueda flexibilizar la hipótesis de linealidad en infinidad de modelos, y por otro, es posible incluir estructuras complejas en los modelos usuales de suavizado. Otra área en el que los P-splines están tomando un papel relevante es en el análisis de datos longitudinales, tan frecuentes en aplicaciones médicas y biológicas, aquí, los P-splines permiten ajustar modelos más flexibles en los que las diferencias específicas individuales son una función suave del tiempo (^{Álvarez et al., 2015}). De acuerdo con lo descrito en las ideas anteriores, este trabajo de investigación tuvo como objetivo principal aplicar el método de aproximación P-splines para suavizado de curvas en presencia de datos con estructura no lineal.

MÉTODO

Datos experimentales

Para aplicar e ilustrar la técnica de suavizado enfocado en Psplines, se utilizaron datos reales proporcionados por ^{Lugo (2018)}, correspondientes a su tesis doctoral titulada “Efecto de Bacterias Antagonistas y Extractos Vegetales sobre la Dinámica Poblacional de Ralstonia Solanacearum (Smith) Yabuuchi et al. y la Expresión de Síntomas en Tomate (Solanum Lycopersicum l.)”

Para la obtención de R. solanacearum se planificó un experimento en un diseño completamente aleatorizado, con cinco tratamientos y tres réplicas. La unidad experimental consistió de una maceta de 1500 g de capacidad (una planta por maceta). Los tratamientos se describen en la tabla 1.

Tabla 1. Tratamientos del experimento para la obtención de R. solanacearum.

TRATAMIENTO	CARACTERÍSTICA
1	Plantas control. Sin inoculación de la bacteria.
2	Plantas control. Plantas inoculadas solo con R. solanacearum.
3	Plantas inoculadas con R. solanacearum y tratadas con extracto acuoso de R. communis (Tártago).
4	Plantas inoculadas con R. solanacearum y tratadas con la bacteria antagonista P fluorescens.
5	Plantas inoculadas con R. solanacearum y tratadas con el producto comercial Timorex.

Fuente: ^{Lugo (2018)}.

La medición del tamaño de la población de R. solanacearum en el suelo, medido en UFC/g de suelo se hizo cada semana, es decir, 20 mediciones de la variable, las cuales se muestran en la tabla 2.

Tabla 2. Población promedio de Ralstonia solanacearum en el suelo, medido en UFC*10⁶ por g de suelo.

DIA	T1	T2	T3	T4	T5	TOTAL
0	0,172	0,756	1,233	0,039	7,556	1,951
7	0,094	0,217	2,672	0,328	14,106	3,483
14	0,372	2,072	7,322	0,772	9,728	4,053
21	0,589	1,644	8,322	0,683	10,528	4,353
28	0,839	2,661	8,567	1,622	16,200	5,978
35	1,389	2,417	11,789	1,867	17,233	6,939
42	1,039	2,650	12,944	1,844	12,967	6,289
49	1,656	1,639	13,472	2,511	15,794	7,014
56	1,100	2,617	10,950	2,106	15,244	6,403
63	0,672	1,211	11,033	2,639	12,094	5,530
70	0,906	0,656	10,172	2,989	10,311	5,007
77	1,194	1,239	12,494	2,061	12,550	5,908
84	0,750	0,456	12,217	2,478	9,439	5,068
91	0,833	0,661	13,378	1,933	9,139	5,189
98	1,428	1,022	10,906	2,533	8,039	4,786
105	1,733	1,011	9,394	1,606	7,278	4,204
112	1,267	0,911	10,117	1,706	8,039	4,408
119	1,361	0,994	7,283	1,461	5,278	3,275
126	1,761	0,950	11,222	1,944	5,706	4,317
133	1,389	0,617	6,356	1,206	5,128	2,939

Fuente: ^{Lugo (2018)}.

Dinámica poblacional

Para obtener los modelos matemáticos que describen la dinámica poblacional en el suelo de R. solanacearum bajo las condiciones descritas, el autor utilizó las mediciones de UFC/g de suelo obtenidos de cada tratamiento en la fase experimental, graficó y trató de ajustar a uno o más de los modelos matemáticos tomando en cuenta los basamentos teóricos de los modelos, el ajuste gráfico a la tendencia de los datos y la obtención de estimadores iniciales de los parámetros. Trabajó con 32 series de datos confeccionadas en las condiciones de las plantas definidas como total, sanas y enfermas y a su vez, sobre estas condiciones se definieron series de diferentes longitudes: serie completa y en dos fases, creciente y decreciente.

En total se seleccionaron 82 modelos usando el software R-Project y se eligieron los cinco mejores modelos matemáticos considerando tendencias gráficas, pruebas de t y F realizadas por el software R-Project, coeficientes basados en desviación entre estimados y observados y criterios de información. Las series seleccionadas para este trabajo pueden verse mejor en la tabla 3 junto con los nombres de los modelos para cada serie y los valores de los criterios de información de estos tomados de ^{Bandera y Pérez (2018)}.

Tabla 3. Series para modelar el comportamiento de R. solanacearum en el suelo bajo las diferentes condiciones del estudio.

SERIE		LONGITUD	MODELO	AIC	BIC	logLik	R2adj
TOTAL		Completa	Función Racional Cuadrática	32,278	36,261	-12,139	0,867
TRATAMIENTO 1	Total	Completa	Bilogístico	10,150	15,129	-0,075	0,710
TRATAMIENTO 2	Total	Completa	Función Racional Cuadrática	29,948	33,931	-10,974	0,672
TRATAMIENTO 3	Total	Completa	Ricker	74,842	77,829	-34,421	0,833
TRATAMIENTO 4	Total	Completa	Función Cuadrática	12,648	16,631	-2,324	0,850
TRATAMIENTO 5	Total	Completa	Función Racional Cuadrática	84,512	88,495	-38,613	0,765

Fuente: ^{Lugo (2018}).

Análisis de datos

Para el análisis de los datos se hace uso del software R, específicamente la función gam() para lo cual es necesario cargar el paquete mgcv de ^{Wood (2006}). Esta función puede usar p-splines univariantes según lo propuesto por ^{Eilers y Marx (1996}). En realidad, este paquete contiene dos funciones que permiten utilizar P-splines: gam y gamm, la diferencia entre las dos es que la segunda permite elegir el parámetro de suavizado mediante REML, mientras que la primera es similar a la función escrita por ^{Hastie y Tibshirani (1990}), pero permite utilizar splines de rango bajo, además de haber corregido los errores que existían en el cálculo de la varianza de los parámetros y elige el parámetro de suavizado mediante la validación cruzada generalizada (GCV por sus siglas en inglés). En ambos casos se puede imponer un valor arbitrario para el parámetro de suavizado sin que sea elegido por la propia función, elegir la base a utilizar, según las ofrecidas por el paquete y se puede elegir el número de nodos y el orden de la penalización. Los argumentos de la función GAM se muestran en la tabla 4.

Tabla 4. Argumentos de la función GAM.

ARGUMENTO	DEFINICIÓN
s(x, bs = “ps”)	Término de suavidad.
k	Tamaño de la base, nunca debe ser menor que el orden de la penalización.
bs	Tipo de base que se utiliza.
m	orden de la base y de la penalización. Si 𝑚 es un número único, se toma como orden de base y orden de penalización
by	Permite multiplicar curvas por factores.
Nodos	Una lista que contiene los nodos suministrados para la configuración básica, en el mismo orden y con los mismos nombres que los datos. Este también puede ser nulo.

Fuente: ^{Lugo (2018)}.

El procedimiento para analizar los datos en R se hace de forma similar para las 6 series. Inicialmente se especifica un modelo P spline a través de la función GAM con un término de suavizado de la forma 𝑠 (𝑥, 𝑏𝑠 = "𝑝𝑠", 𝑘=𝑣𝑎??𝑖𝑎𝑏𝑙𝑒, 𝑠𝑝=𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒), el cual especifica una base P-spline con 𝑚=2 por defecto, que significa una base y una penalización de segundo orden. “Las diferencias entre los modelos dependerán de los argumentos variables como el tamaño de base (??) y el parámetro de suavizado (𝑠𝑝), esto con el fin de seleccionar el mejor ajuste p splines para los datos” (^{Burbano et al., 2022}, p. 270).

Es por ello que primero, se especifica un modelo para la serie en cuestión variando el tamaño de base 𝑘 y se hace una selección de los tres mejores modelos, dependiendo de los criterios de información, métodos de selección del parámetro de suavizado e índices, los cuales deben ser mínimos o máximos según sea el caso. Después de obtener el mejor ajuste P spline, mediante un gráfico de dispersión, se verifica el efecto del suavizado comparando este ajuste versus el modelo proporcionado por ^{Lugo (2018)} como mejor para la descripción de la dinámica poblacional de R. solanacearum en la serie especificada y se muestra la fórmula del modelo aproximado para el mejor o los mejores ajuste P spline. Luego se cotejan las curvas ajustadas para los distintos valores de k.

Segundo, al obtener el mejor ajuste en la parte anterior, se procede a probar el mismo bajo diferentes valores de 𝜆, con el fin de obtener un valor de este parámetro que optimice el ajuste. Para realizar la variación de λ, se toma como mínimo y máximo, aquel valor donde el AIC tienda a aumentar. Para esto, se consideran los mismos ítems que en la parte anterior. Seguidamente, sobre este ajuste se contrasta gráficamente el efecto de distintos valores del parámetro de suavizado. Los ítems que resumen la información arrojada por los tres mejores modelos seleccionados para escoger el modelo final se describen en la tabla 5.

Tabla 5. Ítems a considerar para la selección del modelo final.

Ítem	Descripción
Modelo	Contiene el nombre del modelo construido a partir de la siguiente nomenclatura, 𝑓𝑖𝑡+𝑠𝑒𝑟𝑖𝑒+.+𝑘, por ejemplo, 𝑓𝑖𝑡𝑇.9 especifica un ajuste p spline de la serie total con un tamaño de base k=9. Cuando el parámetro de suavizado, 𝜆, es variable toma la forma 𝑓𝑖𝑡+𝑠𝑒𝑟𝑖𝑒+.+𝑘+𝑙𝑒𝑡𝑟𝑎, para el modelo anterior y la primera variación de 𝜆 queda expresado de la siguiente manera 𝑓𝑖𝑡𝑇.9𝑎.
Fórmula	Función GAM del modelo.
Sp	Valor del parámetro de suavizado estimado por la función GAM.
s(t)	Significación aproximada del término de suavizado.
GCV	Valor del método de selección del parámetro de suavizado, en este caso, Validación Cruzada Generalizada.
AIC	Valor del criterio de información de Akaike.
BIC	Valor del criterio de información bayesiano.
LogLik	Valor del logaritmo de la función de verosimilitud.

Fuente: ^{Lugo (2018)}.

RESULTADOS

Los resultados se muestran para cada serie. Para efectos de la comparación del método de suavizado P splines se usan los modelos de la dinámica poblacional de R. solanacearum en el suelo obtenidos por ^{Lugo (2018)} y que son etiquetados: modelototal para serie TOTAL, modeloT1 para serie T1, modeloT2 para serie T2 y modeloT3. Cabe destacar, que la variable t, cuyos datos corresponden a la columna DIA de la tabla 1, denota el intervalo de tiempo en que se tomaron las mediciones de la variable respuesta y 𝑦 es utilizada como variable predictora para modelar el ajuste en todas las series.

Resultados de serie TOTAL

Se presenta el modelo planteado por ^{Lugo (2018}) para describir la dinámica poblacional de Ralstonia solanacearum en el suelo para la serie TOTAL:

En la tabla 6, se resumen los resultados obtenidos donde se puede observar que en los tres ajustes P splines, el término de suavizado (𝑠(𝑡)), resulta significativo. El modelo fitT.7 arrojó el menor GCV y BIC, sin embargo, el ajuste denotado por el modelo fitT.9, presenta como favorables, tres de los cinco criterios considerados para la selección del mejor, a saber, el menor AIC y el mayor logLik y R²adj, por lo cual se considera como el modelo con mejor ajuste y el modelo aproximado es el siguiente:

fitT.9<-gam (y ~ s(t, bs="ps",k=9))

Tabla 6. Selección del mejor ajuste P spline en serie TOTAL.

Modelo	Fórmula	Sp	s(t)	GCV	AIC	BIC	logLik	R²adj
fitT.7	(y ~ s (t, bs="ps”, k=7))	0,0726	5,86e-10 ***	0,3285	35,0464	40,9273	-11,617	0,864
fitT.9	(y ~ s (t, bs="ps”, k=9))	0,3635	1,35e-09 ***	0,3329	34,8921	41,3718	-10,939	0,868
fitT.11	(y ~ s (t, bs="ps”, k=11))	1,7761	2,2e-09 ***	0,3355	35,0862	41,5134	-11,088	0,867
modelototal	función racional cuadrática				32,278	36,261	-12,139	0,867

Fuente: ^{Lugo (2018}).

Se representa las variantes del ajuste P spline. Note que los ajustes no son tan distintos. En azul, el mejor ajuste. No obstante, al comparar con modelo total, se evidencia que este presenta un menor AIC y un menor BIC en comparación con el mejor ajuste P spline (Figura 1).

Elaboración: El autor.

Figura 1. Representación gráfica del efecto del suavizado con IC del 95% y 3 valores de k para la serie TOTAL.

En la figura 2, se contrasta el mejor ajuste P spline seleccionado versus modelo total y puede verse que los modelos no difieren mucho, sin embargo, se nota como el ajuste P spline genera una ondulación en la segunda mitad de los datos.

Elaboración: El autor.

Figura 2. Mejor ajuste P spline vs. modelo total.

Ahora bien, en el modelo seleccionado como mejor, fitT.9, se prueban cinco valores distintos para λ entre 0,01 y 10, para un valor fuera de este rango el valor del AIC tiende al aumento. En la tabla 7 se resume la información arrojada. Tome en cuenta que el modelo fitT.9c contiene un valor de 𝜆 estimado por la función GAM, este tiende a ser pequeño, lo que indica que se está frente a un ajuste P splines.

Tabla 7. Selección de sp óptimo sobre el mejor ajuste P spline en serie TOTAL.

Modelo	Fórmula	s(t)	GCV	AIC	BIC	logLik	R²adj
fitT.9a	(y ~ s (t, bs="ps”, k=9, sp=0,01))	1,61e-08 ***	0,3685	34,4565	43,3457	-8,3010	0,878
fitT.9b	(y ~ s (t, bs="ps”, k=9, sp=0,1))	1,64e-09 ***	0,3381	34,4225	41,8142	-9,7879	0,875
fitT.9c	(y ~ s (t, bs="ps”, k=9, sp=0,36))	1,36e-09 ***	0,3329	34,8867	41,3734	-10,9289	0,868
fitT.9d	(y ~ s (t, bs="ps”, k=9, sp=10))	2,88e-06 ***	0,5439	45,9348	50,2944	-18,5891	0,753

Elaboración: El autor.

Al hacer las comparaciones, se encuentra que los modelos fitT.9a y fitT.9c presentan igual número de criterios favorables para optimizar el ajuste. Los modelos aproximados son:

fitT.9a<-gam (y ~ s(t, bs="ps",k=9,sp=0,01)) y fitT.9c<-gam(y ~ (t,bs="ps",k=9,sp=0,36))

Cuando la penalidad es más débil se obtiene una curva más ondulada, caso contrario ocurre para un mayor 𝜆 que produce curvas más suaves. Esto puede verse mejor en la figura 3. A la izquierda y en azul, el menor valor de 𝜆 genera una curva con más picos, en el centro, el modelo con 𝜆 estimado por la función GAM y a la derecha un 𝜆 mayor.

En la figura 4 se evidencia de mejor forma como el valor de 𝜆 controla la suavidad de la curva. Note la ondulación de la curva cuando 𝜆=0.01 y la tendencia lineal que toma cuando 𝜆=10.

Elaboración: El autor

Figura 3. Mejor ajuste P spline para 3 valores distintos de sp en serie TOTAL.

Elaboración: El autor.

Figura 4. Efecto de sp sobre el mejor ajuste P spline en serie TOTAL.

Resultados de Serie T1

El modelo planteado por ^{Lugo (2018)} para la serie T1, es el siguiente:

La tabla 8, contiene los resultados para esta serie, donde se evidencia que los tres modelos presentan un suavizado, s(t), significativo, no obstante, el modelo fitT1.19, arrojó los menores valores para CGV, AIC, BIC y los mayores valores para logLik y R²adj en comparación con los modelos restantes y modeloT1, por lo que es considerado como el mejor modelo para el ajuste de esta serie y el modelo aproximado es el siguiente:

FitT1.19<-gam (y ~ s(t,bs="ps",k=19))

Tabla 8. Selección del mejor ajuste P spline para serie T1.

Modelo	Fórmula	Sp	s(t)	GCV	AIC	BIC	logLik	R²adj
fitT1.9	(y ~ s (t, bs="ps”, k=9))	0,2314	0,000208 ***	0,0962	9,8139	16,618	1,9265	0,717
fitT1.19	(y ~ s (t, bs="ps”, k=19))	0,0201	0,000739 ***	0,0560	-33,590	-16,386	34,0734	0,957
fitT1.20	(y ~ s (t, bs="ps”, k=20))	26,831	0,000358 ***	0,0984	9,9291	17,103	2,2394	0,718
modeloT1	Bilogístico				10,150	15,129	-0,075	0,710

Elaboración: El autor.

Visualice en la figura 5 como cambia la curva para distintos valores de k. Es fácil notar en el centro y en azul como el ajuste presenta una ondulación mayor en la curva en comparación con los demás que producen curvas más suaves.

Elaboración: El autor

Figura 5. Representación gráfica del efecto del suavizado con IC del 95% y 3 valores de k para la serie T1.

En la figura 6, se puede apreciar la diferencia entre las curvas que producen el mejor ajuste P splines y modeloT1.

Elaboración: El autor

Figura 6. Mejor ajuste P spline vs. modeloT1.

En la tabla 9 se encuentran los resultados para el control del suavizado del ajuste, con un rango de variación de 𝜆 entre 0,00001 y 10. El modelo fitT1.19a presenta los menores valores de los criterios de selección, sin embargo, este suavizado no es significativo. El modelo fitT1.19c arrojó el menor GCV, pero el modelo fitT1.19b generó el menor AIC y BIC y los mayores valores de logLik y R²adj, para el mejor ajuste de la serie T1, aunque la incertidumbre aumenta en los extremos. El modelo aproximado anterior es:

fitT.19b<-gam (y ~ s(t,bs="ps",k=19,sp=0,00001))

Tabla 9. Selección de sp óptimo para el mejor ajuste P spline en serie T1.

Modelo	Fórmula	s(t)	GCV	AIC	BIC	logLik	R²adj
fitT1.19a	(y ~ s (t, bs="ps”, k=9, sp=1e-5))	0,128	0,1363	-62,845	-42,933	51,420	0,972
fitT1.19b	(y ~ s (t, bs="ps”, k=9, sp=1e-4))	0,0841.	0,0978	-62,518	-42,806	51,055	0,975
fitT1.19c	(y ~ s (t, bs="ps”, k=9, sp=0,02))	0,00074 ***	0,0560	-33,594	-16,389	34,075	0,957
fitT1.19d	(y ~ s (t, bs="ps”, k=9, sp=10))	0,000574 ***	0,1016	9,6835	17,739	3,2491	0,728

Elaboración: El autor.

En la figura 7, puede observarse el efecto de tres valores distintos de 𝜆 sobre el mejor ajuste P spline.

Elaboración: El autor

Figura 7. Mejor ajuste P spline para 3 valores distintos de sp en serie T1.

La figura 8, permite comparar las curvas generadas por los ajustes P splines con los valores de 𝜆 fijados arbitrariamente y el estimado por la función GAM.

Elaboración: El autor

Figura 8. Efecto de sp sobre el mejor ajuste P spline en serie T1.

Resultados de Serie T2

El modelo sugerido por ^{Lugo (2018)} para la serie T2, es el siguiente:

El modelo anterior, no describe de forma correcta el patrón de datos correspondiente, lo cual puede deberse a un error de transcripción. Por lo anterior, el modelo aproximado se muestra a continuación:

La tabla 10, recoge los resultados arrojados por los modelos P splines planteados para esta serie. Se puede ver que el modeloT1 presenta el menor BIC mientras que el modelo fitT2.8 generó el menor GCV y AIC y el mayor logLik y R²adj, así se considera a este modelo como la mejor aproximación para la serie T2 y su modelo aproximado es el siguiente: fitT2.8<-gam (y ~ s(t, bs="ps",k=8))

Tabla 10. Selección del mejor ajuste P spline para serie T2.

Modelo	Modelo	sp	s(t)	GCV	AIC	BIC	logLik	R²adj
fitT2.7	(y ~ s (t, bs="ps”, k=7))	0,0449	0,000426 ***	0,2674	30,7729	36,891	-9,2419	0,672
fitT2.8	(y ~ s (t, bs="ps”, k=8))	0,1787	0,000368 ***	0,2671	30,6798	36,896	-9,0976	0,674
fitT2.9	(y ~ s (t, bs="ps”, k=9))	0,5286	0,000597 ***	0,2716	31,0169	37,227	-9,2713	0,668
modeloT2	función racional cuadrática				29,948	33,931	-10,974	0,672

Elaboración: El autor.

La figura 9, permite contrastar los ajustes P splines para distintos valores de k. En el centro y en azul la mejor aproximación. Note la ondulación que presenta la curva en el extremo derecho y que los dos ajustes restantes no generan.

Elaboración: El autor

Figura 9. Representación gráfica del efecto del suavizado con IC del 95% y 3 valores de k para la serie T2.

Para verificar la significancia del suavizado P splines en los datos, observe la figura 10, donde se contrastan las curvas generadas por el mejor ajuste P spline y modeloT2.

Elaboración: El autor

Figura 10. Mejor ajuste P spline vs. modeloT2.

Para obtener el valor de 𝜆 que optimice el ajuste P spline, se varia en un rango entre 0.001 y 10. Sin embargo, esta variación no causo un efecto significativo, ya que los criterios de selección favorables son proporcionados por el modelo con el valor de 𝜆 estimado por la función GAM. El modelo fitT2.8a arrojó el mayor loglik, mientras que el modelo fitT2.8c, con 𝜆 estimado, presenta el menor GCV, AIC, BIC y el mayor R²adj. Estos resultados se resumen en la tabla 11. El modelo aproximado para este ajuste es:

fitT2.8c<-gam (y ~ s (t, bs="ps",k=8,sp=0,178))

Tabla 11. Selección de sp óptimo para el mejor ajuste P spline en serie T2.

Modelo	Fórmula	s(t)	GCV	AIC	BIC	logLik	R²adj
fitT2.8ª	(y ~ s (t, bs="ps”, k=8, sp=1e-3))	0,0025 **	0,3469	33,392	42,173	-7,878	0,65
fitT2.8b	(y ~ s (t, bs="ps”, k=8, sp=0,01))	0,00124 **	0,3071	31,973	39,885	-8,039	0,669
fitT2.8c	(y ~ s (t, bs="ps”, k=8, sp=0,178))	0,000368 ***	0,2671	30,679	36,896	-9,098	0,674
fitT2.8d	(y ~ s (t, bs="ps”, k=8, sp=10))	0,0384 *	0,4735	43,303	47,292	-17,64	0,335

Elaboración: El autor.

La figura 11, permite comparar los ajustes generados por las variaciones en 𝜆. Las curvas ajustadas no difieren una de la otra en mayor proporción, excepto la curva con un 𝜆=10 que tiende a la linealidad. Aprecie esto de mejor forma en la figura 12.

Elaboración: El autor

Figura 11. Mejor ajuste P spline para 3 valores distintos de sp en serie T2.

Elaboración: El autor

Figura 12. Efecto de sp sobre el mejor ajuste P spline en serie T2.

Resultados de Serie T3

El modelo a partir de los datos sugerido por ^{Lugo (2018)} para la serie T3 es:

En la tabla 12, se plasman los resultados obtenidos para los ajustes P splines. El modeloT3 obtuvo el menor BIC mientras que el modelo fitT3.9 con arrojó el menor GCV y AIC y el mayor logLik y R²adj. Así, el mejor modelo para ajustar esta serie queda denotado por fitT3.9. el cual tiene la siguiente forma: fitT3.9<-gam (y ~ s(t,bs="ps",k=9))

Tabla 12 Selección del mejor ajuste P spline para serie T3.

Modelo	Base	Sp	s(t)	GCV	AIC	BIC	LogLik	R²adj
fitT3.9	(y ~ s(t, bs="ps",k=9))	0,0074	4,57e-07 ***	2,6909	73,982	83,047	-27,887	0,856
fitT3.19	(y ~ s(t,bs="ps",k=19))	45,233	1,24e-06 ***	2,8766	78,131	84,463	-32,752	0,81
fitT3.20	(y ~ s(t,bs="ps",k=20))	57,273	1,2e-06 ***	2,8755	78,108	84,461	-32,673	0,811
modeloT3	Ricker				74,842	77,829	-34,421	0,833

Elaboración: El autor.

La figura 13, muestra el efecto del suavizado en los datos para los distintos valores de k utilizados para la serie T3. A la izquierda y en azul, el modelo seleccionado como mejor ajuste P spline. Presenta una mayor ondulación. Se aprecia, el efecto del suavizado en las curvas.

Elaboración: El autor

Figura 13. Representación gráfica del efecto del suavizado con IC del 95% y 3 valores de k para la serie T3.

En la figura 14, se pueden cotejar las curvas generadas por el mejor ajuste P splines en la serie T3 y modeloT3. El modelo P spline genera una curva menos lineal.

Elaboración: El autor

Figura 14. Mejor ajuste P spline vs. modeloT3.

La tabla 13, resume los resultados arrojados para la selección del valor óptimo de λ sobre el mejor ajuste P spline para la serie T3. El modelo fitT3.9a generó el mayor logLik y R2adj, este último valor compartido con el modelo fitT3.9b que a su vez obtuvo el menor AIC. Así mismo, el modelo fitT3.9c arrojó el menor GCV y BIC. Cada uno de los modelos tienen dos criterios de selección a su favor, sin embargo, se considera más relevante el valor del AIC, así se toma como mejor ajuste al modelo denotado por fitT3.9b y su modelo aproximado es: fitT3.9b<-gam (y ~ s(t,bs="ps",k=9,sp=0,0029))

Tabla 13. Selección de sp óptimo para el mejor ajuste P spline en serie T3.

Modelo	Fórmula	s(t)	GCV	AIC	BIC	LogLik	R²adj
fitT3.9ª	(y ~ s (t, bs="ps”, k=9, sp=0,001))	6,4e-07 ***	2,811	73,807	83,584	-27,084	0,859
fitT3.9b	(y ~ s (t, bs="ps”, k=9, sp=0,0029))	5,68e-07 ***	2,732	73,655	83,158	-27,283	0,859
fitT3.9c	(y ~ s (t, bs="ps”, k=9, sp=0,0074))	5,7e-07 ***	2,691	73,982	83,047	-27,887	0,856
fitT3.9d	(y ~ s (t, bs="ps”, k=9, sp=10))	1,3e-05 ***	3,369	82,407	86,767	-36,825	0,748

Elaboración: El autor.

En la figura 15, pueden compararse estos ajuste y a su vez notarse como se comportan las curvas ajustadas cuando 𝜆 tiende a aumentar, el ajuste se alisa más.

Elaboración: El autor

Figura 15. Mejor ajuste P spline para 3 valores distintos de sp en serie T3

No se aprecia mucha diferencia entre las curvas ajustadas de los modelos fitT3.9b y fitT3.9c. Observe la figura 16 para identificar que el ajuste en las dos curvas es casi idéntico.

Elaboración: El autor

Figura 16. Efecto de sp sobre el mejor ajuste P spline en serie T3.

CONCLUSIONES

El método P splines representa una herramienta muy útil en el suavizado de curvas en presencia de datos no lineales. En la mayoría de las series analizadas, proporcionó un ajuste satisfactorio, sin embargo, en algunos casos como series Total y T4 que, aunque fueron significativos los ajustes, se consideran mejores modelos los obtenidos por Lino (2017). En la búsqueda de un valor para 𝜆 que optimice el ajuste, se puede confiar en el estimado por la función GAM, ya que proporcionó ajustes casi idénticos a los modelos con un valor de 𝜆 asignado que, de acuerdo con los criterios e índices considerados, fueron seleccionados como modelo final

AGRADECIMIENTO

A todos los actores sociales involucrados en el desarrollo de la investigación

Referencias consultadas

Álvarez, M, Grau, R, García, J, Quintana, R., y Cruz, A. (2015). Uso de técnicas estadísticas para evaluar la rugosidad superficial en probetas de acero inoxidable 316LVM sometidas a desgaste abrasivo comparativo. [Use of statistical techniques to evaluate surface roughness in 316LVM stainless steel specimens subjected to comparative abrasive wear]. Revista Técnica de la Facultad de Ingeniería Universidad del Zulia, 38(1), 20-29. https://n9.cl/cig66 [ Links ]

Bandera, E., y Pérez, l. (2018). Los modelos lineales generalizados mixtos. Su aplicación en el mejoramiento de plantas. [Generalized linear mixed models. Its application in plant breeding] Cultivos Tropicales, 39(1), 127-133. https://n9.cl/v4vuu [ Links ]

Barrientos, A., Olaya, J., y González, V. (2007). Un modelo spline para el pronóstico de la demanda de energía eléctrica. [A spline model for forecasting electricity demand] Revista Colombiana de Estadística, 30(2), 187-202. https://n9.cl/ctu86h [ Links ]

Burbano, V., Valdivieso, M., y Burbano, Á. (2022). Modelos estadísticos no paramétricos en los libros de texto del nivel universitario. [Non-parametric statistical models in university-level textbooks] Revista de Investigación, Desarrollo e Innovación, 12(2), 265-278. https://doi.org/10.19053/20278306.v12.n2.2022.15270 [ Links ]

Durban, R. (2009). Introducción al Suavizado con Penalizaciones: P-splines [An introduction to smoothing with penalties:P-splines]. BEIO, Boletín de Estadística e Investigación Operativa, 25(3), 195-205. https://n9.cl/2noir [ Links ]

Eilers, P., y Marx, B. (1996). Suavizado Flexible con B-Splines y Penalizaciones. [Flexible Smoothing with B-Splines and Penalties]. Statistical Science, 11(2), 89-102. https://n9.cl/ofjkyt [ Links ]

Hastie, T., y Tibshiranri, R. (1990). Modelos aditivos generalizados. [Generalized Additive Models]. https://n9.cl/0n7be [ Links ]

Lugo, L. (2018). Efecto de bacterias antagonistas y extractos vegetales sobre la dinámica poblacional de Ralstonia solanacearum (SMITH) YABUUCHI et al. Y la expresión de síntomas en tomate (Solanum lycopersicum L.) [Effect of antagonistic bacteria and plant extracts on the population dynamics of Ralstonia solanacearum (SMITH) YABUUCHI et al. and the expression of symptoms in tomato (Solanum lycopersicum L.](Tesis doctoral). Doctorado en Ciencias Agrícolas, Universidad Central de Venezuela, Maracay, Venezuela.https://n9.cl/utlmt [ Links ]

Ramírez, A., y Polack, A. (2020). Estadística inferencial. Elección de una prueba estadística no paramétrica en investigación científica. [Inferential Statistics. Choice of a Non Parametric Statistical Test in Scientific Research] Horizonte de la Ciencia, 10(19), 191-208. https://n9.cl/m9ybb [ Links ]

Salas, E., Ojeda, N., y Soto, H. (2010). Métodos estadísticos paramétricos y no paramétricos para predecir variables de rodal basados en Landsat ETM+: una comparación en un bosque de Araucaria araucana en Chile. [Parametric and nonparametric statistical methods for predicting stand variables based on Landsat ETM+: a comparison in an Araucaria araucana forest in Chile]. Bosque, 31(3),179-194. https://n9.cl/mxtppl [ Links ]

Toriz, A., y Sánchez, A. (2017). Método de asociación de datos basado en curvas B-Spline para el problema de SLAM en ambientes complejos. [Data association method based on B-Spline curves for the SLAM problem in complex environments]. Computación y Sistemas, 21(2), 353-368. https://doi.org/10.13053/cys-21-2-2724 [ Links ]

Wood, S. N. (2017). Modelos Aditivos Generalizados: Una Introducción. [Generalized Additive Models: An Introduction]. (2nd ed.) Boca Raton, Fl, E.U.A: Chapman Hall/CRC. https://n9.cl/l3yfy [ Links ]

FINANCIAMIENTO

⁰No monetario.

Recibido: 10 de Marzo de 2024; Revisado: 15 de Mayo de 2024; Aprobado: 15 de Junio de 2024; Publicado: 01 de Julio de 2024

Este es un artículo publicado en acceso abierto bajo una licencia Creative Commons

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

Compartir

Ingenium et Potentia. Revista Electrónica Multidisciplinaria de Ciencias Básicas, Ingeniería y Arquitectura

versión On-line ISSN 2665-0304

Ingenium et Potentia vol.6 no.11 Santa Ana de Coro dic. 2024 Epub 31-Oct-2024

https://doi.org/10.35381/i.p.v6i11.4158