Estudio comparativo de modelos de predicción obtenidos para propiedades de calidad en suelo, frutas y vegetales utilizando las técnicas de análisis multivariables PLS y PCR
Comparative study of prediction models obtained for Soil, Fruits and Vegetables quality properties using the multivariate analysis techniques PLS and PCR

Lazara Rangel Montes de Oca1, Annia García Pereira2 y Antihus Hernández Gómez3

 

1 Ing., Prof., Universidad Agraria de La Habana, Facultad de Mecanización Agropecuaria, La Habana, Cuba,
E-mail: lazarar@isch.edu.cu

2 Dr. C., Prof., Universidad Agraria de La Habana, Facultad de Mecanización Agropecuaria, La Habana, Cuba.


3 Dr. C., Prof., Universidad Agraria de La Habana, Centro de Mecanización Agropecuaria, La Habana, Cu
ba.

_____________________________________________________________________________________________________________

RESUMEN. Las técnicas de análisis multivariables representan una novedosa alternativa que complementa el uso de tecnologías no destructivas durante el monitoreo de las propiedades de calidad de frutas, vegetales y el suelo. La investigación a partir de trabajos realizados previamente se enfoca en comparar y determinar la exactitud de los modelos de predicción para algunas de las propiedades principales que definen la calidad del suelo, frutas y vegetales utilizando las técnicas multivariables Mínimos Cuadrados Parciales (PLS) y Regresión de los Componentes Principales (PCR) Para ello se realizó un análisis de los resultados obtenidos en trabajos que conciernen a esta temática los cuales poseen cierto reconocimiento internacional donde, para obtener los modelos de predicción para SSC, pH, fuerza de resistencia a la compresión (Fc) y al pinchazo (F) y Nitrógeno (N) en suelo (80 tomates, 200 mandarinas y 165 muestras de suelo). Se relacionaron los valores reales del contenido de cada propiedad obtenidos a partir de las técnicas tradicionales con los datos logrados utilizando la técnica de espectroscopia a través del software especializado UNSCRAMBLER 7,5 utilizando las técnicas Mínimos Cuadrados Parciales (PLS) y Regresión de los Componentes Principales (PCR). Para evaluar los modelos con cada técnica se respetó el criterio: alto coeficiente de correlación (r), baja Raíz Media Cuadrada del Error de Calibración (RMSEC), Raíz Media Cuadrada del Error en la validación Cruzada (RMSECV), Error Normal de Predicción (SEP). Los resultados alcanzados demuestran que los métodos de análisis multivariables estudiados tienen el potencial para estimar las propiedades de calidad evaluadas y que los modelos obtenidos con PLS lograron resultados ligeramente superiores de los parámetros estadísticos a los obtenidos con PCR.

Palabras clave: análisis multivariable, componentes principales, mínimos cuadrados parciales.

______________________________________________________________________________________________________________

ABSTRACT. The multivariable analysis techniques represent an innovative alternative that complements with the utilization of non destructive technologies applied during the monitoring of quality properties in fruit, vegetable and soil. The present work is focused in to compare the accuracy of prediction models in some fruit, vegetables and soil quality properties obtained from research works previously realized, using for this purpose the multivariate calibration techniques Principal Component Regression (PCR) and Partial Least Squares (PLS) where, to obtain the prediction models for SSC, pH, Compression (Fc) and Puncture (F) and Nitrogen (N) in soil (80 tomatoes, 200 mandarins and 165 soil samples), the real values obtained from the traditional tests were related with the data obtained from the spectroscopy through the specialized software UNSCRAMBLER 7,5 Principal Component Regression (PCR) and Partial Least Squares (PLS) multivariate analysis techniques. To select the best model were considered the highest coefficient of correlation (r), the lowest Root Mean Square Error of Calibration (RMSEC), Root Mean Square Error of Cross- Validation (RMSECV), Standard Error of Cross- Validation (SECV) or Standard Error of Prediction during the calibration (SEP). The main result demonstrated that all multivariate analysis techniques have potential to estimate the evaluated quality properties, as well as, all prediction models obtained using PLS showed results slightly superior than those obtained with PCR.

Keywords: Multivariate analysis, principal component, partial least-squares.

______________________________________________________________________________________________________________

INTRODUCCIÓN

La obtención de modelos de predicción para propiedades relacionadas con los sistemas agrícolas representa un reto para el universo, y especialmente para los países en vías de desarrollo atendiendo a las premisas tecnológicas que sustentan el mundo de hoy. Obtener información precisa sobre las propiedades de los suelos y frutas es esencial para la producción en la agricultura y las investigaciones del medio ambiente, (Hernández y et. al., 2007). La determinación de dichas propiedades se realiza generalmente a partir de principios y procedimientos que en su mayoría son altamente costosos, para el hombre y para el entorno porque involucran gran cantidad de recursos financieros mucho tiempo, y se trabaja con sustancias nocivas. En la última década, varias metodologías tradicionales para la determinación de las principales propiedades de frutas, vegetales, así como en suelo y madera, han sido sustituidas por modernas y sofisticadas tecnologías que durante su aplicación llevan implícito un considerable procesamiento estadístico de los datos para poder extraer información valiosa de las mismas, (Reeves and McCarty, (2002); Hernández et al., (2007); He et al., (2007); Shao et al., (2007) y Acuna, A. M and Murphy, E. G,(2007)). El desarrollo de estos modelos de predicción envuelve un grupo de variables interrelacionadas entre sí, lo que conlleva al uso de los métodos de análisis multivariables durante la obtención de los mismos. Durante la aplicación de las técnicas de análisis multivariable sobresale el estudio realizado por García, (2005), donde se predijo el contenido de materia orgánica, nitrógeno, carbono y el pH del suelo utilizando un espectrofotómetro y comparando a su vez tres técnicas de análisis multivariable: PLS, MLR, PCR (con sus siglas en ingles) obteniendo resultados significativos con la aplicación de PLS, determinando el contenido de nitrógeno en un tiempo real, alcanzando un coeficiente de regresión r = 0,96 y un error estándar de predicción (SEP = 2,033). . Por lo antes planteado es que el objetivo de esta investigación se centra en el estudio comparativo a partir de trabajos preliminares de la exactitud de los modelos de predicción para algunas de las principales propiedades que definen la calidad del suelo, frutas y vegetales utilizando para ello las técnicas de análisis multivariables PLS y PCR, así como determinar entre las propiedades evaluadas cual de ellas brinda mejores modelos de predicción a partir de la combinación PLS y PCR–espectroscopia.

MATERIALES Y MÉTODOS

Metodologías utilizadas durante la determinación de las propiedades en suelo, mandarina y tomate.
En el estudio referente al contenido de N del suelo, se tomaron los resultados de una investigación realizada por Hernández et. al., (2007) utilizando un total de 165 muestras (135 calibración y 30 predicción, tipo de suelo arcilloso mixto. La delimitación del campo se realizó utilizando un equipo Trimble AgGPS 132, mientras el método de rejilla normal fue usado para el muestreo del suelo. Cada muestra de suelo fue dividida en dos porciones, y clasificada en grupos A o B. El grupo A para ser analizado en laboratorio siguiendo los procedimientos tradicionales para la determinación del N total y el grupo B para ser llevado al laboratorio de sensores remotos para ser analizado con espectroscopia NIR. Para ello se utilizó un espectrofotómetro profesional (FieldSpec FR (350-2500 nm)/A110070. Dispositivos Espectrales Analíticos, Inc. (ASD)). Para el análisis estadístico se utilizaron todos los espectros grabados, que fueron verificados visualmente y promediados usando el software ViewSpec pro versión 2.14 (ASD) y luego exportados al software de análisis multivariable, Unscrambler 7.5.
Durante el estudio del uso de PLS y PCR para evaluar el comportamiento de los atributos de calidad de las frutas al instante de la recolección, se tomaron los resultados de investigaciones realizadas por Zude et al., (2004), donde fueron determinados varios parámetros: masa, contenido de solubles sólidos (SSCel pH, y la firmeza a través de las fuerzas de compresión y punzonado, para mandarina (C. reticulata) 200 muestras (170 calibración-30 predicción) y tomate (Lycopersicum esculentum) 80 muestras (60 calibración–20 predicción), respectivamente. Las magnitudes masa, densidad, firmeza y contenido de sólidos solubles (SSC) fueron obtenidas utilizando: balanza electrónica (Mettler Toledo, Max. 1000± 0,01 g); el principio de Arquímedes usando un aparato construido para mediciones volumétricas logrando la total inmersión de la fruta en agua; Máquina de Comprobación Universal (Modelo 5543 de una columna, Instron S.A.; peachimetro Sartorius AG, PB-20 y, Refractómetro WYT-J 0-32%.

Metodología para la comparación de PLS, PCR y MLR durante la obtención de los modelos de predicción para cada propiedad.
Los modelos que se comparan fueron obtenidos indistintamente utilizando técnicas de calibración multivariable tales como: Mínimos Cuadrados Parciales (Partial Least Square (PLS)), Regresión de los Componentes Principales (Principal Components Regression (PCR)) y Regresión Lineal Múltiple (Múltiple Linear Regression (MLR)).
Para el suelo se efectuó un pre-procesamiento matemático de los datos para eliminar las irregularidades y el efecto de la dispersión de la luz en los espectros, dentro de los cuales se aplicó la corrección multiplicativa de la dispersión (Multiplicative Scatter Correction) y luego un refinamiento de la señal del espectro por promediación sobre varios puntos espectrales adyacentes (bandas de premediación (gap sizes)) (3, 9, 11, 19, 39) para producir 666, 222, 182, que 105 y 51 nuevos datos, posteriormente el propio software realizó una validación cruzada con la salida consecutiva de un valor (Leave-one-out Cross-Validation) para determinar el número óptimo de factores (F) para PCA/PLS y PCR y luego seleccionar la ecuación de mejor resultado. Los resultados obtenidos fueron comparados con las técnicas mencionadas anteriormente, considerando de esta ultima los rangos de longitudes de onda donde ofrecían mayor numero de información, es decir, donde eran mas pronunciados los picos, aunque esto pudiera ser una de sus desventajas debido a que en algunos casos se seleccione un rango de longitud de poca información. En el caso de la naranja y el tomate se compararon dos técnicas multivariadas PLS y PCR donde los resultados obtenidos a partir del uso de las técnicas antes mencionadas son comparados en función del mejor modelo que debe ser el que presente una baja Raíz Media Cuadrada del Error de Calibración (Root Mean Square Error of Calibration (RMSEC)), Raíz Media Cuadrada del Error en la validación Cruzada (Root Mean Square Error of Cross-Validation (RMSECV)), Error Normal de Predicción (Standard Error of prediction (SEP)), y un alto coeficiente de correlación (r)).

RESULTADOS Y DISCUSIÓN

La determinación de las propiedades en suelo, mandarinas y tomates.
El contenido de Nitrógeno para las 30 muestras de suelo analizadas osciló en un rango de 59,93 a 76,0 mg/kg con un contenido promedio para el constituyente en el campo de 68,05, (ver, Tabla 1), por lo que el suelo puede considerarse medianamente fértil en cuanto al contenido de este macronutriente.
En cuanto a las propiedades analizadas en las mandarinas en valores promedios se obtuvo: masa 93,42 g; SSC 9,36 ?Brix; pH de 2,99; Fc de 44,25 N y F de 27,65 De igual manera se obtuvieron resultados similares en cada uno de los parámetros determinados en el tomate: masa de 152,44 g; SSC 3,37 ?Brix; pH de 4,62; Fc de 12,64 N y F de 7,68 N. Para mayor información ver, Tabla 2,


TABLA 1. Resultados estadísticos del contenido de nitrógeno para las 30 muestras analizadas

Tabla 2. Resultados estadísticos de los parámetros determinados en las 30 muestras analizadas de tomate y 30 mandarina

La comparación de las técnicas MLR, PCR y PLS.
El desarrollo y obtención de los modelos de predicción para el contenido de N utilizando las tres técnicas estudiadas se demuestra superioridad del coeficiente de correlación con PCR y PLS sobre MLR en tres de los rangos utilizados, respetando en todo momento la limitación de esta técnica, ver Figuras 1 y 2. Los modelos de calibración obtenidos usando PLS y PCR mostraron mejores resultados estadísticos que aquellos que obtenidos con MLR, teniendo en cuenta que esta técnica obtuvo resultados por encima de 0,70 y podría mejorar según la longitud de onda que se seleccione. PLS es ligeramente superior a PCR, con r de 0,938 y 0,932, así como, SECV de 2,823 y 2,949 para cada técnica de calibración multivariable antes mencionada, ver Figuras. 1 y 2.

 

FIGURA 1. Coeficientes de correlación durante la obtención de los modelos para la predicción de N usando PLS, PCR y MLR.

 

Una variabilidad notable se encontró acorde con el tamaño de las bandas de promediación (Gap size) durante el pre-tratamiento de los datos de ésta, logrando los mejores resultados cuando se realizo el refinamiento de los datos por promediación sobre 9 puntos adyacentes, específicamente para PLS y PCR, pero es valido señalar que no siempre se mejora la actuación de los modelos con la aplicación de este tipo de pre-tratamiento, ver Figura 2. También se obtuvo que la utilización de la primera y segunda derivada no mejorara la estadística de los modelos, por lo que se considera que en algunos casos la aplicación de éstas como pre-tratamiento no es recomendable.
Durante la obtención de los modelos para la predicción de las propiedades de calidad de mandarinas y tomates empleando la espectroscopia y a través del empleo de las técnicas análisis multivariable, se obtuvo resultados ligeramente superiores para PLS sobre PCR, con los siguientes valores: para el SSC (r = 0,94 y r = 0,90), pH (r = 0,81 y r = 0,83), fuerza de compresión (r = 0,83) y r = 0,81), para la mandarina y el tomate respectivamente ver Tabla 3.
Como resultado principal se obtuvo, que utilizando PLS y PCR es posible realizar la predicción de todas las propiedades en mandarina y tomate, y las tres técnicas para el caso del suelo pero en todos los casos sobresale con resultados ligeramente superiores PLS, lo que en gran medida es producto de que esta técnica permite relacionar todas las variables del modelo durante la confección del mismo.

 

TABLA 3. Comparación de PLS y PCR durante la obtención de los modelos de predicción por propiedad


CONCLUSIONES

• Los modelos obtenidos de la combinación de técnicas de espectroscopia con los métodos de análisis multivariables estudiados tienen el potencial para estimar las propiedades de calidad evaluadas con una precisión de valor cuantitativo.
• Los modelos obtenidos con PLS lograron resultados ligeramente superiores de los parámetros estadísticos (r, SEC, SECV y SEP) a los obtenidos con PCR.
• Dentro de las propiedades analizadas los mejores resultados fueron alcanzados durante la obtención de los modelos de predicción para SSC en mandarina y tomate (r=0,97 y r=0,95), respectivamente y seguidos del N (r = 0,93), pH en mandarina y tomate (r =0,86 y r= 0,91), Fc (r = 0,87 y r=0,88) y F (r = 0,83 y r=0,91).
• Con la aplicación de la MLR es posible lograr modelos capaces de predecir con exactitud el N en el suelo no obstante se alcanzaron mejores resultados utilizando PLS y PCR.

REFERENCIAS BIBLIOGRÁFICAS

ABBOTT, J. A and LU. R.: Anisotropic mechanical properties of apples, Transactions of the ASAE, 39(4): 1451-1459, 1996.

BRERETON, R. G.: Introduction to multivariate calibration in analytical chemistry, Analyst, 125: 2125–2154, 2000.

CHANG, C-W., LAIRD, D. A., MAUSBACH, M. J and HURBURGH, C. R.: Near-infrared reflectance spectroscopy – principal component regression analysis of soil properties, Soil Sci. Soc. Am. J., 65: 480-490, 2001.

CLARK, C. J., MCGLONE, V.A., DE SILVA, H. N., MANNING, M.A., BURDON, J., MOWAT, A. D.: Prediction of storage disorders of kiwifruit (Actinidia chinensis) based on visible-NIR spectral characteristics at harvest, Postharvest, Biology and Technology, 32: 147–158, (2004).

HERNÁNDEZ, A; GARCÍA, A and HE, Y.: Nitrogen content prediction in a soil with different moisture content using Near Infrared Spectroscopy, Hangzhou,  China, 2003.

LEE, W. S and SEARCY, S. W.: Multispectral sensor for detecting nitrogen in corn plants, ASAE paper No. 001010, St. Joseph, Mich. USA, 2000.

LAMMERTYN, J., PEIRS, A., DE BAERDEMAEKER, J and NICOLAÏ, B.: Light penetration properties of NIR radiation in fruit with respect to non-destructive quality assessment  Postharvest Biology and Technology 18: 121–132, 2000.

LANDAHL, S., JANCSÓK, P and DE BAERDEMAEKER, J.:The acoustic impulse-response technique and it’s dependents on the water statatus of apples, EurAgEng, Budapest, AgEng. Paper No 02-PH-029, Budapest, Hungary, 2002.

Plant, R. E, Site-Specific Management: The Application of Information Technology to Crop Production, Computers and Electronics in Agriculture,
30: 9-29, 2001.

WORKMAN, J. J. JR. Interpretive spectroscopy for near infrared, Appl. Spec. Rev., 31: 251-320, (1996).

ZUDE, M., JEAN-MICHEL, R. and SANDRA, L.: Non-destructive test on the prediction of apple fruit flesh firmness and SSC at the tree and shelf live. Written for presentation at the 2004, In: CIGR International Conference Beijing, Paper No. 20-137A, Sponsored by CIGR, CSAM and CSAE 11- 14 October, Beijing, China, 2004.

 

Recibido 13/01/08, aprobado 18/12/08, trabajo 11/09, investigación