当前位置:论文写作 > 毕业论文范文 > 文章内容

农产品近红外光谱中的多模型共识方法

主题:模型预测控制 下载地址:论文doc下载 原创作者:原创作者未知 评分:9.0分 更新时间: 2024-01-15

简介:关于对写作模型预测论文范文与课题研究的大学硕士、相关本科毕业论文模型预测论文开题报告范文和相关文献综述及职称论文参考文献资料下载有帮助。

模型预测论文范文

模型预测控制论文

目录

  1. 模型预测控制:现货投资教学-江恩理论学习入门-时空测算模型预测

(1.青海师范大学化学系,西宁 810008;2.青海省海北州牧科所,青海 海北 810200)

摘 要:基于多模型共识的基本思路结合近红外光谱,建立了多模型共识偏最小二乘回归方法(cPLS),从训练集随机取样建立一系列偏最小二乘回归模型(PLS),选取其中性能较好的部分模型作为成员模型,并用这些成员模型预测未知样品.将cPLS用于玉米中湿度、淀粉、蛋白质及油分含量的近红外光谱定量预测.结果PLS对独立测试集中4种组分进行50次重复预测的平均预测误差均方根分别为0.020 7、0.268 6、0.122 0和0.070 6,预测误差均方根的标准偏差分别为4.753 0×10-3、0.054 8、0.023 0和0.014 9;而cPLS重复50次预测的平均预测误差均方根分别为0.016 0、0.167 8、0.116 6和0.044 1,预测误差均方根的标准偏差分别为2.735 0×10-4、0.002 5、0.003 0和7.683 0×10-4.可见,cPLS所建立的模型更加稳健可靠,预测的准确性也明显提高.

关键词:农产品;多模型共识;近红外光谱;定量分析

中图分类号:S132; O657.3 文献标识码:A 文章编号:0439-8114(2013)22-5599-04

Using Consensus Modeling to Analyze Near Infrared Spectroscopic Data of

Agricultural Products

ZHANG Ming-jin1,LI Ting-jun2

(1.Department of Chemistry, Qinghai Normal University, Xining 810008, China;

2.The Animal Husbandry and Veterinary Research Institute of Haibei State, Haibei 810200, Qinghai, China)

Abstract: Based on consensus modeling combined with near infrared spectra(NIRS), the consensus partial least squares (cPLS) regression method was established. A series of PLS regression models were built on training subsets constructed by random sampling from the training set. The models with high performance were selected as member models and used for prediction. The cPLS was used for modeling on NIRS data with moisture, starch, protein and oil of corn samples. The method was compared with the single-model PLS regression. Results showed that the single-model PLS regression obtained 0.020 7, 0.268 6, 0.122 0 and 0.070 6 of mean values of Root Mean Square Error of Prediction (RMSEP) on 50 repeat prediction for the four components on the independent test set. The standard deviation of the RMSEPs were 4.753 0×10-3, 0.054 8, 0.023 0 and 0.014 9, respectively. cPLS obtained 0.016 0, 0.167 8, 0.116 6 and 0.044 1 of mean RMSEP and 2.735 0×10-4, 0.002 5, 0.003 0 and 7.683 0×10-4 of corresponding standard deviations. The results indicated that the models built by cPLS were more steady and reliable. The prediction results were more accurate than that of the single-model PLS regression.

Key words: agricultural products; consensus modeling; near infrared spectroscopy; quantitative analysis

近红外光谱是指780~2 526 nm波长范围内的电磁波谱[1],其信息主要是含氢基团(如C-H、O-H、N-H、S-H等)分子振动的倍频与合频吸收信息,由于含有丰富的物质结构信息,可用于分析绝大多数种类的化合物及其混合物的成分浓度或者品质参数.现代近红外光谱分析是通过建立校正模型从而实现对未知样本的定性或定量分析的,因而是一种间接分析技术.由于具有分析时间短、无需样品预处理、非破坏性、无污染以及成本低等特点,近红外光谱分析技术已成为一种快速的现代分析技术,广泛应用于农产品、食品领域的品质检测[2].

由于近红外光谱谱峰较宽,实际样品中各种成分的吸收峰重叠严重,因而必须采用化学计量学方法对微弱化学信息进行提取和分析,以达到对复杂混合物进行定性或者定量分析的目的.近红外光谱分析中常用的多元校正技术包括线性回归和非线性回归,方法包括多元线性回归,主成分回归,偏最小二乘回归以及支持向量回归等[3,4].然而传统的多元校正技术一般采用单一模型,即采用一定的训练集建立一个最优模型然后用于测定.此类方法对数据噪声和样本量都比较敏感,在分析复杂化学测量数据时,当训练集样本数目有限或存在较大误差时模型的预测精度与稳定性往往达不到满意的效果.

多模型共识方法[5-9]是相对于传统的单模型方法提出的.其基本思路是采用随机或组合的方式利用同一训练集中的不同子集建立的多个模型同时进行预测,将多个预测结果通过一定的规则,例如简单平均或加权平均,形成一个共识的最终结果.多模型共识的突出特点是通过多次使用训练集中不同子集样本的信息,降低预测结果对某一样本的依赖性.

本研究基于多模型共识的基本思路,采用随机抽样技术选择训练子集,建立一系列的偏最小二乘回归模型(PLS),并从中选择部分预测性能较好的模型作为成员模型,用这些成员模型的预测均值来预测未知样品中待分析组分的浓度.将该方法称为多模型共识偏最小二乘回归方法(cPLS),用于玉米样品中湿度、蛋白质以及油分含量之间的建模研究,并讨论了建模参数对预测结果的影响,对单模型与多模型共识的结果进行了比较.

1 方法

1.1 cPLS方法原理及主要步骤

1.1.1 确定PLS建模采用的最佳隐变量数 利用训练集建立PLS回归模型并以检验集进行预测,根据不同的隐变量数时所得的预测误差均方根,选择最佳隐变量数.

1.1.2 确定cPLS中的成员模型的接受标准、模型总数等相关参数 在cPLS方法中,并非所有训练子集所建的模型都可以参与预测,其中有部分模型可能受个别样本的影响较大,因此要设定成员模型的接受标准,达到此标准的模型才能成为cPLS的成员模型.本方法利用训练集建立PLS回归模型并以检验集进行预测,并根据预测结果与真值之间的平均相对误差为依据,确定成员模型的接受标准.此外,多次预测结果的稳定性会受模型总数的影响,以不同训练子集(随机取自训练集)多次建模预测同一检验集,当预测误差均方根趋于稳定时的模型数即合适的模型总数.

1.1.3 预测 据以上参数,用cPLS中所有成员模型共同预测未知样品,各成员模型分别预测后结果取均值即为最终预测结果.

本试验所涉及的计算在Matlab 7.0上自编程序完成.

1.2 试验数据

该数据集包含80个玉米样本的近红外光谱数据.光谱通过3种不同的近红外光谱仪测得,每条光谱包含1 100~2 498 nm范围内共700个波长通道下的响应数据,光谱分辨率为2 nm.本试验采用m5仪器测定的近红外光谱数据,80个玉米样本的原始光谱如图1所示.同时,数据集包含所有玉米样本的湿度、油分、蛋白质以及淀粉的含量.该数据集可以从网站(http://www.eigenvector.com/data/index.htm)免费下载.随机选取数据集样本总数的80%(即64例)作为训练集,其余20%的样本(16例)作为独立测试集,用于模型性能评价;并随机抽取训练集中80%的样本作为训练子集用于建模,其余样本作为检验集用于模型参数优化.

2 结果与讨论

2.1 对玉米湿度的分析

2.1.1 隐变量数的确定 PLS建模过程中首先要解决的是隐变量数的选择问题.在训练子集上采用PLS算法进行建模,然后对检验集进行预测,图2为隐变量数取1~20时的校正集误差均方根及预测集预测误差均方根.由图2可见,当所采用的PLS隐变量数变化时,所建模型精度也会发生变化.开始时,误差均方根均较大且不稳定;随着隐变量数的增大,误差均方根逐渐减小;当隐变量数大于10时,误差均方根基本趋于稳定.考虑模型精度及计算效率两个方面,选择隐变量数为10进行下一步的计算.

2.1.2 成员模型的接纳标准 用单模型PLS对检验集进行50次重复预测时,平均相对误差的分布情况如图3所示,可见绝大多数情况下的平均相对误差为0.12%~0.22%,故在cPLS中分别采用0.12%、0.14%、0.16%、0.18%、0.20%及0.22%的平均相对误差作为接纳成员模型的判据,模型总数均为100,对检验集进行预测,结果以不同平均相对误差为接纳标准时,随着相对误差的提高,预测误差均方根先下降,然后略有升高,其中平均相对误差0.20%对应的预测误差均方根最低.故本研究采用0.20%作为误差判据的阈值,即成员模型的接纳标准.

2.1.3 模型总数的确定 从cPLS的原理可以看出,多模型共识算法的优势在于每个成员模型给出不同的预测结果时,最后给出一个稳定可靠的结果;所以理论上成员模型数越多,cPLS的结果越可信,但模型数过多显然影响计算效率.因此,成员模型的总数是另一个重要参数,对预测结果的稳定性和准确性起着关键的作用.本研究选取模型数50、100、200、500进行考察,检验集预测误差均方根随模型数的变化可用图4的箱形图表示.箱形图是统计学、品质管理等领域常用的,用作显示一组数据分散情况资料的统计图.若预测误差均方根分布比较集中,则说明结果比较稳定.由图4可见,模型数为100的结果比其余三者稍显集中,且异常样本数较少.综合考虑计算的效率及结果稳定性,后面的处理过程中成员模型数都取100.

2.1.4 cPLS对玉米湿度的预测结果 由于cPLS的预测结果采用了多个模型的平均值,预测稳定性是cPLS算法的重要特点之一.根据上述确定的隐变量数、成员模型接纳标准及模型总数等条件,对独立测试集进行预测.为了考察预测结果的稳定性,重复进行50次计算,结果如图5所示.为了进一步评价算法的稳定性及预测准确性,用单模型PLS回归方法进行了比较.以PLS在训练集上建模(隐变量数为10),对独立测试集进行预测,重复进行50次计算,结果见图5.

在50次重复运算的结果中,cPLS方法的预测误差均方根均值为0.016 0,标准偏差为2.735 0×10-4;而PLS对预测集预测的预测误差均方根均值为0.020 7,标准偏差为4.753 0×10-3.可见PLS算法50次预测的预测误差均方根之间相差较大,表现出模型的稳定性较差;而cPLS算法50次预测的预测误差均方根之间的波动很小,表现出非常好的模型稳定性,且其预测准确性也明显比单模型PLS高.

2.2 对玉米淀粉、蛋白质及油分含量的分析

用cPLS和单模型PLS回归方法对样品中的淀粉、蛋白质及油分含量进行分析.对独立测试集重复50次预测的结果如表1所示.很显然,cPLS的预测结果无论从准确性还是稳定性来讲,均优于PLS.尽管两种方法对独立测试集中蛋白质含量预测的预测误差均方根均值相差不大,但PLS进行多次预测的标准偏差较大,说明多次预测时波动较大,而cPLS则明显稳定得多.因此,cPLS预测的结果更加稳定可靠.

3 结论

由于多个模型往往比相应的单模型能更有效地从数据的不同方面和不同层面抽取并表达自变量和因变量之间的复杂关系,因而该方法有望解决过拟合问题,提高模型的稳健性和预测精度.而且多模型共识方法在取样时,是多次随机从训练集中取样,这就克服了单模型方法单次取样可能带来的采样不合理问题.也就是说,cPLS与传统的单模型方法相比,所建立的模型更加稳健可靠,预测的准确性也明显提高.因此,cPLS在克服单模型方法由于样品复杂且校正集样品较少而不稳定的方面具有一定的实际意义.

参考文献:

[1] STARK E,LUCHTER K,MARGOSHES M. Near-infrared analysis(NIRA): A technology for quantitative and qualitative analysis[J]. Applied Spectroscopy Reviews,1986,22(4):335-399.

[2] 孙 通,徐惠荣,应义斌.近红外光谱分析技术在农产品/食品品质在线无损检测中的应用研究进展[J].光谱学与光谱分析,2009, 29(1):122-126.

[3] 褚小立,许育鹏,陆婉珍.用于近红外光谱分析的化学计量学方法研究与应用进展[J].分析化学,2008,36(5):702-709.

[4] 姚 霞,田永超,倪 军,等.水稻叶片色素含量近红外光谱估测模型研究[J].分析化学,2012,40(4):589-595.

[5] 李艳坤,邵学广,蔡文生.基于多模型共识的偏最小二乘法用于近红外光谱定量分析[J].高等学校化学学报,2007,28(2):246-249.

[6] LI Y K, SHAO X G, CAI W S. A consensus least squares support vector regression (LS-SVR) for analysis of near-infrared spectra of plant samples [J]. Talanta,2007,72(1):217-222.

[7] CHEN D,CAI W S,SHAO X G. A strategy for enhancing the reliability of near-infrared spectral analysis[J]. Vibrational Spectroscopy,2008,47(2):113-118.

[8] SHAHBAZIKHAH P, KALIVAS J H. A consensus modeling approach to update a spectroscopic calibration [J]. Chemometrics and Intelligent Laboratory Systems,2013,120(1):142-153.

模型预测控制:现货投资教学-江恩理论学习入门-时空测算模型预测

[9] LI Y K. Determination of diesel cetane number by consensus modeling based on uninformative variable elimination[J]. Analytical Methods,2012,4(1):254-258.

总结:关于免费模型预测论文范文在这里免费下载与阅读,为您的模型预测相关论文写作提供资料。

模型预测控制引用文献:

[1] 桥式起重机和模型预测控制论文写作参考范文 桥式起重机和模型预测控制有关论文如何怎么撰写2万字
[2] 预测模型论文范文 预测模型相关本科毕业论文范文2万字
[3] 预测模型论文范文 关于预测模型方面本科论文范文2000字
《农产品近红外光谱中的多模型共识方法》word下载【免费】
模型预测控制相关论文范文资料