有关农产品近红外光谱中的多模型共识方法毕业论文写作资料-论文写作网

简介:关于对写作模型预测论文范文与课题研究的大学硕士、相关本科毕业论文模型预测论文开题报告范文和相关文献综述及职称论文参考文献资料下载有帮助。

模型预测论文范文

摘要：基于多模型共识的基本思路结合近红外光谱,建立了多模型共识偏最小二乘回归方法（ｃＰＬＳ）,从训练集随机取样建立一系列偏最小二乘回归模型（ＰＬＳ）,选取其中性能较好的部分模型作为成员模型,并用这些成员模型预测未知样品.将ｃＰＬＳ用于玉米中湿度、淀粉、蛋白质及油分含量的近红外光谱定量预测.结果ＰＬＳ对独立测试集中４种组分进行５０次重复预测的平均预测误差均方根分别为０．０２０７、０．２６８６、０．１２２０和０．０７０６,预测误差均方根的标准偏差分别为４．７５３０×１０－３、０．０５４８、０．０２３０和０．０１４９；而ｃＰＬＳ重复５０次预测的平均预测误差均方根分别为０．０１６０、０．１６７８、０．１１６６和０．０４４１,预测误差均方根的标准偏差分别为２．７３５０×１０－４、０．００２５、０．００３０和７．６８３０×１０－４.可见,ｃＰＬＳ所建立的模型更加稳健可靠,预测的准确性也明显提高.

关键词：农产品；多模型共识；近红外光谱；定量分析

中图分类号：Ｓ１３２；Ｏ６５７．３文献标识码：Ａ文章编号：0439－８114（２０13）22－5599-04

Ｕｓing ＣｏｎｓｅｎｓｕｓＭｏｄｅｌｉｎｇ to Ａｎａｌｙze ＮｅａｒＩｎｆｒａｒｅｄＳｐｅｃｔｒｏｓｃｏｐｉｃＤａｔａｏｆ

ＡｇｒｉｃｕｌｔｕｒａｌＰｒｏｄｕｃｔｓ

ＺＨＡＮＧＭｉｎｇ－ｊｉｎ１,ＬＩＴｉｎｇ－ｊｕｎ２

（１．ＤｅｐａｒｔｍｅｎｔｏｆＣｈｅｍｉｓｔｒｙ, ＱｉｎｇｈａｉＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ, Ｘｉｎｉｎｇ８１０００８, Ｃｈｉｎａ；

２．ＴｈｅＡｎｉｍａｌＨｕｓｂａｎｄｒｙａｎｄＶｅｔｅｒｉｎａｒｙＲｅｓｅａｒｃｈＩｎｓｔｉｔｕｔｅｏｆＨａｉｂｅｉＳｔａｔｅ, Ｈａｉｂｅｉ８１０２００, Ｑｉｎｇｈａｉ, Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｂａｓｅｄｏｎｃｏｎｓｅｎｓｕｓｍｏｄｅｌｉｎｇｃｏｍｂｉｎｅｄｗｉｔｈｎｅａｒｉｎｆｒａｒｅｄｓｐｅｃｔｒａ（ＮＩＲＳ）, ｔｈｅｃｏｎｓｅｎｓｕｓｐａｒｔｉａｌｌｅａｓｔｓｑｕａｒｅｓ（ｃＰＬＳ）ｒｅｇｒｅｓｓｉｏｎｍｅｔｈｏｄｗａｓｅｓｔａｂｌｉｓｈｅｄ．ＡｓｅｒｉｅｓｏｆＰＬＳｒｅｇｒｅｓｓｉｏｎｍｏｄｅｌｓｗｅｒｅｂｕｉｌｔｏｎｔｒａｉｎｉｎｇｓｕｂｓｅｔｓｃｏｎｓｔｒｕｃｔｅｄｂｙｒａｎｄｏｍｓａｍｐｌｉｎｇｆｒｏｍｔｈｅｔｒａｉｎｉｎｇｓｅｔ. Tｈｅｍｏｄｅｌｓｗｉｔｈｈｉｇｈｐｅｒｆｏｒｍａｎｃｅｗｅｒｅｓｅｌｅｃｔｅｄａｓｍｅｍｂｅｒｍｏｄｅｌｓａｎｄｕｓｅｄｆｏｒｐｒｅｄｉｃｔｉｏｎ．ＴｈｅｃＰＬＳｗａｓｕｓｅｄｆｏｒｍｏｄｅｌｉｎｇｏｎＮＩＲＳｄａｔａｗｉｔｈｍｏｉｓｔｕｒｅ, ｓｔａｒｃｈ, ｐｒｏｔｅｉｎａｎｄｏｉｌｏｆｃｏｒｎｓａｍｐｌｅｓ． Tｈｅｍｅｔｈｏｄｗａｓｃｏｍｐａｒｅｄｗｉｔｈｔｈｅｓｉｎｇｌｅ－ｍｏｄｅｌＰＬＳｒｅｇｒｅｓｓｉｏｎ． Results showed that ｔｈｅｓｉｎｇｌｅ－ｍｏｄｅｌＰＬＳｒｅｇｒｅｓｓｉｏｎｏｂｔａｉｎｅｄ０．０２０７, ０．２６８６, ０．１２２０ａｎｄ０．０７０６ｏｆｍｅａｎｖａｌｕｅｓｏｆＲｏｏｔＭｅａｎＳｑｕａｒｅＥｒｒｏｒｏｆＰｒｅｄｉｃｔｉｏｎ（ＲＭＳＥＰ）ｏｎ５０ｒｅｐｅａｔｐｒｅｄｉｃｔｉｏｎｆｏｒｔｈｅｆｏｕｒｃｏｍｐｏｎｅｎｔｓｏｎｔｈｅｉｎｄｅｐｅｎｄｅｎｔｔｅｓｔｓｅｔ. TｈｅｓｔａｎｄａｒｄｄｅｖｉａｔｉｏｎｏｆｔｈｅＲＭＳＥＰｓｗｅｒｅ４．７５３０×１０－３, ０．０５４８, ０．０２３０ａｎｄ０．０１４９, ｒｅｓｐｅｃｔｉｖｅｌｙ. ｃＰＬＳｏｂｔａｉｎｅｄ０．０１６０, ０．１６７８, ０．１１６６ａｎｄ０．０４４１ｏｆｍｅａｎＲＭＳＥＰａｎｄ２．７３５０×１０－４, ０．００２５, ０．００３０ａｎｄ７．６８３０×１０－４ｏｆｃｏｒｒｅｓｐｏｎｄing ｓｔａｎｄａｒｄｄｅｖｉａｔｉｏｎｓ．Ｔｈｅｒｅｓｕｌｔｓ indicated ｔｈａｔｔｈｅｍｏｄｅｌｓｂｕｉｌｔｂｙｃＰＬＳｗｅｒｅｍｏｒｅｓｔｅａｄｙａｎｄｒｅｌｉａｂｌｅ. Tｈｅｐｒｅｄｉｃｔｉｏｎｒｅｓｕｌｔｓｗｅｒｅｍｏｒｅａｃｃｕｒａｔｅｔｈａｎ that of the ｓｉｎｇｌｅ－ｍｏｄｅｌＰＬＳｒｅｇｒｅｓｓｉｏｎ．

Ｋｅｙｗｏｒｄｓ：ａｇｒｉｃｕｌｔｕｒａｌｐｒｏｄｕｃｔｓ；ｃｏｎｓｅｎｓｕｓｍｏｄｅｌｉｎｇ；ｎｅａｒｉｎｆｒａｒｅｄｓｐｅｃｔｒｏｓｃｏｐｙ；ｑｕａｎｔｉｔａｔｉｖｅａｎａｌｙｓｉｓ

近红外光谱是指７８０～２５２６ｎｍ波长范围内的电磁波谱［１］,其信息主要是含氢基团（如Ｃ－Ｈ、Ｏ－Ｈ、Ｎ－Ｈ、Ｓ－Ｈ等）分子振动的倍频与合频吸收信息,由于含有丰富的物质结构信息,可用于分析绝大多数种类的化合物及其混合物的成分浓度或者品质参数.现代近红外光谱分析是通过建立校正模型从而实现对未知样本的定性或定量分析的,因而是一种间接分析技术.由于具有分析时间短、无需样品预处理、非破坏性、无污染以及成本低等特点,近红外光谱分析技术已成为一种快速的现代分析技术,广泛应用于农产品、食品领域的品质检测［２］.

由于近红外光谱谱峰较宽,实际样品中各种成分的吸收峰重叠严重,因而必须采用化学计量学方法对微弱化学信息进行提取和分析,以达到对复杂混合物进行定性或者定量分析的目的.近红外光谱分析中常用的多元校正技术包括线性回归和非线性回归,方法包括多元线性回归,主成分回归,偏最小二乘回归以及支持向量回归等［３,４］.然而传统的多元校正技术一般采用单一模型,即采用一定的训练集建立一个最优模型然后用于测定.此类方法对数据噪声和样本量都比较敏感,在分析复杂化学测量数据时,当训练集样本数目有限或存在较大误差时模型的预测精度与稳定性往往达不到满意的效果.

多模型共识方法［５－９］是相对于传统的单模型方法提出的.其基本思路是采用随机或组合的方式利用同一训练集中的不同子集建立的多个模型同时进行预测,将多个预测结果通过一定的规则,例如简单平均或加权平均,形成一个共识的最终结果.多模型共识的突出特点是通过多次使用训练集中不同子集样本的信息,降低预测结果对某一样本的依赖性.

本研究基于多模型共识的基本思路,采用随机抽样技术选择训练子集,建立一系列的偏最小二乘回归模型（ＰＬＳ）,并从中选择部分预测性能较好的模型作为成员模型,用这些成员模型的预测均值来预测未知样品中待分析组分的浓度.将该方法称为多模型共识偏最小二乘回归方法（ｃＰＬＳ）,用于玉米样品中湿度、蛋白质以及油分含量之间的建模研究,并讨论了建模参数对预测结果的影响,对单模型与多模型共识的结果进行了比较.

１方法

１．１ｃＰＬＳ方法原理及主要步骤

１．１．１确定ＰＬＳ建模采用的最佳隐变量数利用训练集建立ＰＬＳ回归模型并以检验集进行预测,根据不同的隐变量数时所得的预测误差均方根,选择最佳隐变量数.

１．１．２确定ｃＰＬＳ中的成员模型的接受标准、模型总数等相关参数在ｃＰＬＳ方法中,并非所有训练子集所建的模型都可以参与预测,其中有部分模型可能受个别样本的影响较大,因此要设定成员模型的接受标准,达到此标准的模型才能成为ｃＰＬＳ的成员模型.本方法利用训练集建立ＰＬＳ回归模型并以检验集进行预测,并根据预测结果与真值之间的平均相对误差为依据,确定成员模型的接受标准.此外,多次预测结果的稳定性会受模型总数的影响,以不同训练子集（随机取自训练集）多次建模预测同一检验集,当预测误差均方根趋于稳定时的模型数即合适的模型总数.

１．１．３预测据以上参数,用ｃＰＬＳ中所有成员模型共同预测未知样品,各成员模型分别预测后结果取均值即为最终预测结果.

本试验所涉及的计算在Ｍａｔｌａｂ７．０上自编程序完成.

１．２试验数据

该数据集包含８０个玉米样本的近红外光谱数据.光谱通过３种不同的近红外光谱仪测得,每条光谱包含１１００～２４９８ｎｍ范围内共７００个波长通道下的响应数据,光谱分辨率为２ｎｍ.本试验采用ｍ５仪器测定的近红外光谱数据,８０个玉米样本的原始光谱如图１所示.同时,数据集包含所有玉米样本的湿度、油分、蛋白质以及淀粉的含量.该数据集可以从网站（ｈｔｔｐ：／／ｗｗｗ．ｅｉｇｅｎｖｅｃｔｏｒ．ｃｏｍ／ｄａｔａ／ｉｎｄｅｘ．ｈｔｍ）免费下载.随机选取数据集样本总数的８０％（即６４例）作为训练集,其余２０％的样本（１６例）作为独立测试集,用于模型性能评价；并随机抽取训练集中８０％的样本作为训练子集用于建模,其余样本作为检验集用于模型参数优化.

２结果与讨论

２．１对玉米湿度的分析

２．１．１隐变量数的确定ＰＬＳ建模过程中首先要解决的是隐变量数的选择问题.在训练子集上采用ＰＬＳ算法进行建模,然后对检验集进行预测,图２为隐变量数取１～２０时的校正集误差均方根及预测集预测误差均方根.由图２可见,当所采用的ＰＬＳ隐变量数变化时,所建模型精度也会发生变化.开始时,误差均方根均较大且不稳定；随着隐变量数的增大,误差均方根逐渐减小；当隐变量数大于１０时,误差均方根基本趋于稳定.考虑模型精度及计算效率两个方面,选择隐变量数为１０进行下一步的计算.

２．１．２成员模型的接纳标准用单模型ＰＬＳ对检验集进行５０次重复预测时,平均相对误差的分布情况如图３所示,可见绝大多数情况下的平均相对误差为０．１２％～０．２２％,故在ｃＰＬＳ中分别采用０．１２％、０．１４％、０．１６％、０．１８％、０．２０％及０．２２％的平均相对误差作为接纳成员模型的判据,模型总数均为１００,对检验集进行预测,结果以不同平均相对误差为接纳标准时,随着相对误差的提高,预测误差均方根先下降,然后略有升高,其中平均相对误差０．２０％对应的预测误差均方根最低.故本研究采用０．２０％作为误差判据的阈值,即成员模型的接纳标准.

２．１．３模型总数的确定从ｃＰＬＳ的原理可以看出,多模型共识算法的优势在于每个成员模型给出不同的预测结果时,最后给出一个稳定可靠的结果；所以理论上成员模型数越多,ｃＰＬＳ的结果越可信,但模型数过多显然影响计算效率.因此,成员模型的总数是另一个重要参数,对预测结果的稳定性和准确性起着关键的作用.本研究选取模型数５０、１００、２００、５００进行考察,检验集预测误差均方根随模型数的变化可用图４的箱形图表示.箱形图是统计学、品质管理等领域常用的,用作显示一组数据分散情况资料的统计图.若预测误差均方根分布比较集中,则说明结果比较稳定.由图４可见,模型数为１００的结果比其余三者稍显集中,且异常样本数较少.综合考虑计算的效率及结果稳定性,后面的处理过程中成员模型数都取１００.

２．１．４ｃＰＬＳ对玉米湿度的预测结果由于ｃＰＬＳ的预测结果采用了多个模型的平均值,预测稳定性是ｃＰＬＳ算法的重要特点之一.根据上述确定的隐变量数、成员模型接纳标准及模型总数等条件,对独立测试集进行预测.为了考察预测结果的稳定性,重复进行５０次计算,结果如图５所示.为了进一步评价算法的稳定性及预测准确性,用单模型ＰＬＳ回归方法进行了比较.以ＰＬＳ在训练集上建模（隐变量数为１０）,对独立测试集进行预测,重复进行５０次计算,结果见图５.

在５０次重复运算的结果中,ｃＰＬＳ方法的预测误差均方根均值为０．０１６０,标准偏差为２．７３５ 0×１０－４；而ＰＬＳ对预测集预测的预测误差均方根均值为０．０２０７,标准偏差为４．７５３０×１０－３.可见ＰＬＳ算法５０次预测的预测误差均方根之间相差较大,表现出模型的稳定性较差；而ｃＰＬＳ算法５０次预测的预测误差均方根之间的波动很小,表现出非常好的模型稳定性,且其预测准确性也明显比单模型ＰＬＳ高.

２．２对玉米淀粉、蛋白质及油分含量的分析

用ｃＰＬＳ和单模型ＰＬＳ回归方法对样品中的淀粉、蛋白质及油分含量进行分析.对独立测试集重复５０次预测的结果如表１所示.很显然,ｃＰＬＳ的预测结果无论从准确性还是稳定性来讲,均优于ＰＬＳ.尽管两种方法对独立测试集中蛋白质含量预测的预测误差均方根均值相差不大,但ＰＬＳ进行多次预测的标准偏差较大,说明多次预测时波动较大,而ｃＰＬＳ则明显稳定得多.因此,ｃＰＬＳ预测的结果更加稳定可靠.

３结论

由于多个模型往往比相应的单模型能更有效地从数据的不同方面和不同层面抽取并表达自变量和因变量之间的复杂关系,因而该方法有望解决过拟合问题,提高模型的稳健性和预测精度.而且多模型共识方法在取样时,是多次随机从训练集中取样,这就克服了单模型方法单次取样可能带来的采样不合理问题.也就是说,ｃＰＬＳ与传统的单模型方法相比,所建立的模型更加稳健可靠,预测的准确性也明显提高.因此,ｃＰＬＳ在克服单模型方法由于样品复杂且校正集样品较少而不稳定的方面具有一定的实际意义.

参考文献：

［１］ＳＴＡＲＫＥ,ＬＵＣＨＴＥＲＫ,ＭＡＲＧＯＳＨＥＳＭ．Ｎｅａｒ－ｉｎｆｒａｒｅｄａｎａｌｙｓｉｓ（ＮＩＲＡ）：Ａｔｅｃｈｎｏｌｏｇｙｆｏｒｑｕａｎｔｉｔａｔｉｖｅａｎｄｑｕａｌｉｔａｔｉｖｅａｎａｌｙｓｉｓ［Ｊ］．ＡｐｐｌｉｅｄＳｐｅｃｔｒｏｓｃｏｐｙＲｅｖｉｅｗｓ,１９８６,２２（４）：３３５－３９９．

［２］孙通,徐惠荣,应义斌．近红外光谱分析技术在农产品／食品品质在线无损检测中的应用研究进展［Ｊ］．光谱学与光谱分析,２００９, ２９（１）：１２２－１２６．

［３］褚小立,许育鹏,陆婉珍．用于近红外光谱分析的化学计量学方法研究与应用进展［Ｊ］．分析化学,２００８,３６（５）：７０２－７０９．

［４］姚霞,田永超,倪军,等．水稻叶片色素含量近红外光谱估测模型研究［Ｊ］．分析化学,２０１２,４０（４）：５８９－５９５．

［５］李艳坤,邵学广,蔡文生．基于多模型共识的偏最小二乘法用于近红外光谱定量分析［Ｊ］．高等学校化学学报,２００７,２８（２）：２４６－２４９．

［６］ＬＩＹＫ, ＳＨＡＯＸＧ, ＣＡＩＷＳ．Ａｃｏｎｓｅｎｓｕｓｌｅａｓｔｓｑｕａｒｅｓｓｕｐｐｏｒｔｖｅｃｔｏｒｒｅｇｒｅｓｓｉｏｎ（ＬＳ－ＳＶＲ）ｆｏｒａｎａｌｙｓｉｓｏｆｎｅａｒ－ｉｎｆｒａｒｅｄｓｐｅｃｔｒａｏｆｐｌａｎｔｓａｍｐｌｅｓ［Ｊ］．Ｔａｌａｎｔａ,２００７,７２（１）：２１７－２２２．

［７］ＣＨＥＮＤ,ＣＡＩＷＳ,ＳＨＡＯＸＧ．Ａｓｔｒａｔｅｇｙｆｏｒｅｎｈａｎｃｉｎｇｔｈｅｒｅｌｉａｂｉｌｉｔｙｏｆｎｅａｒ－ｉｎｆｒａｒｅｄｓｐｅｃｔｒａｌａｎａｌｙｓｉｓ［Ｊ］．ＶｉｂｒａｔｉｏｎａｌＳｐｅｃｔｒｏｓｃｏｐｙ,２００８,４７（２）：１１３－１１８．

［８］ＳＨＡＨＢＡＺＩＫＨＡＨＰ, ＫＡＬＩＶＡＳＪＨ．Ａｃｏｎｓｅｎｓｕｓｍｏｄｅｌｉｎｇａｐｐｒｏａｃｈｔｏｕｐｄａｔｅａｓｐｅｃｔｒｏｓｃｏｐｉｃｃａｌｉｂｒａｔｉｏｎ［Ｊ］．ＣｈｅｍｏｍｅｔｒｉｃｓａｎｄＩｎｔｅｌｌｉｇｅｎｔＬａｂｏｒａｔｏｒｙＳｙｓｔｅｍｓ,２０１３,１２０（１）：１４２－１５３．