承 诺 书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。 赛区评阅编号(由赛区组委会评阅前进行编号):
2012高教社杯全国大学生数学建模竞赛
编 号 专 用 页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用): 评 阅 人 评 分 备 注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
葡萄酒的评价
摘要
随着人们生活水平的提高,越来越多的人热衷于葡萄酒,所以对葡萄酒的质量做出客观的评价非常重要。本文就从以下的四个方面探讨葡萄酒的质量问题。
针对问题一,首先利用求平均数的方法得出每一酒样品的综合评价,建立综合评价模型:
1101011010HkaijBKbij
10i1j110i1j1接着使用综合评价数据通过相关样本检验中的Wilcoxon符号秩检验法和边际齐性
检验法都得到两组品酒员的评分有显著性差异,比较综合评价数据方差的大小得到第二组品酒员的品分比较可信。本文还使用了通过分析每组品酒员对每个酒样品打分的方差波动情况,得到两个对比的方差波动图,依然可以得到两组品酒员的评分有显著性差异,第二组评酒员的评分更可信。
针对问题二,根据第二组评酒员对酒样品的评分,从而对第二组酒样品进行聚类分析得到葡萄酒的6个分类,相应地把葡萄分成6类。对葡萄的理化指标进行聚类分析得到口感等四个因子。然后再针对每个类中的葡萄的四个因子给出浓度范围并把浓度方位数值化,从而得到评价任意葡萄的评价标准。
针对问题三,使用了多元线性回归以及典型相关性模型两种方法验证了酿酒葡萄和葡萄酒的理化指标之间有较大的关系,且建立了七个多元线性回归模型,其一如下:
H总酚=1.6840.253h总酚0.008h花色苷.
针对问题四,通过相关性分析得到葡萄的芳香物质和葡萄酒的芳香物质具有显著相关性。接着建立葡萄酒的质量和葡萄的理化指标、葡萄芳香物质之间的多元线性回归模型,模型如下:
Y葡萄的质量=72.477+0.386P葡萄总黄酮-0.335P苹果酸+0.265P固酸比1.307P.115P多酚氧化酶活力14.532P果内质量果皮颜色
【关键字】相关样本检验;聚类分析;多元线性回归;典型相关分析
1
一、问题重述
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:
1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信? 2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。 3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
二、问题分析
对于问题一,要求对两组品酒员的评价结果进行显著性差异分析,并比较可信度。我们考虑两种方法进行比较。
方法一,Wilcoxon符号秩检验法和边际齐性检验法。由于非参数检验方法不涉及有关总体分布的函数,且假设比参数检验方法少得多,因此我们选择非参数检验进行显著性差异分析。由于两组品酒员的评分是两个相关的样本。因此最终选用Wilcoxon符号秩检验法和边际齐性检验法。分别对红酒和白酒的评价结果进行显著性差异分析并计算两组评酒员对葡萄酒样品的评分的方差。
方法二,为了确定两组评酒员的评价结果哪一组更可信,考虑用方差的波动情况来进行分析。两组评酒员评分的方差波动情况可以反映两组品酒员评分的稳定程度,方差越小,则评价结果越可信。
对于问题二,根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级。首先考虑用聚类分析法得到酿酒葡萄的分级,接着用变量聚类分析法对葡萄理化性指标进行分类,然后用感官指标来描述分类的理化指标。筛选出最影响感官指标的理化指标,并把这些理化指标划分区间,给每一个感官指标赋一个分数,得到了一个酿酒葡萄分级表,具体过程见流程图
用样品点聚类分析法将第二组红葡萄酒分为六类将酿酒葡萄分为六个级别用变量聚类法对葡萄的理化性指标分类查阅资料把分类的理化指标用感官指标来描述筛选出影响感官指标的几个理化指标得出酿酒葡萄的分级标准表给每一个感官指标赋一个值对筛选出的理化指标划分等级区间 对于问题三,分析酿酒葡萄与葡萄酒的理化指标之间的联系。 方法一:分析酿酒葡萄与葡萄酒的理化指标之间的联系,考虑用多元线性回归模型。在筛选变量的时候,选择逐步回归法。通过spss软件算得回归系数,并得到回归模型。
方法二:由于酿酒葡萄与葡萄酒的理化指标之间有着,用典型相关模型解决的是两组变量之间的相关关系的多元统计模型。
2
对于问题四,葡萄酒的每一个理化指标只与葡萄的几个少量的理化性指标有联系,不能包括所有的理化性指标,因此用葡萄酒的理化性指标来评价葡萄的质量是不够全面的。考虑到芳香物质对葡萄酒的影响,通过spss软件对葡萄芳香物质和葡萄酒的芳香物质的相关性进行分析。接着建立葡萄酒的质量和葡萄的理化指标、葡萄芳香物质之间的多元线性回归模型。
三、模型假设
1、评酒员对每一个葡萄酒样品的评分是相互独立的。
2、评酒员对葡萄酒的每一个分类指标的评分是相互独立的。 3、葡萄酒的质量只与葡萄有关 4、好的葡萄一定能酿出好酒。
四、符号说明
aij: 第i位评酒员对红葡萄酒的第j个分类指标的评分
bij: 第i位评酒员对白葡萄酒的第j个分类指标的评分
Hk(1): 第一组品酒员对红葡萄酒样品k的综合评价 HK(2): 第二组品酒员对红葡萄酒样品k的综合评价 BK(1): 第一组品酒员对白葡萄酒样品k的综合评价 BK(2): 第二组品酒员对白葡萄酒样品k的综合评价 xi: 酿酒葡萄样品的第i项理化指标 yj: 葡萄酒样品的第j项理化指标
五、模型的建立与求解
5.1显著性差异分析及可信度比较 5.1.1非参数检验的模型
在红葡萄酒品尝评分中,考虑两组品酒员对每一个酒样品的一个总体评价。由此,引入综合评价,表示每一组品酒员对每一个酒样品的总体评价。首先,求出每一位评酒员对酒样品k的评价,再对10位评酒员的评价求平均值,将求得的值作为这一组品酒员对酒样品k的综合评价。由此,建立综合评价模型:
1101011010Hkaij,BKbij
10i1j110i1j1用Hk(1),H(分别表示第一、二组品酒员对红葡萄酒样品K的综合评价,用k2)B((分别表示第一、二组品酒员对白葡萄酒样品K的综合评价。由所建立的k1),Bk2) 3
综合评价模型算出Hk(1),H(k2),Bk(1),Bk(2)的值。计算的部分结果如表一,表中数据为两组品酒员组对前12个红酒样品的评价。 酒样品 H(k1) 1 2 3 4 5 6 7 8 9 10 11 12 62.7 80.3 80.4 68.6 73.3 72.2 71.5 72.3 81.5 74.2 70.1 53.9 H(k2) 68.1 74 74.6 71.2 72.1 66.3 65.3 66 78.2 68.8 61.6 68.3 表一 品酒员对红酒样品的评价 分析两组评酒员的评价结果有无显著性差异,要对两组数据进行分析检验。数据的检验有参数检验和非参数检验。参数检验是对参数平均值、方差进行的统计检验。说明被检参数之间在统计上没有显著性差异,是同一总体的参数估计值。非参数检验是在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数,它的假设前提也比参数检验要少得多,因此在解决这一问题时选择非参数检验。
第一组对酒样品的评价是第一个总体,第二组对酒样品的评价是第二个总体。由于这两种方法都是对相同编号的酒样品进行测量,所以测量出来的样品数据自然配成对。如(62.7,68.1)就是第一对数据。每对数据均是同一编号的样品酒的,只是由不同的组别进行测量。这说明这两个数据间有联系,不是完全独立的,是两个相关的样本。因此我们对两组评酒员的评价结果进行显著性分析时,考虑用Wilcoxon符号秩检验法和边际齐性检验法。
5.1.1.1 Wilcoxon符号秩检验法
Wilcoxon符号秩检验法是由威尔科克森(F·Wilcoxon)于1945年提出的。该方法是在成对观测数据的符号检验基础上发展起来的,比传统的单独用正负号的检验更加有效。它适用于T检验中的成对比较,但并不要求成对数据之差Di服从正态分布,只要求对称分布即可。检验成对观测数据之差是否来自均值为0的总体(产生数据的总体是否具有相同的均值)。
步骤如下:
第一步:对成对观测数据(x1,y1),(x2,y2),...,(xn,yn),计算Dixiyi,i1,2,...n。按差Di的绝对值Di的大小排列(从小到大),排序中的序号称为相应差值Di的秩。
第二步:令T=所有正差Di相应的秩的总和,T=所有负差秩和。构造统计量
Tmin(T,T)
第三步,作出判断。如果H0成立,则xiyi和xiyi几乎是等可能的,从而TT,
4
n,或者说T的值不会太小。反之,如果T的值偏小,则说明H0不成立。2当样本数n较大时,为了方便计算T的分布的概率,将这转化为
T Z所以统计量T其中
n(n1)n(n1)(2n1) 424此时Z近似服从正太分布。
用spss软件用Wilcoxon符号秩检验法检验两组品酒员对红酒评价结果有无显著性差异,求得结果如图一。
图一
第一个表“Ranks”分别给出了观测数据,两组品酒员的评价结果配对后的各种秩的Case、平均秩、秩和。第二个表“Test Statistic”分别给出了Wilcoxon Signed Rank Test基于负秩计算的Z=-2.5474。概率值为Sig.=0.011<0.05,因此,可以认定两组品酒员对红酒的评价结果有显著性差异。
同理,用spss软件用Wilcoxon符号秩检验法检验两组品酒员对白酒评价结果有无显著性差异,求得结果如图二。
5
图二
图二第一个表“Ranks”分别给出了观测数据,两组品酒员的评价结果配对后的各种秩的Case、平均秩、秩和。第二个表“Test Statistic”分别给出了Wilcoxon Signed Rank Test基于负秩计算的Z=-2.5474。概率值为Sig.=0.011<0.05,因此,可以认定两组品酒员对白酒的评价结果有显著性差异。
5.1.1.2边际齐性检验(Marginal homogeneity)
边际齐性检验(Marginal homogeneity)是针对两个相关的有序离散变量而言的。它实际上是MoNemar检验方法到多项变量分布的推广。它是使用2分布来进行判断,特别适用于设计前后的对照研究,边际齐性检验适应于有序的多值离散变量。
运用边际齐性检验,通过spss软件检验两组品酒员对红酒的评价结果进行显著性差异分析。
图三
由图三可得,概率值sig.=0.023<0.05。因此,可以认定两组品酒员对红酒的评价结果有显著性差异。
6
同理,运用边际齐性检验,通过spss软件检验两组品酒员对白酒的评价结果进行显著性差异分析。
图四
由图四可得,概率值sig.=0.017<0.05。因此,可以认定两组品酒员对白酒的评价结果有显著性差异。
5.1.1.3两组评酒员评分可信度比较
为了比较两组评酒员评分的可信度,分别计算两组评酒员对红葡萄酒样品的评分的方差(见图五),以及两组评酒员对白葡萄酒样品的评分的方差。(见图六)
图五
由图五看出,第一组品酒员对红葡萄样品的评分的方差为54.183,第二组品酒员对红葡萄酒的评分的方差为15.824,第二组的评分方差更小,因此可以认定第二组品酒员对红葡萄酒的评分可信度更高。
图六
由图六看出,第一组品酒员对白葡萄酒样品的评分的方差为23.079,第二组品酒员对白葡萄酒的评分的方差为10.055,第二组的评分方差更小,因此可以认定第二组品酒员对白葡萄酒的评分可信度更高。
综合品酒员对红葡萄酒和白葡萄酒的评分的方差,得出第二组的评分方差比第一组小。因此第二组的评价结果更可信。
7
5.1.2方差波动模型
为了确定两组评酒员的评价结果哪一组更可信,考虑用方差的波动情况来进行分析。两组评酒员评分的方差波动情况可以反映两组品酒员评分的稳定程度,方差越小,则评价结果越可信。以第一组红葡萄酒品尝评分表为例,表中有27个酒样品,每一个酒样品都有10位品酒员对酒样品的10个分类指标进行评分,也就是说每一个酒样品都对应100个分数。算出每一个酒样品评分的方差,则从第一组红葡萄品尝评分表中可以得到27个方差。同样,可以计算出另外三个评分表中的27个方差数据。表二列出的是两组品酒员对前12个红葡萄酒样品的评分方差。(其余数据在附录中给出) 2 3 4 5 6 7 8 9 10 11 12 酒样品序号 1 第一组方差 12.20.18.14.14.14.14.15.18.14.14.12.5021 2112 16.4444 2408 15.6044 5055 14.3289 3243 14.1878 0925 12.5183 654 2496 14.1506 12.0606 1086 16.0481 4481 12.6521 0908 11.1459 4019 14.5466 第二组方差 12.1555 表二
结合算出的方差数据,利用EXCEL软件作出两组品酒员对前12个红葡萄酒样品的评分方差波动,如图七。
红葡萄酒之间的方差关系2520方差值15105013579111315酒样品171921232527第一组第二组
图七
从图七中可以看出蓝色线(第一组)方差比红色线(第二组)方差波动大。因此在红葡萄酒样品评分中,第二组品酒员的评分结果更可信。
结合算出的方差数据,利用EXCEL软件作出两组品酒员对前12个红葡萄酒样品的评分方差波动,如图八。
8
白葡萄酒之间方差关系2520方差值1510501357911131517酒样品1921232527第一组第二组
图八
从图八很难看出蓝色线(第一组)方差和红色线(第二组)方差波动哪个更大,因此我们无法从图六分析在白葡萄酒样品评分中,哪个组品酒员评分方差波动更大。
综合红葡萄酒样品评分的方差波动和白葡萄酒的评分方差波动,认为第二组品酒员的评价结果更可信。 5.2酿酒葡萄的分级
5.2.1用聚类分析法对酿酒葡萄分类 5.2.1.1原理
聚类的基本方法,把每个样品xi(xi1,xi2,...,xip)看作是p维空间中的一个点,n个样品共有n个点。聚类的基本思想是距离较近的点聚合为一类,距离较远的点为不同类。因此,样品系统聚类的基本方法是:
(1)首先将n个样本点各看作一类,此时共有n类。
(2)计算与类之间的距离,并将类间距离最短的两类合并作为一个新类
(3)重新计算类与类之间的距离,并将类间距离最短的两类合并为一个新的类。如此不断反复,直到剩下最后一类。 5.2.1.2结果
要想对酿酒葡萄进行分类,首先对葡萄酒进行分类。由问题一,第二组品酒员对红葡萄酒的评价结果可信度最高。因此用聚类分析法把27个红葡萄酒样本进行分类。查阅相关参考文献,我们将红葡萄酒分为六个级别。得到的数据如下表 红葡萄酒级酒样品号 酒的平均分 别 一级 9、23 77.65 二级 2、3、17、20 74.73 三级 4、5、14、19、21、22、24、26、27 71.92 四级 1、10、12、13、16、25 68.68 五级 7、8、6、15、18 65.74 六级 11 61.60 表三 通过聚类分析法把27个酒样品分为了六个级别,一级表示红葡萄酒质量最好,六
9
级表示红葡萄酒质量最差。同时在表格上给出了每一个等级的葡萄酒的平均分。由附录二数据每一个葡萄酒样品都一一对应一个葡萄样品。因此,葡萄样品也可以分成六个级别。
5.2.2用聚类法对葡萄理化性指标分类
把酿酒葡萄的理化性指标用变量系统聚类法进行分类。变量系统聚类法思想与样品系统聚类几乎一致,所不同的是两点间的距离改用两点间的相似程度。
图十
图十是变量聚类过程的树形图。它是从左至右读的,垂直线表示组合的类。每根横线的左端与之联系的各样品就是分到该类的成员。
查阅文献,得到酿酒葡萄的理化性指标影响了哪些感官指标。最后得出葡萄的感官指标有口感、香气、外观、保鲜度。表四中列出了分别影响香气、外观、口感、保鲜度感官的理化指标。表五列出的是影响感官指标的五个主要理化指标。
10
指标名称 感官指标 香气 果皮颜色a、果皮颜色b、白藜芦醇 外观 口感 果皮颜色L、果皮质量、百粒质量、果穗质量、VC含量 果梗比、黄酮醇、柠檬酸、酒石酸、多酚氧化酶活力、苹果酸、褐变度、花色苷鲜重、可滴定酸、还原糖、干物质含量、可溶性固形物、总糖、氨基酸 出汁率、单宁、葡萄总黄酮、总酚、DPPH自由基、固酸比、PH值、蛋白质 表四 保鲜度
表五
5.2.3酿酒葡萄分级标准表
由表三可知红葡萄酒样品9和红葡萄酒样品23被分为一级,则相应的葡萄样品9和葡萄样品23被分为一级。现在,以一级葡萄为例,求酿酒葡萄分级标准表。在附件二中得到白藜芦醇、果皮颜色L、黄酮醇、单宁四个理化指标值的区间范围,将每一个理化指标分为6个等级,即将每一个理化指标的区间分为六段,并给每一个区间赋一个分数值,具体结果如下表六至表十二所示
一级葡萄的香气 感官指标 指标名称 白藜芦醇 含量范围 赋分值 外观 果皮颜色L 口感 黄酮醇 保鲜度 单宁 感官指标 香气 外观 口感 保鲜度 指标名称 白藜芦醇 果皮颜色L 黄酮醇 单宁 [6.53,17.16) [25.16,25.30) [42.46,56.56) [20.47,25.13] 6 6 表六
6 6
11
二级葡萄的香气 感官指标 指标名称 白藜芦醇 含量范围 赋分值
表七
三级葡萄的香气 感官指标 指标名称 白藜芦醇 含量范围 赋分值 表八
四级葡萄的香气 感官指标 指标名称 白藜芦醇 含量范围 赋分值 表九
五级葡萄的香气 感官指标 指标名称 白藜芦醇 含量范围 赋分值
外观 果皮颜色L 口感 黄酮醇 保鲜度 单宁 外观 果皮颜色L 口感 黄酮醇 保鲜度 单宁 外观 果皮颜色L 口感 黄酮醇 保鲜度 单宁 外观 果皮颜色L 口感 黄酮醇 保鲜度 单宁 [2.43,3.32) [25.70,26.21) [56.56,66.38] [15.73,20.47) 5 5 5 5 [3.32,4.62) [26.49,27.30) [31.87,42.76) [8.10,12.09) 4 4 4 4 [4.62,6.53) [26.21,26.48) [19.24,23.47) [12.09,13.67) 3 3 3 3 [1.33,2.43) [25.3,25.69) [27.73,31.87) [13.67,15.73) 2 2 表十 2 2 12
六级葡萄的香气 感官指标 指标名称 白藜芦醇 含量范围 赋分值 外观 果皮颜色L 口感 黄酮醇 保鲜度 单宁 [17.16,36.54] [,27.29,28.77] 1 1 表十一 [23.47,27.73) [0.99,8.10) 1 1
5.3葡萄与葡萄酒的理化指标之间的关系 5.3.1多元线性回归模型
要分析酿酒葡萄与葡萄酒的理化指标之间的联系,考虑用多元线性回归模型。多元线性回归模型的原理是根据最小二乘法选择b0,b1,...bm使
Q(b0,b1,...bm)(yib0b1xi1b2xi2...bmxim)2
i1n达到最小值。由微积分知识,对Q分别关于bi(i1,2,3...,m)求偏导并使其为0,经整理后得到
L11b1L12b2...L1mbmL10...... LbLb...LbLm22mmmm0m11和 b0yb1x1...bmxm 其中 Lij(xkixi)(xkjxj)(ij1,2,...,m)
k1nnLi0(xkixi)(yiy)(i1,2,...,m)
k1在筛选变量的时候,选择逐步回归法。逐步回归分析法的基本思想是:首先将作用
最显著的变量引进模型,在此基础上引进对模型作用最显著的第二个变量,引进变量后立即对原来引进的变量进行显著性检验,及时剔除不显著的变量,然后再考虑引进新变量,依次下去,直至既不能再引进变量又不能从模型中剔除变量为止。 5.3.2葡萄酒理化指标对葡萄理化指标建立多元线性回归模型
为了得到红葡萄酒中的第一个理化指标花色苷受到多少个红葡萄理化指标的影响,用spss软件分析得下图
13
图十一
图十一表明:建立第二个模型的相关系数0.923比第一个模型的相关系数0.940有提高。所以第二个模型比第一个要好。
所以再根据回归系数及其检验(如图)得到线性回归方程
图十二
H花色苷=438.407+2.656h花色苷6.762h出汁率(其中
H文字
表示红葡萄酒中的理化指标,
h文字表示红葡萄中的理化指标)(下同)
从中可以看出第二次引进变量后,回归系数总体上有显著的提高。得到了一个关于葡萄
酒中的花色苷与葡萄中的花色苷和出汁率的一个回归线性方程。
为了得到红葡萄酒中的第三个理化指标花色苷受到多少个红葡萄理化指标的影响,用spss软件分析得下图
图十三
此表表明了再加花色苷的分析时对葡萄酒中的总酚含量的回归方程更精确。因为相关系数有提高。
14
所以再根据回归系数及其检验(如图)得到方程
图十四
H总酚=1.6840.253h总酚0.008h花色苷
得到了葡萄酒中的总酚与葡萄中的总酚和花色苷的一个线性回归方程。
下面同理可得到红葡萄酒其余五个理化指标的线性回归模型:(图表见附录3)
H单宁=12.5160.06h可溶性17.335hDPPH0.059h多酚0.03X褐变度0h氨基酸H酒总黄铜=0.9500.398h总酚
H白蔾芦醇=38.0030.343h葡萄酮0.071h蛋白质0.77h苹果酸0.031h花色苷0.313h酒石酸0.150h白醇HDPPH抑制体积=-0.024+0.017h总酚
H色泽=62.77h花色苷1.567h果皮颜色同红葡萄与红葡萄酒的理化指标联系一样,下面给出白葡萄与白葡萄酒之间的线性回归方程分析:
白葡萄酒中的单宁与白葡萄中理化指标的联系:
图十五
此表表示;引入第二变量后第二模型的相关系数R=0.694比第一模型的相关系数R=0.574有明显的提高。
所以可以根据下表4,建立回归线性方程
15
图十六
B单宁=0.110.242b单宁4.705b果皮质量
得到了白葡萄酒中单宁的含量与白葡萄中单宁与果皮质量的含量的一个线性回归方程。 (其中
B文字表示红葡萄酒中的理化指标,
b文字表示红葡萄中的理化指标)
下面同理可得到红葡萄酒其余4个理化指标的线性回归模型:(图表见附录4)
B总酚=2.5040.173b葡萄总黄酮0.016b可溶性固性物
B酒总黄酮=2.928+0.359b总酚0.061b固酸比2.939bPH值0.007b蛋白质0.0b氨基酸BDPP半抑制体积=0.1310.006b葡萄总黄酮0.0b还原糖B色泽=35.6390.027b出汁率0.050b干物质含量
5.3.3建立典型相关模型
问题三是分析酿酒葡萄与葡萄酒的理化指标之间的联系。典型相关模型解决的是两组变量之间的相关关系的多元统计模型。其基本思想是:首先在每组变量中找出变量的线性组合,使其具有最大相关性;再在每组变量中找出第二对线性组合,使其与第一对线性组合不相关,而第二对本身具有最大相关性;继续下去,直到两组变量之间的相关性被提取完毕为止,数学表达如下:
假设有两组随机变量X(X1,...,Xp)'和Y(Y1,...,Yq)',新的综合代表变量U与V由下面的表达式给出:
Ua'Xa1X1...apXp,Vb'Xb1Y1...bqYq
其中系数a(a1,...,ap)',b(b1,...,bq)'为非零常数向量。令
XXXYXZ,其协方差为Y存在且可逆,则有 YYYXVar(U)a'XXa,Var(V)b'YYb,Cov(U,V)a'XYb
16
UVa'XYb(a'XXabYYb)'
用spss软件的典型相关模型分析酿红酒葡萄与红葡萄酒的理化指标之间的联系,输出的整体检验结果如下
所有检验的显著性概率都为0,所以两组数据相关。 就是有着紧密的联系
利用典型相关模型同样可以解决酿白酒葡萄与白葡萄酒的理化指标两组之间的联系。
5.4分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响
由第三问,葡萄酒的每一个理化指标yi(i1,2,...,7)只与葡萄的几个少量的理化性指标有联系,不能包括所有的理化性指标,因此用葡萄酒的理化性指标来评价葡萄的质量是不够全面的。
利用附件三中的数据,对红葡萄、红葡萄酒芳香物进行相关系数分析。
17
图十七
图十八
通过spss软件对随机抽取的样品号相同的葡萄酒和酿酒葡萄的相同部分的芳香物质进行相关性分析,得出相同部分的芳香物质具有相关性,则酿酒葡萄的芳香物质在一定程度上影响着葡萄酒的质量。
把红葡萄的芳香物质求和,得到每一组红葡萄芳香物质的和。红葡萄酒样品与红葡萄样品的30个理化指标以及芳香物质的和进行回归分析。同理,对白葡萄酒也用同样的方法进行相关性分析,并把白葡萄酒样品与白葡萄的理化指标及芳香物质进行回归分析。
18
图十九
图二十
19
通过线性回归分析影响葡萄质量的主要有葡萄总黄酮,苹果酸,固酸比,果皮颜色,多酚氧化酶活力以及果皮质量,并且在比较他们的相关系数后以及对回归系数及其检验得到一个线性回归方程 :
Y葡萄的质量=72.477+0.386P葡萄总黄酮-0.335P苹果酸+0.265P固酸比1.307P.115P多酚氧化酶活力14.532P果内质量果皮颜色
这表示了酿酒葡萄和葡萄酒的理化指标能对葡萄酒质量产生一定的影响,但是不能
用来衡量葡萄质量的标准,因为影响葡萄酒质量的好坏中一定包含了有对单宁、醇类等有着关键性的物质组成部分,而在剔除变量情况的分析表中可以看到对这个线性回归模型而言对单宁、醇类、糖类等一些主要的物质均是作为一类不主要的变量,在剔除变量情况的分析表表中均可中找到它们的显著性概率sig大于的0.05.这不符合实际。所以葡萄酒和葡萄的理化指标是不能用来评价葡萄酒的质量的。
六、模型的优缺点
在对问题一进行显著性差异分析时,用了非参数检验法,这一方法的优点是不涉及有关总体分布的参数,它的假设前提也比参数检验要少得多。第一个问题用了相关性分析法和方差波动模型这两种方法对两组评酒员的评分进行分析,结果更加真实可靠。在问题三分析葡萄与葡萄酒的理化性指标时,运用了多元线性回归模型和典型相关模型两种方法。
七、参考文献
[1]姜启源 谢金星,数学模型[M],北京:高等教育出版社,2011.1
[2]韩中庚,数学建模方法及其应用[M],重庆:高等教育出版设,2009.6 [3]白血病临床治疗优秀数模论文[EB/OL].[2012-9-7]
http://wenku.baidu.com/view/953cc71f59eef8c75fbfb366.html
[4]杨善朝 张军舰,spss统计软件应用基础[M],桂林:广西师范大学出版社,2010.3 [5]王金甲.尹涛等.基于物理化学性质的葡萄酒质量的可视化评价研究[J]. 燕山大学学报,2010,34(2):
[6] 葡萄酒新国标理化指标要求[EB/OL].[2012-9-8].
http://wenku.baidu.com/view/0af4ec86ec3a87c24028c4f8.html
20
附录:
问题一,分别为对红、白葡萄酒显著性检验的结果图。
21
问题二,对酒样品的聚类分析图表。 Case Processing Summary(a) Cases Valid Missing Total N Percent N Percent N Percent 27 100.0% 0 .0% 27 100.0% a Euclidean Distance used
Single Linkage Agglomeration Schedule
22
Cluster Combined Cluster Cluster Coeffici1 2 ents 24 27 .000 14 19 .000 10 13 .000 3 17 .025 22 24 .025 5 26 .025 12 25 .025 7 18 .025 1 12 .025 5 21 .025 4 22 .075 8 15 .075 6 8 .075 6 7 .075 5 14 .101 4 5 .101 1 10 .126 2 3 .126 9 23 .277 1 16 .277 2 20 .302 2 9 .327 1 4 .327 1 2 .352 1 6 .452 1 11 .930 Stage Cluster First Appears Cluster Cluster 1 2 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 7 6 0 0 5 0 0 0 12 13 8 10 2 11 15 9 3 0 4 0 0 17 0 18 0 21 19 20 16 23 22 24 14 25 0 StagNext e Stage 1 5 2 15 3 17 4 18 5 11 6 10 7 9 8 14 9 17 10 15 11 16 12 13 13 14 14 25 15 16 16 23 17 20 18 21 19 22 20 23 21 22 22 24 23 24 24 25 25 26 26 0 对葡萄各指标的聚类图表。 Proximities Case Processing Summary(a) Cases Valid Missing Total N Percent N Percent N Percent 27 90.0% 3 10.0% 30 100.0% a Correlation between Vectors of Values used
23
Complete Linkage Agglomeration Schedule
Stage Cluster First Appears Cluster Cluster 1 2 0 0 0 0 0 0 0 1 2 0 0 0 0 0 4 0 0 0 7 0 0 6 0 3 0 5 0 0 0 0 8 0 13 0 15 0 10 0 17 0 11 0 14 9 18 16 0 21 19 22 20 25 24 12 23 27 26 28 Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
问题三,回归分析结果。
Cluster Combined Cluster Cluster Coeffici1 2 ents 11 13 .895 16 18 .865 29 30 .865 10 11 .836 16 22 .817 24 27 .701 4 9 .696 10 12 .645 15 25 .633 4 6 .633 23 24 .602 14 29 .573 1 16 .553 5 7 .515 2 19 .494 10 26 .456 1 17 .436 2 21 .372 4 8 .329 1 20 .204 23 28 .190 5 15 .139 2 10 .043 3 23 .015 4 5 -.128 1 4 -.287 3 14 -.379 2 3 -.477 1 2 -.694 Next Stage 4 5 12 8 13 11 10 16 22 19 21 27 17 22 18 23 20 23 25 26 24 25 28 27 26 29 28 29 0 24
Regression
Variables Entered/Removed(a)
Adjusted R Model 1 2 R .923(a) .940(b) R Square .851 .884 Square .845 .875 Std. Error of the Estimate 90.4790940 81.3889868 Model Summary
a Predictors: (Constant), »¨É«ÜÕ b Predictors: (Constant), »¨É«ÜÕ, ³öÖ-ÂÊ
Sum of Model 1 Regression Residual Total 2 Regression Residual Total Squares 1171156.153 204661.661 1375817.814 1216837.802 158980.012 1375817.814 a Predictors: (Constant), »¨É«ÜÕ b Predictors: (Constant), »¨É«ÜÕ, ³öÖ-ÂÊ c Dependent Variable: »¨É«ÜÕy a Dependent Variable: µ¥Äþy
Adjusted R Model 1 2
R .817(a) .876(b) R Square .668 .767 Square .655 .748 Std. Error of the Estimate 1.7069678 1.4577624 25
Model Summary
1 25 26 2 24 26 df Mean Square 143.060 91.848 F .000(a) .000(b) Sig. ANOVA(c)
1171156.153 8186.466 608418.901 6624.167
3 4 5 6 7 8 9 10 11 Model 1 2 3 4 5 6 7 8 9 10 Regression Residual Total Regression Residual Total Regression Residual Total Regression Residual Total Regression Residual Total Regression Residual Total Regression Residual Total Regression Residual Total Regression Residual Total Regression Sum of Squares 146.485 72.843 219.328 168.327 51.002 219.328 179.928 39.401 219.328 188.031 31.298 219.328 185.822 33.506 219.328 192.503 26.825 219.328 199.434 19.894 219.328 203.536 15.792 219.328 202.139 17.189 219.328 206.151 1 25 26 2 24 26 3 23 26 4 22 26 3 23 26 4 22 26 5 21 26 6 20 26 5 21 26 6 df Mean Square 146.485 2.914 84.163 2.125 59.976 1.713 47.008 1.423 61.941 1.457 48.126 1.219 39.887 .947 33.923 .790 40.428 .819 34.358 50.274 39.605 35.011 33.043 42.519 39.469 42.104 42.962 49.390 52.147 F Sig. .000(a) .000(b) .000(c) .000(d) .000(e) .000(f) .000(g) .000(h) .000(i) .000(j) ANOVA(l)
.906(c) .926(d) .920(e) .937(f) .954(g) .963(h) .960(i) .969(j) .969(k) .820 .857 .847 .878 .909 .928 .922 .940 .939 .797 .831 .827 .855 .888 .906 .903 .922 .925 1.3088464 1.1927387 1.2069699 1.1042318 .9733172 .8885966 .9047357 .8117117 .7957705 26
11
问题四,相关性分析结果。
Residual Total Regression Residual Total 13.178 219.328 206.030 13.298 219.328 20 26 5 21 26 .659 41.206 .633 65.071 .000(k) Correlations
ºìÆÏÌÑÑùÆ·1 Pearson Correlation Sig. (2-tailed) N Sig. (2-tailed) N ºìÆÏÌÑÑùÆ·1 1 6 .820(*) .046 6 ºìÆÏÌѾÆÑùÆ·1 .820(*) .046 6 1 6 Correlations
ºìÆÏÌѾÆÑùÆ·1 Pearson Correlation * Correlation is significant at the 0.05 level (2-tailed).
Correlations
ºìÆÏÌÑ¾Æ ºìÆÏÌÑÑùÆ·3 Pearson Correlation Sig. (2-tailed) N Sig. (2-tailed) N ºìÆÏÌÑÑùÆ·3 1 6 .920(**) .009 6 ÑùÆ·3 .920(**) .009 6 1 6 Correlations
ºìÆÏÌѾÆÑùÆ·3 Pearson Correlation ** Correlation is significant at the 0.01 level (2-tailed).
27
因篇幅问题不能全部显示,请点此查看更多更全内容