数据分布拟合检验的数学模型
摘 要
假设检验的基本思想,讨论当总体分布为正态时,关于其中未知参数的假设检验问题,可能遇到这样的情形,总体服从何种理论分布并不知道,要求我们直接对总体分布提出一个假设 。
一般的各种检验法, 是在总体分布类型已知的情况下, 对其中的未知参数进行检验, 这类统计检验法统称为参数检验. 在实际问题中, 有时我们并不能确切预知总体服从何种分布, 这时就需要根据来自总体的样本对总体的分布进行推断, 以判断总体服从何种分布。
这类统计检验称为非参数检验. 解决这类问题的工具之一是英国统计学家K. 皮尔逊在1900年发表的一篇文章中引进的——2检验法。
关键词:数据检验 分布拟合 2检验法
一、问题重述
①、问题背景:
自1965年1月1日至1971年2月9日共2231天中,全世界记录到里氏震级4级和4级以上地震计162次,统计如下:
相继两次地震记录表:
间隔天数x045910141519202425293034353940
出现的频率50312617108668 试检验相继两次地震间隔的天数X服从指数分布(0.05)。
1
在概率论中,大家对泊松分布产生的一般条件已有所了解,容易想到,每年的次数,可以用一个泊松随机变量来近似描述。也就是说,我们可以假设每年爆发战争次数分布X近似泊松分布。
现在的问题是:上面的数据能否证实X 具有泊松分布的假设是正确的? ②、检验法的基本思想
检验法是在总体X的分布未知时, 根据来自总体的样本, 检验总体分布的假设的一2种检验方法。具体进行检验时,先提出原假设:
H0: 总体X的分布函数为F(x)
然后根据样本经验分布和所假设的理论分布之间的吻合程度来决定是否接受原假设。
这种检验通常称作拟合优度检验. 它是一种非参数检验. 一般地, 我们总是根据样本观察值用直方图和经验分布函数, 推断出总体可能服从的分布, 然后作检验.
1、 通过提出的方案和计算来决定给出数据分布拟合检验的数学模型的的情况。
2、 对此模型和方案进行评价和推广。
二、模型的假设
①、检验法的基本原理和步骤 1) 提出原假设:
H0:总体X的分布函数为F(x) 如果总体分布为离散型, 则假设具体为
H0:总体X的分布律为P{Xxi}pi,i1,2, 如果总体分布为连续型, 则假设具体为
H0:总体X的概率密度函数f(x).
2) 将总体X的取值范围分成k个互不相交的小区间, 记为A1,A2,,Ak,如可取为:
(a0,a1],(a1,a2],,(ak2,ak1],(ak1,ak);
2
其中a0可取,可取;区间的划分视具体情况而定,使每个小区间所含样本值个数不小于5,而区间个数k不要太大也不要太小;
3) 把落入第个小区间的样本值的个数记作,称为组频数,所有组频数之和
f1f2fk等于样本容量n;
4) 当H0为真时,根据所假设的总体理论分布,可算出总体X的值落入第i个小区间Ai的概率pi, 于是npi就是落入第i个小区间Ai的样本值的理论频数。
5) 当H0为真时, n次试验中样本值落入第i个小区间Ai的频率fi/n与概率
pi应很接近, 当H0不真时, 则fi/n与pi相差较大. 基于这种思想, 皮尔逊引进
如下检验统计量
2i1k(finpi)2. npi并证明了下列结论:
当n充分大(n50)时, 则统计量2近似服从2(k1)分布. 根据该定理, 对给定的显著性水平a, 确定值, 使 P{2l} 查2分布表得:
2(k1), l所以拒绝域为:
2(k1). 2若由所给的样本x1,x2,,xn算得统计量2的实测值落入拒绝域, 则拒绝原假设H0, 否则就认为差异不显著而接受原假设H0。
三、总体含未知参数的情形
在对总体分布的假设检验中, 有时只知道总体X的分布函数的形式, 但其 中还含有未知参数, 即分布函数为F(x,1,2,,r), 其中1,2,,r为未知参数. 设X1,X2,,Xn是取自总体X的样本, 现要用此样本 来检验假设:
3
H0:总体X的分布函数为F(x,1,2,,r),
此类情况可按如下步骤进行检验:
1) 利用样本X1,X2,,Xn,求出1,2,,r的最大似然估计ˆ1,ˆ2,,ˆr,
2) 在F(x,1,2,,r),中用ˆi代替i(i1,2,,r),则F(x,1,2,,r),就变成完全 已知的分布函数F(x,ˆ1,ˆ2,,ˆr).
ˆ,ˆˆˆi(i1,2,,k); 3) 计算pi时, 利用F(x,12,,r). 计算的估计值p 4) 计算要检验的统计量
2ˆi)2/npˆi 当n充分大时,统计量2近似服从(kr1)分布; (finp2ki12ˆi)2/npˆi(kr1). 5) 对给定的显著性水平, 得拒绝域(finp2i1k
四、模型建立与求解
①、自1965年1月1日至1971年2月9日共2231天中,全世界记录到里氏震级4级和4级以上地震计162次,统计如下: 相继两次地震记录表
间隔天数x045910141519202425293034353940
出现的频率50312617108668 试检验相继两次地震间隔的天数X服从指数分布(0.05). ②、模型的的求解:
4
本例是检验假设
1x/e,x0f(x) H0 :X的概率密度为
0, x0
此处的参数θ未知,先利用极大似然估计求出θ的估计为 ˆ2231/16213.77L
将总体X可能取值的区间[0,∞)分为9个互不重叠的子区间 i=1,2,…,9。若为真,则X的分布函数是
x/13.771e, x0ˆ(x)F0 x00,
由此式得概率pi = P(Ai )的估计:
于是可以得到下面的表:
ˆip0.2788 ˆ(A)Pˆ({aXa}ˆiPpiii1ˆ(a)Fˆ(a)F0i10iˆ(a)Fˆ(a)ˆ2F例如:p02102ˆ(9.5)Fˆ(4.5)0.2196F00ˆ(A)1Pˆ(A)0.0568ˆ9P而p9ii18i [ai,ai+1) fi ˆinp ˆifinp-4.8344 ˆifi)2/npˆi(np 1 [0,4.5) 50 45.1656 0.5175 2 [4.5,9.5) 31 0.2196 35.5752 4.5752 0.5884 5
3 [9.5,14.5) 26 0.1527 24.7374 -1.2626 0.0644 4 [14.5,19.5) 17 0.1062 17.2044 0.2044 0.0024 5 [19.5,24.5) 10 0.0739 11.9718 1.9718 0.3248 6 [24.5,29.5) 8 0.0514 8.3268 0.3268 0.0126 7 [29.5,34.5) 6 0.0358 5.7996 -0.2004 0.0069 8 [34.5,39.5) 6 0.0248 4.0176 9 [39.5,+∞) Σ 8 0.0568 9.2016 13.2192 -0.7808 0.0461 1.5631 2220.05(kr1)0.05(811)0.05(6) 结论:因为
12.5921.5631。故在水平0.05下
接受H0,即认为X服从指数分布。五、模型的分析与改进
讲述拟合优度的 2 检验法,在对总体的分布进行检验时经常使用。 由于这种检验的 计算相对较大,一般要用统计软件包来实现.
六、模型的推广
这些试验及其它一些试验,都显 示理论与实际是符合的.。这本身就是统计方法在科学
中的一项 重要应用。用于客观地评价理论上的某个结论是否与观察结果相符,以作为该理论 是否站得住脚的印证。
6
因篇幅问题不能全部显示,请点此查看更多更全内容