赞
踩
目录
在参数估计的区间估计中,我们提到置信区间的概念,有提到置信区间最主要的应用是用于假设检验。(详情请见☞什么是参数估计)
那什么是假设检验?
假设检验(test of bypothesis)是统计推断的一个重要内容,用于判断某个假设是否正确。在数据分析中,总体的参数始终是不可知的,只能由统计量推断总体的参数。在统计推断过程中,需要对参数提出一定的假设,然后对提出的假设进行假设检验。 假设检验与参数估计(包括点估计和区间估计)是建立在中心极限定理和抽样分布之上的推断统 计的两个重要基础方法,由这两个方法出发,生发出诸多有针对性的统计分析方法。
假设检验涉及的范围非常广泛,几乎我们用到的所有统计分析方法都要用到它,如是否相关、 是否服从正态分布、两个总体均值是否相等、回归系数是否显著、过程是否稳定等等均运用了 假设检验。
假设检验的原理:假设检验 = 显著性水平 + 小概率思想 + 反证法
假设检验中引入了显著性水平的概念,要理解显著性水平α,就要复习下什么是置信区间了。
区间估计(interval estimation)是从点估计值和抽样标准误出发,按给定的概率值建立包含待估计参数的区间。其中这个给定的概率值称为置信度或置信水平(confidence level),这个建立起来的包含待估计参数的区间称为置信区间(confidence interval),指总体参数值落在样本统计值某一区内的概率。
什么是显著性水平?
所谓置信水平就是给出一个区间的信心,这个信心以概率来表示,绝大多数情况下取 0.95,表示你对所估计的总体参数有95%的信心落在你所给的区间内。通常置信水平以1-α表 示,α称为显著性水平。
置信区间的建立就与中心极限定理和抽样分布有关了,在给定置信度的条件下,置信区间的宽度决定于抽样分布。 建立置信区间的意思是在设定的置信水平(如取0.95)下,总体参数落在这个区间的概率为 0.95,大致的理解是如果抽100次样,建立100个置信区间,大约95个区间包含总体参数,约5个区间不包含总体参数(注意不是一定有5个,可能会多,也可能会少)。
划定置信区间的两个数值分别称为置信下限(lower confidence limit,lcl)和置信上限(upper confidence limit,ucl)
什么是反正法?
反证法(Proof by Contradiction),又称为归谬法、背理法。在证明数学问题时,先假定命题结论的反面成立,在这个前提下,若推出的结果与定义、公理、定理相矛盾,或与命题中的已知条件相矛盾,或与假定相矛盾,从而证明命题结论的反面不可能成立,由此断定命题的结论成立。
例如证明:的结果是一个无理数
反证法思想:设定与原假设相反的假设H,如果H被推翻,则原假设成立。
第一步:我们假设是一个有理数,有理数可以表示为两个互质的整数的比值。
第二步:=p/q,其中p和q是互质的整数
上式整理可得:2q^2=p^2,可知,p是偶数,令p=2r
故:q^2=2r^2,可知q也是偶数,这与p和q互质矛盾
第三步:得出结论,假设H被推翻,原假设成立。
什么是小概率事件?
如何判断抽样结果是不是不合理呢?费希尔老先生提出了p值这个概念,用来表示在原假设成立的条件下,抽样结果的不合理和更不合理的概率。他还给出了一个判决点,即0.05,p值小于1/20就足以拒绝原假设了。
0.05是足够小的概率,一般认为,在一次抽样(试验)中,小概率事件几乎不可能发生,如果出现发生了,则说明事先的假设是错误的。但小概率事件并不是一定不会发生,当抽样次数足够多时,小概率事件是一定会发生的。这说明即使是一次抽样,小概率事件仍有可能发生,也就是说存在判断错误的可能性。
假设检验是抽样推断中的一项重要内容。它是根据原资料作出一个总体指标是否等于某一个数值,某一随机变量是否服从某种概率分布的假设,然后利用样本资料采用一定的统计方法计算出有关检验的统计量,依据一定的概率原则,以较小的风险来判断估计数值与总体数值(或者估计分布与实际分布)是否存在显著差异,是否应当接受原假设选择的一种检验方法。用样本指标估计总体指标,其结论有的完全可靠,有的只有不同程度的可靠性,需要进一步加以检验和证实。通过检验,对样本指标与假设的总体指标之间是否存在差别作出判断,是否接受原假设。 这里必须明确,进行检验的目的不是怀疑样本指标本身是否计算正确,而是为了分析样本指标和总体指标之间是否存在显著差异。从这个意义上,假设检验又称为显著性检验。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。