统计学的几个基本概念
1.总体:根据研究目的确定的同质的研究对象,其某项变量值的全体。
2.样本:从研究总体中随机抽取的一部分有代表性的个体(其某项变量值的全体)。
3.参数:是由总体中个体值计算出来的用于描述总体特征的指标。
4.统计量:是由样本中个体值计算出来的用于描述样本特征的指标。
5.抽样误差:由个体变异产生,由抽样引起的总体指标(参数)与样本指标(统计量)以及样本指标之间的差异。
6.变量:根据研究目的,对研究对象的某个或某些特征(研究指标或项目)实施观测,这些特征(指标或项目)称为变量。
7.概率:描述随机事件发生可能性大小的数值(P),取值范围0≤P≤1,P=0为不可能事件,P=1为必然事件,P≤0.05为小概率事件。
8.统计学中的资料可以分为:
(1)定量资料:也叫计量资料,如身高(cm)、体重(kg)等,有单位。
(2)定性资料:也叫分类资料,包括:①无序分类资料:a.二项分类资料(如性别:只有男、女两类,互不相容);b.多项分类资料(如ABO血型:A、B、O、AB四种互不相容)。
②有序分类资料:也叫等级资料,各类之间有程度的差别,“半定量”,如血清学检查结果:——、±、+、++四级。
【进阶攻略】掌握这几个统计学的概念,能够判断所给资料所属类型。
【易错易混辨析】统计工作中统计设计是最关键的一步,统计推断中包括参数估计和假设检验两部分。
练习题:
一、A1型选择题
1.下列关于概率的说法,错误的是
A.通常用P表示
B.用于描述随机事件发生的可能性大小
C.某事件发生的频率即概率
D.在实际工作中,概率常难以直接获得
E.某事件发生的概率P≤0.05时,称为小概率事件
2.用于推断总体特征的样本应该是
A.从总体中随机抽取的一部分
B.从总体中随便抽取的一部分
C.总体中有价值的一部分
D.总体中便于测量的一部分
E.研究者认为能代表总体特征的部分
3.计量资料的正确定义是指
A.每个观察单位的观测值都是绝对数的资料
B.每个观察单位的观测值都是相对数的资料
C.每个观察单位的观测值都是平均数的资料
D.每个观察单位都有1个数值,无论该观测值是绝对数、相对数还是平均数的资料
E.将每个观察单位按某种属性或类别分组,然后清点各组的观测单位数得到的资料
【参考答案及解析】
1.【答案及解析】C。在现实中,随机事件发生的概率往往是未知的,因此常用样本中事件的实际发生率来估计概率,这种实际发生率称为频率。由于抽样误差的存在,频率只是概率的估计值。当观测单位较少时,用频率估计概率是不可靠的。故选项C的说法错误。
2.【答案及解析】A。从总体中随机抽取部分观察单位作为样本去推断总体信息,这样的样本对总体才具有代表性。
3.【答案及解析】D。计量资料又称数值变量,其变量值是定量的,表现为数值大小,一般有度量衡单位。
频数与频数分布
1.频数表和频数分布图的主要用途
(1)揭示频数分布的特征:从频数表便于观察离群值和异常值,还可以看出频数分布的两个重要特征:集中趋势和离散趋势。
(2)揭示频数分布的类型,即对称分布和偏态分布。
(3)便于发现极大或极小的可疑值。
2.偏态分布,又称不对称型分布,指频数分布不对称,集中位置偏向一侧。若集中位置偏向数值较小的一侧,称为正偏态;若集中位置偏向数值较大的一侧,称为负偏态。
【进阶攻略】全距就是极差,是全部数据中最大值与最小值之差。
练习题:
一、A1型选择题
1.频数表通常不用于
A.描述资料的分布类型
B.反映资料的集中趋势
C.反映资料的离散趋势
D.便于发现异常值
E.总体均数的假设检验
2.频数分布的类型有
A.对称分布和偏峰分布
B.对称分布和正态分布
C.正态分布和正偏峰分布
D.正态分布和负偏峰分布
E.正偏峰分布和负偏峰分布
3.频数分布集中位置偏向数值较小的一侧称为
A.偏态分布
B.不对称型分布
C.对称分布
D.正偏态分布
E.负偏态分布
【参考答案及解析】
1.【答案及解析】E。频数表和频数分布图的主要用途是:①揭示频数分布的特征;②揭示频数分布的类型;③便于发现极大或极小的可疑值。
2.【答案及解析】A。对称分布是指频数大部分集中在中间位置,左右两侧频数较少,基本对称,正态分布属于此类型;偏峰分布包括正偏峰分布和负偏峰分布。
3.【答案及解析】D。偏态分布,指频数分布不对称,集中位置偏向一侧。若集中位置偏向数值较小的一侧,称为正偏态;若集中位置偏向数值较大的一侧,称为负偏态。
集中趋势指标
描述数值变量资料的集中趋势指标是平均数。统计中常用的平均数包括:算术平均数、几何平均数、中位数。
1.算术平均数简称均数,适用条件:对称分布,特别适用于正态或近似正态分布资料。
2.几何均数(G)适用条件:观察值呈倍数关系或对数正态分布,多用于描述抗体的平均滴度等。
3.中位数(M):是一组观察值按由小到大的顺序排列后,位于中间位置上的那个数值。适用条件:①变量值中出现个别特小或特大的数值;②资料的分布呈明显的偏态;③变量值分布一端或两端无确定数值,只有小于或大于某个数值;④资料的分布不清。
【进阶攻略】对于正态分布资料,中位数等于均数;对于对数正态分布资料,中位数等于几何均数;对于正偏态分布资料,中位数小于均数;对于负偏态分布资料,中位数大于均数。
【易错易混辨析】中位数计算方法,当n为奇数时,M=X(n+1)/2,当n为偶数时,M=(Xn/2+Xn/2+1)/2。要特别注意的是,必须先将数据进行从小到大排序后再进行计算。
【练习题】
一、A1型选择题
1.一组观察值如果每个值都同时增加或减少一个不为0的常数,则
A.均数改变,几何均数不变
B.均数改变,中位数不变
C.均数,几何均数和中位数都改变
D.均数不变,几何均数和中位数改变
E.均数,几何均数和中位数都不变
2.表示儿童体重资料的平均水平最常用的指标是
A.算术均数
B.中位数
C.几何均数
D.变异系数
E.百分位数
二、A2型选择题
1.由变量的6个值6,9,12,14,15,20计算中位数可得
A.3
B.4
C.12
D.13
E.14
【参考答案及解析】
一、A1型选择题
1.【答案及解析】C。一组观察值如果每个值都同时增加或减少一个不为0的常数,则均数、几何均数、中位数都改变。
2.【答案及解析】A。算术平均数简称均数,均数适用于描述单峰对称分布资料,特别是正态分布或近似正态分布资料的集中位置。
二、A2型选择题
1.【答案及解析】D。中位数是将一组观察值按大小顺序排列后位次居中的数值。当n为奇数时,M=X(n+1)/2,当n为偶数时,M=(Xn/2+Xn/2+1)/2。本题共6个数值,为偶数,所以中位数M=(X6/2+X6/2+1)/2=(X3+X4)/2=(12+14)/2=13。
离散趋势指标
描述定量资料离散程度常用的指标:极差、四分位数间距、方差、标准差及变异系数。
1.极差(R)=最大值——最小值,极差越大变异程度越大。当两样本含量相差较大时,不宜用极差来比较其变异程度。
2.四分位数间距(Q):Q=P75——P25。适用于任何分布类型的资料,主要和中位数一起描述偏态分布资料。
3.方差和标准差:是描述对称分布,特别是正态分布或近似正态分布资料变异程度的指标。
4.变异系数(CV):标准差和均数之比,常用于比较度量衡单位不同或均数相差悬殊的两组(或多组)资料的变异度。
【进阶攻略】方差的单位是观察值原始单位的平方,标准差的单位与原始单位相同。
【易错易混辨析】把每个变量值都增加或减少一个常数,其均数也增加或减少一个常数,但标准差不变。
【练习题】
一、A1型选择题
1.下列关于方差和标准差的叙述,不正确的是
A.方差的单位与标准差的单位相同
B.方差的单位是标准差单位的平方
C.都用于描述定量资料频数分布的变异程度
D.二者值越大,说明资料的变异程度越大
E.均适用于对称分布,特别是正态分布或近似正态分布资料
2.变异系数是
A.描述计量资料平均水平的指标
B.描述计量资料绝对离散程度的指标
C.描述计量资料相对离散程度的指标
D.描述计数资料各部分构成的指标
E.描述计数资料平均水平的指标
3.关于标准差,错误的一项是
A.反映全部观察值的离散程度
B.最适用于对称分布资料
C.反映了均数代表性的好坏
D.一定大于或等于零
E.不会小于算术均数
【参考答案及解析】
一、A1型选择题
1.【答案及解析】A。方差和标准差均是描述对称分布,值越大,说明资料的变异程度越大,方差的单位是观察值单位的平方,在实际工作中使用不便,因此将方差开算术平方根得到标准差,故选项A不正确。
2.【答案及解析】C。变异系数简记为CV,为标准差与均数之比,是描述计量资料相对离散程度的指标。故C选项正确。
3.【答案及解析】E。标准差是描述对称分布资料变异程度的指标,离散度越大其数值越大,它的大小与算术平均数无关。
标准误及可信区间
1.标准误:样本均数的标准差叫样本均数的标准误,是标准差与样本含量平方根的比值,反映的是抽样误差的大小,标准误越大,抽样误差也就越大,样本均数的离散程度高,与总体均数的差异程度越大。标准误与标准差成正比,与样本含量的平方根成反比。
2.参数估计有两种方法:点值估计和区间估计。
(1)点值估计:直接用样本统计量去估计总体参数。总体均数的点值估计就是直接用样本均数去估计总体均数(就是把样本均数看作是总体均数)。缺点:没有考虑到抽样误差
(2)区间估计:结合样本统计量和标准误可以确定一个具有较大概率(可信度)的包含总体参数的区间,该区间称为总体参数的1——α可信区间(置信区间)。预先给定的概率称为可信度,用1——α表示,常用的可信度为95%或99%。如没有特别说明,一般取双侧95%。
3.可信区间的两个要素
准确度:反映在可信度上,可信度越大,准确度越高。
精密度:精密度反映在可信区间的宽度上,宽度越小,精密度越高。
【进阶攻略】可信区间是一个开区间,不包括下限和上限两个值。
【易错易混辨析】均数的可信区间与医学参考值范围的区别:
①含义不同:可信区间是按一定的概率100(1——α)%估计总体均数的可能范围;医学参考值范围是指是总体中大多数个体值的估计范围。
②用途不同:可信区间估计总体均数;医学参考值范围是判断观察对象的某项指标是否正常。
【练习题】
一、A1型选择题
1.同类定量资料下列指标,反映样本均数对总体均数代表性的是
A.四分位数间距
B.标准误
C.变异系数
D.百分位数
E.中位数
2.关于可信区间,正确的说法是
A.可信区间是总体中大多数个体值的估计范围
B.95%可信区间比99%可信区间更好
C.不管资料呈什么分布,总体均数的95%的可信区间计算公式是一致的
D.可信区间也可用于回答假设检验的问题
E.可信区间仅有双侧估计
3.总体率的99%可信区间是
A.99%的总体率分布的范围
B.99%的样本率分布的范围
C.99%的样本率可能所在范围
D.99%的总体率的可能所在范围
E.估计总体率在此范围的概率为99%
【参考答案及解析】
1.【答案及解析】B。均数的标准差即均数的标准误,可用来描述样本均数的抽样误差,均数的标准误越小,则说明均数的抽样误差越小。
2.【答案及解析】D。按一定的概率估计总体参数的可能范围,该范围称为可信区间,可以用来估计总体均数。在假设检验时常按95%置信度估计总体参数的可能范围。
3.【答案及解析】E。总体率的99%可信区间是估计总体率在此范围的概率为99%,即此范围有99%的把握包含总体率。所以答案选E。
t分布和假设检验
1.t分布特征
(1)单峰分布,以0为中心,左右对称;
(2)自由度越小,峰部越矮,而尾翘得越高;
(3)当自由度增大时,t分布逼近u分布(标准正态分布),当自由度无穷大时,t分布就是标准正态分布;
(4)t分布是一簇曲线,自由度不同,曲线的形状不同。
2.假设检验步骤
(1)建立假设,确定检验水准:假设有两种,一是无效假设或称零假设H0;二是备择假设H1。
(2)计算检验统计量;
(3)确定P值:将P值与预先规定的检验水准相比,做出推断结论。当P≤α时,拒绝H0,接受H1,差异有统计学意义;当P>α时,不拒绝H0,差异无统计学意义。
【进阶攻略】检验假设针对总体,而不是样本。进行假设检验时,应同时写出H0和H1,H1为备择假设,它的内容反映了检验的单、双侧。
【练习题】
一、A1型选择题
1.下列关于t分布特征的叙述,错误的是
A.t分布为单峰分布
B.t分布曲线是一簇曲线
C.以0为中心,左右对称
D.自由度越大,t分布曲线的峰部越低,尾部越高
E.自由度为无穷大时,t分布就是标准正态分布
2.在对两个样本均数作假设检验时,若P>0.1,则统计推断为
A.两总体均数的差别有统计学意义
B.两样本均数的差别有统计学意义
C.有0.9的把握度认为两总体均数无差别
D.犯二类错误的概率为0.1
E.两总体均数的差别无显著性
3.比较两药疗效时,下列可作单侧检验的是
A.己知A药与B药均有效
B.不知A药好还是B药好
C.己知A药与B药差不多好
D.己知A药不会优于B药
E.不知A药与B药是否有效
【参考答案及解析】
1.【答案及解析】D。t分布的特征为:自由度越小,曲线的峰部越低,尾部越高;随着自由度的增大,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。故选项D叙述错误,本题选D。
2.【答案及解析】E。P>0.1,按α=0.1水准,不能拒绝H0,所以两总体均数的差别无显著性。
3.【答案及解析】D。已知A药不会优于B药,只有低于B药的一种可能,所以可作单侧检验。
单样本t检验
1.t检验的应用条件:①要求样本来自正态分布总体;②两样本均数比较时,还要求两样本所属总体的方差相等(即方差齐性)。
2.单样本t检验目的:是样本均数与总体均数的比较,推断未知总体与已知总体比较是否有差别。
【进阶攻略】掌握t检验的应用条件和计算公式,会用t界值表进行判断。
【练习题】
一、A1型选择题
1.关于t界值表错误的一项是
A.双侧t0.10,20=单侧t0.05,20
B.单侧t0.05,20<双侧t0.05,20
C.双侧t0.05,20<双侧t0.01,20
D.单侧t0.05,20>单侧t0.05,15
E.单侧t0.05,20<单侧t0.05,15
2.比较某地区15岁儿童平均体重是否高于一般,宜采用
A.u检验
B.t检验
C.T检验
D.χ2检验
E.以上都不是
3.在样本均数与总体均数差别的显著性检验中,结果为P<α而拒绝H0,接受H1,原因是
A.H0假设成立的可能性小于α
B.H1假设成立的可能性大小1——α
C.H0成立的可能性小于α且H1成立的可能性大于1——α
D.从H0成立的总体中抽样得到样本的可能性小于α
E.从H0不成立的另一总体中抽得此样本的可能性大于1——α
【参考答案及解析】
一、A1型选择题
1.【答案及解析】D。在同一自由度下,双侧概率为单侧概率的2倍时,所对应的t界值相等。
2.【答案及解析】B。本题是正态分布资料样本均数与总体均数的比较,所以应该用单样本t检验。
3.【答案及解析】D。从H0成立的总体中抽样得到样本的可能性小于α,即P<α,说明是小概率事件,所以拒绝H0。
相关推荐: