第二章
频率分布表(图)的用途
1、为了解定量变量的分布规律,可编制频率表并绘制频率直方图或直条图,用于描述变量的平均水平和变异程度
2、描述变量的分布类型(对称或偏锋)
3、揭示变量的分布特征。随机变量具有两个特征——集中趋势和离散趋势,两者同时存在,通过描述变量的平均水平和变异程度可较全面地揭示数据的分布类型
4、便于发现某些特大和特小的可疑值(正确性可疑),频率表或直方图也是数据清洗的重要工具
5、便于进一步的计算统计指标和统计分析。
离散型定量变量和连续型定量变量的频率分布
离散型定量变量的取值是不连续的。直接清点各变量值及相同变量值出现的频率,并计算相应的频率,即为频率分布表。离散型定量变量的频率分布图可用直条图表达,以各等宽矩形直条的高度表示各组频率的大小。
连续型定量变量的取值是连续的。将数据适当分组,清点各组的频数,并计算相应的频率,即为频率分布表。连续型定量变量的频率分布图可用直方图表达,其纵坐标为频率密度(频率/组距)直方图的面积之和等于1
描述平均水平的统计指标
1、算术均数,适用于对称分布,特别是服从正态分布或近似正态分布的变量。均数=中位数是对称分布的特征之一。
2、几何均数,适合于可经对数转换为对称分布的变量。观察值间常呈倍数关系,或变化范围跨越多个数量级
3、中位数,适合各种分布的变量,常用于描述偏锋分布,或分布的一端或两端无确定数值的资料
组中值=(本组段上限值+下限值)/2
描述变异程度的统计指标
1、极差,=极大值-极小值,易受样本含量的影响,很不稳定。不宜在样本含量悬殊时使用
2、四分位数间距(Q),适用于各种分布的变量。Q=P75-P25,Q越大意味着变异程度越大。可描述分布首末端无确定值资料的离散程度
3、方差,适用于对称分布,特别是服从正态分布的变量
4、标准差,适用于对称分布,特别是服从正态分布的变量
5、变异系数,,常用于量纲(函数关系)不同或均数相差较大时变量间变异程度的比较
正态分布:常将算术均数和标准差结合。标准差越小,均数对各变量值的代表性越好
偏锋分布:常将中位数和上下四分位数结合
描述分布形态的统计指标
1、偏度系数 总体偏度系数为0时,分布是对称的;取正值时,分布为正偏峰;取负值时,分布为负偏锋
2、峰度系数 正态分布的总体峰度系数为0;取负值,其分布较正态分布的峰平阔;取正值,其分布较正态分布的峰尖峭
统计表:表号及标题(统计表上方中央)、标目(按纵坐标分为简单表和复合表)、线条、数字(以个位对齐)和备注
频率直方图:用于描述连续型定量变量的分布。注意如果用频数为纵坐标作图,直方图面积并不等于1.。如果样本量足够大,且组距越分越细时,频率直方图就逐渐趋于一条光滑的曲线,即变量概率密度曲线
累积频率分布图:用于描述定量变量的累积频率分布
箱式图:用最小值、下四分位数、中位数、上四分位数、最大值描述定量变量的平均水平和变异程度,还可显示数据中的离群值(o)和极端值(*)
直条图:用等宽直条的高度表示相互独立的各项指标数量大小,可描述离散型定量变量和定性变量的频率分布
相关推荐: