2012年质量师考试初级实务精讲6
来源:考试吧发布时间:2011-09-29 16:24:59
统计学主要的任务
简单地说,总体就是一个分布,不同总体有不同分布。统计学主要的任务就是:
l 研究总体是什么分布?
l 这个总体(分布)的均值、方差(或标准差)各是多少?
例1 对某产品仅考察其合格与否,并记合格品为0,不合格品为1‘
分析:
总体={该产品的全体}={由0或1组成的一堆数}
若记l在总体中所占比例为P,则该总体可用如下二项分布b(1,P)(n=l的二项分布)表示:
X01
P1-PP
例2有两个工厂生产同一产品,甲厂的不合格品率P=0.01,乙厂的不合格品率P=0.08,甲乙两厂所生产的产品(即两个总体)分别用如下两个分布描述:
X甲01
P0.990.01
X乙01
P0.920.08
例3考察某橡胶件的抗张强度。它可用0到∞上的一个实数表示,这时总体可用区间[0,∞]上的一个概率分布表示。国内外橡胶业对其抗张强度有较多研究,认为橡胶件的抗张强度服从正态分布 ,该总体常称为正态总体。
例4例如某型号电视机的寿命全体所构成的总体就是一个偏态分布。
又如两个不同的正态总体混合也可以产生一个偏态总体。如将两位不同的操作工(或在不同机器上,或用不同原料,或不同转速等)生产的同一种零件混在一起,其质量特性常呈偏态分布,应该重视考察偏态分布产生的原因。
分析:用非对称分布(即偏态分布)描述的总体也是常见的。
二、 统计量与抽样分布
样本来自总体,因此样本中包含了有关总体的丰富的信息,但是这些信息是零散的,为了把这些零散的信息集中起来反映总体的特征,我们取得样本之后,并不是直接利用样本进行推断,而需要对样本进行一番“加工”和“提炼”,把样本中所包含的有关信息尽可能地集中起来,种有效的办法就是针对不同的问题,构造出样本的某种函数,这就是统计量。不同的函数可以反映总体的不同的特征。
1统计量
把不含未知参数的样本函数称为统计量。一个统计量也是一个随机变量。
定义4:设(X1,X2,…,Xn)为取自总体X的一个样本,g(X1,X2,…,Xn)为一个连续函数,如果这个函数中不包含任何未知参数,则称g(X1,X2,…,Xn)为一个统计量。
例如,设X~N(m ,s 2),其中m 已知,s 2未知,(X1,X2,…,Xn)为取自X的样本,则 是统计量, ---不是统计量。
统计量是样本的函数,因而统计量是随机变量。
由统计量进行推断,便可获得对总体的认识,统计推断是数理统计的核心内容。
2抽样分布
统计量的分布称为抽样分布。
例:从均值为 ,方差为 的总体中抽得一个样本量为n的样本 ,其中 与 均未知。
在此情形, 是统计量;而 , 都
不是统计量,因为后者包含 , 等未知参数。
3常用统计量
常用统计量可分为两类,一类是用来描述样本的中心位置,另一类用来描述样本的分散程度。为此先介绍有序样本的概念,再引入几个常用统计量。
有序样本
设 是从总体X中随机抽取的样本,样本量为n,将它们的观测值从小到大排列为: ,这便是有序样本。其中 是样本中的最小观测值, 是样本中的最大观测值。
例 从某种合金强度总体中随机抽取样本量为5的样本,记为 ,样本观测值为:140,150,155,130,145
解析:将它们从小到大排序后为:130,140,145,150,155,这便是有序样本,其中最小的观测值为 =30,最大的观测值为 =155。
(1)描述样本的中心位置的统计量
总体中每一个个体的取值尽管是有差异的,但是总有一个中心位置,如样本均值、样本中位数等。描述样本中心位置的统计量反映了总体的中心位置,常用的有以下几种:
①样本均值
样本观测值有大有小,样本均值大致处于样本的中间位置,它可以反映总体分布的均值。
例 上例数据: ,样本观测值为:140,150,155,130,145。
样本均值为 =(140+150+155+130+145)/5=144。
对分组数据,样本均值的近似值为
其中 是分组数, 是第 组的组中值, 是第 组的频数, 。
例 下表是经过整理的分组数据表,结出了110个电子元件的失效时间:
分组区间[0,400][400,800)[800,1200)[1200,1600)[1600, 2000)[2000,2400)
组中值xi2006001000140018002200
频数ni628372397
解析:
平均失效时间近似为:
= 1170.9
②样本中位数
中位数有时也记为Me。
当n为奇数
, 当n为偶数
例 现有一组数据(已经排序):2,3,4,4,5,5,5,5,6,6,7,7,8,
解析:
共有13个数据,处于中间位置的是第7个数据,样本中位数即为 。
(3)描述样本数据分散程度的统计量
总体中各个个体的取值总是有差别的,因此样本的观测值也是有差异的,这种差异有大有小,反映样本数据的分散程度的统计量实际上反映了总体取值的分散程度,常用的有如下几种:
①样本极差:
例 数据为 ,样本观测值为:140,150,155,130,145,那么将它们从小到大排序后为:130,140,145,150,155
解析:最小值为130,最大值为155,因此样本极差R=155-130=25
②样本方差:
同样,对分组数据来讲,样本方差的近似值为:
例 数据为 ,样本观测值为:140,150,155,130,145
解析:
上式有两个简化的计算公式:
样本极差的计算十分简便,但对样本中的信息利用得也较少,而样本方差就能充分利用样本中的信息,因此在实际中样本方差比样本极差用得更广。
③样本标准差:
在上例中 。
样本标准差的意义:
样本方差尽管对数据的利用是充分的,但是方差的量纲(即数据的单位)是原始量纲的平方,例如样本观测值是长度,单位是“毫米”,而方差的单位是“平方毫米”,单位不同就不便于比较,而采用样本标准差就消除了单位的差异。
四 样本数据的整理
从总体x中获得的样本是总体的一个缩影,具有丰富信息的数据,我们需要对数据进行加工,将有用的信息提取出来,以便对总体有所了解。
对数据加工有两种方法:
一是计算统计量,二是利用图形与表格。上面提到的便是常用的统计量,它具有概括性,但不够形象,下面给出对效据进行整理的表格与图形描述。
下面我们结合一个例子来叙述对计量数据结出频数频率分布表的步骤。
|
例 食品厂用自动装罐机生产罐头食品,由于工艺的限制,每个罐头的实际重量有所波动,现从一批罐头中随机抽取100个称其净重,数据如下:
342 352 346 344 343 339 336 342 347 340 340 350 347 336 341
349 346 348 342 346 347 346 346 345 344 350 348 352 340 356
339 348 338 342 347 347 344 343 349 341 348 341 340 347 342
337 344 340 344 346 342 344 345 338 351 348 345 339 343 345
346 344 344 344 343 345 345 350 353 345 352 350 345 343 347
354 350 343 350 344 351 348 352 34