随机抽样 3.[2014·重庆卷] 某中学有高中生3500人,初中生1500人.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取70人,则n 为( )
A .100 B .150 C .200 D .250
70n
3.A [解析] =,解得n =100.
35003500+1500
11.[2014·湖北卷] 甲、乙两套设备生产的同类型产品共4800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件.
80-5080
11.1800 [解析] 设乙设备生产的产品总数为n ,则=n =1800.
n 4800
3.[2014·湖南卷] 对一个容量为N 的总体抽取容量为n 的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p 1,p 2,p 3,则( )
A .p 1=p 2<p 3 B .p 2=p 3<p 1 C .p 1=p 3<p 2 D .p 1=p 2=p 3
3.D [解析] 不管是简单随机抽样、系统抽样还是分层抽样,它们都是等概率抽样,
n
每个个体被抽中的概率均为
N
2.、[2014·四川卷] 在“世界读书日”前夕,为了了解某地5000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5000名居民的阅读时间的全体是( )
A .总体 B .个体
C .样本的容量
D .从总体中抽取的一个样本
2.A [解析] 根据抽样统计的概念可知,统计分析的对象全体叫做“总体”.故选A. 9.[2014·天津卷] 某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生.
9.60 [解析] 由分层抽样方法可得,从一年级本科生中抽取的学生人数为300×4
60.
4+5+5+6
15.、[2014·天津卷] 某校夏令营有3名男同学A ,B ,C 和3名女同学X ,Y ,Z ,其年级情况如下表:
现从这6) . (1)用表中字母列举出所有可能的结果;
(2)设M 为事件“选出的2人来自不同年级且恰有1名男同学和1名女同学”,求事件M 发生的概率.
15.解:(1)从6名同学中随机选出2人参加知识竞赛的所有可能结果为{A ,B },{A ,C },{A ,X },{A ,Y },{A ,Z },{B ,C },{B ,X },{B ,Y },{B ,Z },{C ,X },{C ,Y },{C ,Z },{X ,Y },{X ,Z },{Y ,Z },共15种.
(2)选出的2人来自不同年级且恰有1名男同学和1名女同学的所有可能结果为{A ,Y },{A ,Z },{B ,X },{B ,Z },{C ,X },{C ,Y },共6种.
62
因此,事件M 发生的概率P (M ) =155
I2 用样本估计总体 17.、[2014·安徽卷] 某高校共有学生15 000人,其中男生10 500人,女生4500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时) .
(1)应收集多少位女生的样本数据? (2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图1-4所示) ,其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.
图1-4
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
2
n (ad -bc )附:K =(a +b )(c +d )(a +c )(b +d )
4500
17.解: (1)300×90,所以应收集90位女生的样本数据.
15 000
(2)由频率分布直方图得每周平均体育运动超过4小时的频率为1-2×(0.100+0.025) =0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225(位) 的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:
2
300×(165×30-45×60)100
结合列联表可算得K ==4.762>3.841.
2175×225×210×90
所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
18.[2014·北京卷] 从某校随机抽取100名学生,获得了他们一周课外阅读时间(单位:
小时) 的数据,整理得到数据分组及频数分布表和频率分布直方图(如图1-6) .
(1)从该校随机选取一名学生,试估计这名学生该周课外阅读时间少于12小时的概率; (2)求频率分布直方图中的a ,b 的值;
(3)
假设同一组中的每个数据可用该组区间的中点值代替,试估计样本中的100名学生该周课外阅读时间的平均数在第几组.(只需写出结论)
18.解:(1)根据频数分布表,100名学生中课外阅读时间不少于12小时的学生共有610
+2+2=10(名) ,所以样本中的学生课外阅读时间少于12小时的频率是1-=0.9.
100
故从该校随机选取一名学生,估计其课外阅读时间少于12小时的概率为0.9.
频率0.17
(2)课外阅读时间落在组[4,6) 内的有17人,频率为0.17,所以a ==0.085.
2组距频率0.25
课外阅读时间落在组[8,10) 内的有25人,频率为0.25,所以b ==0.125.
2组距(3)样本中的100名学生课外阅读时间的平均数在第4组.
20.,[2014·福建卷] 根据世行2013年新标准,人均GDP 低于1035美元为低收入国家;人均GDP 为1035~4085美元为中等偏下收入国家;人均GDP 为4085~12 616美元为中等偏上收入国家;人均GDP 不低于12 616美元为高收入国家.某城市有5个行政区,各区人口占该城市人口比例及人均GDP 如下表:
(1)判断该城市人均GDP 是否达到中等偏上收入国家标准;
(2)现从该城市5个行政区中随机抽取2个,求抽到的2个行政区人均GDP 都达到中等偏上收入国家标准的概率.
20.解:(1)设该城市人口总数为a ,则该城市人均GDP 为
8000×0.25a +4000×0.30a +6000×0.15a +3000×0.10a +10 000×0.20a
a
6400(美元) .
因为6400∈[4085,12 616),
所以该城市人均GDP 达到了中等偏上收入国家标准.
(2)“从5个行政区中随机抽取2个”的所有的基本事件是:
{A,B},{A,C},{A,D},{A,E},{B,C},{B,D},{B,E},{C,D},{C,E},{D,E},共10个.
设事件M 为“抽到的2个行政区人均GDP 都达到中等偏上收入国家标准”, 则事件M 包含的基本事件是:{A,C},{A,E},{C,E},共3个.
3
所以所求概率为P (M ) .
10
6.[2014·广东卷] 为了解1000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( )
A .50 B .40 C .25 D .20
1000
6.C [解析] =25.
40
17.、[2014·湖南卷] 某企业有甲、乙两个研发小组,为了比较他们的研发水平,现随机抽取这两个小组往年研发新产品的结果如下:
(a ,b ) ,(a ,b ) ,(a ,b ) ,(a ,b ) ,(a ,b ) ,(a ,b ) ,(a ,b ) ,(a ,b ) ,(a ,b ) ,(a ,b ) ,(a ,b ) ,(a ,b ) ,(a ,b ) ,(a ,b ) ,(a ,b ) .
其中a ,a 分别表示甲组研发成功和失败;b ,b 分别表示乙组研发成功和失败.
(1)若某组成功研发一种新产品,则给该组记1分,否则记0分.试计算甲、乙两组研发新产品的成绩的平均数和方差,并比较甲、乙两组的研发水平.
(2)若该企业安排甲、乙两组各自研发一种新产品,试估计恰有一组研发成功的概率. 17.解:(1)甲组研发新产品的成绩为
1,1,1,0,0,1,1,1,0,1,0,1,1,0,1,
102
其平均数为x 甲
153
22⎤21⎛2⎫22⎛1-×10+0×5=. 方差为s 甲=3⎭15⎣⎝⎝3⎦9
乙组研发新产品的成绩为
1,0,1,1,0,1,1,0,1,0,0,1,0,1,1,
93
其平均数为x 乙
155
32⎤61⎛3⎫22⎛1-×9+0-×6=. 方差为s 乙=5⎭15⎝⎝5⎦25
22
因为x 甲>x 乙,s 甲<s 乙,所以甲组的研发水平优于乙组. (2)记E ={恰有一组研发成功}.
在所抽得的15个结果中,恰有一组研发成功的结果是(a ,b ) ,(a ,b ) ,(a ,b ) ,(a ,b ) ,(a ,b ) ,(a ,b ) ,(a ,b ) ,
7
共7个,故事件E 发生的频率为15
7
将频率视为概率,即得所求概率为P (E ) =.
15
6.[2014·江苏卷] 为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm) ,所得数据均在区间[80,130]上,其频率分布直方图如图1-2所示,则在抽
测的60株树木中,有____株树木的底部周长小于
100 cm.
图1-2
6.24 [解析] 由频率分布直方图可得,数据在[80,90]的频率为0.015×10=0.15,数据在[90,100]的频率为0.025×10=0.25. 又样本容量为60株,故所求为(0.15+0.25) ×60=24(株) .
19.[2014·新课标全国卷Ⅱ] 某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高) ,绘制茎叶图如
图1-4
(1)分别估计该市的市民对甲、乙两部门评分的中位数;
(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率; (3)根据茎叶图分析该市的市民对甲、乙两部门的评价.
19.解:(1)由所给茎叶图知,将50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本的中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.
50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数66+68为=67,所以该市的市民对乙部门评分的中位数的估计值是67.
2
58
(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为0.150500.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.
(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.(注:考生利用其他统计量进行分析,结论合理的同样给分.)
18.[2014·全国新课标卷Ⅰ] 从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:
(1)在答题卡上作出这些数据的频率分布直方图;
(2)估计这种产品质量指标值的平均值及方差(同一组中的数据用该组区间的中点值作代表);
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?
18.解:(1)频率分布直方图如下:
(2)质量指标值的样本平均数为
x =80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100. 质量指标值的样本方差为s 2=(-20) 2×0.06+
(-10) 2×0.26+0×0.38+102×0.22+202×0.08=104. 所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.
(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.8=0.68.
由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定.
8.[2014·山东卷] 为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa) 的分组区间为[12,13) ,[13,14) ,[14,15) ,[15,16) ,[16,17].将其按从左到右的顺序分别编号为第一组,第二组,„„,第五组,图1-2是根据试
验数据制成的频率分布直方图,已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为(
)
图1-2
A .6 B .8 C .12 D .18
8.C [解析] 因为第一组与第二组共有20人,并且根据图像知第一组与第二组的频率3
之比是0.24∶0.16=3∶2,所以第一组的人数为20×=12. 又因为第一组与第三组的频率之
52
比是0.24∶0.36=2∶3 ,所以第三组有 18人.因为第三组中没有疗效的人数为6,
3所以第三组中有疗效的人数是18-6=12.
16.,[2014·山东卷] 海关对同时从A ,B ,C 三个不同地区进口的某种商品进行抽样检测,从各地区进口此种商品的数量(单位:件) 如表所示.工作人员用分层抽样的方法从这些商品中共抽取6件样品进行检测.
(1)求这6件样品中来自A ,B ,C 各地区商品的数量;
(2)若在这6件样品中随机抽取2件送往甲机构进行进一步检测,求这2件商品来自相同地区的概率.
16.解:(1)因为样本容量与总体中的个体数的比是
6111
=所以样本中包含三个地区的个体数量分别是:50×=1,150×
505050+150+100501
=3,100×2.
50
所以A ,B ,C 三个地区的商品被选取的件数分别是1,3,2.
(2)设6件来自A ,B ,C 三个地区的样品分别为:A ;B 1,B 2,B 3;C 1,C 2. 则抽取的这2件商品构成的所有基本事件为:
{A ,B 1},{A ,B 2},{A ,B 3},{A ,C 1},{A ,C 2},{B 1,B 2},{B 1,B 3},{B 1,C 1},{B 1,C 2},{B 2,B 3}{B 2,C 1},{B 2,C 2},{B 3,C 1},{B 3,C 2},{C 1,C 2},共15个.
每个样品被抽到的机会均等,因此这些基本事件的出现是等可能的. 记事件D 为“抽取的这2件商品来自相同地区”,
则事件D 包含的基本事件有{B 1,B 2},{B 1,B 3},{B 2,B 3},{C 1,C 2},共4个. 44
所以P (D ) =,即这21515
9.[2014·陕西卷] 某公司10位员工的月工资(单位:元) 为x 1,x 2,„,x 10,其均值和方-
差分别为x 和s 2,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的均值和方差分别为( )
--
A. x ,s 2+1002 B. x +100,s 2+1002 --
C. x ,s 2 D. x +100,s 2
x 1+x 2+x 3+„+x 10
9.D [解析] 由题目中所给的数据可知x ,
10
--(x 1+x 2+x 3+„+x 10)+1000-
不妨设这10位员工下月工资的均值为y ,则y =x +
10100,易知方差没发生变化.
2.、[2014·四川卷] 在“世界读书日”前夕,为了了解某地5000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5000名居民的阅读时间的全体是( )
A .总体 B .个体
C .样本的容量
D .从总体中抽取的一个样本
2.A [解析] 根据抽样统计的概念可知,统计分析的对象全体叫做“总体”.故选A. 17.、[2014·重庆卷] 20名学生某次数学考试成绩(单位:分) 的频率分布直方图如图1-3所示.
(1)求频率分布直方图中a 的值;
(2)分别求出成绩落在[50,60) 与[60,70) 中的学生人数;
(3)从成绩在[50,70) 的学生中任选2人,求此2人的成绩都在[60,70) 中的概率. 17.解:(1)据直方图知组距为10,由 (2a +3a +7a +6a +2a ) ×10=1,
1
解得a ==0.005.
200
(2)成绩落在[50,60) 中的学生人数为2×0.005×10×20=2. 成绩落在[60,70) 中的学生人数为3×0.005×10×20=3.
(3)记成绩落在[50,60) 中的2人为A 1,A 2,成绩落在[60,70) 中的3人为B 1,B 2,B 3,则从成绩在[50,70) 的学生中任选2人的基本事件共有10个,即(A 1,A 2) ,(A 1,B 1) ,(A 1,B 2) ,(A 1,B 3) ,(A 2,B 1) ,(A 2,B 2) ,(A 2,B 3) ,(B 1,B 2) ,(B 1,B 3) ,(B 2,B 3) .
其中2人的成绩都在[60,70) 中的基本事件有3个,即(B 1,B 2) ,(B 1,B 3) ,(B 2,B 3) .
3
故所求概率为P =.
10
I3 正态分布
I4 变量的相关性与统计案例 17.、[2014·安徽卷] 某高校共有学生15 000人,其中男生10 500人,女生4500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时) .
(1)应收集多少位女生的样本数据? (2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图1-4所示) ,其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.
图1-4
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
2
n (ad -bc )附:K =(a +b )(c +d )(a +c )(b +d )
4500
17.解: (1)300×90,所以应收集90位女生的样本数据.
15 000
(2)由频率分布直方图得每周平均体育运动超过4小时的频率为1-2×(0.100+0.025) =0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225(位) 的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:
300×(165×30-45×60)2100
结合列联表可算得K ==4.762>3.841.
2175×225×210×90
2
所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
6.[2014·
得到的回归方程为y =bx +a ,则( ) A .a >0,b <0 B .a >0,b >0 C .a <0,b <0 D .a <0,b >0 6.A [
解析]
由图像不难得出,回归直线y =bx +a 的斜率b 0,所以a >0,b
7.[2014·江西卷] 某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )
表1 表2
表3
A .成绩 B .视力 C .智商 D .阅读量
7.D [解析] 通过计算可得,表1中的χ2≈0.009,表2中的χ2≈1.769,表3中的χ2
=1.300,表4中的χ2≈23.481,故选D.
18.
、[2014·辽宁卷] 某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行(1)习惯方面有差异”;
(2)已知在被调查的北方学生中有
5名数学系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.
2
2n (n n -n n )附:χ
n 1+n 2
18.解:(1)将2×2列联表中的数据代入公式计算,得
2
100×(60×10-20×10)21002n (n 11n 22-n 12n 21)χ==≈4.762.
21n 1+n 2+n +1n +270×30×80×20
由于4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
(2)从5名数学系学生中任取3人的一切可能结果所组成的基本事件空间Ω={(a 1,a 2,b 1) ,(a 1,a 2,b 2) ,(a 1,a 2,b 3) ,(a 1,b 1,b 2) ,(a 1,b 1,b 3) ,(a 1,b 2,b 3) ,(a 2,b 1,b 2) ,(a 2,b 1,b 3) ,(a 2,b 2,b 3) ,(b 1,b 2,b 3)},
其中a i 表示喜欢甜品的学生,i =1,2,b j 表示不喜欢甜品的学生,j =1,2,3. Ω由10个基本事件组成,且这些基本事件的出现是等可能的.
用A 表示“3人中至多有1人喜欢甜品”这一事件,则A ={(a 1,b 1,b 2) ,(a 1,b 1,b 3) ,(a 1,b 2,b 3) ,(a 2,b 1,b 2) ,(a 2,b 1,
b 3) ,(a 2,b 2,b 3) ,(b 1,b 2,b 3)}.
7
事件A 由7个基本事件组成,因而P (A ) =10
I5 单元综合
17.[2014·广东卷] 某车间20名工人年龄数据如下表:
(1)求这20名工人年龄的众数与极差;
(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图; (3)求这20名工人年龄的方差.