《,应用统计学,》期末复习试题模拟试题及答案

 《 应用统计学 》模拟试卷

 开课学院:

  商学院

  专业:

  考试形式:闭卷,所需时间:

 120

 分钟

 考生姓名:

 学号:

  班级:

 任课教师:

 题序 一 二 三 四

 五 总 分 得分

  评卷人

  注意:

 ① 请将答案写在答题纸上,写在试卷上无效。

 ② 本试卷计算题均精确到小数点后三位!

 一、小麦试验问题(20 分)

 设有三个品种(用因素 A 表示)的小麦和两种不同的肥料(用因素 B 表示),将一定面积的地块分为 6个均等的小区,每个小区随机地试验品种和肥料 6 种组合的一种,在面积相等的四块地上进行重复试验,其小麦的产量(公斤)如下表:

 品种 肥料 1 2 3 1 9

  10

  9

  8 11

 12

 9

  8 13

 14

 15

 12 2 9

  10

  12

 11 12

 13

 11

 12 22

 16

 20

 18

 SPSS 运算结果附表:

 (1) Tests of Between-Subjects Effects Dependent Variable: Y

 Source Type III Sum of Squares df Mean Square F Sig. Corrected Model 263.333(a) 5 52.667 21.545 0.000 Intercept 3650.667 1 3650.667 1493.455 0.000 A 190.333 (

  )

 95.167 38.932 0.000 B 54.000 1 54.000 (

  )

 0.000 A * B 19.000 (

  )

 9.500 (

  )

 0.040 Error 44.000 18 2.444

  Total 3958.000 24

 Corrected Total 307.333 23

 a

 R Squared = 0.857 (Adjusted R Squared =0.817)

 (2)

 Estimated Marginal Means 小麦产量 Mean Dependent Variable: Y

 Mean Std. Error 95% Confidence Interval Lower Bound Upper Bound 12.333 0.319 11.663 13.004

 (3) Post Hoc Tests

 A Homogeneous Subsets Student-Newman-Keuls

 A N Subset 1 2 1 8 9.7500

 2 8 11.0000

 3 8

 16.2500 Sig.

 0.127 1.000 Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is Mean Square(Error) = 2.444. a

 Uses Harmonic Mean Sample Size = 8.000. b

 Alpha = 0.05.

 问题:

 1、 请填写附表(1)里面空白()处,并给出计算公式。

 2、 根据附表(1)方差分析的显著性水平结果,按 0.05 检验水平,讨论各个因素的显著性。

 3、 根据附表(2),说明里面各项指标的意义。

 4、 根据附表(3),说明 A 因素下各个水平均值多重比较的结果, 5、 找出最优生产条件,并说明理由。

 二、销售额问题(20 分)

 某公司某种商品在 15 个地区的销售额 Y(万元)与各地区的人口1x (万人)及平均每户总收入2x (元)的有关数据如下表。

 地区 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Y 162 120 223 131 67 169 81 192 116 55 252 232 144 103 212 X1 274 180 375 205 86 265 98 330 195 53 430 372 236 157 370 X2 2450 3254 3802 2838 2347 3782 3008 2450 2137 2560 4020 4427 2660 2088 2605

 SPSS 运算结果附表:

 (1)

  Variables Entered/Removed(b) Model Variables Entered Variables Removed Method 1 X2, X1(a) . Enter a

 All requested variables entered. b

 Dependent Variable: Y

 (2) Model Summary(b) Model R R Square Adjusted R Square Std. Error of the Estimate 1 0.999(a) 0.999 0.999 2.17722 a

 Predictors: (Constant), X2, X1 b

 Dependent Variable: Y

 (3) ANOVA(b)

 Model

 Sum of Squares df Mean Square F Sig. 1 Regression 53844.716 2 26922.358

 0.000(a) Residual 56.884 12 4.740

  Total 53901.600 14

 a

 Predictors: (Constant), X2, X1 b

 Dependent Variable: Y (4)

 Coefficients(a) Model

 Unstandardized Coefficients Standardized Coefficients t Sig. B Std. Error Beta 1 (Constant) 3.453 2.431

 1.420 0.181 X1 0.496 0.006 0.934 81.924 0.000 X2 0.009 0.001 0.108 9.502 0.000 a

 Dependent Variable: Y

 问题:

 1、 附表(2)里面,指标 R 是什么指标,给出它的定义及其解释。

 2、 求出附表(3)里面的 F 值,给出计算公式,并按 0.05 检验水平,讨论回归方程的显著性。

 3、 根据附表(4),给出回归方程的表达式,按 0.05 检验水平,讨论回归系数的显著性,并估计地区 5的销售额的残差,给出计算公式。

 三、经济发展阶段问题(20 分)

 为了研究近年来中国经济发展状况,搜集了 1989 年-2002 年中国国内生产总值(GDP)指数(上年=100),列表如下(本表按不变价格计算):

 1989 年-2003 年中国国内生产总值(GDP) 指数( 上年=100) 年份 1989 1990 1991 1992 1993 1994 1995

 指数(%) 104.1 103.8 109.2 114.2 113.5 112.6 110.5

 年份 1996 1997 1998 1999 2000 2001 2002 2003 指数(%) 109.6 108.8 107.8 107.1 107.8

 107.3

 108.0

 109.1

 (1) 请将下列直径 D(i , j) 表中的括号填上,( 无计算过程, 不给分) 。

 直径矩阵

 D(i,j) 1 2 3 4 5 6 7 1 0.000

  2 0.045 0.000

 3 18.420 14.580 0.000

  4 (72.608) 54.107 12.500 0.000

 5 98.372 68.848 14.660 0.245 0.000

  6 109.413 73.552 14.728 1.287 0.405 0.000

 7 110.160 73.573 17.540 7.740 4.740 2.205 0.000 8 110.169 74.489 22.340 15.428 9.810 4.740 0.405 9 110.869 76.975 29.060 (24.393) 15.860 8.047 1.447 10 113.749 82.420 39.175 36.340 24.393 13.352 3.968 11 118.600 89.989 51.180 49.649 34.109 19.700 7.412

 12 120.397 93.305 57.109 56.189 38.289 21.894 8.180 13 123.332 97.890 64.287 63.816 43.462 24.959 9.629 14 124.164 99.572 67.440 67.167 45.340 25.740 9.779 15 124.209 99.592 67.772 67.549 45.376 25.804 10.262

  ( 续) 直径矩阵

 D(i,j) 8 9 10 11 12 13 14 15 1

  2

  3

  4

  5

  6

  7

  8 0.000

 9 0.320 0.000

  10 1.627 0.500 0.000

 11 3.628 1.460 0.245 0.000

  12 3.848 1.468 0.327 0.245 0.000

 13 4.553 1.732 0.380 0.260 0.125 0.000

  14 4.557 1.780 0.580 0.530 0.260 0.245 0.000

 15 5.509 3.229 2.455 2.452 1.730 1.647 0.605 0.000

 (2) 请将下列最小目标函数 e [P (i , j )]表中的括号填上,( 无计算过程 , 不给分 ) 。

 最小目标函数 矩阵 e[P(n,k)] 2 3 4 5 6 7 8 2 0(2)

  3 0.045(3) 0(3)

 4 12.545(3) 0.045(4) 0(4)

  5 14.705(3) 0.29(4) 0.045(5) 0(5)

 6 14.773(3) 1.332(4) 0.29(6) 0.045(6) 0(6)

  7 17.585(3) (7.78 5

 (4)) 1.332(7) 0.29(7) 0.045(7) 0(7)

 8 22.385(3) 15.178(7) 1.737(7) 0.695(7) 0.29(8) 0.045(8) 0(8) 9 (29.105

 (3)) 16.22(7) 2.779(7) 1.652(8) 0.61(8) 0.29(9) 0.045(9) 10 39.22(3) 18.741(7) 5.3(7) 2.237(9) 1.195(9) 0.61(10) 0.29(10) 11 51.225(3) 21.213(8) 8.744(7) 3.024(10) 1.897(10) 0.855(10) 0.535(10) 12 57.154(3) 21.433(8) 9.512(7) 3.106(10) 1.979(10) 0.937(10) 0.617(10) 13 64.332(3) 22.138(8) 10.961(7) 3.159(10) 2.032(10) 0.99(10) 0.67(10) 14 67.485(3) 22.142(8) 11.111(7) 3.359(10) 2.232(10) 1.19(10) 0.87(10) 15 67.817(3) 23.094(8) 11.594(7) 4.966(9) 3.359(15) 2.232(15) 1.19(15)

  ( 续) 最小目标函数 矩阵

  (3) 试给出k=5 的分类情况。

  四、学生成绩分析问题(20 分)

 记录 10 个学生的数学、物理、化学、语文、历史、英语的成绩,分别用1 2 3 4 5 6, , , , , x x x x x x 表示,得数据见下表所示。对其做主成分分析。

  10 名男中学生的身高、胸围及体重数据 学生 代码 数学 x1 物理 x2 化学 x3 语文 x4 历史 x5 英语 x6 1 65 61 72 84 81 79 2 77 77 76 64 70 55 3 67 63 49 65 67 57 4 80 69 75 74 74 63 5 74 70 80 84 81 74 6 78 84 75 62 71 64 7 66 71 67 52 65 57 8 77 71 57 72 86 71 9 83 100 79 41 67 50 10 80 92 65 71 67 76

 SPSS 运算结果附表:

 (1)

 Communalities

 Initial Extraction X1 1.000 0.803 X2 1.000 0.849 X3 1.000 0.555 X4 1.000 0.911 e[P(n,k)] 9 10 11 12 13 14 15 2

 3

 4

 5

 6

 7

 8

 9 0(9)

  10 0.045(10) 0(10)

 11 0.29(11) 0.045(11) 0(11)

  12 0.372(10) 0.29(12) 0.045(12) 0(12)

 13 0.425(10) 0.305(11) 0.17(12) 0.045(13) 0(13)

  14 0.625(10) 0.425(14) 0.305(14) 0.17(14) 0.045(14) 0(14)

 15 0.87(15) 0.625(15) 0.425(15) 0.305(15) 0.17(15) 0.045(15) 0(15)

 X5 1.000 0.763 X6 1.000 0.790 Extraction Method: Principal Component Analysis.

 ( (2 )

 Total Variance Explained Component Initial Eigenvalues Extraction Sums of Squared Loadings Total % of Variance Cumulative % Total % of Variance Cumulative % 1 3.049 50.820 50.820 3.049 50.820 50.820 2 1.623 27.054 77.874 1.623 27.054 77.874 3 .670 11.161 89.035

 4 .427 7.112 96.146

 5 .214 3.565 99.711

 6 .017 .289 100.000

 Extraction Method: Principal Component Analysis.

 (3)

  Component Matrix(a)

 Component 1 2 X1 -.557 0.702 X2 -.811 0.438 X3 -.263 0.697 X4 0.905 0.302 X5 0.758 0.435 X6 0.786 0.415 Extraction Method: Principal Component Analysis. a

 2 components extracted.

 (4)Rotated Component Matrix(a)

 Component 1 2 X1 -.125 0.887 X2 -.477 0.789 X3 0.126 0.734 X4 0.934 -.198 X5 0.874 -.010 X6 0.888 -.040 Extraction Method: Principal Component Analysis.

 Rotation Method: Varimax with Kaiser Normalization. a

 Rotation converged in 3 iterations.

 ( (5)

 )

 Component Transformation Matrix Component 1 2 1 0.862 -0.507 2 0.507 0.862 Extraction Method: Principal Component Analysis.

  Rotation Method: Varimax with Kaiser Normalization.

  ( (6)

 )

 Component Score Coefficient Matrix

 Component 1 2 X1 0.062 0.465 X2 -0.092 0.367 X3 0.143 0.414 X4 0.350 0.010 X5 0.350 0.105 X6 0.352 0.090 Extraction Method: Principal Component Analysis.

 Rotation Method: Varimax with Kaiser Normalization.

 Component Scores. 问题:

 1、根据附表(2),请写出前两个特征值及其对应主成分的贡献率。

 2、根据附表(3)和(4),比较旋转前和旋转后的因子负荷矩阵,对这两个旋转后的因子的意义作一个合理的解释,尝试给两个因子命名。

 3、请指出这里的因子分析所采用的方法。

 4、根据因子得分系数矩阵即附表(6),请写出所提取的两个因子的数学表达式。

 五、简答题(20 分)

 1、 简述有交互作用的正交试验设计的表头设计原则。

 2、 试从定义上讨论判别分析和聚类分析有什么不同。

 《 应用统计学 》模拟试卷

 开课学院:

  商学院

  专业:

  考试形式:闭卷,所需时间:

 120

 分钟

 考生姓名:

 学号:

  班级:

 任课教师:

 题序 一 二 三 四

 五 总 分 得分

  评卷人

  注意:

 ① 请将答案写在答题纸上,写在试卷上无效。

 ② 本试卷计算题均精确到小数点后三位!

 二、小麦试验问题(20 分)这道题涉及的内容:

 方差分析 设有三个品种(用因素 A 表示)的小麦和两种不同的肥料(用因素 B 表示),将一定面积的地块分为 6个均等的小区,每个小区随机地试验品种和肥料 6 种组合的一种,在面积相等的四块地上进行重复试验,其小麦的产量(公斤)如下表:

 品种 肥料 1 2 3 1 9

  10

  9

  8 11

 12

 9

  8 13

 14

 15

 12 2 9

  10

  12

 11 12

 13

 11

 12 22

 16

 20

 18

 SPSS 运算结果附表:

 (1) Tests of Between-Subjects Effects Dependent Variable: Y

 Source Type III Sum of Squares df Mean Square F Sig. Corrected Model 263.333(a) 5 52.667 21.545 0.000 Intercept 3650.667 1 3650.667 1493.455 0.000 A 190.333 (

 2 )

 95.167 38.932 0.000 B 54.000 1 54.000 (22.091

  )

 0.000 A * B 19.000 ( 2

 )

 9.500 (

 3.886

  )

 0.040 Error 44.000 18 2.444

  Total 3958.000 24

 Corrected Total 307.333 23

 a

 R Squared = 0.857 (Adjusted R Squared =0.817)

 (2)

 Estimated Marginal Means 小麦产量 Mean Dependent Variable: Y

 Mean Std. Error 95% Confidence Interval Lower Bound Upper Bound 12.333 0.319 11.663 13.004

  (4) Post Hoc Tests A Homogeneous Subsets Student-Newman-Keuls

 A N Subset 1 2 1 8 9.7500

 2 8 11.0000

 3 8

 16.2500 Sig.

 0.127 1.000 Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is Mean Square(Error) = 2.444. a

 Uses Harmonic Mean Sample Size = 8.000. b

 Alpha = 0.05.

 问题:

 1、 请填写附表(1)里面空白()处,并给出计算公式。

 2、 根据附表(1)方差分析的显著性水平结果,按 0.05 检验水平,讨论各个因素的显著性。

 3 、 根据附表(2),说明里面各项指标的意义。

 我们称表 2 为 估计边际平均值,这张表用于估计小麦产量的平均值在 95%的可能性下在那个范围之内。Mean 为平均值,std error 为标准误差,最后 95%xxxxxxx 表示在 95%的情况下,平均值会在下限为 11.663,上为 13.004 之间。

 4、 根据附表(3),说明 A 因素下各个水平均值多重比较的结果。

 品种 1 和品种 2 放在 subset1 中, 它们的平均产量与 subset2 中的品种 3 有明显差异。但是对于 subset1组内来说,均数比较检验的概率,Sig 值为 0.127>0.05,即原假设无效, 品种 1 和 和 2 不存在明显产量差异。

 5、 找出最优生产条件,并说明理由。

 从表 1 的方差分析可得,总方差 307.333=190.333+54+19+44,方差很大的部分都是由品种和肥料的差异构成的,即品 种和肥料对产量影响很大,至于交互作用,可以忽略。所以我们根据表 3 选择平 均产量最高的品种,品种 3。根据 原来的表格,我们可知同一种品种,肥料 2 明显能使得小麦增产,所以我们选择肥料 2。

 所以最优生产条件,品种 3,肥料 2

 二、销售额问题(20 分)

 回归分析 某公司某种商品在 15 个地区的销售额 Y(万元)与各地区的人口1x (万人)及平均每户总收入2x (元)的有关数据如下表。

 地区 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Y 162 120 223 131 67 169 81 192 116 55 252 232 144 103 212 X1 274 180 375 205 86 265 98 330 195 53 430 372 236 157 370 X2 2450 3254 3802 2838 2347 3782 3008 2450 2137 2560 4020 4427 2660 2088 2605

 SPSS 运算结果附表:

 (1)

  Variables Entered/Removed(b) Model Variables Entered Variables Removed Method 1 X2, X1(a) . Enter a

 All requested variables entered. b

 Dependent Variable: Y

 (2) Model Summary(b) Model R R Square Adjusted R Square Std. Error of the Estimate 1 0.999(a) 0.999 0.999 2.17722 a

 Predictors: (Constant), X2, X1 b

 Dependent Variable: Y

 (3) ANOVA(b) Model

 Sum of Squares df Mean Square F Sig. 1 Regression 53844.716 2 26922.358

 0.000(a) Residual 56.884 12 4.740

  Total 53901.600 14

 a

 Predictors: (Constant), X2, X1 b

 Dependent Variable: Y (4)

 Coefficients(a) Model

 Unstandardized Coefficients Standardized Coefficients t Sig. B Std. Error Beta 1 (Constant) 3.453 2.431

 1.420 0.181 X1 0.496 0.006 0.934 81.924 0.000 X2 0.009 0.001 0.108 9.502 0.000 a

 Dependent Variable: Y

 问题:

 1、 附表(2)里面,指标 R 是什么指标,给出它的定义及其解释。

 模型摘要表,R 为 复相关系数,定义 R= 根号下(Sr/St)

 ),Sr 为 回归平方和,St 为总平方和。根据 St=Sr+Se有:R 愈大,代表残差越小,方程回归性越高。本例中计算式子为:根号下(53844.716/53901.6). 2、 求出附表(3)里面的 F 值,给出计算公式,并按 0.05 检验水平,讨论回归方程的显著性。

 构造 F 统计量,计算公式如下 Vr=Sr/fr,Ve=Se/fe,F=Vr/Ve。其中 S 表示方差,f 表示自由度。关于两者的下表,我在表格上用红笔标出来了。小 r 代表回归 regression,e 表示残差 residual。

 本例中,计算 Vr=53844.716/2=26922.358,Ve=56.884/12=4.740,所以 F=26922.358/4.740=5679.466 Sig=0.000,表示双尾检验 P=0.000,方程回归性显著。

 3、 根据附表(4),给出回归方程的表达式,按 0.05 检验水平,讨论回归系数的显著性,并估计地区 5的 销售额的残差,给出计算公式。

  解释一下表 4 的含义。表 4 为回归系数表,表头 B 下面的就是表示回归方程的参数,Constant 表示的是常数项。所以有 Y=3.453+0.496X1+0.008X2+e(e 是希腊字幕 kec,我打不出来,表示随机误差的意思)。

  我们现在看最后一列,X1,X2 系数对应的双尾检验 P 值=0.000,即至少在 99.9%的情况下,得出的

 回归方程有效。而题目要求的是 0.05 检验水平,95%的情况下有效就行了。所以很明显,通过 SPSS计算出的两个回归系数,都有显著意义。

  残差的计算公式在书上第 108 页,e=Y-Y(小帽子),意思很好理解的。下面是关于本题残差的计算。

  本题五区的观察值为 Y=67,拟合值 Y(小帽子)=3.453+0.496*86+0.008*2347=64.885,残差 e=2.115。

  四、经济发展阶段问题(20 分)

 为了研究近年来中国经济发展状况,搜集了 1989 年-2002 年中国国内生产总值(GDP)指数(上年=100),列表如下(本表按不变价格计算):

 1989 年-2003 年中国国内生产总值(GDP) 指数( 上年=100) 年份 1989 1990 1991 1992 1993 1994 1995

 指数(%) 104.1 103.8 109.2 114.2 113.5 112.6 110.5

 年份 1996 1997 1998 1999 2000 2001 2002 2003 指数(%) 109.6 108.8 107.8 107.1 107.8

 107.3

 108.0

 109.1

  (1) 请将下列直径 D(i , j) 表中的括号填上,( 无计算过程, 不给分) 。

 直径矩阵

 D(i,j) 1 2 3 4 5 6 7 1 0.000

  2 0.045 0.000

 3 18.420 14.580 0.000

  4 (72.672.607508) 54.107 12.500 0.000

 5 98.372 68.848 14.660 0.245 0.000

  6 109.413 73.552 14.728 1.287 0.405 0.000

 7 110.160 73.573 17.540 7.740 4.740 2.205 0.000 8 110.169 74.489 22.340 15.428 9.810 4.740 0.405 9 110.869 76.975 29.060 (224.393.) 15.860 8.047 1.447 10 113.749 82.420 39.175 36.340 24.393 13.352 3.968 11 118.600 89.989 51.180 49.649 34.109 19.700 7.412 12 120.397 93.305 57.109 56.189 38.289 21.894 8.180 13 123.332 97.890 64.287 63.816 43.462 24.959 9.629 14 124.164 99.572 67.440 67.167 45.340 25.740 9.779 15 124.209 99.592 67.772 67.549 45.376 25.804 10.262 所谓有序聚类法,举个体育课的例子,老师命令学生从左到右由低到高战成一排,假设这坨人的身高从左到右分别为 163,166,168,171,175,178,179,180,181,184,188,189。现在要求在不改变他们站位顺序的情况下把他们分成三类,一个自然而然的想法就是,{163,166,168},{171,175,178,179},{180,181,184,188,189}。这就是有序聚类法。

 我现在这么分类了,问题是鬼才知道这么分类好不好。所以我们引入一种检测方法:设上面人的身高从左到右分别为 x1,x2。。。。。。x12。第一组的起始元素是 x1,结束元素是 x3,计算组内平方和,这个很好计算,为了简便书写,我们令组内平方和为 d,由于第一个元素是 1,最后一个元素是 3,所以 d(1,3)就表示第一组的组内平方和。

 更一般的书写方法,就是 d(i,j),书上 p156 有说明,那么何为最优聚类呢?就是所有组的组内平方和加起来为最小的时候,就是最优聚类。

 现在我们用实例来学会计算方法:

 如果我们把 1990 年单独分一类,那么很显然,d=0。但是如果我们把 1990,和 1991 聚成一类,那么 d(1,2)=(104.1-103.95)

 2 +(103.8-103.95)

 2 =0.045,其中 103.95 为组内所有元素的平均值。

 所以不难计算出 d(1,4)等其他数值。当数据很多的时候,我们可以用计算器的统计功能(mode=sd),来帮计算组内平方和。

 ( 续) 直径矩阵

 D(i,j) 8 9 10 11 12 13 14 15 1

  2

  3

  4

  5

  6

  7

  8 0.000

 9 0.320 0.000

  10 1.627 0.500 0.000

 11 3.628 1.460 0.245 0.000

  12 3.848 1.468 0.327 0.245 0.000

 13 4.553 1.732 0.380 0.260 0.125 0.000

  14 4.557 1.780 0.580 0.530 0.260 0.245 0.000

 15 5.509 3.229 2.455 2.452 1.730 1.647 0.605 0.000

 (2) 请将下列最小目标函数 e [P (i , j )]表中的括号填上,( 无计算过程 , 不给分 ) 。

 最小目标函数 矩阵 e[P(n,k)] 2 3 4 5 6 7 8 2 0(2)

  3 0.045(3) 0(3)

 4 12.545(3) 0.045(4) 0(4)

  5 14.705(3) 0.29(4) 0.045(5) 0(5)

 6 14.773(3) 1.332(4) 0.29(6) 0.045(6) 0(6)

  7 17.585(3) (7.78 5

 (4)) 1.332(7) 0.29(7) 0.045(7) 0(7)

 8 22.385(3) 15.178(7) 1.737(7) 0.695(7) 0.29(8) 0.045(8) 0(8) 9 (29.105

 (3)) 16.22(7) 2.779(7) 1.652(8) 0.61(8) 0.29(9) 0.045(9) 10 39.22(3) 18.741(7) 5.3(7) 2.237(9) 1.195(9) 0.61(10) 0.29(10) 11 51.225(3) 21.213(8) 8.744(7) 3.024(10) 1.897(10) 0.855(10) 0.535(10) 12 57.154(3) 21.433(8) 9.512(7) 3.106(10) 1.979(10) 0.937(10) 0.617(10) 13 64.332(3) 22.138(8) 10.961(7) 3.159(10) 2.032(10) 0.99(10) 0.67(10) 14 67.485(3) 22.142(8) 11.111(7) 3.359(10) 2.232(10) 1.19(10) 0.87(10) 15 67.817(3) 23.094(8) 11.594(7) 4.966(9) 3.359(15) 2.232(15) 1.19(15) 我们由第一题的数据得到了各种 d(i,j)的值,现在是把它们求和的时候了,为了偷懒,我们用一个方便表达式子 e[P(n,k)]来表达。

  比如 e[P(2,2)]表示总共 2 个元素,把分为两类,那么显然是一个元素一组,组内平方和之和一定是鸭蛋。

  e[P(3,2)]表示总共 3 个元素,把它们分为两类,求出来的所有组内平方和之和。那么这就有文章可做了。

 我们可以选择 1,2 分一类,3 单独分一类,也可以选择 1 单独分一类,2,3 分一类。那么第一种选择,我们查表得总和是 d(1,2)+d(3,3)=0.045+0=0.045。第二种分法总和是 d(1,1)+d(2,3)=0+14.580=14.580.

 那么我们该选哪一个呢?运筹学里面我们学过,要想最后的总和为最优,必然每一步都是最优解。那么我 们 要 求 所 有 组 内 平 方 和 之 和 最 小 , 显 然 每 次 分 类 , 我 们 都 要 取 最 小 , 也 就 是e[P(3,2)]=min{0.045,14.580}=0.045,我们选择分类方法便是 1,2 分一类,3 单独分一类。

 对于题目中的要求 e[(9,2)]=min{d(1,1)+d(2,9),d(1,2)+d(3,9),。。。。。。d(1,8)+d(9,9)}= {0+76.975,0.045+29.06,18.42+24.393。。。。。。。。},不难看出,选择 d(1,2)+d(3,9)为最优解,e[(9,2)]=29.105

 总共分两组,第二组(即最后一组)的起始元素为第三个,所以我们填入 29.105(3)

 第二个空,e[(7,3)]=min{e[P(2,2)]+d(3,7),e[P(3,2)]+d(4,7),……e[P(6,2)]+d(7,7)}=min{0+17.54,0.045+7.740,…….14.733+0}=7.785,我们从计算式中不难看出,最优分配,是 将前面三个元素分成两组,后面第四到第七个元素分成第三组,由于第三组(最后一组)是从元素 4 开始起分的,所以我们应当填入的是 7.785(4)。

 所以 e[P(7,3)]的最优聚类法是,1,2 分一类,3 分一类,4 到 7 分一类,最小组内平方和之和为 7.785

  ( 续) 最小目标函数 矩阵

  (3) 试给出k=5 的分类情况。

 前面(2)已经给出了详细的选取最优的过程,现在我们来从表中找到最优组。

 首先在组内找到 e[P(15,5)]=4.966(9),所以第一步就可得,分五组,最后一组为 9-15。

 我们再看剩下 1-8 个元素的最优分配,我们找到 e[P(8,4)]=

 1.737(7),即 8 组分四组,最优分配时,最后一组为 7-8。

  以此类推,我们得到 6 个元素分 3 组,最后组,为 4-6。

  。。。。

  结论,最优分配法为 1-2,3,4-6,7-8,9-15 四、学生成绩分析问题(20 分)

 记录 10 个学生的数学、物理、化学、语文、历史、英语的成绩,分别用1 2 3 4 5 6, , , , , x x x x x x 表示,得数e[P(n,k)] 9 10 11 12 13 14 15 2

 3

 4

 5

 6

 7

 8

 9 0(9)

  10 0.045(10) 0(10)

 11 0.29(11) 0.045(11) 0(11)

  12 0.372(10) 0.29(12) 0.045(12) 0(12)

 13 0.425(10) 0.305(11) 0.17(12) 0.045(13) 0(13)

  14 0.625(10) 0.425(14) 0.305(14) 0.17(14) 0.045(14) 0(14)

 15 0.87(15) 0.625(15) 0.425(15) 0.305(15) 0.17(15) 0.045(15) 0(15)

 据见下表所示。对其做 主成分分析。

  10 名男中学生的身高、胸围及体重数据 学生 代码 数学 x1 物理 x2 化学 x3 语文 x4 历史 x5 英语 x6 1 65 61 72 84 81 79 2 77 77 76 64 70 55 3 67 63 49 65 67 57 4 80 69 75 74 74 63 5 74 70 80 84 81 74 6 78 84 75 62 71 64 7 66 71 67 52 65 57 8 77 71 57 72 86 71 9 83 100 79 41 67 50 10 80 92 65 71 67 76

 SPSS 运算结果附表:

 (1)

 Communalities

 Initial Extraction X1 1.000 0.803 X2 1.000 0.849 X3 1.000 0.555 X4 1.000 0.911 X5 1.000 0.763 X6 1.000 0.790 Extraction Method: Principal Component Analysis. 这张表表示因子分析后,提取2个公因子(后面表有说明是两个比较合适),原来变量和这两个公因子的变量共同度,即这两个公因子数值发生变化,其实代表了原来x1~x6发生了多少变化,但是我们也看到,压缩成两个公因子后,原来6个因子中,x3的对应变化程度较少,即提取公因子后,x3流失的信息较多,其他的变量还算凑合。

 ( (2 )

 Total Variance Explained Component Initial Eigenvalues Extraction Sums of Squared Loadings Total % of Variance Cumulative % Total % of Variance Cumulative % 1 3.049 50.820 50.820 3.049 50.820 50.820 2 1.623 27.054 77.874 1.623 27.054 77.874 3 .670 11.161 89.035

 4 .427 7.112 96.146

 5 .214 3.565 99.711

 6 .017 .289 100.000

 Extraction Method: Principal Component Analysis. 解释一下为什么提出两个公因子,而不是 3 个,4 个。从原始的方差贡献率我们可以得知,分数的变化,有 50.820%是由数学引起的,其次是物理,占了 27.054%,加起来共有 77.874%。其余的单个因子方差贡献率都较小,所以我们压缩原来 6 个因子,变成两个。

 (3)

  Component Matrix(a)

 Component

 1 2 X1 -.557 0.702 X2 -.811 0.438 X3 -.263 0.697 X4 0.905 0.302 X5 0.758 0.435 X6 0.786 0.415 Extraction Method: Principal Component Analysis. a

 2 components extracted. 这是因子载荷矩阵,第一个因子主要受 x2,x4,x5,x6 影响较大,第二个因子都差不多,这样的因子分析结果不好解释,所以我们要做旋转,于是就有了表 4 (4)Rotated Component Matrix(a)

 Component 1 2 X1 -.125 0.887 X2 -.477 0.789 X3 0.126 0.734 X4 0.934 -.198 X5 0.874 -.010 X6 0.888 -.040 Extraction Method: Principal Component Analysis.

 Rotation Method: Varimax with Kaiser Normalization. a

 Rotation converged in 3 iterations. 进过旋转之后,答案变得特别明显,因子 1 主要受原来因子 x4,x5,x6 影响较大,因子 2 主要收 x1,x2,x3 影响较大。结合 x1~到 x6 的实际意义, 我们把因子 1 命名为文科成绩,因子 2 为理科成绩。

 ( (5)

 )

 Component Transformation Matrix Component 1 2 1 0.862 -0.507 2 0.507 0.862 Extraction Method: Principal Component Analysis.

  Rotation Method: Varimax with Kaiser Normalization. 因子旋转公式,了解就行了 ( (6)

 )

 Component Score Coefficient Matrix

 Component 1 2 X1 0.062 0.465 X2 -0.092 0.367 X3 0.143 0.414 X4 0.350 0.010 X5 0.350 0.105 X6 0.352 0.090 Extraction Method: Principal Component Analysis.

 Rotation Method: Varimax with Kaiser Normalization.

 Component Scores. 旋转后的因子得分系数矩阵 问题:

 1、根据附表(2),请写出前两个特征值及其对应主成分的贡献率。

 Component Initial Eigenvalues Total % of Variance Cumulative % 1 3.049 50.820 50.820 2 1.623 27.054 77.874 特征值为 3.049 和 1.623,贡献率分别为 50.820%和 27.054% 2、根据附表(3)和(4),比较旋转前和旋转后的因子负荷矩阵,对这两个旋转后的因子的意义作一个合理的解释,尝试给两个因子命名。

 表下面的说明即答案 3、请指出这里的 因子分析所采用的方法。

 主成分和方差最大正交旋转 4、 根据因子得分 系数矩阵即附表(6 ),请写出所提取的两个因子的数学表达式。

 因子 f1=0.062x1+-0.092x2+。。。。。0.352x6 同理得 f2 五、简答题(20 分)

 1、 简述有交互作用的正交试验设计的表头设计原则。

 自己动手,丰衣足食,书 p69 2、 试从定义上讨论判别分析和聚类分析有什么不同 我们已知刘翔和姚明,所以我们把设两个组,一个是跑步组,刘翔入选,还有一个是篮球组,姚明入选。这就是聚类分析。

 判别分析就是给你一个史冬鹏,再给你个易建联,你判断前者跑步,后者打球。你把史冬鹏扔到跑步组,易建联扔到篮球组,这就是判别分析。

推荐访问:统计学 模拟试题 期末