摘要:本文主要通过对中国各级各类学校在校学生总数的变动进行多因素分析,建立以在校学生总数为应变量,以其它可量化影响因素为自变量的多元线性回归模型,并利用模型对在校学生总数进行数量化分析,观察各因素是如何分别影响在校学生总数的。
关键词:在校学生总数 多因素分析 模型 计量经济学 检验
一、引言部分
改革开放以来,中国的教育事业取得了长足的发展,各项教育指标都较以往有了很大提高,受教育的人数也是逐年上升,文盲比例直线下降。随着有知识、有文化的人数的不断增加,中国的经济也随之高速发展,众多毕业生们在各行各业上表现都十分出色,取得了一系列令人瞩目的成就。
二、研究目的
本文主要对中国在校学生总数(应变量)进行多因素分析(具体分析见下图),并搜集相关数据,建立模型,对此进行数量分析。在得到在校学生总数与各主要因素间的数量关系后,据模型方程中的各因素系数大小,分析各因素的重要性,并找出影响在校学生总数最大的因素。
影响在校学生总数变动的主要影响因素如下图:
人口总数 ——————这是影响在校学生总数的一个重要因素
学校总数 ——————这也是影响在校学生总数的重要因素
人均GDP ——————我认为这个因素同样重要
(注:1.由于其他因素或是不好量化,或是数据资料难于查找,故为了分析的简便,这里仅用此三个因素来进行回归分析。
2.学校总数包括普通高等学校、普通中等学校、小学、特殊教育学校和幼儿园等,故学生总数也是以上学校的人数之和。)
三、建立模型
Y=α+β1X1+β2X2+β3X3+u
其中,Y—在校学生总数(应变量) X1——人口总数(解释变量)
X2 ——各级各类学校总数(解释变量) X3 ——人均GDP(解释变量)
(注:有关模型的一些假定:
(1)假定不考虑学生转学的影响。
(2)假定各统计量计算准确。
四、数据搜集
数据说明
在这里,使用同一地区(即中国)的时间序列数据进行拟合。
数据的搜集情况
采用1985年到2003年的时间序列数据,具体情况见表一。
表一:
obs X1(人口总数/万) X2(学校总数/万) X3(人均GDP/元) Y(学生总数/万)
1985 105851 11.1081 853 20117
1986 107507 11.00635 956 20325.8
1987 109300 10.90899 1104 20248
1988 111026 10.71226 1355 19848.8
1989 112704 10.54347 1512 19489.4
1990 114333 10.40992 1634 19532.5
1991 115823 9.94932 1879 19813.2
1992 117171 9.85393 2287 20215.3
1993 118517 9.6081 2939 20627.9
1994 119850 9.56128 3923 21461
1995 121121 9.46772 4854 22418.1
1996 122389 9.29882 5576 23251.2
1997 123626 9.06617 6054 23861.1
1998 124761 8.85622 6308 24074.2
1999 125786 8.61273 6551 24327.6
2000 126743 8.25667 7086 24369.9
2001 127627 7.01097 7651 24224.4
2002 128453 6.62013 8214 24389.3
2003 129227 6.34737 9101 24452.5
五、模型的参数估计、检验及修正
1.模型的参数估计及其经济意义、统计推断的检验
利用EVIEWS软件,用OLS方法估计,得:(见表二)
表二:
Dependent Variable: Y
Method: Least Squares
Date: 06/07/05 Time: 09:35
Sample: 1985 2003
Included observations: 19
Variable Coefficient Std. Error t-Statistic Prob.
C 18008.66 4856.655 3.708038 0.0021
X1 -0.080341 0.038584 -2.082241 0.0549
X2 851.4523 174.1777 4.888410 0.0002
X3 1.324234 0.124800 10.61084 0.0000
R-squared 0.978300 Mean dependent var 21949.85
Adjusted R-squared 0.973960 S.D. dependent var 2024.050
S.E. of regression 326.6198 Akaike info criterion 14.60013
Sum squared resid 1600207. Schwarz criterion 14.79896
Log likelihood -134.7013 F-statistic 225.4140
Durbin-Watson stat 1.074996 Prob(F-statistic) 0.000000
Y=18008.66-0.080341X1+851.4523X2+1.324234X3 (1.1)
(3.708038)(-2.082241)(4.888410)(10.61084)
R2=0.978300 R2 =0.973960 F=225.4140
可见。X1, X2, X3的t值均是显著的,表明人口总数、学校总数、人均GDP都是影响在校学生总数的主要因素。X2, X3的系数符合经济意义,但X1的系数不符合经济意义,因为从经济意义上讲,在校学生的总人数应该都是随着人口总数(X1)、学校总数(X2)、人均GDP(X3)的增加而增加的。另外,可决系数为0.978300,修正可决系数为0.973960,都比较大,说明模型的拟合程度较高,而F值为225.4140,说明模型总体是显著的。
2.计量经济学检验
(1)多重共线性检验
用EVIEWS软件,得相关系数矩阵表:
X1 X2 X3
X1 1.000000 -0.926023 0.962222
X2 -0.926023 1.000000 -0.950977
X3 0.962222 -0.950977 1.000000
由上表可以看出,解释变量X1与X3之间高度正相关,X1与X2,X2与X3之间高度负相关,可见存在严重的多重共线性。下面用逐步回归法进行修正:
,用OLS法逐一求Y对各个解释变量的回归。
Dependent Variable: Y
Method: Least Squares
Date: 06/07/05 Time: 11:14
Sample: 1985 2003
Included observations: 19
Variable Coefficient Std. Error t-Statistic Prob.
C -7419.832 3436.949 -2.158843 0.0454
X1 0.246715 0.028819 8.560869 0.0000
R-squared 0.811715 Mean dependent var 21949.85
Adjusted R-squared 0.800639 S.D. dependent var 2024.050
S.E. of regression 903.7356 Akaike info criterion 16.55025
Sum squared resid 13884548 Schwarz criterion 16.64967
Log likelihood -155.2274 F-statistic 73.28848
Durbin-Watson stat 0.213248 Prob(F-statistic) 0.000000
Y=-7419.832+0.246715X1
(-2.158843) (8.560869)
R2=0.811715 S.E.=903.7356 F=73.28848
Dependent Variable: Y
Method: Least Squares
Date: 06/07/05 Time: 11:17
Sample: 1985 2003
Included observations: 19
Variable Coefficient Std. Error t-Statistic Prob.
C 33176.35 1653.650 20.06249 0.0000
X2 -1203.754 175.3386 -6.865308 0.0000
R-squared 0.734924 Mean dependent var 21949.85
Adjusted R-squared 0.719331 S.D. dependent var 2024.050
S.E. of regression 1072.306 Akaike info criterion 16.89231
Sum squared resid 19547273 Schwarz criterion 16.99173
Log likelihood -158.4770 F-statistic 47.13246
Durbin-Watson stat 0.296483 Prob(F-statistic) 0.000003
Y=33176.35-1203.754X2
(20.06249) (-6.865308)
R2=0.734924 S.E.=1072.306 F=47.13246
Dependent Variable: Y
Method: Least Squares
Date: 06/07/05 Time: 11:19
Sample: 1985 2003
Included observations: 19
Variable Coefficient Std. Error t-Statistic Prob.
C 19004.71 228.1673 83.29286 0.0000
X3 0.700899 0.045610 15.36739 0.0000
R-squared 0.932848 Mean dependent var 21949.85
Adjusted R-squared 0.928898 S.D. dependent var 2024.050
S.E. of regression 539.7130 Akaike info criterion 15.51925
Sum squared resid 4951933. Schwarz criterion 15.61867
Log likelihood -145.4329 F-statistic 236.1566
Durbin-Watson stat 0.344201 Prob(F-statistic) 0.000000
Y=19004.71+0.700899X3
(83.29286) (15.36739)
R2=0.932848 S.E.=539.7130 F=236.1566
经分析可见,在三个一元回归模型中,在校学生总数Y对人均GDP X3的线性关系强,拟合程度好,即:
Y=19004.71+0.700899X3 (1.2)
(83.29286) (15.36739)
R2=0.932848 S.E.=539.7130 F=236.1566
逐步回归。将其余解释变量逐一带入式1.2中,得如下几个模型:
Dependent Variable: Y
Method: Least Squares
Date: 06/07/05 Time: 11:28
Sample: 1985 2003
Included observations: 19
Variable Coefficient Std. Error t-Statistic Prob.
C 30370.24 6464.951 4.697675 0.0002
X1 -0.104918 0.059646 -1.758998 0.0977
X3 0.968434 0.158066 6.126760 0.0000
R-squared 0.943729 Mean dependent var 21949.85
Adjusted R-squared 0.936696 S.D. dependent var 2024.050
S.E. of regression 509.2583 Akaike info criterion 15.44773
Sum squared resid 4149504. Schwarz criterion 15.59685
Log likelihood -143.7534 F-statistic 134.1703
Durbin-Watson stat 0.430949 Prob(F-statistic) 0.000000
Y=30370.24-0.104918X1+0.968434X3 (1.3)
(4.697675) (-1.758998) (6.126760)
R2=0.936696 S.E.=509.2583 F=134.1703
Dependent Variable: Y
Method: Least Squares
Date: 06/07/05 Time: 11:33
Sample: 1985 2003
Included observations: 19
Variable Coefficient Std. Error t-Statistic Prob.
C 8767.146 2167.897 4.044078 0.0009
X2 898.7100 189.8429 4.733966 0.0002
X3 1.142595 0.098113 11.64566 0.0000
R-squared 0.972028 Mean dependent var 21949.85
Adjusted R-squared 0.968531 S.D. dependent var 2024.050
S.E. of regression 359.0565 Akaike info criterion 14.74878
Sum squared resid 2062745. Schwarz criterion 14.89790
Log likelihood -137.1134 F-statistic 277.9958
Durbin-Watson stat 0.751167 Prob(F-statistic) 0.000000
Y=8767.146+898.7100X2+1.142595X3 (1.4)
(4.044078) (4.733966) (11.64566)
R2=0.968531 S.E.=359.0565 F=277.9958
在式1.3中X1对Y的影响并不显著,故将X1删去,得如下模型:
Dependent Variable: Y
Method: Least Squares
Date: 06/07/05 Time: 11:33
Sample: 1985 2003
Included observations: 19
Variable Coefficient Std. Error t-Statistic Prob.
C 8767.146 2167.897 4.044078 0.0009
X2 898.7100 189.8429 4.733966 0.0002
X3 1.142595 0.098113 11.64566 0.0000
R-squared 0.972028 Mean dependent var 21949.85
Adjusted R-squared 0.968531 S.D. dependent var 2024.050
S.E. of regression 359.0565 Akaike info criterion 14.74878
Sum squared resid 2062745. Schwarz criterion 14.89790
Log likelihood -137.1134 F-statistic 277.9958
Durbin-Watson stat 0.751167 Prob(F-statistic) 0.000000
从上表可以看出,在删去X1后,模型的统计检验效果均有较大改善。
Y=8767.146+898.7100X2+1.142595X3
(4.044078) (4.733966) (11.64566)
R2=0.968531 S.E.=359.0565 F=277.9958
(2)异方差检验(ARCH检验)
利用Y对X回归所得残差平方E2(=Resid^2)在OLS对话框的Estimate Equation 栏里键入E2 C E2(-1) E2(-2) E2(-3) 可输出结果:
Dependent Variable: E2
Method: Least Squares
Date: 06/07/05 Time: 11:56
Sample(adjusted): 1988 2003
Included observations: 16 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
C 103667.6 47344.29 2.189653 0.0490
E2(-1) 0.045274 0.297170 0.152349 0.8814
E2(-2) -0.247963 0.234276 -1.058423 0.3107
E2(-3) 0.057059 0.244642 0.233235 0.8195
R-squared 0.085889 Mean dependent var 87868.45
Adjusted R-squared -0.142638 S.D. dependent var 83723.94
S.E. of regression 89496.09 Akaike info criterion 25.85410
Sum squared resid 9.61E+10 Schwarz criterion 26.04724
Log likelihood -202.8328 F-statistic 0.375838
Durbin-Watson stat 1.836162 Prob(F-statistic) 0.772076
计算有(n-p)R2=13×0.085889=1.116557,查 分布表,给定α=0.05,自由度为P=3,得临界值 0.05(3)=7.81,因为(n-p)R2=1.116557< 0.05(3)=7.81,所以接受H0,表明模型中随机误差项不存在异方差。
(3)自相关检验(DW检验)
如下表:
Dependent Variable: Y
Method: Least Squares
Date: 06/07/05 Time: 11:33
Sample: 1985 2003
Included observations: 19
Variable Coefficient Std. Error t-Statistic Prob.
C 8767.146 2167.897 4.044078 0.0009
X2 898.7100 189.8429 4.733966 0.0002
X3 1.142595 0.098113 11.64566 0.0000
R-squared 0.972028 Mean dependent var 21949.85
Adjusted R-squared 0.968531 S.D. dependent var 2024.050
S.E. of regression 359.0565 Akaike info criterion 14.74878
Sum squared resid 2062745. Schwarz criterion 14.89790
Log likelihood -137.1134 F-statistic 277.9958
Durbin-Watson stat 0.751167 Prob(F-statistic) 0.000000
DW=0.751167,给定显著性水平α=0.05,查Durbin-Watson表,n=19,k’(解释变量个数)=2,得下限临界值dL=1.074, 得上限临界值dU=1.536,因为DW=0.751167< dL=1.074,表明该模型中的随机误差项存在一阶自相关。
修正:
由DW=0.751167,根据 =1-DW/2,计算得 =0.6244165。用GENR分别对X2,X3,Y作广义差分。即:
GENR DY=Y-0.6244165*Y(-1)
GENR DX2=X2-0.6244165*X2(-1)
GENR DX3=X3-0.6244165*X3(-1)
然后用OLS法估计其参数,得:
Dependent Variable: DY
Method: Least Squares
Date: 06/07/05 Time: 14:27
Sample(adjusted): 1986 2003
Included observations: 18 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
C 4280.720 961.7784 4.450838 0.0005
DX2 662.8625 223.5812 2.964750 0.0096
DX3 1.015508 0.125562 8.087701 0.0000
R-squared 0.907309 Mean dependent var 8432.644
Adjusted R-squared 0.894950 S.D. dependent var 847.5201
S.E. of regression 274.6929 Akaike info criterion 14.22020
Sum squared resid 1131843. Schwarz criterion 14.36859
Log likelihood -124.9818 F-statistic 73.41407
Durbin-Watson stat 1.016041 Prob(F-statistic) 0.000000
DY=4280.720+662.8625DX2+1.015508DX3
(4.450838) (2.964750) (8.087701)
R2=0907309 F=73.41407 DW=1.016041
可以看到,使用广义差分法后,DW值有所提高,但仍存在自相关。
六、模型的分析及结论
进行一系列检验和修正后得最终结果:
Y=8767.146+898.7100X2+1.142595X3
(4.044078) (4.733966) (11.64566)
R2=0.972028 R2=0.968531 F=277.9958
从模型中可看出:
X2、X3是符合经济意义的检验的。因为从经济意义上讲,在校学生总数随学校总数的增加而增加,随人均GDP的增加而增加。且人均GDP是影响在校学生总数的最重要的因素。
模型表明:在校学生总数仅与学校总数和人均GDP有明显的相关关系,与人口总数无明显的相关关系(但我觉得人口总数应该还是要影响学生人数的)。
但也有一些政策性因素被忽略了,例如99年开始的高校扩招。
模型的修正可决系数及F值均很高,模型的拟合优度不错。
由上述分析可知,这个模型应该说还是比较成功的。
参考文献:
《中国统计年鉴2004》
在校学生总数变动的多因素分析由毕业论文网(www.huoyuandh.com)会员上传。