中国城镇居民2003年可支配收入分析
摘要:本文通过对影响可支配收入因素的分析,并结合各种检验方法,得到计量经济模型,以此了解各个地区的发展程度且做出分析。
关键字:可支配收入 个人所得税 社会保障补贴
第一部分 建模的目的及其经济意义
建立本模型的目的:通过对中国东北三省、长江中下游及沿海地区的城镇居民的人均可支配收入占总收入的比率的估计,可了解这些地区的经济发展状况。
其经济意义是:
1 通过对各个地区人均可支配收入占总收入比率的分析,可得各个地区的发展程度以及它们之间的差别;为各地区政府来年制定经济规划提供参考,分析各项利弊得失并找出症结所在,保证政策的合理性。
2 人均可支配收入占总收入的比率还可作为各地区政府工作绩效考核指标,形成各地区间的良性竞争。
3 该模型也可对企业的投资和经营提供参考,使优势资源得到合理配置。
第二部分 数据的取得
模型所用数据均取自《2004中国统计年鉴》及《2004中国人口年鉴》。
现对所用数据做以下说明:
1 依照研究的目的,我们选择了17个省及直辖市作为研究地区来估计模型,它们分布在东北三省、长江中下游及沿海地区,这样减小了由地区性差异带来的误差。
2 所选项目包括:城镇居民人均可支配收入、城镇居民人均社会保障补贴、城镇居民人均个人所得税、城市人口等。
3 由于所得税的征收时间不长且年鉴中的数据多以年为统计单位,为了保证取得充足的数据,我们选择了截面数据而非时间序列数据进行估计。
4 由于统计年鉴上福利补贴项目的数据是按各个城市的补贴总数来统计的,而模型中需要用到的是人平均数。因此,我们用补贴总数除以该地区城镇居民总人数,求得近似值来估计。(注:该福利补贴是指养老保险、住房公积等项目的加总,不考虑农村人口)
第三部分 模型建立
首先,在选择解释变量时,我们最初考虑到了通货膨胀率对可支配收入的影响,因为模型中的城镇居民可支配收入是一个名义收入,而从现实经济生活来看,实际可支配收入才能真正表现出居民的实际购买力,才是一个具有实际经济意义的变量。但是,我们加入这个解释变量时遇到了问题,因为实际可支配收入=名义可支配收入*(1—通货膨胀率),就目前中国的经济情况来看,居民对通货膨胀的敏感度不高,而且我们用的是截面数据,通货膨胀率对这个模型的影响可以忽略不计,因此在建立模型时我们剔除了这个解释变量。
其次,我们还考虑到了就业率对居民可支配收入的影响,一个地区的就业情况越好,那么该地区的居民收入也会越多,而可支配收入也会随之增加。但在收集资料的过程中我们发现就业率统计口径并不一致,而且本文模型所要求的是城镇居民的就业率,而统计数据是以一个地区的所有居民为基础的,因此我们不能采用它作为解释变量。
第三,我们主要是想模拟在一年之中中国东北三省、长江中下游及沿海地区的城镇人均可支配收入与其总收入、个人所得税和社会保障补贴之间的关系。
我们选择的被解释变量是:城镇人均可支配收入YD
我们选择的解释变量是:城镇人均总收入Y
城镇人均个人所得税T
城镇人均社会保障补贴E
我们所用的模型为:
经济意义如下:
⑴这里的城镇人均总收入是指城镇居民的劳动收入以及其他的非劳动收入,但其中不包括政府的补贴。因此,可支配收入YD与其总收入Y是成正比的关系:即Y增加,YD也应增加,也即是说系数应该为正。
⑵这里的T是指城镇居民上缴的个人所得税。因此YD与T成反比的关系:即T增加,YD应减少,即是说系数应该为负。个人所得税和人均总收入之间可能存在多重共线性,这是因为国家在征收个人所得税时是以居民的总收入作为税基的,因此总收入的变化要引起个人所得税的变化,二者存在着密切的关联度。
⑶这里的E是指政府补贴给城镇居民的社会保障补贴。因此YD与E成正关系:即E增加,YD也应增加,即是说系数应该为正。政府补贴与人均总收入应该也存在一定程度上的共线性。
第四、为了估计,我们选用的数据如表1:
省份\项目 城镇居民人均可支配收入YD(元) 城镇居民人均总收入Y(元) 城镇居民人均个人所得税T(元) 城镇居民人均社会保障支出E(元)
北京 13882.62 14959.3 5878.612824 131.6296753
天津 10312.91 10971.57 221.0705467 485.0952381
河北 7239.06 7608.43 140.1560207 433.1628949
辽宁 7240.58 7832.7 112.2632607 608.3262641
吉林 7005.17 7311.23 69.28470004 439.858005
黑龙江 6678.9 6968.01 88.25094446 498.5555823
上海 14867.49 16380.24 504.3380855 232.664513
江苏 9262.46 9912.14 178.1565287 150.6242513
浙江 13179.53 14295.38 287.2976534 138.2300163
安徽 6778.03 7155.91 75.76353774 451.5564954
福建 9999.54 10816.32 206.7224275 82.38864034
江西 6901.42 7153.65 83.08175383 473.2484586
山东 8399.91 9057.58 108.5103189 144.0304357
湖北 7321.98 7745.77 69.64209888 294.492569
湖南 7674.2 8145.07 135.1655924 531.9226495
广东 12380.43 13451.13 440.901647 172.1731646
海南 7259.25 7605.69 143.9720352 451.9368203
表1 统计资料
第四部分 模型检验
⑴ 先对17个数据进行回归分析
用OLS方法回归得到表2
Dependent Variable: YD
Method: Least Squares
Date: 06/03/05 Time: 16:00
Sample: 1 17
Included observations: 17
Variable Coefficient Std. Error t-Statistic Prob.
C 496.4948 132.2305 3.754767 0.0024
Y 0.880863 0.009502 92.70286 0.0000
T 0.034601 0.016819 2.057219 0.0603
E 0.036798 0.157264 0.233986 0.8186
R-squared 0.999303 Mean dependent var 9199.028
Adjusted R-squared 0.999142 S.D. dependent var 2763.035
S.E. of regression 80.91209 Akaike info criterion 11.82693
Sum squared resid 85107.96 Schwarz criterion 12.02298
Log likelihood -96.52889 F-statistic 6215.012
Durbin-Watson stat 2.477990 Prob(F-statistic) 0.000000
表2
从表2中可以看到税收的参数的估计值=0.034601>0,这与我们开始所估计的有出入。究其原因我们发现,北京的数据与其他地区的数据差距太大,因此我们去掉了这个异常数据――北京的数据,而只采用了16个数据。
⑵ 对这16个数据进行回归分析
将数据录入后用OLS法对模型 进行回归,得到表3
Dependent Variable: YD
Method: Least Squares
Date: 06/03/05 Time: 16:10
Sample: 2 17
Included observations: 16
Variable Coefficient Std. Error t-Statistic Prob.
C 444.3489 211.2652 2.103276 0.0572
Y 0.888794 0.026366 33.71024 0.0000
T -0.136476 0.527820 -0.258566 0.8004
E 0.057331 0.174840 0.327903 0.7486
R-squared 0.999146 Mean dependent var 8906.304
Adjusted R-squared 0.998933 S.D. dependent var 2567.006
S.E. of regression 83.84934 Akaike info criterion 11.90824
Sum squared resid 84368.55 Schwarz criterion 12.10139
Log likelihood -91.26591 F-statistic 4682.238
Durbin-Watson stat 1.870753 Prob(F-statistic) 0.000000
表3
由表3我们看到,和很大,且F值显著大于给定显著性水平(α=0.05)下的临界值,而变量对应的偏回归系数的t值不显著,因此我们怀疑该模型存在多重共线形。
⑶ 对该模型进行多重共线性检验:
检验方法:相关系数矩阵法,得到表4
Y T E
Y 1.000000 0.941332 -0.629425
T 0.941332 1.000000 -0.497713
E -0.629425 -0.497713 1.000000
表4
从表4可以看出Y与T具有较强的相关性,两者的相关系数达到了0.941332,且Y与E相关系数为 -0.629425,说明该模型存在多重共线性。因此我们对该模型进行了修正。
修正方法:比率法――我们对解释变量和被解释变量重新定义
令 YD1=Yd/Y
T1=T/Y
E1=E/Y
各个变量的经济意义如下:
YD1 可支配收入在总收入中占的比重
T1 个人所得税在总收入中占的比重
E1 社会保障补贴在总收入中占的比重
将模型修正为
其中,为T1对YD1的影响程度;为E1对YD1的影响程度。
⑷ 对修正模型进行OLS回归得到表5:
Dependent Variable: YD1
Method: Least Squares
Date: 06/03/05 Time: 16:14
Sample: 2 17
Included observations: 16
Variable Coefficient Std. Error t-Statistic Prob.
C 0.940747 0.012686 74.15477 0.0000
T1 -0.922888 0.490180 -1.882753 0.0823
E1 0.330481 0.131782 2.507780 0.0262
R-squared 0.623324 Mean dependent var 0.938916
Adjusted R-squared 0.565374 S.D. dependent var 0.016573
S.E. of regression 0.010926 Akaike info criterion -6.028021
Sum squared resid 0.001552 Schwarz criterion -5.883160
Log likelihood 51.22416 F-statistic 10.75620
Durbin-Watson stat 1.519451 Prob(F-statistic) 0.001753
表5
⑸ 对修正模型拟合优度的检验
由表5可得:可决系数为=0.623324,=0.565374
虽然可决系数和修正的可决系数比较低,但是考虑到经济意义,我们仍然接受这样的可决系数程度。
⑹ 对修正模型回归参数的显著性检验
检验方法:t检验法
在显著性水平为α=0.1下,自由度为n-k=16-3=13
查t分布表有,(13)=1.782
由表5有:
= -1.882753<-,但t值偏小。这是因为中国个人所得税开征比较晚,个人所得税的征收还不完善、统计也不完善,由此造成一定的制度性误差和统计误差,而这部分误差是不可避免和消除的。
= 2.507780>,显著不为0的。
⑺ 对修正模型回归方程的显著性检验
检验方法:F检验法
在显著性水平为α=0.05下,自由度为(k-1,n-k)=(2,13)
查F分布表,有(2,13)=3.81
由表5,F=10.75620>(2,13),因此我们认为方程具有整体显著性。
⑻ 对修正模型的多重共线性进行检验
检验方法:相关系数矩阵法,得到表6
T1 E1
T1 1.000000 -0.549320
E1 -0.549320 1.000000
表6
由上表我们可以看出T1与E1之间的相关系数为-0.549320,因此我们可以认为此模型已不存在多重共线性。
⑼ 对修正模型的异方差性进行检验
检验方法为:Goldfeld-Quandt检验法
截取第一部分样本2-6,进行OLS回归,得到=0.000145
截取第二部分样本13-17,进行OLS回归,得到= 0.000120
计算F统计量: F==0.827586
查F分布表,给定显著性水平α=0.05,得到临界值(3,3)=9.28>F,则接受:,表明随机误差项不存在显著异方差性。
⑽ 对修正模型的自相关性进行检验
检验方法:图示法和D-W检验法
①图示法:绘制和的二维坐标图如下
②D-W检验法:
给定显著性水平α=0.01,=2,n=16,查表可得:
=0.737,=1.252,4-=2.748
由表5可以得到,DW=1.519451 ,因此可以得出 <DW<4-
表明修正模型随即误差项不存在自相关性。
⑾ 最终回归模型
= 0.940747 - 0.922888T1 + 0.330487E1
t= (74.15477) (-1.882753) (2.507780)
=0.565374 F=10.75620
⑿ 带入数据检验
①上海:T1=0.030789 E1=0.014204 YD1=0.907648
将T1和E1代入回归方程=0.917026
误差为1.059%
②河南:T1=0.0096667 E1=0.033261 YD1=0.955986
将T1和E1代入回归方程=0.942817
误差为-1.378%
③四川:T1=0.013441 E1=0.050172 YD1=0.940359
将T1和E1代入回归方程=0.944924
误差为0.485%
④广西:T1=0.015446 E1=0.032949 YD1=0.938646
将T1和E1代入回归方程=0.937381
误差为-0.135%
通过以上检验,我们看到模型的估计值与真实值之间差别不大,说明该模型做出的估计在实际操作中是有效的。我们可以借此估算当地经济情况,为来年规划提供参考。
第五部分 总结
我们最终的回归模型为:
= 0.940747 - 0.922888T1 + 0.330487E1
t= (74.15477) (-1.882753) (-1.882753)
=0.565374 F=10.75620
由以上模型可知,可支配收入在总收入中占的比重(YD1)与个人所得税在总收入中占的比重(T1)成反比的关系:即T1增加,YD1减少,T1的系数为负,与经济意义相符。YD1与社会保障补贴在总收入中占的比重(E1)成正比关系:即E1增加,YD1也增加,E1的系数为正,与经济意义相符。
综上,修正的模型比较符合现实经济意义。
在资料搜集和模型建立检验的过程中,由于我们知识有限、经验不足,难免会出现一些问题,望老师批评指正。