基于Hedonic模型的成都住宅价格影响因素分析
摘要:近年来,如何准确的对住宅项目定价,已成为受到各界普遍关注的热点。本文结合住宅市场的发展及影响其价格构成的因素,筛选出了影响筛选出影响最大的几个因素,又借鉴了现有关于Hedonic定价的理论方法和研究经验,尝试构建成都市商品住宅价格的Hedonic模型。并以成都市2005年春季房交会上提供的相关数据为基础,对模型进行了拟和分析,得出了相关计量经济学模型。
Hedonic模型简述
Hedonic意即“享乐”,hedonic模型则是基于效用论的一个定价模型。该模型从消费者(生产者)的主观角度出发,通过对商品的属性的评估来定价。
Hedonic模型应用的对象是那些所谓的复杂的耐用商品,这些商品并不像平时在经济学教科书上讨论的商品那样简单,其价格由总的供求状况决定。而“复杂性”就体现在这类商品有着较多的属性,消费者必须通过对这些属性的综合评价而不是单一属性的评价来定价。该模型将这样的“复杂商品”视为一个“特征包”,也就是包含着n个特征的向量;每一个特征对应着一个隐含市场以及在这个隐含市场上由供求决定的隐含价格,最后通过这些属性的综合评价而得到的价格称为hedonic price(享乐价格)。
二、解释变量的选择
结合2005年春季房交会上提供的相关数据,经过分析将其中的变量分为成本、消费者偏好、消费成本三类来考虑。
(一)成本
1、土地成本:土地成本=土地单价×占地面积。土地单价主要体现在所处的区位上,离市中心越近地价越高,因此我们选择“区位”这一变量。占地面积另作为一个解释变量考虑。
2、建造成本:由于大多数房子使用的材料相近,所以建造成本也相对接近,此处暂未作考虑。
3、设备成本:各种管道设备成本等。由于各同质住宅之间的配套设施基本相似,成本也接近,所以在模型中未作考虑。
4、建筑面积:由于已考虑容积率和占地面积,建筑面积=容积率×占地面积,所以这里不考虑建筑面积。
(二)消费者偏好
1、周边环境:消费者在购房时对周边环境如学校、医院、银行、商场、交通便利程度的重视度越来越高,因此把它作为考虑要素。我们按一定的标准把它分为好与不好,用虚拟变量进行定性分析。
2、绿化率:随着人们对生活环境和健康的关注,绿化率已成为一项重要的考虑因素;而且它也对开发成本有着多方面的影响,因此在模型中考虑这一因素。
3、配套设施及装修状况:大多数房屋的配套设施如宽带接入状况、电信设施等都相似,装修状况都为毛坯房,所以这两个因素未作考虑。
4、房屋建筑形式:这一因素在楼层有所反应,我们把它分为高层、小高层及多层,用虚拟变更量进行定性区分。
5、容积率:是指一个小区的总建筑面积与用地面积的比率。对于发展商来说,容积率决定地价成本在房屋中占的比例,而对于住户来说,容积率直接涉及到居住的舒适度。容积率越大,房屋价格应该越低,反之亦然。所以其系数应该为负。
6、户型:消费者对房屋的户型结构都有自己不同的偏好,所以这里我们分列出室、厅、卫作为三个不同的解释变量。
(三)消费成本
1、交通费用:该因素主要表达的是消费者在生活便利方面的考虑,但它可以通过“区位”要素中的信息加以反映,因此未作单独处理。
2、物业费用:由于大部分房屋的物业费用还没有正式定出,所以这里暂未作考虑。
3、停车费用:与物业费用相似,都还未正式定价,所以不作考虑。
三、模型的设定
Hedonic模型定价的一般形式为:Y=f(x1,x2,….xn),其中xi表示商品的某种属性。所以,我们的模型设定为:
Y=α0+α1D1t+α2D2t+α3D3t+α4D4t+α5D5t+β1X1+β2X2+β3X3+β4X4+β5X5+β6X6+ut
其中,各解释变量意义如下:
表一
区位 D1t 二环内 1
其他 0
D2t 二环外(除郊县) 1
其他 0
绿化率 X1
容积率 X2
占地面积(亩) X3
室 X4
厅 X5
卫 X6
周边环境 D3t 好 1
其他 0
房屋建筑形式 D4t 多层 1
其他 0
D5t 小高层 1
其他 0
四、模型的估计
参数估计
直接进行OLS估计得:
表二
Dependent Variable: Y
Method: Least Squares
Date: 06/12/05 Time: 14:28
Sample: 1 95
Included observations: 95
Variable Coefficient Std. Error t-Statistic Prob.
C 374.0264 472.5700 0.791473 0.4309
D1T 1417.927 212.0262 6.687507 0.0000
D2T 1328.929 167.8374 7.917955 0.0000
X1 23.82317 9.488999 2.510609 0.0140
X2 263.8236 87.29975 3.022043 0.0033
X3 0.208763 0.450596 0.463304 0.6444
X4 -95.61817 113.5177 -0.842319 0.4020
X5 307.7563 157.5422 1.953484 0.0541
X6 -93.44759 179.7801 -0.519788 0.6046
D3T 462.8103 172.4986 2.682980 0.0088
D4T -193.1167 210.0490 -0.919389 0.3606
D5T 38.57189 235.4678 0.163810 0.8703
R-squared 0.789312 Mean dependent var 3141.705
Adjusted R-squared 0.761390 S.D. dependent var 1255.913
S.E. of regression 613.4853 Akaike info criterion 15.79378
Sum squared resid 31238227 Schwarz criterion 16.11638
Log likelihood -738.2048 F-statistic 28.26799
Durbin-Watson stat 1.299372 Prob(F-statistic) 0.000000
初步估计方程为:
Y = 374.0264255 + 1417.926924*D1t + 1328.928764*D2t + 23.82316551*X1 + 263.8236185*X2 + 0.2087631661*X3 - 95.61816974*X4 + 307.7562791*X5 - 93.44758689*X6 + 462.8102858*D3t - 193.1167471*D4t + 38.57188602*D5t
五、模型的检验
1、经济意义的检验
回归结果中,x4、x6与D4t的系数为负,x2的系数为正,与其经济意义相悖。所以剔除掉x2、x4、x6、D4t,再对剩余解释变量进行回归得:
表三
Dependent Variable: Y
Method: Least Squares
Date: 06/13/05 Time: 11:14
Sample: 1 95
Included observations: 95
Variable Coefficient Std. Error t-Statistic Prob.
C 544.4782 434.0595 1.254386 0.2131
D1T 1707.733 199.6265 8.554643 0.0000
D2T 1428.953 172.4998 8.283793 0.0000
X1 16.40881 9.637252 1.702644 0.0922
X3 -0.103339 0.446899 -0.231237 0.8177
X5 253.0170 148.7581 1.700862 0.0925
D3T 569.9176 176.6352 3.226523 0.0018
D5T 399.3092 148.7684 2.684099 0.0087
R-squared 0.756645 Mean dependent var 3141.705
Adjusted R-squared 0.737065 S.D. dependent var 1255.913
S.E. of regression 643.9973 Akaike info criterion 15.85372
Sum squared resid 36081727 Schwarz criterion 16.06878
Log likelihood -745.0516 F-statistic 38.64321
Durbin-Watson stat 1.368045 Prob(F-statistic) 0.000000
得到新的方程为:
Y = 544.4781988 + 1707.73299*D1t + 1428.952958*D2t + 16.40880665*X1 - 0.1033393232*X3 + 253.0170077*X5 + 569.9175829*D3t + 399.3092053*D5t
而解释变量X3的系数变为负数,不符合经济意义。我们对Y与X3进行OLS估计后,X3的值仍为负数,所以剔除X3。对剩余变量进行回归得:
表四
Dependent Variable: Y
Method: Least Squares
Date: 06/13/05 Time: 11:17
Sample: 1 95
Included observations: 95
Variable Coefficient Std. Error t-Statistic Prob.
C 571.9814 415.1948 1.377622 0.1718
D1T 1711.564 197.8650 8.650162 0.0000
D2T 1431.378 171.2523 8.358295 0.0000
X1 15.31092 8.341309 1.835553 0.0698
X5 256.9192 147.0008 1.747741 0.0840
D3T 561.9200 172.2820 3.261630 0.0016
D5T 397.4907 147.7593 2.690123 0.0085
R-squared 0.756495 Mean dependent var 3141.705
Adjusted R-squared 0.739893 S.D. dependent var 1255.913
S.E. of regression 640.5245 Akaike info criterion 15.83328
Sum squared resid 36103903 Schwarz criterion 16.02146
Log likelihood -745.0808 F-statistic 45.56493
Durbin-Watson stat 1.375885 Prob(F-statistic) 0.000000
2、统计意义检验
查表可得,F值=45.56493大于F0.05(k-1,n-k),说明回归方程显著;且排除x2、x3、x4、x6、d4t后,t值大部分大于2,再继续进行计量经济学检验。
3、计量经济学检验
(1)多重共线性检验
X解释变量两两的简单相关系数如下:
表五
X1 X5
1 0.2336
0.2336 1
可看出,相关系数很小;并且R2不是很大,F值也没有显著大于给定显著水平下的临界值,所以可以认为不存在多重共线性。
(2)异方差检验
因为我们的数据是截面数据,所以用White检验进行异方差检验如下:
表六
White Heteroskedasticity Test:
F-statistic 1.988622 Probability 0.057339
Obs*R-squared 14.83042 Probability 0.062528
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 06/13/05 Time: 11:20
Sample: 1 95
Included observations: 95
Variable Coefficient Std. Error t-Statistic Prob.
C -148435.9 1095245. -0.135528 0.8925
D1T 510503.4 182654.1 2.794919 0.0064
D2T 385781.4 156606.2 2.463386 0.0158
X1 25891.42 45897.93 0.564109 0.5741
X1^2 -118.0080 509.0727 -0.231810 0.8172
X5 -362270.0 605520.9 -0.598278 0.5512
X5^2 63996.95 121911.8 0.524945 0.6010
D3T 91101.43 158982.5 0.573028 0.5681
D5T -192234.1 135721.5 -1.416386 0.1603
R-squared 0.156110 Mean dependent var 380041.1
Adjusted R-squared 0.077608 S.D. dependent var 606559.0
S.E. of regression 582546.7 Akaike info criterion 29.47815
Sum squared resid 2.92E+13 Schwarz criterion 29.72010
Log likelihood -1391.212 F-statistic 1.988622
Durbin-Watson stat 1.855904 Prob(F-statistic) 0.057339
因为Obs*R-squared对应的Probability值大于5%,且对应X解释变量的t值都小于2, 所以认为不存在异方差性。
(3)自相关检验
用D-W法检验自相关
∵K=7,K’=6 ∴dl=1.535 du=1.802
∴DW=1.375885< dl =1.535,所以存在正自相关。
下面再用Cochrance-Orcutt迭代修正自相关得如下结果:
表七
Dependent Variable: Y
Method: Least Squares
Date: 06/13/05 Time: 11:22
Sample(adjusted): 2 95
Included observations: 94 after adjusting endpoints
Convergence achieved after 8 iterations
Variable Coefficient Std. Error t-Statistic Prob.
C 698.9290 371.8068 1.879818 0.0635
D1T 1725.492 223.2574 7.728711 0.0000
D2T 1209.582 233.9092 5.171161 0.0000
X1 17.59959 7.369088 2.388299 0.0191
X5 257.4604 124.2491 2.072132 0.0412
D3T 374.9292 149.4512 2.508706 0.0140
D5T 287.2135 132.6069 2.165902 0.0331
AR(1) 0.436903 0.108822 4.014845 0.0001
R-squared 0.789324 Mean dependent var 3127.255
Adjusted R-squared 0.772176 S.D. dependent var 1254.683
S.E. of regression 598.8710 Akaike info criterion 15.70923
Sum squared resid 30843594 Schwarz criterion 15.92569
Log likelihood -730.3340 F-statistic 46.03009
Durbin-Watson stat 2.008528 Prob(F-statistic) 0.000000
Inverted AR Roots .44
DW=2.008528~(du,4-du)=(1.802, 2.198),所以成功消除自相关。
自相关是cov(ut,us)≠0,t≠s。通常认为由截面数据得到的模型不存在自相关。而我们的模型采用截面数据但依然存在自相关。结合所学习的产生自相关的原因我们认为:不同房产价格可能有互相参考对方价格的情况,在同一地区,后建的开发项目价格可能会参照周边已建房价格,这些行为都可能导致出现一些未知的或者一直的但无法估计的随机误差出现自相关。还有可能有一些偶然因素让房价的随机误差产生自相关。
经以上修正,最终模型的形式为
Y = 698.9290071 + 1725.5*D1t + 1209.6*D2t + 17.6*X1 + 257.5*X5 + 374.9*D3t + 287.2*D5t + [AR(1)=0.4369025751]+ut
六、经济意义浅析
1、从表示区位的D1t,D2t的系数可以看出,二环内的楼盘均价比二环至三环间的楼盘均价高500多元/m2,而比郊县的楼盘均价要高出2900多元/m2。
2、从表示绿化率的X3的系数可以看出,绿化率越高,楼盘的均价越高。
3、从表示厅的X5的系数可以看出,现在消费者越来越注重对住房厅的要求,如果厅越多,该楼盘的均价也会越高。
4、从表示周遍环境的D3t的系数可以看出,周遍环境越好,楼盘的均价越高。
5、从表示小高层的D5t的系数可以看出,现在消费者更偏好于小高层的住房,有小高层的楼盘均价会比其他楼盘高200多元/m2。
6、在最终模型中,影响房屋价格的重要因素有5个:区位、绿化、厅、周边环境、房屋建筑形式,这5个因素成为决定房屋价格的主导因素。
七、模型的局限
1、通过hedonic模型与市场公开数据建立了成都住宅市场的hedonic定价模型,由于仅是从消费者对住宅的主观评价入手,而且将影响因素局限在商品的属性上,并没有考虑其他更多的因素(如:投机炒作、收入,教育程度,预期等),可能会使结果显得过于片面,但由于消费者对商品的选择决策本质上是在各种约束条件下的一个最优理性行为,所以实际上除住宅本身属性以外的那些因素也应该反映在购买决策中,还需要进一步的数据处理和分析将其挖掘出来;
2、此次收集的数据是在公开市场上(出版物,网络)获得的信息,与实际情况不一定符合,比如价格就会与最终成交价格有一定差距,这也会直接影响到结果。
完成计量^论文过程的总结:
感受:
1、最强烈的感受是体会到搜集数据的艰辛。此次数据搜集过程中,从房产局到开发商再到出版物、网络,我们都希望找到最准确、完整的数据,虽然尽了努力,但是实际成交价房产局要进行保密,我们对成交情况也不可能一一作调查,所以结果会有相当的误差出现。但是作为体验计量方法的使用,收获还是颇为丰富的。
2、体会到集体的智慧。刚开始在数据搜集时我们就分工搜集,提高了效率。在做^论文的时候,原本我们也分工合作,一人负责一个部分,但是每次汇总的时候总能发现别人想法欠完整的地方或者自己有新思路、方法的时候,这都会导致一次又一次推翻以前的结果。后来我们决定运用集体的智慧,用一段时间共同完成一个部分,提出各自的思路,讨论后选出最好的,如果出现新问题就一起思考、找解决办法。这个合作的过程使得我们的思路更加完整清晰、效率也得以提高。
经验:
1、对模型的选择我们经历了诸多过程,开始我们没有引入虚拟变量时,模型的自相关、异方差都很严重,而且没有办法消除自相关性。然后我们又查阅参考资料调整模型,改变为对数形式的模型,但是模型拟合仍然不是很好。最后在助教的指导下,我们引入了虚拟变量。在^论文中我们只体现了最终选择的最优模型——引入虚拟变量后的模型。
2、引入虚拟变量是我们面对更多的问题:对虚拟变量的性质划分、赋值、回归、检验每个看似简单的过程我们都遇到了不少的困难。由于我们模型所涉及的定性变量较多,引入虚拟变量就显得尤其麻烦,例如,原本对区位我们划分为一环内,一环到二环,二环到三环,三环外,郊县共五项,仅区位就需引入四个虚拟变量,在讨论咨询后,我们把它分别划分为二环内,二环到三环外,郊县,扩大了定性的范围。在对模型进行检验时,刚开始我们不知道如何对虚拟变量的t值进行判断,经过老师的指导,我们知道在检验异方差时只需判断x的t 值,而不用考虑虚拟变量地t 值。我们按照在不违背经济理论的条件下运用计量经济学知识决定虚拟变量的取舍。
不足:
此模型与经济理论的联系比较小。
这个模型是对耐用商品的一个内在价值估计,而忽略诸多外在因素,如对决定房地产价格非常重要的供求关系和投机因素的考虑就没有包括。
在引入虚拟变量的时候,我们只用了加法引入,没有使用乘法引入。因为虚拟变量和一般的解释变量太多,不知道应该如何正确使用乘法引入,所以最后就没有用这一方法。