一、引言。
随着电子商务、互联网金融、社交网络等的飞速发展,互联网已经成为人们生产生活不可或缺的重要场所。人们在互联网上购物、交流、搜索、浏览的各种行为所产生的数据量越来越大。大数据时代的到来,不仅意味着数据处理技术和处理能力的极大提升,而且使得全社会的数据资源分布结构也在发生深刻改变。此外,互联网已经从传统的信息传播媒介升华为虚拟的社会空间,越来越多有关人类经济、社会运行的数据被投射到云上。因此,在实时、交互、离散化、非结构化的海量数据中,蕴含着经济社会运行的各种先行指标信号。
当前,中国正处于从互联网大国向互联网强国转变的重要时期。中国互联网产业的规模和实力已经位居世界前列。据统计,在全球10大互联网公司中,中国独占4家,前30家互联网公司有40%以上来自中国。[1]可以预见,随着“互联网+”战略的深入推进,中国经济运行的网络化、智能化程度将不断提高,基于互联网大数据的宏观经济监测和预测将变得越来越重要。
本文拟对基于互联网大数据进行宏观经济监测预测的现有研究,以及基于不同数据源的宏观经济监测预测分析进行初步阐述。
二、基于互联网大数据开展宏观经济监测预测的研究进展。
国内学者认为,大数据在宏观经济分析应用中最活跃也是最重要的四个领域为:宏观经济预测、宏观经济数据挖掘、宏观经济分析技术和宏观经济政策。[2]而在利用大数据对宏观经济进行预测方面,“现时预测(Now Casting)”近来受到特别关注。“现时预测”一词最初起源于气象学领域,是对现在已经发生的事由于信息发布滞后等原因难以马上知道准确情况,因而根据其他可得信息进行推测。[3]
一般来说,依赖统计部门的宏观经济数据的发布都存在时间滞后的问题。由于不能及时获取宏观经济发展的数据信息,也就不能对当下的宏观经济形势作出准确判断。比如衡量宏观经济发展的GDP指标,尽管当月GDP是多少这件事已经发生了,但往往要到下个月才能拿到相关的数据和结果。而在月底估测本月GDP总量就是“现时预测”.现时预测利用的数据不再局限于官方统计数据,方法也不受制于传统的统计方法和模型。现时预测说到底就是利用大数据方法和技术对宏观经济进行及时的监测和预测。
目前,利用大数据方法和技术进行宏观经济监测预测已经在国际上引起相当程度的重视,不同机构的学者和研究人员已经进行了大量研究和应用,而且产生了丰硕的成果。但从国内来看,这一领域的研究和应用都处在起步阶段,与国外相比,还有很大发展潜力和空间。
(一)国外基于互联网大数据的宏观经济监测预测研究。
从数据来源渠道来看,国外利用互联网大数据监测预测宏观经济的研究主要有两大类:一类是基于网络搜索引擎的宏观经济监测预测,如谷歌公司研发的Google Trend(谷歌趋势);另一类是基于网络社交媒体的宏观经济监测预测,如国外社交网站Twitter(推特)、Facebook(脸谱)、Microblog(微博)。
在利用网络搜索引擎提供的数据方面,Ettredge很早即尝试利用网络搜索数据来预测美国的失业率。[4]他分析了World Tracker列出的500个常用关键词和美国失业率之间的关系,发现与失业相关的搜索数据和美国官方发布的失业率之间存在显着的正相关关系。Choi和Varian根据Google Trend提供的“就业”和“失业与救济”目录进行搜索查询,并用查询结果预测美国失业津贴的初始索赔情况。[5]
他们发现,通过加入查询结果变量,标准回归预测模型无论在模型拟合度还是平均绝对误差上都得到显着提高和改善。Choi和Varian还专门写了一篇介绍如何利用Google Trends来预测当下经济活动的文章。[6]
他们认为,经济学家、投资人、财经记者每月都在关注政府发布的经济运行情况,但这些结果的发布普遍滞后,这个月的数据往往要等到下个月中旬才能发布,而Google Trends每天都在产生大量与经济发展相关的查询结果,且这些查询结果与当下的经济活动之间必然存在着不容忽视的关系,或许可以对预测当下的经济活动起到非常重要的作用。在此基础上,他们举例说明了如何利用Google Trends预测美国零售业、汽车、住房和旅游的销售情况。Bughin利用Google Insights forSearch预测了比利时的宏观经济先行指标--零售业销售和失业情况。[3]结果发现,查询数据对预测比利时的宏观经济波动有非常好的解释能力,比利时从2004年到2011年经济波动的16%-46%可以通过搜索查询的结果来解释。
现在,越来越多的研究在利用Google Trend进行经济监测和预测,除了失业率、汽车销量以外,GoogleTrend还被应用到房地产、旅游、零售业、个人消费等诸多可以反映宏观经济活动的领域。除了美国,D' Amuri等[7]和Suhoy[8]分别通过网络搜索引擎提供的数据预测了以色列、德国和意大利的失业情况,还有学者运用同样的方法成功预测了智利等国家的汽车销量。已有的大部分研究都表明,加入Google Trends的搜索结果数据,可以显着提高模型的预测能力。[9]在利用网络社交媒体提供的数据方面,Bollen等发现基于Twitter(推特)平台表达的公共情绪可以用来预测股市变动。[10]
这一研究的数据来源于两方面:一是Yahoo金融发布的道琼斯工业平均指数(DJIA)的收盘价;二是2008年3月到10月间,270万推特用户推送的970万条消息。这970万条消息经过情绪评估工具--Opinion Finder和GPOMS被赋值。Opinion Finder根据文本内容可以评估“积极”与“消极”两种情绪;GPOMS根据文本内容可以评估“calm(冷静)”“alert(警觉)”“sure(确信)”“vital(活泼)”“kind(美好)”“happy(高兴)”等六种情绪。结果发现,在道琼斯工业平均指数(DJIA)和GPOMS中的“calm(冷静)”情绪之间存在相关性。进一步研究发现,“calm(冷静)”情绪可以很好地预测道琼斯工业平均指数在未来2到6天的涨跌情况,而且这种每日预测的准确率高达到87.6%.2011年5月,英国对冲基金Derwent CapitalMarkets建立了规模为4000万美元的对冲基金,是首家基于研究社交网络的对冲基金。该基金通过分析Twitter的数据内容来感知市场情绪,从而指导投资行为。此外,不少研究还利用网络社交媒体数据来预测其他经济活动,如亚马逊网站的售书情况[11]、电影卖座率[12]以及网络游戏销售情况等。最近,Bughin将社交网络、博客、论坛和谷歌搜索数据同时加入到预测模型。[13]结果发现,比利时国家电信公司销量的15%可以通过网络社交媒体数据解释,25%可以通过网络搜索数据解释;加入网络社交媒体和网络搜索数据以后,模型的整体预测能力提高了25%.