[全球聚焦]最终比分“3比0”…民调为何惨败给Trump

2000年代民调机构激增
网络民调盛行,统计严谨性下降
也有观点指出无回应偏差与选举最后阶段抱团现象

备受全球关注的美国总统大选落下帷幕。尽管在势均力敌的局面中,舆论调查普遍预测副总统卡玛拉·哈里斯将占据优势,但结果却以当选人唐纳德·特朗普的压倒性胜利告终。美国的民调在2016年曾预言前国务卿希拉里·克林顿将大胜,但白宫的主人最终是当选人特朗普。2020年又预测总统乔·拜登将以8个百分点的差距大胜,然而实际差距在4个百分点左右,出现了40年来最大的误差。当选人特朗普的大选战绩是2胜1负,但若与民调的“对决”来算,则是3战全胜。为何舆论调查屡屡失准?

日渐褪色的概率抽样传统

要找出舆论调查预测失误的原因,首先有必要回顾美国民调方式的演变。据爱默生大学舆论调查中心(Emerson College Polling Center)介绍,大约100年前,美国主要通过邮寄和面对面访谈的方式收集数据。到20世纪70年代,随着固定电话在美国家庭中广泛普及,以随机数字拨号(Random Digit Dialing, RDD)为基础的电话民调开始盛行。民调设计者先选择欲联系地区的区号,随后预先雇用的呼叫中心调查员从以该区号开头的7位电话号码中随机抽取并拨打。


进入20世纪90年代,民调方式又迎来一次变革。随机电话调查虽然有利于确保样本的代表性,但也存在电话打到企业、政府机构等不适合进行舆论调查的号码上的情况,在时间和成本方面负担较重。为解决这一问题,研究机构开始基于公开的登记选民名册中所载明的性别、年龄、受教育程度等信息,引入“分层抽样”(Stratified sampling)。例如,若要调查一个总体中仅有40%具备大学学历的群体,在抽取100名样本时,就从拥有大学学历的名册中随机抽取40人,从无学历名册中随机抽取60人,以构成与总体结构相似的样本。


美国著名民调机构之一《纽约时报》(The New York Times, NYT)与锡耶纳学院(Siena College)便是一直坚持利用选民登记名册进行电话民调的代表。据其说明,一般民调以约1000人为样本,误差范围为±3至4个百分点。如果置信水平为95%,则意味着在相同条件下重复实施100次同一民调,其中95次的结果会落在误差范围之内。

[全球聚焦]最终比分“3比0”…民调为何惨败给Trump View original image
在线民调的样本偏差

问题从这里开始。进入21世纪后,传统电话民调逐渐式微,通过手机、短信和互联网平台进行的调查开始占据主导地位。尤其是互联网民调盛行后,原本坚持随机抽样的分层抽样逐步被“配额抽样”(quota sampling)所取代。配额抽样在将总体划分为若干子群体这一点上与分层抽样类似,但在子群体内部则以主观方式选择样本,统计上的严谨性较弱,样本容易产生偏差。


皮尤研究中心指出:“在21世纪初,公开发布全国性选举民调结果的机构仅有30余家,如今已超过60家。问题在于,其中约有一半并未采用随机电话号码电话访谈等传统调查方式,而是选择了基于‘自愿参与’(opt-in)的在线调查。”这种方式虽然比电话访谈成本更低,但由于主要调查政治关注度较高或对互联网环境更为熟悉的群体,样本代表性明显不足。皮尤研究中心还指出:“采用非概率抽样的问卷调查,其平均误差可能是采用概率抽样调查的两倍。”


然而,也不能将问题简单归咎于在线调查。因为在当选人特朗普参选的最近三次大选中,即便是被评价为具备统计严谨性的知名民调,也纷纷预测失准。2016年大选,大多数民调预测前国务卿克林顿将大胜。全国范围内,克林顿确实多获得了280万张选票,但在关键摇摆州全面获胜的当选人特朗普拿下304张选举人票,入主白宫。在2020年大选中,民调预期拜登总统将以8个百分点的优势大胜,实际差距却在4个百分点左右,误差几乎翻倍。美国舆论调查协会(American Association for Public Opinion Research, AAPOR)回顾称:“2020年的民调出现了异常规模的误差,从全国选民得票情况来看,这是40年来偏差最大的一次。”


经历挫折后,民调机构在本次大选中普遍预测哈里斯副总统将在全国范围内以微弱优势领先,并在摇摆州略占上风,但当选人特朗普不仅在全国得票上胜出,还横扫7个摇摆州。最近三次大选的共同点,是持续低估了当选人特朗普的支持力度。美国皮尤研究中心分析称:“回顾过去20年的选举民调,可以发现,只要特朗普作为候选人参选,预测就往往大幅偏离,而没有特朗普参与的选举,则大多预测较为准确。”

[全球聚焦]最终比分“3比0”…民调为何惨败给Trump View original image
“沉默的特朗普支持者”的不回应

在前两次大选中,专家们曾将民调失败的原因归结为所谓的“沉默的特朗普支持者”(shy Trump voters)——这些选民隐瞒自己投票给当选人特朗普的事实,在被问及支持对象时给出虚假答案。然而皮尤研究中心指出,目前尚未发现足以支撑这一“沉默效应”的证据。相反,专家们近来更关注所谓的“无回应偏差”。


在美国选举舞台上被誉为“神算子”的明星统计学家Nate Silver表示:“特朗普支持者往往公民参与度和社会信任度较低,因此他们完成新闻机构问卷调查的意愿也可能偏低。”他指出,降低样本代表性的原因,或许并非沉默选民的“虚假作答”,而是他们干脆“不作答”。《纽约时报》数据分析师Nate Cohn也表示,《纽约时报》和锡耶纳学院近期的调查结果显示,白人民主党人比白人共和党人更有可能参与调查,概率高出16%。

民调机构的“扎堆效应”

选举临近尾声时,民调机构出现的“扎堆效应”(herding)也被视为一大问题。即在选战末期,即便发现统计上明显偏高或偏低的异常值(outliers),各机构也担心公布后影响自身声誉,因而不愿公开,而是选择顺应主流分析。统计学家Silver指出:“在摇摆州,公布哈里斯和特朗普差距在1个百分点左右的民调实在太多了,按理说,差距应该更大才符合常理。”


例如,被称为“中西部预言家”的民调专家Ann Seltzer在大选前发布民调称,在被视为“特朗普票仓”的艾奥瓦州,哈里斯副总统以3个百分点领先当选人特朗普,这一结果被视为明显异常。但最终结果却是当选人特朗普以14个百分点的巨大差距获胜,这也让她的声誉受到不小打击。



《华尔街日报》(The Wall Street Journal, WSJ)评论称:“在最近三次大选中,特朗普在大学毕业生、工人阶层、拉丁裔和黑人群体中的支持率都在上升。连续三次低估特朗普支持度的美国民调机构,似乎至今仍未真正理解特朗普所塑造的美国政治气候环境。”

Pixabay

Pixabay

View original image