中华预防医学杂志    2019年01期 国家人体生物监测项目非抽样误差原因及控制探讨    PDF     文章点击量:193    
中华预防医学杂志2019年01期
中华医学会主办。
0

文章信息

曲英莉 赵峰 刘玲 宋士勋 刘迎春 蔡嘉旖 曹兆进 施小明
QuYingli,ZhaoFeng,LiuLing,SongShixun,LiuYingchun,CaiJiayi,CaoZhaojin,ShiXiaoming
国家人体生物监测项目非抽样误差原因及控制探讨
Cause and control of non-sampling error in China National Human Biomonitoring Program
中华预防医学杂志, 2019,53(1)
http://dx.doi.org/10.3760/cma.j.issn.0253-9624.2019.01.016

文章历史

投稿日期: 2018-07-26
上一篇:2005—2013年中国东南沿海地区气温对感染性腹泻的短期影响
下一篇:石渠棘球绦虫研究进展
国家人体生物监测项目非抽样误差原因及控制探讨
曲英莉 赵峰 刘玲 宋士勋 刘迎春 蔡嘉旖 曹兆进 施小明     
曲英莉 中国疾病预防控制中心环境与健康相关产品安全所,北京 100050
赵峰 中国疾病预防控制中心环境与健康相关产品安全所,北京 100050
刘玲 中国疾病预防控制中心环境与健康相关产品安全所,北京 100050
宋士勋 中国疾病预防控制中心环境与健康相关产品安全所,北京 100050
刘迎春 中国疾病预防控制中心环境与健康相关产品安全所,北京 100050
蔡嘉旖 中国疾病预防控制中心环境与健康相关产品安全所,北京 100050
曹兆进 中国疾病预防控制中心环境与健康相关产品安全所,北京 100050
施小明 中国疾病预防控制中心环境与健康相关产品安全所,北京 100050
摘要: 非抽样误差的大小直接关系到抽样调查结果的精度和可靠性。本文研究了国家人体生物监测项目抽样过程中产生的非抽样误差,主要有抽样框误差、无应答误差及计量误差。项目针对出现的非抽样误差及时深入分析原因并调整方案,通过科学设计抽样方案、合理设计调查问卷、加强调查员培训及规范数据审核等措施进行预防和控制,有效降低非抽样误差对调查质量的影响,为我国其他大型公共卫生监测项目中非抽样误差的控制提供参考。
关键词 :环境监测;抽样研究;非抽样误差
Cause and control of non-sampling error in China National Human Biomonitoring Program
QuYingli,ZhaoFeng,LiuLing,SongShixun,LiuYingchun,CaiJiayi,CaoZhaojin,ShiXiaoming     
National Institute of Environmental Health, Chinese center For Disease Control And Prevention, Beijing 100050, China
Corresponding author: Cao Zhaojin, Email: caozj@139.com, Tel:0086-10-50930235
Abstract:The size of the non-sampling error is directly related to the accuracy and reliability of the sampling survey result. This paper studied the non-sampling errors generated during the sampling process of the China National Human Biomonitoring Program(CNBP), mainly including the sampling frame error, non-response error and measurement error. The program reduced the influence of the non-sampling error on the quality of the survey effectively by scientifically designing the sampling scheme and questionnaire, strengthening investigator trainings and standardizing the data review, which could be used to provide reference for the control of non-sampling errors in public health monitoring projects in China.
Key words :Environmental monitoring;Sampling studies;Non-sampling error
全文

抽样调查中的误差包括抽样误差和非抽样误差。抽样误差是指由于抽样的随机性而引起的样本统计量的数值与总体目标变量真值之间的差异。抽样误差在概率抽样的条件下可以计量,并通过抽样设计加以控制。非抽样误差是指除抽样误差以外的各种原因引起的误差。非抽样误差可以产生于抽样调查的各个阶段,包括调查及抽样设计阶段、数据采集阶段及数据的处理与分析阶段,由于其具有非随机性、复杂性等特点,因此往往难以识别和测定。目前,随着复杂抽样技术尤其是多阶段抽样在大型流行病学调查中不断推广应用,针对复杂样本的非抽样误差也不可避免的产生,对调查结果的准确性造成影响,如何减小非抽样误差成为学者日益关注的问题。
        国家人体生物监测项目是中国疾病预防控制中心环境与健康相关产品安全所(简称环境所)为评价我国居民人体生物组织中环境化学物质暴露水平及分布特征,在全国范围内开展的人体生物监测项目现场调查。该监测采用多阶段抽样的方法,第一阶段采用聚类分层、系统抽样的方法,在全国抽取152个监测点;第二阶段采用按与人口规模成比例(probability proportional-to-size sampling,PPS)的抽样方法,在每个监测点内抽取3个调查单元;第三阶段采用分层随机抽样的方法,在每个调查单元内抽取48名调查对象。目前关于大型公共卫生监测项目中抽样误差及其控制问题已经有了深厚的理论基础,但对于估计非抽样误差的影响尚没有综合定论。基于此点,本文讨论该监测实施过程中产生的非抽样误差种类及其产生原因,并对出现的非抽样误差采取针对性的控制措施,有效降低非抽样误差对调查结果的影响,为我国其他大型公共卫生监测项目中非抽样误差的预防及控制提供参考依据。
        国家人体生物监测项目在实施过程中产生的非抽样误差主要包括抽样框误差、无应答误差及计量误差三种。

一、抽样框误差  理想的抽样框是目标总体与抽样总体完全重合,但在实践中,出于种种原因,构造出完善的抽样框并不容易,由不完善的抽样框引起的误差即为抽样框误差。抽样框误差产生的主要原因为总体单元数不明确,这时利用样本统计量对总体参数进行估计就可能产生估计偏差。

(一)抽样框误差产生原因  本监测项目抽样方法为多阶段复杂抽样,每一阶段的抽样框都存在抽样框误差,具体有以下几种类型:

1.丢失目标总体单元:  丢失目标总体单元指抽样框未覆盖住所有总体单元,导致总量估计偏低,造成均值估计的偏差。本监测项目在抽样过程中,要求监测点提供调查单元内所有常住人口基本信息,但在实际过程中,各监测点经济发展与实际人口情况不同,没有准确完善的抽样框信息来源,又由于人力、财力及目标人群调查配合度等方面的限制,无法对所有目标人群进行入户预约调查,因此很容易导致抽样框不完善,丢失目标总体单元。

2.包含非目标总体单元:  指抽样框中包含不属于调查对象的单元。本监测项目要求提供3~79岁的常住人口(居住满6个月及以上)信息作为抽样框,但部分监测点因为缺少准确完善的抽样框信息来源,从公关部门直接获取户籍人口作为抽样框,导致居住不满6个月的户籍人口也纳入到抽样框中;部分监测点人口流动性大,抽样框未及时更新,已不居住于本地的人口未及时剔除,产生抽样框误差;同时由于调查员对项目不熟悉等原因,将全部年龄组人群纳入到抽样框中,导致抽样框中包含0~3岁及79岁以上年龄的非目标总体单元。非目标总体单元发现较为容易,并可以通过一定程序将其删除,所以与丢失目标总体单元相比,包含非目标总体单元的误差影响相对小一些。

3.抽样框老化:  本监测项目第一阶段抽样框采用2014年国家统计局数据进行抽样,实际工作于2015年开展,抽样框中存在单位级别改变和合并、单位名称改变等问题,如北京宣武区监测点变更为北京市西城区,导致抽样框老化,产生抽样框误差。

(二)抽样框误差控制措施  自20世纪40年代起,抽样框误差就已引起国外学者的高度关注,学者们从不同角度,运用不同方法探索获得完善的抽样框的措施与方法。美国妇女、新生儿及儿童营养规划(Measure maternal,Newborn,and Child health,MNCH)为减小抽样框误差,采取使用最新的人口普查数据、通过优化抽样设计获得最完善抽样框等措施[1]。本检测项目在项目实施过程中,针对抽样框的产生原因采取了有效的预防及控制措施,有效降低了非抽样误差。

1.使用多个抽样框:  丢失目标单元是最为严重的抽样框误差,易造成总量估计偏低及均值(或比例)估计的偏差。为避免丢失目标单元,本项目在选取样本过程中,采取使用两个或多个抽样框结合的方法,如第三阶段抽样将社区卫生服务中心名录框、人口普查数据名录框及户籍人口名录框等不同人口数据来源相结合为总抽样框,可有效避免丢失目标单元。但此方法在实施过程中,易发生抽样框重叠的问题,因此在抽样前需先剔除重叠的目标单元,使抽样框得到优化。

2.加强质控管理,剔除非目标总体单元:  本项目针对抽样框中存在的非目标总体单元,及时调整方案,采取应对补救措施,在抽样过程中加强质控管理,要求各监测点选取样本过程中对每阶段的抽样框进行审核,在掌握现有样本库人口信息情况的前提下,兼顾入户调查拒访率、样本代表性及人力物力费用成本等方面,联系对当地人口情况熟悉的工作人员(如社区卫生服务工作人员/村医等)对样本框具体情况进行基本排查,发现可能存在的问题,对抽样框中目标单元进行删除、补充及纠错,及时调整并优化抽样框。
        抽样框准备工作完成后,由环境所对上报的抽样框进行审核,根据抽样框中信息剔除不符合项目要求的调查对象,如3岁以下及79岁以上人口、身体明显障碍无法参加调查的人口及非常住人口等,降低抽样框误差。

3.更新并优化抽样框:  如上所述,本项目第一阶段抽样框采用2014年国家统计局数据进行抽样,导致抽样框老化产生抽样框误差。针对此种情况,本项目通过人口数、第二产业就业率及城镇化率等指标对已变更的监测点进行审核,若已变更的监测点指标变量不符合原监测点所在聚类分层要求,则放弃本监测点,返回原监测点所在分层重新抽取新的监测点。同时,本项目要求第三阶段抽样工作完成后两周内开展现场工作,避免时间过长导致第三阶段抽样框老化,有效降低抽样框误差。

二、无应答误差  无应答误差是指在调查中由于数据缺失造成估计量的偏误。无应答误差是一种重要的非抽样误差,对调查数据的质量有重要影响。随着经济的发展和信息交流增快、人口流动性增加及人群社会安全意识的增强,公共卫生调查的应答率越来越低,20世纪80年代,健康检查调查(health examination surveys,HESs)的应答率可达70%~80%,而目前各国健康调查人群应答率均普遍降低为40%~60%[2,3],如芬兰健康调查项目25~64岁男性人群应答率由1978年的84%降至2002年的59%;2007—2012年欧洲健康调查项目中荷兰、德国、意大利及芬兰人群应答率分别为45%、54%、55%及63%[4]。美国健康与营养调查(National Health and Nutrition Examination Survey,NHANES)1999—2000年人群应答率为76%[5],2015—2016年则降至58.7%[6],低应答率导致的无应答误差也越来越受到国内外学者的重视。

(一)无应答误差产生原因  2016—2017年国家人体生物监测项目在全国13个省(直辖市、自治区)的66个监测点开展了现场调查工作,在项目实施过程的不同阶段都出现调查对象无应答的情况,产生无应答误差,主要体现为:(1)调查对象预约阶段:调查对象在预约阶段中,由于各种原因无法或拒绝参加调查。如调查对象由于生病或没有时间等客观原因,无法接受调查;或由于对调查不感兴趣、或安全意识强不让入户等主观原因,拒绝接受调查。2015年国家人体生物监测项目在深圳开展预调查工作,调查对象在预约阶段中应答率为30.2%,远低于目前国内外大型公共卫生监测项目的应答率[2,3,4,5]。发生低应答率原因一是深圳为人口流动性较大且人口数较多的城市,调查员受人力、物力等条件限制,无法对抽样框进行全面筛查;二是深圳经济发达,参与调查的物质补偿对抽中对象没有足够的吸引力,且城市居民社会安全意识较强,参与项目的配合度较低。(2)问卷调查阶段:问卷调查过程中,调查对象由于各种原因对某些问题不愿回答或拒绝回答,产生问卷的无回答偏差。通过对预调查问卷中数据的整理分析,发现造成问卷无应答偏差的主要原因为:问卷内容过于专业,造成调查者理解困难;调查对象对于问卷中量化的问题回忆困难,不易应答;计算机应用程序电子问卷(computer application programming interface,CAPI)设计不完善,表格无法设置逻辑设定等。问卷的无应答误差对数据质量的影响很大,不仅减少了有效样本量,造成估计量方差增大,而且会带来估计偏差[7]

(二)无应答误差控制措施  无应答误差对调查数据的质量有重要影响,因此该监测在调查的各个环节采取针对性的预防及控制措施,有效提高应答率。2016年已完成第三阶段抽样的66个监测点9 365名调查对象的总应答率为59.4%(5 560/9 365),高于深圳预调查中人群的应答率(30.2%)。本项目主要无应答误差控制措施有以下几点:

1.科学设计抽样方案,加强组织宣传:  设计科学的抽样方案是减少非抽样误差、保证调查质量的关键环节。美国健康与营养调查(National Health and Nutrition Examination Survey,NHANES)为提高应答率,科学设计抽样方案,初级抽样单位的选取采用单独的郡而非几个郡合并的方法,从而缩短人群调查来往路程所花费的时间,同时尽可能选择家庭成员多的家庭样本作为调查对象,使调查对象的配合度增高,从而提高了应答率[8]。本监测项目在样本选取中,考虑3岁以下儿童及80岁以上老年人生物样本采集困难,配合度较低,因此选取3~79岁人群作为调查对象,有效提高了应答率。在抽样及预约过程中,若调查单元/对象应答率太低而影响总的估计偏差,则需要按相应的原则对其进行置换。对于因拆迁等原因造成居民流动性太大而无法包括所有目标总体的调查单元,结合实际情况,按位置就近、经济状况与人口数相似的原则进行置换;对于无应答的调查对象,在一次访问不成功的情况下,可进行多次访问,实在无法访问成功,可放弃该调查对象,根据相应的置换原则进行替换。本项目在调查开始前组织监测点疾病预防控制中心和社区工作人员加强开展项目的组织和宣传工作,激发社区居民的参与意识。另外,调查者加强调查者的沟通,对生物样本采集量进行提前通知,让被调查者有心理准备,消除调查对象冷漠、担心与怀疑的意识,同时对调查对象采取物质奖励措施,并承诺提供最后的体检报告,有利于提高应答率。

2.合理设计调查问卷:  本监测项目在设计问卷时,参考美国NHANES等国内外大型公共卫生监测项目调查问卷[9],采用简易智力状态检查量表(Mini-Mental State Examination,MMSE)[10]、食物频率问卷(Food Frequency Questionnaire,FFQ)[11]等规范量表,使问卷具有科学性,同时又符合项目调查目的,同时尽量采用简明扼要、符合逻辑及客观的选择题,避免使用开放性问题。深圳预调查后,针对预调查中问卷出现的问题进行及时纠正:如少用专业词语,尽量用简单、准确的词语进行提问;简化问卷内容,避免问卷过长引起调查对象产生抵触情绪而拒答等。另外面对CAPI电子问卷的设计进行优化,对变量进行逻辑设定及校验,同时对问卷进行实时质控,现场对问卷进行审核,对无应答问卷及时进行补充调查,大大降低了问卷的无应答率。本项目在2016—2017年监测的13个省8 758份问卷中,总漏项率为2.34%,主要漏项问题有11项,其中饮酒量问题漏项率最高(0.47%)(表1)。

表12016—2017年国家人体生物监测项目调查问卷漏项率一般情况

3.加强调查员培训与管理:  该监测覆盖面广,调查员多,为减少这一环节的非抽样误差,必须对调查员进行严格的培训,要求调查员均需通过培训并考核合格后方可开展工作,并加强调查中的质量控制。首先,调查员要明确调查的目的性和重要性,提高思想意识,培养作为调查工作的使命感和责任感。其次,明确调查员的分工职责及任务,调查员、现场协调员与问卷审核员分工明确,加强现场组织管理,实行问卷调查电子设备责任到人的制度,以便问卷审核溯源。第三,加强调查员统计知识和调查技能的培训,使调查员准确了解各项调查指标的含义及计算方法,确保对问题认识的一致性,同时要确保调查员掌握调查技巧,在不进行诱导性追问的前提下,激励调查对象补充答案,降低问卷的无回答率。最后,加强对调查员的监督。本项目通过录音、跟访、回访、GPS定位及调查时间质控等方式开展对调查员工作的监督,以加强问卷数据质量,降低问卷的无应答率从而减小无应答误差。

三、计量误差  计量误差是指调查过程中所获得的数据与真值不一致。计量误差涵盖的范围非常广泛,归纳其成因可来自于以下几个方面:问卷设计不周,造成调查不理解或误解而产生的误差;调查对象在调查过程中没有给出真实回答而产生的调查对象误差;调查员工作不认真或诱导调查对象而产生的调查员误差。

1.计量误差产生原因:  本监测项目在调查过程中产生的计量误差主要为调查对象的有意识计量误差。调查问卷中包含有家庭收入、学历、青少年吸烟饮酒及妇女异常妊娠等敏感性问题,调查对象在回答此类敏感问题时,往往因为涉及隐私或心理原因使问题带有倾向性,导致严重的估计偏差。如2016年本监测中10~17岁青少年吸烟率男生为4.15%(39/940),女生吸烟率为0.10%(1/955),低于2014年控烟办发布的数据(男生10.6%,女生1.8%)[12],原因可能为本监测问卷调查中为方便签写知情同意,要求青少年在家长的陪同下进行调查,导致青少年低报吸烟率。这种有意识计量误差往往会导致严重的估计偏差,但一般而言,此种误差的倾向性根据经验和实际情况的分析可察觉。

2.计量误差控制措施:  计量误差涉及内容广泛,减少计量误差需要对调查全过程进行质量控制。首先,加强调查员培训,合理组织调查现场。在实际调查中,调查员因业务水平不高,可能会产生计量误差,如对某些问题产生错误的理解,从而误导调查对象;或者以自己的主观态度影响或诱导被调查者,从而产生不够客观的调查资料等[13]。针对以上问题,该监测对调查员进行严格的培训,并编写调查员手册,对问卷内容及访问技巧进行了规范。同时,该监测规定每个调查单元中调查员人数不等超过6名,尽量减少调查员间的计量误差。问卷中的敏感问题是产生计量误差的重要原因。针对这一情况,本监测一方面对调查对象进行宣传,使其明确调查的重要性,消除疑虑,积极准确的回答隐私问题;另一方面采取有效的方法,如问卷调查时将调查对象隔开、女调查员询问女性调查对象等,以减少计量误差,如上述青少年低报吸烟率的问题,本项目采用青少年自我评定的方式,同时对调查对象说明问卷的隐私性和保密性,以减小问卷的计量误差。
        其次,加强数据审核。数据审核是调查质量进行控制的一道工序,也是减少计量误差的有效方法。该监测采用CAPI电子问卷调查系统,收集数据时可进行现场审核,访问员在调查进行时可根据经验或常识判断部分计量误差,可现场对调查对象进行重新询问并查明确切情况,有机会发现并纠正计量误差。数据收集完毕后进行比较全面、复杂的数据清理,根据专业的统计学知识进行数据一致性审核及离群值的检验,从而减少计量误差。2016—2017年国家人体生物监测13个省8 758份问卷中,共出现217份逻辑错误问卷,总逻辑错误率为2.48%(表2)。

表22016—2017年国家人体生物监测项目调查问卷逻辑错误率一般情况
综上所述,非抽样误差的大小直接关系到抽样调查结果的精度和可靠性。国家人体生物监测针对预调查及项目实施过程中出现的非抽样误差,及时深入分析原因并调整方案,采取具体有效措施并在现场调查工作中对其进行控制,有效减少了非抽样误差,为我国其他大型公共卫生监测项目中非抽样误差的控制提供参考。然而,尽管本项目为减小无应答误差采取了针对性的预防和控制措施,2016年本项目调查人群应答率仍较低。国内外监测项目人群应答率普遍降低已成为日益严重的问题,无应答误差引起的非抽样误差需引起重视。此外,本研究未对项目中产生的非抽样误差进行定量分析研究,符合多阶段抽样调查方式中多类并存的非抽样误差的测度分析方法还有待研究。

参考文献
[1]CuttsFT, IzurietaHS, RhodaDA. Measuring coverage in MNCH: design, implementation, and interpretation challenges associated with tracking vaccination coverage using household surveys[J]. PLoS Med, 2013,10(5):e1001404. DOI: 10.1371/journal.pmed.1001404.
[2]AtrosticBK, BatesN, BurtG, et al. Nonresponse in U.S.government household surveys: consistent measures, recent trends,and new insights[J].J Off Stat, 2001, 17(2): 209-226.
[3]TolonenH, HelakorpiS, TalalaK, et al. 25-year trends and socio-demographic differences in response rates: Finnish adult health behaviour survey[J]. Eur J Epidemiol, 2006, 21(6): 409-415. DOI: 10.1007/s10654-006-9019-8.
[4]MindellJS, GiampaoliS, GoesswaldA, et al. Sample selection, recruitment and participation rates in health examination surveys in Europe--experience from seven national surveys[J]. BMC Med Res Methodol, 2015,15:78. DOI: 10.1186/s12874-015-0072-4.
[5]National Health and Nutrition Examination Survey. Unweighted Response Rates for NHANES 1999-2000 by Age and Gender[EB/OL]. [2017-01-23]. https://wwwn.cdc.gov/nchs/data/nhanes3/ResponseRates/RRT9900MF.pdf.
[6]National Health and Nutrition Examination Survey. Unweighted Response Rates for NHANES 2015-2016 by Age and Gender[R]. [2017-03-23]. https://wwwn.cdc.gov/nchs/data/nhanes3/ResponseRates/2015-2016_response_rates.pdf.
[7]金勇进.抽样:理论与应用[M].2版.北京:高等教育出版社,2016.
[8]National Health and Nutrition Examination Survey. National Health and Nutrition Examination Survey: Sample Design, 2011-2014 [EB/OL]. [2014-05-18]. https://www.cdc.gov/nchs/data/series/sr_02/sr02_162.pdf.
[9]National Health and Nutrition Examination Survey. Questionnaires, Datasets, and Related Documentation: 2013-2014 Survey Questionnaires [EB/OL]. [2014-09-11]. https://wwwn.cdc.gov/nchs/nhanes/continuousnhanes/questionnaires.aspx?BeginYear=2013.
[10]MitchellAJ. The Mini-Mental State Examination (MMSE): Update on its diagnostic accuracy and clinical utility for cognitive disorders[J]. Cogn Screen Instrum, 2017:37-48.DOI: 10.1007/978-3-319-44775-9_3.
[11]KimDW, SongS, LeeJE, et al. Reproducibility and validity of an FFQ developed for the Korea National Health and Nutrition Examination Survey (KNHANES)[J]. Public Health Nutr, 2015,18(8):1369-1377. DOI: 10.1017/S1368980014001712.
[12]梁晓峰.2014年中国青少年烟草调查报告[M].北京:人民卫生出版社,2014.
[13]韩兆洲.抽样调查中非抽样误差的原因及控制[J].统计与决策,2005,10(7):27-28.