中华预防医学杂志    2018年10期 人群队列研究的数据管理与质量控制策略    PDF     文章点击量:74    
中华预防医学杂志2018年10期
中华医学会主办。
0

文章信息

杜江波 陆群 靳光付 夏彦恺 沈洪兵 胡志斌
DuJiangbo,LuQun,JinGuangfu,XiaYankai,ShenHongbing,HuZhibin
人群队列研究的数据管理与质量控制策略
Data management and quality control strategies for population based cohort study
中华预防医学杂志, 2018,52(10)
http://dx.doi.org/10.3760/cma.j.issn.0253-9624.2018.10.022

文章历史

投稿日期: 2018-04-08
上一篇:弯曲菌耐药机制研究进展
下一篇:食品用纳米材料的管理、安全性评价现状与展望
人群队列研究的数据管理与质量控制策略
杜江波 陆群 靳光付 夏彦恺 沈洪兵 胡志斌     
杜江波 211166 南京医科大学公共卫生学院流行病学系
陆群 211166 南京医科大学公共卫生学院流行病学系
靳光付 211166 南京医科大学公共卫生学院流行病学系
夏彦恺 211166 南京医科大学公共卫生学院流行病学系
沈洪兵 211166 南京医科大学公共卫生学院流行病学系
胡志斌 211166 南京医科大学公共卫生学院流行病学系
摘要: 大型人群队列研究因具有大样本量、多时间点数据等特点,使得其在病因学研究领域具有独特优势,同时也带来了数据管理与质量控制方面的巨大的工作难度。我国近年来启动多项大型人群队列研究,相关队列数据的管理与质控工作面临巨大挑战。本文综合当前我国队列研究领域已有经验和共识,从队列数据特点出发,针对问卷调查数据、临床诊疗数据、生物样本检测数据和观察结局数据等四种主要来源的队列数据的类型和主要形式,从数据存储、流转及传输等工作环节,全面概括了队列数据管理相关工作内容与方法,并针对这些队列数据,从调查问卷评估、数据逻辑核查、调查对象抽查以及多数据库复核等多种途径提出了相应的数据质控策略,以期为我国人群队列研究中数据管理与质控相关策略的制定提供借鉴。
关键词 :队列研究;数据库;质量控制
Data management and quality control strategies for population based cohort study
DuJiangbo,LuQun,JinGuangfu,XiaYankai,ShenHongbing,HuZhibin     
Department of Epidemiology, School of Public Health, Nanjing Medical University, Nanjing 211166, China
Corresponding author: Hu Zhibin, Email: zhibin_hu@njmu.edu.cn
Abstract:Large-scale cohort study has unique advantages in the field of etiology research for its large sample size a multi-time point data, but it also brings great difficulty in data management and quality control at the same time. Recently, China has initiated a number of large-scale population cohort studies, posing enormous challenges to the management and quality control of related cohort data. This paper summarizes the existing experience and consensus in the field of cohort study in China from the characteristics of the cohort data, aiming at the types and main forms of the four main sources of questionnaire data, clinical diagnosis and treatment data, biological sample detection data and observation outcome data, from the data storage, circulation and transmission work.The contents and methods of queue data management are comprehensively summarized. Corresponding data quality control strategies are advised in the questionnaire evaluation, data logic verification, survey object sampling and multi-database review, etc. The goal of this review is to provide guidance for the management of data and the formulation of quality control strategies in the cohort study in China.
Key words :Cohort studies;Database;Quality control
全文

20世纪中期,随着慢性非传染性疾病对于人类健康的威胁日益严峻,人群队列研究开始蓬勃兴起。人群队列是一类针对特定的人群以个人或家庭为单位进行长期随访观察,以评估暴露和结局的因果关联的一种前瞻性的观察性研究[1,2]。这种研究形式先因后果的时间顺序明确,论证因果关系的证据强度高,结果外推性好,且可以同时评估多种暴露因素对多种结局风险的影响[3,4,5],因此是一种高效的关联研究策略。自1948年美国弗雷明汉心脏队列(The Framingham Heart Study)率先建立以来[6],诸如英国医生队列(The British Doctors Study)[7]、美国护士队列(Nurses' Health Study)[8]以及欧洲多国的出生队列已经并且仍然在产出了大量的高质量研究成果,为人群病因学研究奠定了坚实的基础。进入21世纪以来,队列研究的发展日益呈现出新的趋势,样本量更大,如英国的UK Biobank和中国慢性病前瞻性研究项目(China Kadoorie Biobank,CKB)均超过50万人。伴随着大样本量而来的海量人群数据的质量是评价队列建设的核心指标[9,10,11]。这些人群数据质控工作难度大、任务重、要求高。因此,需要在队列建设中强化顶层设计,采用合理高效的数据质控策略来提升数据质量。随着我国近两年在国家重点研发计划领域加大对队列建设的支持力度,以及一些大型研究机构和团队对队列建设的重视,我国目前正在建设和即将开始建设的人群队列数量快速增加。因此,本文拟综合队列研究领域已有经验和共识,探讨队列建设数据管理与质控相关问题,以期为我国人群队列研究中数据管理与质控相关策略的制定提供借鉴。

一、大型人群队列的数据来源与获取  在队列基线调查和随访阶段,通常会基于调查问卷、医疗档案等途径获取队列成员的多种类型的数据,这些数据获取途径的工作开展方式有显著不同,因此在具体设计与实施过程中应有针对性的做好统筹管理。此外,目前绝大多数队列均涉及生物样本采集,生物样本采集过程中各类属性、参数、环境条件等均应按照相应的规则体系化标识和管理。

1.问卷调查数据:  问卷调查是流行病学研究获取数据的最经典方法,需要调查员与被调查对象面对面的进行访谈,由调查员询问来完成问卷,或者由调查员指导被调查者独立完成问卷。随着互联网的发展,越来越多的队列倾向于甚至已经开始尝试用移动终端开展无纸化的问卷调查,二者在质控的方式和时效性上存在显著差异。对于调查对象无法实现面访,电话、网络问卷形式是重要补充,但是在问卷设计时,应充分考虑问卷题目的设置要遵循重要的在前、不重要的在后的原则,确保在第一时间获得最关键的数据。网络调查可以基于网页版和手机端APP等途径进行电子问卷的调查,被调查者可以在任何地点完成电子问卷。从而为被调查者提供了最大的便利,但是同时带来了调查过程的不可控性,导致答卷过程的规范性缺乏有效监控,因此在数据的完整性及准确性方面需要开展特定及时核查和反馈机制,以便对不合格数据进行补充调查。

2.医疗机构档案记录:  近年来,随着我国医院信息化程度不断提高,医院诊疗档案已经相对完善。这些档案数据涵盖了丰富的实验室检查、临床检查、疾病诊断、药物使用等多种数据,具有极其重要的科研价值。队列研究人群根据其不同设计特点和人群类型,均具有不同完备程度的医疗记录数据。因此,大多数人群队列建设过程中,获取队列成员医院诊疗数据也是一项具有重要意义的工作。此外,还有医保系统数据、死亡登记系统数据等。上述各类数据的获取有几种途径:(1)通过人工摘录;(2)利用系统接口直接导出或对接数据库;(3)利用软件工具抓取队列所需数据,整合成固定格式后再导入至队列数据库;(4)利用机器学习和深度语言等新兴信息技术实现临床病例资料的获取。以上四种方式中,第一种方法效率低,出错率高。因此,直接对接数据库或抓取数据是更加高效的方案。此外,随着机器学习和深度语言等新兴技术的兴起,可以实现对临床诊疗过程中产生的数据实时监控获取,并将图像信息、视频录像信息等自动转化为数据参数进行记录,目前已经有一些机构能够提供这类服务,因此,队列建设中也应注意加强不同机构间合作,引入第三方专业团队,以实现队列建设的高效推进。尽管如此,由于非结构化的数据、智能集成的数据以及不同中心之间存在的标准和数据结构等存在差异,使得这些相对快捷的数据提取方案仍然需要大量的人工参与以核查其准确性。

3.生物样本属性数据:  大型人群队列研究往往需要采集不同类型的生物样本,常见的生物样本有血液、尿液、粪便等,而出生队列则采集的样本类型更加丰富,时间节点更加频密。这些生物样本的采集完整度是反映队列建设质量的重要指标,因此在队列建设过程中应该对样本完整率进行定期统计,保证完整率保持在合理水平。此外,各类样本的属性数据,包括采集时间、体积、样本性状等,均应在队列设计阶段充分考虑,在样本采集、分装、处理等各个环节进行详细登记,后期将作为样本质量筛选标准或样本检测校正数据。

4.结局数据:  队列研究在随访过程中获取到的随访内容和结局数据是整个队列研究最为关键的信息之一,结局可以是一个或者多个,随访内容一般与获取的基线资料内容一致,但此处收集的重点信息是结局变量。不同队列关注的结局变量会存在差异,但是基本上包括疾病结局、死亡结局等主要类型以及妊娠结局等出生队列所特有的类型。对于疾病结局而言,主要通过调查问卷、集中体检等获取。但是这样的途径存在较大偏倚,因为出现了疾病结局的个体在后期的随访更可能会出现失访,而能够按照要求配合随访或者参与体检的个体则更多可能性是没有出现健康结局的原因。此外,基于当地死亡登记系统或户籍系统获取死亡结局也是重要补充形式。对于出生队列而言,妊娠结局数据即为重要的队列结局事件,需要基于产科病案系统及时准确的获取。

二、大型人群队列数据的类型与形式  

1.数据的类型:  队列建设需要采集不同类型的人群数据,简单的可以分为基本信息和研究数据两大类型。基本信息包括:姓名、出生日期、身份证号、民族、婚姻状况、联系方式、户口与居住地址、文化程度、职业、医疗保险情况、血型、家庭人均月收入等。基本信息还可以进一步分为身份数据、联络数据数据、人口学和社会经济相关数据。基本数据在队列建设中通常只需要在基线采集一次,而在后续随访中不再重复采集。研究数据包括:(1)生活行为习惯信息,如:吸烟、饮酒、锻炼、工作类型及工作强度、睡眠、饮食等;(2)诊疗病史记录,如月经史、孕产史、既往妊娠合并症、既往妊娠并发症、体格检查、既往疾病史、家族史、手术史、输血史、过敏史、既往用药情况等;(3)环境暴露信息包括:空气污染、水污染、有毒有害化学物质、病毒感染暴露等;(4)心理量表信息,如:心理状态、抑郁、焦虑等;(5)结局信息,包括疾病、死亡、妊娠结局、出生结局等表型[12]。除了以上内容外,人群队列研究还应根据实际研究目的和特色,针对某一方面的内容进行着重细化,以实现更加全面的调查,细化问卷内容。

2.数据的形式:  根据问卷问题的形式不同,队列可以获取不同类型的数据。问卷问题的形式主要有三种,即开放式问题、封闭式问题以及二者相结合的形式[13]。开放式问题不提供选择答案,由被调查者根据自己的实际情况来填写,获取的数据类型主要有常规数值(如身高、体重、体检指标)、日期数值(如出生年月)、号码文本(如身份证号、队列识别号)、文字文本(姓名、疾病名称、家庭住址、以及其他需要注明的文字等);封闭式问题则要求被调查者只能从提供的备选答案中选择,不能自由发挥,这类问题获取的数据类型为单项选择、多项选择或者矩阵式选择题等。不同形式的数据其质控方式存在差异,因此在具体数据质控过程中,应该针对数据类型,在数据录入阶段做好格式限定,在数据导出后进行不合理数据进行筛查。

三、大型人群队列数据的管理  

1.数据存储与备份:  大型队列中纳入的成员人数多,每个成员的变量数目多,再加上生物样本进行的各种高通量检测,最终会产生海量数据。因此,这些数据的存储和备份至关重要。事实上,数据在生成、传输、存储、分析应用过程中面临着遭受损坏、丢失或者泄露的各种风险,例如人为误操作、设备故障、存储介质丢失、网络攻击等。因此,数据管理备份措施通常应作为队列建设工作一项独立的任务,实现专人管理[14]。同时存储设备也应尽量避免多个项目交叉使用,实现专门化。
        数据的备份不能完全依靠人工操作,因此数据备份自动实时执行则更加可靠。目前各类网络存储服务器均能支持实时自动备份的功能,能够实时将网络服务器上产生的数据同步至存储硬盘以及队列自持的塔式服务器中。容错性是指数据备份的内容保存在不同介质上,以防某一设备故障造成无法挽救的损失。此外,安排专人使用移动硬盘定期对数据进行多个拷贝的备份,这样能较好地保证数据安全可靠。有条件的情况下还可以设立异地备份,以防极端情况发生。在互联网应用高速发展、云计算、云存储技术逐步普及的今天,云端存储引起分布式的构架和更加专业的数据保障能力为队列数据提供更加专业、高效的数据存储服务。能够避免因存储设备故障等带来的风数据丢失险,但同时由于互联网相对开放的环境,网络攻击风险则是必然要面对的挑战。因此,在选择云端存储数据的情况下,应尽力做好数据加密、隐私数据剥离等工作。此外,互联网运营商通常能够提供各类数据安全增值服务,能够实现现有技术条件下全方位的数据安全服务,但是价格不菲,因此在选择互联网存储时需要根据队列建设需求具体权衡成本和收益。

2.数据流转与传输:  队列数据的价值在于其多变量、多维度、多时间节点,因此其中大型人群队列项目大量的数据需要在队列实施的各个环节进行分析。因此,数据的流转和传输也需要制定相关的标准化操作流程,设立管理人员层级权限和数据层级文件。原则上,数据使用者只能够获取其研究涉及的必要数据,所有涉及隐私信息的数据和所有原始数据仅由最高权限数据管理者能够涉及。此外,所有数据的流转和传输都应该全程有记录,有监管。此外,对于目前大型队列普遍由多个分中心合作建设,由此导致数据汇总、核查、反馈、纠错等环节更加复杂。而且接触到队列数据的工作人员众多,对数据安全形成重大挑战。因此,无纸化问卷采集系统因其特有优势(实时上传、质控、分析和导出,能够采集文本、图像、音频等多种形式的数据),已经成为队列建设一个新的发展趋势。

四、队列数据质量控制  数据质量控制是贯穿于整个科研数据生命周期的活动,数据质控确保了数据库本身的真实性和价值。因此,数据质控是开展高质量队列研究的关键核心所在,队列建设过程中,数据每时每刻都在产生,针对产生的数据进行全面的核查、清理是数据采集的终末环节,这项工作对于及时发现问题、改进数据采集过程、提升队列质量具有重要意义。

1.问卷的信度评估:  通过调查问卷或者临床数据摘录表采集数据需要大量人员参与。尽管所涉及的人员必须经培训与考核后才能上岗,问卷填写错误、数据摘抄错误等不可避免,一些被调查者消极应付问卷调查,提供虚假数据或者胡乱填写问卷的情况也时有发生。因此,问卷数据的信度评价是必不可少的环节。目前通行做法是在问卷题目中专门设置数量不等的信度校验题目,即有个别题目重复出现,最后通过相同题目数据一致性来评价数据的可信程度。原则上,被调查者如果提供的真实数据,重复出现的题目不应该有过多的超过合理范围的答案不一致率。运用这种方法可以有效的发现那些信度不高的问卷,提升队列数据采集质量。

2.问卷数据逻辑核查:  逻辑核查是对数据离群值、缺失数据情况、选项构成比异常、前后逻辑性是否一致进行核查。逻辑核查针对不同的数据类型,侧重的方面也不尽相同。具体主要针对以下几种类型的数据进行核查:(1)数值变量:描述数据的分布情况,如数据的均值、中位数、95%参考值范围、数据离散情况、缺失率等,根据数据分布判断其合理性,对可疑或不符合常理数据进行退回核查,对缺失数据分析缺失原因并联系各中心进行补充;(2)选项变量:描述选项的构成比,对不同中心间选项构成进行比较分析,同时将其与已发表的类似数据进行比较,分析差异存在的原因。从而评价数据质量。原则上选项变量不应该出现缺失值,因此在选项设置上应注意设置全面;(3)日期、时间变量:描述不同事件发生时间、先后或持续长短等。这类数据质控主要针对不同时间格式是否合理,时间之间跨度和先后顺序是否合理等进行核查;(4)开放式文字文本变量:提取文本关键字或关键词,对答案进行分类和数字化,最终将文本数据全部转变为结构化数据,而后根据数值或选项变量的质控方式进行核查。

3.随机样本数据抽查:  采用随机化方法抽取具有代表性的中心和样本,样本抽样量可以根据各合作中心的样本纳入量和可行性结合统计学考虑设计,调取各中心汇交的样本上传,再抽取这些数据的原始记录、观测记录表等与之进行一致性核查,原则上要求关键变量的符合率应达到99.9%以上,对非关键变量允许一定的容错率,但不应超过1%,具体标准在不同规模和设计的队列中可以适当调整。随机样本数据核查主要从整体上关注数据的完整性和真实性,是队列数据质控体系的重要组成部分。

4.多种数据来源复合性评估:  大型队列的数据通常从多个中心获取,而并非单一来源。此外,队列研究也有可能来源于临床信息系统、医保系统、户籍档案系统等多种不同构架的数据库,从中进行多维分析挖掘,为研究目标提供有价值的分析结论。因此,对于数据来源的复合性评估主要针对以下两种情况进行:(1)多中心来源数据:对于同一类变量,在研究设计阶段,考虑到不同中心的测量方式或登记格式可能存在一定差异,需要数据格式、单位给出明确统一的标准,如在数据分析阶段则需要进行格式核查转换,统一标准之后再进行数据合并分析;(2)多种不同来源数据库:对于同一个体,某条信息可以从多个来源获取,针对这种情况,不同来源的同一信息的一致性需要进行核查,对于缺失变量可以进行多个数据库的交叉补充,通过此种方法能有效提升队列数据的准确性和完整程度。

五、总结与展望  当前,我国正处于队列建设的黄金期,各类人群队列建设蓬勃发展。这些队列建设必将成为未来我国医学研究的重要基础工程和资源库,数据质控工作的重要性不言而喻。我国大型人群队列研究还处于起步阶段,数据管理和质控体系还不成熟,只有不断探索改进,借鉴国外经验,顺应时代趋势,结合人群队列研究项目实际情况,才能制定更加全面完善的数据管理与质量控制策略。此外,随着基于移动智能终端设备的无纸化问卷系统的日益普及,使得数据的在线汇交更加方便、快捷。因此,针对这类平台所采集数据的质量控制应该进一步研究探索,努力使数据质控更加自动化、智能化、实时化。

参考文献
[1]李立明,吕筠.大型前瞻性人群队列研究进展[J].中华流行病学杂志,2015,36(11):1187-1189. DOI:10.3760/cma.j.issn.0254-6450.2015.11.001.
[2]高文静,李立明.中国双生子队列研究进展[J].中华流行病学杂志, 2017,38(6):828-831. DOI:10.3760/cma.j.issn.0254-6450.2017.06.027.
[3]TaoFB, HaoJH, HuangK, et al. Cohort Profile: the China-Anhui Birth Cohort Study[J]. Int J Epidemiol, 2013,42(3):709-721. DOI: 10.1093/ije/dys085.
[4]HuFB. Metabolic profiling of diabetes: from black-box epidemiology to systems epidemiology[J]. Clin Chem, 2011,57(9):1224-1226. DOI: 10.1373/clinchem.2011.167056.
[5]施梦瑶,王雅斐,黄锟,等.孕前体重和孕期增重对胎儿生长受限影响的队列研究[J].中华预防医学杂志,2017,51(12):1074-1078. DOI: 10.3760/cma.j.issn.0253-9624.2017.12.005.
[6]SatizabalC, BeiserAS, SeshadriS. Incidence of Dementia over Three Decades in the Framingham Heart Study[J]. N Engl J Med, 2016, 375(1):93-94. DOI: 10.1056/NEJMc1604823.
[7]DiCME, RagazzoV, JacintoT. Mortality in relation to smoking: the British Doctors Study[J]. Breathe (Sheff), 2016,12(3):275-276. DOI: 10.1183/20734735.013416.
[8]Sotos-PrietoM, BhupathirajuSN, MatteiJ, et al. Association of Changes in Diet Quality with Total and Cause-Specific Mortality[J]. N Engl J Med, 2017,377(2):143-153. DOI: 10.1056/NEJMoa1613502.
[9]ZenginiE, HatzikotoulasK, TachmazidouI, et al. Genome-wide analyses using UK Biobank data provide insights into the genetic architecture of osteoarthritis[J]. Nat Genet, 2018,50(4):549-558. DOI: 10.1038/s41588-018-0079-y.
[10]ChenZ, ChenJ, CollinsR, et al. China Kadoorie Biobank of 0.5 million people: survey methods, baseline characteristics and long-term follow-up[J]. Int J Epidemiol, 2011,40(6):1652-1666. DOI: 10.1093/ije/dyr120.
[11]王笑峰,金力.大型人群队列研究[J].中国科学:生命科学,2016,46(4):406-412. DOI:10.1360/N052016-00104.
[12]谭珊,李洪艳.母婴健康出生队列研究调查表的编制[J].中南大学学报(医学版),2016,41(1):93-100.DOI:10.11817/j.issn.1672-7347.2016.01.015.
[13]静恩英.调查问卷设计的程序及注意问题[J].湖北民族学院学报(哲学社会科学版),2009,27(6):99-102.DOI:10.3969/j.issn.1004-941X.2009.06.019.
[14]SchiermeierQ. Data management made simple[J]. Nature, 2018,555(7696):403-405. DOI: 10.1038/d41586-018-03071-1.