多语言展示
当前在线:1955今日阅读:193今日分享:47

从哈佛著名的护士健康研究学习如何构建数据库

流行病学,其实可以说是一门哲学。因为无法实现完美的随机对照(实验组和对照组不可能完全一样),所以,流行病学应运而生,它用极度严谨,近乎苛刻的方法学减少人为的误差,让统计结果最接近于实际情况。走进“护士健康研究”举世闻名的哈佛流行病学,除了严谨的流行病理论和方法学(以后篇章将重点讲述),最为震撼的就是独一无二的各大研究群体。其中,著名的护士健康研究(The Nurses’ Health Study)始于1976年,由哈佛大学公共卫生学院和波士顿布里格姆妇女医院的研究者们共同发起,是迄今为止调查时间最长的前瞻性数据库。因此,基于哈佛护士健康研究数据库,形成了多个关于记忆力衰退、直肠癌、乳腺癌、骨质疏松、糖尿病等最新最权威的健康研究成果。之后,护士健康研究二期(着重于研究青中年妇女),护士健康研究三期(着重于研究怀孕期妇女的健康)都在进行中。此外,哈佛还拥有专门研究男士健康的医院健康人士研究(HealthProfessionals Follow-up Study), 专门研究青少年的今日成长研究(Grow-upToday Study)等。每周每天,都有基于这些数据库的科研论文发展,研究成果更是经常见诸于美国各大媒体,甚至世界媒介。解密“护士健康研究”是什么原因让一个数据库可以持续几十年,又是什么样的数据库可以孵育不计其数的科研论文呢?首先,数据库创建之初不应仅为一个狭小的科研题目而设计,需要围绕一个相对较大的论题,比如“导致女性主要慢性疾病的风险因素”。做任何的统计分析,研究的就是暴露因素(比如,一种手术,一种药物,或是吸烟等感兴趣的健康风险因素)与健康结果(比如,死亡,存活率等)的相关关系。但在分析这两者的关系时,需要考虑很多的混淆因素(比如,性别,年龄,职业等)。一旦这些混淆因素没有收录在数据库中,那么再厉害的统计师都无法得出缜密的结果。所以,一个数据库的变量一点要尽量“全”!第二,变量的选择有度。在护士健康研究中,我们可以将变量类型归纳为如下9大类:1)Personal andphysical characteristics; 2)Physical activity andability; 3)Reproductive history; 4)Family history; 5)Environmental/PersonalExposure; 6)Dietary supplement and behaviors; 7)Screening and procedures; 8)Disease andhealth conditions; 9)Prescription and Over-the-countermedications; 10)Psychosocial。所有科研数据都可以归为这几类,但选择具体变量时,必须要根据课题的方向有所摘选。收集尽可能多的变量固然好,但是也会大大增加数据收集和维护的成本,也会为将来数据分析带来困扰。第三,变量的编码准确而统一。护士健康研究的缔造者哈佛Channing Lab建立了独特的变量编码方式(标准变量库),任何允许使用数据库的用户都可以查询变量编码规则及如何使用数据,统计方法等。这是国内很多数据库缺少的要素,也正因为缺少统一的编码,让数据库之间无法交流而导致数据的浪费。编码变量可以重新缔造,也可以参看已有的成熟标准。比如,对于提交FDA的临床试验,都会使用临床数据交换标准协会(CDISC)提出的Study Data Tabulation Model(SDTM)来统一编码变量。这些标准让数据的编码变得统一,大大帮助CDE官员进行审批,也帮助未来数据库间的合并使用(我们将来未来几期中做详细的介绍)。第四,数据库需要不断更新,加入新的数据。比如,“护士健康研究”,从一开始研究人群就确定,但根据不同的需要,在每次问卷中加入新的问题;也有研究,选择不断加入新的人群,询问同样的问题。这些都是根据一开始研究设计的目的来决定的。数据库是否一定需要一次性构建完成?这其实是一个相悖的论题。所有的数据库都怕数据的缺失和不准确,也只有在数据库构建之初把所有的变量考虑在内才能减少数据的缺失。但是往往随着科研目的的变化,新事物,新技术的出现都让数据库不得不有新的变量融入。因此,数据库的构建并不是在一个阶段内一次性完成,可以根据具体的项目要求,分阶段性的完成数据库的构建。当需要再次开展新项目时,可以再次收集新的信息,仅使用统计软件就能实现数据建的合并(前提就是所有的变量必须要有统一的编码才可实现)。美国很多的数据库都是进行了长期的随访和研究,但是因为最近几年出现的空气污染科研主题,让很多古老的数据库必须加入环境数据才能够继续被使用。因此,数据库构建团队对这些入组者进行了新一轮的信息收集,并且保证所有入组者的ID等变量的编码一致,很快数据库就有了新的变量信息,供科研人员使用。LinkLab预告分析了这么多,最重要的就是如何构建和使用数据库了。篇幅有限,下一期将重点介绍如何构建科学合理的数据库。
推荐信息