大数据时代和医疗研究

本文作者：郭崇慧王志飞田峰

一

信息时代与大数据

在过去的数年中，信息技术在社会、经济、生活等各个领域不断渗透和推陈出新。在移动计算、物联网、云计算等一系列新兴技术的支持下，社交媒体、众包、虚拟服务等新型应用模式持续拓展着人类创造和利用信息的范围和形式。当今信息技术的发展及创新正使各个行业发生改变，推动信息时代进人大数据的新纪元。

2010年2月，The Economist杂志发表了The Data Deluge 作为封面文章。文章指出，当今世界上的信息数量正快速递增，随着这股数据洪流不断增加，存储这些数据，提取并分析有用信息将变得更困难。商业、政府、科学以及人们的日常生活，都已经显现数据泛滥的前兆。处理数据泛滥的最好方法就是让更多数据被用到正确的地方，但这个过程可能会十分漫长。毕竟，人类学习处理数据洪流、找到如何管理它们的过程才刚刚开始。

2011年6月，麦肯锡咨询公司发布了《大数据：下一个竞争、创新和生产力的前沿领域》研究报告。麦肯锡在研究报告中指出，数据正渗透到当今每一个行业和业务职能领域，成为重要的生产因素。各行各业海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来，大数据时代已经降临。

2012年3月，美国政府宣布投资2亿美元发起“大数据研究和发展倡议”，致力于提高从大型复杂数据集中提取信息和知识的能力，并服务于能源、健康、金融和信息技术等领域的高科技企业。2012年4月，英国、美国、德国、芬兰和澳大利亚研究者联合推出“世界大数据周”活动，旨在促使政府制定战略性的大数据措施。联合国也在2012年5月发布了《大数据促发展：挑战与机遇》白皮书，指出大数据对于联合国和各国政府来说是一个历史性的机遇，人们如今可以使用极为丰富的数据资源,来对社会经济进行前所未有的实时分析，帮助政府更好地响应社会和经济运行。

越来越多的政府、企业等机构开始意识到数据正在成为最重要的资产，数据分析能力正在成为核心竞争力。大数据时代对政府管理转型来说是一个历史性机遇，对于企业来说，对海量数据的运用将成为未来竞争和增长的基础。同时，大数据也已引起学术界的广泛研究兴趣，2008 年和2011年，Nature 与Science 杂志分别出版专刊Big Data: Science in the Petabyte Era和Dealing with Data,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论大数据处理和应用专题。

二

大数据的特点

大数据指的是无法使用传统流程或工具处理或分析的大量数据的集合。大数据既是数据量的一个激增，同时也是数据复杂性的提升。大数据同过去的海量数据有所区别，其基本特征可以用3个“V”开头的英文关键词来描述，即体量大(volume)、类型多(variety)、速度快(velocity)。

大数据的第一特征是数据体量巨大。大数据的数据存储量的计量单位从TB量级跃升到PB量级。当前，典型个人计算机硬盘的容量为TB量级，而一些大企业的数据量已经接近EB量级。1E字节=1 152 921 504 606 846 976字节，约相当于一般个人计算机硬盘容量的100万倍。如今，传感器是生成数据的主要来源，2010 年生成了1250亿千兆字节的数据，超过了宇宙中所有星星的数量。

大数据的第二特征是数据类型繁多，包括结构化的数据表和半结构化的网页以及非结构化的文本、图像、视频、地理位置等。物联网、云计算、移动互联网、车联网、手机、平板电脑以及遍布地球各个角落的各种各样的传感器，无一不是数据来源或者承载的方式。这些多类型多来源的数据对数据处理能力提出了更高的要求。

大数据的第三个特征是数据增长与处理速度快。数据源增加、数据通讯的吞吐量提高、数据生成设备的计算能力提高，使得数据产生和更新的速度非常快。传统数据仓库、商务智能应用都采用的是批处理方式，但对于大数据，必须进行实时数据流处理。

产业界对大数据特征的定义普遍采用上述“3V”特征来描述，不过也有人认为除了“3V”特征，还应该增加1个“V”,即价值（value），它是大数据处理与分析的最终意义，即获得洞察力和价值。日本野村综合研究所认为“所谓大数据，是一个综合型概念，它包括因具备3V（volume/variety/velocity）特征而难以进行管理的数据，对这些数据进行存储、处理、分析的技术，以及能够通过分析这些数据获得实用意义和观点的人才和组织”。这实际是在广义层面上为大数据给出了一个定义。如图1-1所示。

所谓“存储、处理、分析的技术”，指的是用于大规模数据分布式处理得框架Hadoop，具备良好扩展性的NoSQL数据库，以及机器学习和统计分析等。所谓“能够通过分析这些数据获得实用性意义和观点的人才和组织”，指的是目前在世界各地十分紧俏的“数据科学家”，各行各业能与“数据科学家”对接的多科学人才，以及能够对大数据进行有效运用的组织。

维克托 ▪ 迈尔-舍恩伯格认为大数据有三个主要的特点，分别是全体性、混杂性和相关性。第一，是全体性，即收集和分析有关研究问题更多、更全面的数据，数据量的绝对数字并不重要，重要的是有多少数据和研究的现象相关，通过与研究问题有关的更多、更全面的数据可以看到很多细节，这些细节在以前通过随机抽样方式获取少量样本数据的条件下是得不到的。第二,是混杂性，即接受混杂的数据，在小数据时代人们总试图收集一些非常干净的、高质量的数据,花费很多金钱和精力来确定这些数据是好数据、高质量的数据，可是在大数据时代，就不再去追求特别的精确性。当微观上失去了精确性，宏观上却能获得准确性。第三，是相关性，因为大数据的混杂性特点，要求人们从小数据时代寻求因果关系转向大数据时代发现相关关系。

三

大数据与云计算

大数据的爆发性增长和互联网技术的飞速发展催生了云计算。大数据巨大的数据量使得传统的单机运算无法进行，云计算通过将计算分布在大量的分布式计算机而非本地计算机或远程服务器中从而使数据得以利用，这样的服务基于互联网使普通用户受益，使得无法接触高性能计算的用户也可以享受每秒百万亿次的计算能力。

所谓的云计算，从广义上讲，它是一种动态的、易扩展的，且通常是通过互联网提供虚拟化资源的计算方式。从狭义上讲，它是指IT基础设施的交付和使用模式，通过网络以按需、易扩展的方式获得所需的资源(硬件、平台、软件)。提供资源的网络被称为“云”。云计算是分布式处理( distributed computing)、并行处理(parallel computing)和网格计算(grid computing)的发展，通过利用非本地或远程服务器(集群)的分布式计算机为互联网用户提供服务(计算、存储、软硬件等服务)，从而有效地提高了对软硬件资源的利用效率，使用户通过云计算享受高性能并行计算所带来的便利。

四

科学研究的第四范式

随着大数据及相关信息技术的发展，科学研究的知识基础发生了革命性的变化。通过各类观察、感知、计算、仿真、模拟、传播等，科研领域的大数据正迅速产生、广泛传播和有效组织保存，正在逐渐成为科学研究的新基础和有力工具。尽管科学界一直在与数据打交道，但大数据的洪流也在改变着人们对数据及其作用的认识。当数据海量化、泛在化、开放化、网络化和计算化时，它的作用就发生了根本性变化。2007年，已故的图灵奖得主吉姆 ▪ 格雷(Jim Gray)在他最后一次演讲中描绘了数据密集型科研“第四范式”( the fourth paradigm) 的愿景。将大数据科研从第三范式(计算机模拟)中分离出来单独作为一种科研范式，是因为其研究方式不同于基于数学模型的传统研究方式。

2009年10月，微软公司发布了《第四范式：数据密集型科学发现》一书的英文版。这是国际上第一本系统描述大数据现象、深刻揭示其对科学研究的革命性影响的著作，对大数据时代如何理解和组织科学研究、科研管理和科研服务具有重要的意义。该书扩展了吉姆 ▪ 格雷的思想，基于e-Science提出了科学研究的第四范式，即以大数据为基础的数据密集型科学研究，从地球环境、健康医疗、科学的基础架构以及学术交流等四个方面，对数据密集型科学研究的愿景进行了探讨，就如何充分利用科学发展的第四范式提供了深刻见解。2012年11月，《第四范式：数据密集型科学发现》一书的中文版出版。

e-Science这一术语最早由英国科学家于2000年提出，用以概括在信息化基础设施支持下所开展的科学研究活动所需要的一系列工具和技术。如今，随着大数据时代的到来，科学发展正在迈入一个新阶段，科研的方法也从之前的实验型科研( experimental science)、理论型科研( theoretical science)、计算型科研( computational science)推进到第四范式——数据密集型科研 ( data- intensive science)。科学研究第四范式，将带来科学研究的革命。当科研人员可以方便地从宏观到微观、从自然到社会获得海量实时的观察和实验数据，当这些海量数据普遍地可网络获取、可计算、可开放关联，当对这此数据进行分析、更新，扩展的方法和技术成为科学家和公众的普惠性工具，知识成为可以被及时更新、广泛连接、灵活计算的活的生命体，可个性化地、动态地、交互地、智能化地嵌入到人们的研究、学习、管理和生活中，许多激动人心的潜力将被进一步开发，许多未知的领域和方向将呈现在人们面前。

五

大数据对现代医学理念的领覆

（一）群体模式向个体模式的转变

从某种意义上说现代医学体系建立于流行病学基础之上，至少是建立于流行病学理念的基础之上。流行病学是研究特定人群中疾病、健康状况的分布及其决定因素，并研究治疾病及促进健康的策略和措施的科学。2004年世界卫生组织（world health organization,WHO）对临床流行病给予了极高评价，指出这门学科从群体层面和定量研究的方法出发，在推动全球卫生研究、创造最佳的研究效果、推动人类健康事业方面做出了突出贡献，在推动医学领域发展中起到了举足轻重的作用。

流行病学的基础是概率论，关注在人群中占主体地位的人。因此，标准的临床医学试验有严格的纳人和排除标准，将非主体的人群，如老年人、儿童、妊娠或哺乳期妇女、肝肾功能障碍者，以及患有某些疾病的人排除在外，并且在纳入的人群中取95%或99%的置信区间，假设置信区间之外的个体表现出来的差异都是偶然的，可以不予考虑。这种试验简化了临床实际，使得大量临床研究得以方便地开展。毋庸置疑，这种方法对于推动现代医学的发展起到了不可替代的作用，但也抹杀了个体的差异性。毫无疑问，在试验设计和统计检验中被排除的人群，也是需要临床照料的人，但却因为与多数人的某些差异而无法得到应有的医学照料。

建立于流行病学基础之上的现代医学体系是一种以群体为基础的研究范式。随着大数据时代的列来，它必然会被以个体为基础的研究范式所取代。199年波立维(硫酸氢氯吡格雷片）完成19000例患者参与的代号为CARPIE的临床试验，这是严格遵循流行病学和循证医学原则的临床试验，试验结果表明药物对罹患血管疾病的患者群体具有潜在的好处。于是美国食品药品监督管理局(Fad and Drug Administration, FDA)联同世界其他一些监管当局批准了该药的使用。截止2010年，波立维以年销售额90亿美元成为全球销量第二的处方药。然而随着精准医疗(precision medicine, PM)理念的逐渐崛起，人们开始重新审视这一研究结果，大量的研究证据促使FDA给予波立维警示级别最高的黑框警告：在缺少特定基因变异的患者身上，波立维可能无法发挥作用。波立维的代谢决定于功能基因CYP2C19,至少有30%的人因缺少此基因而无法正常代谢波立维，从而不能产生药效。对波立维的重新认识经历了20年的时光，这是以群体为基础的循证医学研究范式向以个体为基础的精准医疗模式转变的过程。

以个体为基础的医疗模式须建立于远多于群体模式的医疗信息之上。因为群体尼面的规律是对研究对象理想化、简单化之后的规律，而以个体为基础的医疗则需要充分彰显个体的特征，从而需要对个体进行更加深刻，更加细致的刻画。因此从群体向个体模式的转变，不仅仅是思维模式的变化，也是数据和计算方式的转变。大数据正是促成这一类模式转变的关键因素

(二)大数据是模式转变的关键

今天，医疗行业产生的数据正呈指数级增长。早期的医疗数据大多记录在纸张上，如医院的病例、处方、收费记录、化验检查结果、医学影像等。随着信息技术的发展和医院信息化的快速推进，医疗信息大量电子化。医疗信息记录的成本降低促进了医疗数据的大爆发。有报告显示，2011年美国的医疗健康系统数据量达到了150EB。照目前的增长速度，很快会达到ZB (如果家用电脑的硬盘容量为1TB,那1ZB相当于10亿台电脑的容量)。另外，现代社会，医疗健康数据不一定产生于医院，个人健康数据的规模也极为庞大。首先是基因数据，一个人的全基因测序数据大约为300GB。此外，各种可穿戴设备实现了血压、心率、体重、血糖、心电图等的实时监测，使健康信息的获取方便而廉价。虽然这些数据纷繁复杂，可能来自不同的地区，不同的医疗机构，不同的软件应用等，但毫无疑问，只要能对其有效地整合和分析，医疗大数据将对提高医疗质量、发现医学知识、减少用药风险、降低医疗成本，保障患者权益等方面发挥巨大作用。

同样，云计算从其诞生之日起就以其在网络时代无与伦比的优势得到迅速发展，其对健康领域的影响也日益巨大。云计算能够提供海量数据存储能力和强大的计算能力，并且提供方便快捷的软件服务，将各医疗机构的远程服务作为云端服务提供，使用户的需求可以得到最好的匹配，使电子健康由以机构为中心的服务模式向以人为中心的服务进行转变，通过在云端数据的分析挖掘将医疗服务变得更加个性化、智能化。在云计算的支持下，医生将更加方便地获得各种医疗健康历史数据、关联知识、诊疗方法信息的支持。数据分析云服务可以将电子病历数据变成知识，以提供和优化医生的临床实践。

医疗数据的电子化、健康管理数据、可穿戴设备产生的数据，以及云存储、云计算等大数据的处理技术，为精准医疗的实现奠定了基础。

（三）精准医疗：医学大数据应用的尝试

精准医疗的发展缘于近几年来多项科学技术的突破，尤其是基因测序技术、多水平的组学生物学技术和计算机分析能力的提升，而这些也同样是大数据革命产生的先决条件。美国科学促进会(American Association fon the Advancement of Science, AAAS) 主席、《科学》杂志的创办者Philip Sharp 曾将DNA双螺旋结构的发现和人类基因组计划分别称为生命科学的“第一次革命”和“第二次革命”。而加州理工学院的 David Baltimore 近时也对精准医疗做了这样的解读：”精准医疗的愿景主要是由两项重要技术——DNA 测序和基因组技术来驱动的”。近年来基因测序成本飞速下降，其下降的幅度甚至远超摩尔定律的预计,目前分析一个人类个体基因组的成本只要2000美元，这使得大规模获得基因组学数据成为可能。而大规模多水平组学生物学技术，如蛋白组学、代谢组学、基因组学、转录组学及表型组学等的飞速发展，为精准医疗提供了强有力的技术基础；临床信息学技术的进步如电子医疗病例等，也为获得详细临床数据并对接生物学大数据提供了可能；计算机运算能力的提升和信息技术尤其是大数据处理、云计算等技术的出现使得大量生物学数据的处理成为可能。这一切都催生了精准医疗的出现。

精准医疗在肿瘤学上的应用已经取得了令人振奋的成果，肿瘤研究已从癌症基因组的系统研究中获益，而精准肿瘤学正是精准医疗的领头羊。例如，曾经被认为性质单一的弥漫大B细胞淋巴瘤(DLBCL) 借助高通量基因表达谱研究，发现存在显著的分子学异质性。DLBCL至少存在3种基因表达亚型，即GCB (germinal center B-cell-like)、ABC(activated B-cell like) 以及PMBL (primary mediastinal B-cell lymphoma)。这些亚型起源于B细胞分化的不同阶段，存在不同的原癌基因激活特征。同样的疗法会因不同的亚型而出现临床预后的不同，ABC亚型临床预后不好与其基因变异引起NF-kB (nuclear factor kB）活性改变而导致的治疗抵抗有关。

精准医疗的理念可以有效指导临床合理用药、从而达到降低药物不自后应(adverse drug reactions,ADRs)，提高安全性的目的。提高安全性的目的。王辰院士认为精准医疗可以在有效控制不合理的药费支出、提高疗效、降低药品不良反应等方面带来重大的社会和经济效益。以华法林为例，美国 AEI-BROOKINGS 法规研究中心2006年发布的数据显示美国每年新增200万患者使用华法林。若为这200万新增使用者每人实施一次华法林相关基因检测（约300美元/人），然后根据基因检测结果制定个体化给药方案，则每年可在美国减少85 400起药物过最导致的出血事件，减少17 100 起药量不足导致的血栓事件，每年可节约11亿3千万美元的医疗费用开支。贺林院士认为，精准医疗理念指导下的临床合理用药最终走向个体化医疗。个体化医疗是以个体信息为决定基础的治疗，从基因组成或表达变化的差异来把握治疗效果或毒副作用等应答反应，对每个患者进行最适宜的药物治疗。据统计，我国每年药物所致严重不良反应约250万例，药物所致死亡约20万例。如果能够推行基于精准医疗的临床合理用药，可能会极大地减少不良反应的损害。同时，推动精准医疗的发展，可以将我国拥有的巨大患者资源优势转化为促进临床诊疗技术进步的战略资源。

精准医疗与中医药个体化治疗的理念相通。大数据的相关技术为现代医学从关注“人的病”向关注“病的人”的转变提供了方法学的支撑。这是现代医学摆脱纯粹的“科学主义”，走向中医学所倡行的科学与人文相结合的新医学的坚实一步。在“生命科学&人文科学”的定位指引下，新医学面对“病的人”这一复杂巨系统，在面对巨系统中生物、社会、心理、环境等诸多元素的复杂关系时，大数据的相关技术提供了处理非线性和关系本体的方法，这为统一新医学的进程扫清了道路。我们可以期望，在大数据的推动下，在不远的来，中医学和西医学的体系都发生根本性的变化，西医学从理念上向中医学靠近，而中医学从技术上向西医学靠近最终形成统的新医学。

来源于：《中医药大数据与真实世界》

主编：谢雁鸣王志飞

声明：该文观点仅代表作者本人，搜狐号系信息发布平台，搜狐仅提供信息存储空间服务。