大数据在健康医疗领域的应用现状 大数据在健康医疗领域的应用现状 关键词:医疗 大数据 应用
在大数据时代, 我们每天都生活在数据的世界中。 全球每秒钟发送 2.9百万封电子邮件, 一分钟读一篇的话, 足够一个人昼夜不息的读 5.5 年…每天会有 2.88 万个小时的视频上传到 Youtube, 足够一个人昼夜不息的观看 3.3 年…推特上每天发布 5 千万条消息, 假设 10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览 16 年…每天亚马逊上将产生 6.3 百万笔订单…每个月 网民在 Facebook 上要花费 7 千亿分钟, 被移动互联网使用者发送和接收的数据高达 1.3EB…Google 上每天需要处理 24PB 的数据…
大数据时代, 数据不再是社会生产的“副产物”, 而是可被二次乃至多次加工的原料, 是可再生资源, 从中可以探索更大价值, 它变成了生产资料。 然而不可再生资源呢? 据统计, 全球煤炭资源仅供开采 162 年、 石油仅供开采 40 年, 天然气仅供开采 65 年。那么大数据对于人类医疗健康,临床试验等, 是否能起到指示性的作用呢? 1 大数据在医疗卫生领域的应用现状 1.1 医疗卫生领域数据资源现状分析
近年来, 我国医疗卫生领域吸纳了国内外当前先进的信息技术, 信息化程度得到很大提高, 我国卫生统计建起了覆盖国家、 省、 市、 县、 乡、村六级的从业人员达 10 万人的工作网络, 90 余万家医疗卫生机构通过统计直报系统上报了年报及月 报, 建立了动态的医疗卫生机构、 卫生人力等信息库, 卫生资源与卫生服务利用、 疾病报告与健康监测等大型数据资源库。 自 1993 年开始, 每 5 年在全国范围内开展的国家卫生服务调查, 现已建立连续性的, 覆盖全国 31 个省 20 万人口的家庭基本信息、 人口基本信息、 患病、 就医、 基本医疗卫生服务利用等 200 余项指标的数据库, 形成了可进行时间序列分析的系列海量数据。 目前, 县及县以上医院基本建立了医院信息系统, 20%的县及县以上医院建立起以病人为中心、 以电子病历为基础的挂号、 收费、 处方、 治疗一体化管理信息系统。 全国县级新农合管理信息系统基本建成, 省、 市级监管平台正在逐步完善, 各级新农合管理部门、 经办机构、 定点医疗机构以及其他相关部门间建立计算机网络联接和数据资源共享。 深化医改以来, 各地基本建立了基本药物监测评价管理系统, 实现对各地基本药物和增补药物品种数量、 采购情况、 缺失的基本药物品种数量、 销售价格、 配备使用、 补偿及报销情况的监管时,产生了大量数据资源。 国家卫生综合管理信息平台是我国卫生信息资源管理的重要组成部分, 实现了医疗卫生机构统计数据和各级卫生行政部门在线汇总数据, 仅在当前开始运行阶段, 就已采集传染病信息 5 千多万条、突发公共卫生事件信息 20 多万条、 近 5 百万人电子健康档案数据、 3 百多万人新农合数据近 4 千万条、 1 千多万人的诊疗数据。 北京、 上海、 安徽等 12 个省份也已建立电子健康档案资源库。 另外, 国家传染病与突发公共卫生事件网络直报系统的建立, 实现了全国所有疾病预防控制机构、 96.98%的县和县级以上医疗机构、 82.21%的乡镇卫生院网络直报。 国家级卫生监督信息系统建设也已启动。 妇幼保健业务信息系统围绕新生儿出生登记、 死亡和就诊等业务, 也在逐步建立完善。 这些重要的卫生信息系统运行产生的数据, 就占据了我国医疗卫生领域数据总量的大部分。 大数据的数据来源主要分为运营式系统阶段、 用户原创内容阶段和感知式系统阶段。 我国医疗卫生服务、 卫生统计调查和各种医疗卫生行业信息系统产生了巨量数据, 以每个 CT 图像含有大约150MB 的数据、 每个基因组序列文件大小约为 750MB、 每个标准病理图则接近 5GB 计算, 乘以我国人口数量和平均寿命, 那么每个社区医院或中等规模制药企业均可以生成和累积达数个 TB 甚至数个 PB 级的结构化和非结构化数据。 医疗卫生“大数据” 的数据资源包括医疗服务的 EHRs 数据,医院与医保的结算与费用数据, 医学研
第1页 /总页数 4 页
究的学术、 社会、 政府数据, 医疗厂商的医药、 医械、 临床实验数据, 居民的行为与健康管理数据以及政府的人口与公共卫生数据, 连同我国公共社会经济生活中网络产生的数据,构成了医疗卫生领域大数据的初期数据资源。 而随着医改的不断深入, 卫生统计和信息化建设得到了进一步加强, 统计方法不断改进、 多种信息系统广泛使用, 医疗和健康数据急剧扩容并几何级增长, 利用包括影像数据,病历数据、 检验检查结果、 诊疗费用等在内的各种数据, 搭建合理先进的数据服务平台, 将为广大患者、 医务人员、 科研人员及政府决策者提供服务和协助方面发挥主要作用。
1.2 医疗卫生大数据应用分析(疾病诊疗)
大数据时代下, 电子病历的应用。 医院电子病历管理系统所产生和保存的病案信息是医疗卫生“大数据” 的重要信息来源, 医疗卫生部门应整合电子病历等信息资源, 以大数据信息管理理念构建医疗卫生信息共享中心, 充分发挥电子病历等医疗信息资源在寻求最佳治疗途径、 提高诊疗水平、 防控流行病疫情等方面的利用价值。 病历档案, 是指按规范记录患者病情和医生诊疗情况的档案, 是医护人员记录患者疾病诊疗过程的文件,它客观、 完整、 连续地记录了患者的诊疗经过、 病情变化、 治疗效果等情况, 是医院医疗、 教学、 科研的基础资料, 也是医学研究的原始材料。 大数据技术为创新病历档案信息资源利用模式带来了新的机遇, 运用大数据理念创新病案信息管理和利用模式, 对于提高病历档案的信息化管理水平具有重要意义。 大数据的发展促进了肿瘤登记的发展。 恶性肿瘤对人类生命健康和社会发展危害极大, 全球每年死于恶心肿瘤的人数八百万左右,要有效降低恶性肿瘤的危害, 首先必须及时、 完整、 准确地掌握恶性肿瘤流行病学资料。 但肿瘤资料数量巨大、 种类多、 分布广, 有关数据库相互孤立, 大部分为非结构化数据等原因, 传统数据收集方法难以及时、 完整和准确地收集肿瘤资料, 尤其是有关临床分期、 治疗和随访等信息, 同时传统数据库管理办法也难以管理越来越多的、 复杂的肿瘤数据, 严重制约了肿瘤登记工作的发展。 大数据技术为肿瘤登记和研究带来了便利, 采用大数据技术和方法, 可有效解决肿瘤登记和研究面临的困局。 1.3 医疗大数据的其他应用
1) 医疗大数据除了应用于疾病的辅助诊断和治疗方案的确定外, 还可应用于医学研究、 流行病预测和药物副作用分析等方面。 医疗大数据系统保存了成百上千万患者的全部真实数据, 如患者个人基本信息, 包括居住地信息、 家族疾病史等, 这些信息有助于研究某些疾病发病的家族性和地区区域的分布性。 通过大数据系统的挖掘分析, 可以得知哪些癌症会有明显的家族遗传性, 从而可进一步分析其发病与基因变化的关系, 以找到降低这种癌症发病率的方法。 通过挖掘分析大数据中疾病与地区区域的关系, 可以得知哪些疾病容易在某些地区发生, 以便进一步分析该地区的环境因素与疾病发生的关系, 使得人类去有意识地改变环境, 去除导致疾病发生的诸多因素。
2) 医疗大数据系统还可以用于流行病爆发的预测。 相关部门通过分析医疗大数据的变化, 获得来自全球各地的患者出现相同或类似症状并迅速在人群中蔓延的信息, 从而可预测某些流行病的爆发, 为人类阻止或减缓流行病的发展提供依据。 医疗大数据系统的另一个重要应用是药物副作用分析。 在临床用药过程中, 药物使用可能会引起病人的不良反应。 这种不良反应会导致治疗作用减弱甚至失败, 严重的可能会导致患者死亡, 同时不合理用药也会使患者医疗费用大大增加, 给患者带来更多的经济负担。 据文献统计, 药物不良反应的发生率: 门诊病人为 0.3%~5.0%, 住院病人为 10%~20%。 来自美国的报告显示,美国每年有 70 多万人因为药物副作用受到伤害或者死亡; 一家有 700 张床位的医院, 每年因药物副作用导致的住院和门诊费用达到 560 万美元。因此研究药物副作用对于提高患者疾病的治疗质量, 指导临床用药以减少药物对患者的伤害, 降低药物费用以及指导新药研发都具有重要的意义。
3) 传统的药物副作用分析主要采用临床试验法、 药物副作用报告分析法等, 这些方法受到样本数小、 采样分布有限等因素影响, 难以全面反映药物副作用造成的影响。 如果应用医疗
第2页 /总页数 4 页
大数据库系统, 可从千百万患者的数据中挖掘到与某种药物相关的不良反应, 样本数大, 采样分布广, 所获得结果更具有说服力。 更进一步, 我们还可以从社交网中(如新浪博客、医疗网络论坛) 搜索到大量人群服用某种药物的不良反应记录, 通过比对分析和数据挖掘方法, 更科学、 更全面地获得药物副作用的影响。
综上所述, 医疗大数据具有极大的价值, 挖掘医疗大数据中的价值信息对于疾病诊断、 治疗方案确定、 流行病预测、 医学研究和药物副作用分析等方面具有重要的意义。 从某种意义上讲, 医疗大数据系统对于改善人类生活环境、 提高生活质量、 获得更高的幸福指数均有重要的作用。
2 医疗大数据目前存在的问题 2.1 数据量大, 数据类型复杂
医疗领域的数据量巨大, 数据类型复杂。 到 2020 年, 医疗数据将增至 35ZB, 相当于 2009 年数据量的 44 倍。 另外, 在医院, 每个患者不但要经过 辨证论治的个体化诊疗, 还会经过各种理化检测进行疾病及其预后的诊断, 所以不光有病历资料中包含的信息, 还会有生化检查、 多种影像或病理切片检查的生物学 信息, 数据类型十分复杂。 这给数据的存储、分析、 处理、 传输等带来很大挑战。 2.2 信息采集不足, 收集渠道不畅
要想在医疗领域使用大数据技术, 首先要有足够的病人、 药物等相关信息, 这是数据分析的基础, 然而许多病人可能出于隐私考虑不愿提供这些信息, 制药企 业也有可能因为商业利益不愿共享药物成分等敏感信息。
另外, 各个医院及机构的医疗信息、 软件及硬件服务都各自独立, 缺乏合理接口, 大数据收集的渠道不畅, 导致采集与应用存在一定程度上的脱离。 2.3 大数据高效分析能力欠缺
采集到足够信息后, 需要由相关领域的专业人士与信息技术专家一起对数据进行有针对性地归纳和分析, 得出由大量新兴技术(如 Hadoop MapReduce、 内存数据库等)组成的高性能的专业的分析技术架构解决方案, 而这种跨学科、 跨领域合作能否顺利实现, 是大数据技术实际应用中的重要问题。 2.4 大数据的安全
随着数据量的不断增加, 数据存储的物理安全性越来越重要, 对数据的多副本与容灾机制提出更高的要求。 但是网络和数字化生活使得犯罪分子更容易获得关于人的信息, 也有了更多不易被追踪和防范的犯罪手段,大数据的保护越来越重要。 2.5 观念落后
目前医疗领域的决策往往是建立在经验或者传统数据粗糙的分析方法基础上的, 而改变各层次决策者旧的决策习惯, 使其学会利用大数据的分析结果进行决策, 还有一段路要走。 3 建议
1) 区分数据与信息
数据与信息二者并不是一回事、 定义也不尽相同。 数据只有在准确并获得及时更新的情况下才能与实际信息相符。 如果二者不相符, 那么这部分数据根本没有保存的价值。 仅在系统中承载数据还远远不够, 在信息收集或分析前需要确认这些数据是否实际有效。
2)对数据进行细致观察, 做好整体规划由于现在数据生态系统孤立且凌乱, 容纳数据的各系统之间往往也严重脱节、 根本无法彼此交互。 最重要的是, 数据捕捉与存储各自采取不同方式, 这不仅引发大量 潜在错误、 还迫使工作人员不得不以手动方式加以处理。 因此, 在大数据技术中首先要对数据进行细致观察, 做好整体规划, 确定系统的交互方式、 数据捕捉与存储 方式等, 以保证后续工作的顺利进行。
第3页 /总页数 4 页
3)对大数据有清晰的认识, 小规模入手Big Data 还处于发展初期, 还存在许多潜在的问题和不被众所所理解的地方。 公司建立大数据项目, 需要接触新的技术、 流程和基础设施, 一般需要很长时间才能看 到结果。 管理者们还是需要多了解相关知识, 对大数据技术有清晰的认识。 不要贪大图快, 需按步骤一步一步来, 比较明智的作法是, 计划完毕, 从小规模入手。
4)将数据映射至业务流程很多机构在推动数据质量项目时经常纯粹从“数据及系统的角度” 审视数据, 这时, 管理者应该从更为宏观的视角进行观察, 识别不同数据在日常工作中会被哪些业 务流程所使用。 识别重复数据条目的最佳方式在于后退一步, 将数据的捕捉与存储机制与各业务流程线加以映射。 只有这样技术人员才能准确把握整个机构的数据 流, 并更好地找出哪部分流程最容易发生错误或出现重复条目。 5)平衡大数据的各种技术
大数据技术涉及到数据存储、 处理等多种技术, 由于大数据容易消耗巨大的时间和成本, 因此, 在实行大数据技术战略部署时, 如何平衡各种技术, 组成高效的系统 是一个非常重要的问题。 首先要明确组成高效的医疗系统的因素是什么, 然后通过考虑何时、 如何使用数据、 要达到什么目标, 从而获得解决方案, 而不是研究阻碍 关键业务驱动因素(如效率和连续性)。通过这种方式, 以平衡大数据技术中的各种技术, 达到预期目标。 4 总结
未来 5 年内, 大数据所创造的价值将会达到 530 亿 美元, 同时产生10 万个工作岗位, 还会产生文化、 社会、 政治等方面的影响, 正所谓得数据者得天下。 虽然目前大数据技术在医疗领域大规模应用的条件还没有完全成熟, 但随着高速网络、 云计算中心等基础设施的日趋完善和大数据技术的不断发展, 医疗领域发展的趋势必将是以大数据技术驱动的个性化、创新化、 便利化医疗。
第4页 /总页数 4 页
因篇幅问题不能全部显示,请点此查看更多更全内容