枫叶论文网欢迎您的来访,本站长期提供代写毕业论文、硕士论文代写和论文发表服务! 加入收藏 | 设为论文网 | 代写流程 | 关于我们 | Tags标签

代写毕业论文,代写硕士论文发表,枫叶论文网

搜论文:
您当前的位置:首页 > 医学论文 > 医药卫生 本站提供论文代写,代写毕业论文和研究生论文服务!

中医药大数据基础平台安全性研究

时间:2018-01-11 22:52:02  来源:互联网整理  作者:匿名  TAG:

  1 概述

  大数据已成为学术界和产业界的研究热点,正影响着人们日常生活、工作习惯及思考方式。随着“互联网+”时代的到来,大数据的应用在电子商务、出行、医疗、养老等方面都有大量的应用。医疗大数据被用来辅助临床决策、指导临床治疗和新药研发。中医药是我国的传统医学,承载着中华民族几千年的医药文化。随着信息技术的飞速发展,中医药现代化、国际化已成为必然趋势,中医药信息化的建设刻不容缓。中医药信息系统每天都产生大量的数据,这些数据不仅是对医疗过程的记录,通过进一步挖掘及使用后均能产生更大的意义。而在这一背景下,医疗数据安全、个人隐私保护的问题也日益突出。

  构建中医药领域未来的大数据基础平台是一项纷繁复杂而又充满挑战的工程。本文主要对中医药大数据基础平台的安全性进行分析,通过对建立全生命周期的大数据平台数据安全体系的研究,加强多租户、授权、资源分配与隔离等能力建设,提供业务所需的数据安全保护功能。

  2 存在的问题

  2.1 数据安全问题

  未来的中医药大数据平台作为海量有价值数据的集中存储平台,数据安全将被视为平台的基石。如果没有从全生命周期进行安全加固,那么大数据平台的健壮可靠也就无从谈起。从控制外部向大数据平台内部访问的认证管理,到控制集群内数据访问的脱敏加密;从控制哪些用户可以使用哪些数据的授权管理,到用户行为的审计管理。为了满足各应用系统自身的分析需求,以及潜在应用系统间数据共享的巨大需求,为用户提供全方位的数据安全管理功能是各应用系统安心使用大数据平台的前提保证。

  2.2 运维管理问题

  隨着越来越多应用系统使用大数据平台,核心应用系统对于大数据平台的可靠性和业务连续性提出了更高要求。对于新兴的大数据技术,自有运维团队的经验也有欠缺,一方面需要依靠自身的提高完善,合理分配运维角色,划分职责范围,确保运维体系的有效性和可行性,一方面要利用好外部专家团队的技术支持,解决好复杂专业的问题,积累运维经验,提高运维水平,才能切实提高大数据平台的安全保障能力。

  3 安全策略

  3.1 多租户

  结合中医药的实际情况,首先可以通过多租户架构来应对数据访问安全问题。实现多部门与应用共用相同的系统或程序组件,并且确保各租户间数据的隔离性。创建及管理租户基本信息并为租户分配计算资源和存储资源,为租户分配相应的权限模型。监控租户资源的使用情况包括当前资源的使用及空闲情况,租户下运行作业情况等。基于CPU和内存为粒度设计资源池,为资源池配置独占资源量、共享资源量、抢占时间、资源权重等参数。监控整个平台各资源池的使用情况,动态调整资源配置以达到充分利用大数据平台能力。大数据平台多租户的逻辑架构如图1所示。

  在该架构下把各部门作为逻辑上的大租户,把部门内各个业务系统作为小租户(“小租户”在无歧义的情况下简称“租户”),每个租户有不同的计算资源、存储资源及权限。不同租户间的数据在没有授权的情况下不能互相访问,不同租户的作业分别提交到不同的队列中。

  对不同的租户设置管理员组、租户组和隐私组。租户组作为业务的基本管理单位,租户下的所有用户将归属于相应分组,分组可以管理租户权限并且租户分组是其资源的基本管理单位。租户管理员作为租户的应用运行账户及管理员,用于运行生产作业。掌握该账号的人员多为业务系统负责人或业务系统维护负责人。负责租户内部应用投产、内部的资源配置等本租户相关生产运维工作。个人用户作为租户内部的数据分析师,通常为租户内部的个人账户。拥有租户内部及外部有限的数据权限范围内进行分析工作。

  对租户的存储和计算资源进行管理,有初始值和上限值。新租户上线默认分配的资源为500G空间资源,1C,4G计算资源。租户可以选择将资源分配至各类服务的比例。超过20T空间或96C、384G计算资源的申请,需要提前提出申请,由相关部门审核后配置所需资源。

  大数据平台多租户体系的建设,对资源隔离,数据安全有积极的作用。有效的数据安全管理促进信息资源的有序开发和利用,强化数据安全管理也能为行业、市场与社会的发展注入积极因素。

  3.2 高可用

  大数据平台的高可用主要考虑硬件和大数据组件的高可用性。大数据集群充分考虑到高可用的重要性,在组件设计时采用分布式集群架构最大限度地保证组件的高可用。组件的高可用可以保障业务的连续,不会因为集群单点故障而影响业务系统的使用。集群中HDFS、YARN、HBase、Zookeeper、Hive、Kafka等组件都采用多节点分布式架构来保证系统高可用性。

  Hadoop集群中NameNode的默认方案存在单点故障(SPOF)。为了解决该问题,元数据节点采用高可用HA方案,配置两个NameNode,以便能够在单点失效时快速进行切换。

  作为大数据Hadoop底层分布式存储系统,HDFS的高可用体现在如下几个方面[5]:一是数据块Block的放置。一个Block会有三份备份,兼顾考虑了同一机架的失败情况以及不同机架之间数据拷贝性能问题。二是数据复制。HDFS可以配置一个阈值来平衡每一个DataNode的磁盘利用率。三是数据校验。在文件块写入时除了写入数据还会写入校验信息,在读取时需要校验后再读入。四是高可用解决方案。即Active Master信息写入共享存储系统,确保主备切换时的信息同步。五是HDFS联邦。它让多个NameNode分管不同的目录进而实现访问隔离和横向扩展。六是数据管道性的写入。数据先写到第一个DataNode上,然后由它传递到下一个DataNode上,直到需要的DataNode都成功写入,才会继续写下一个块。七是安全模式。该模式下,文件系统中的内容不允许修改也不允許删除,直到安全模式结束,确保了系统启动时检查各个DataNode上数据块的有效性。

  HBase单个节点出错或者宕机导致HRegion Server意外退出,Mem Store中的内存数据将会丢失,HBase的HLog功能确保了在分布式系统环境中HBase的高可用性。

  3.3 认证

  认证控制的是外部向集群内部的访问,通常来说包括对用户和系统的认证[7]。认证是一种过程,要求用户和服务在尝试访问系统资源时证明自己的身份。通过使用轻量级目录访问协议(LDAP)目录服务来管理用户身份和身份验证。在现有LDAP目录服务集成用户和组,而不是在大数据集群中创建新帐户。这样做的好处是可以与现有的用户管理直接集成,形成统一的用户管理模式。

  3.4 数据保护

  数据保护包括分区存放、数据加密和数据备份等。

  分区存放是指数据存放到不同的划分区域。一般分为生产数据区和沙箱存储区。生产数据区是用来存储管理生产数据的区域,所有的生产数据均在此区域存储。生产区的数据目录将有默认的存放要求,一是便于数据按需有序存放,二是便于后续提供针对特定数据目录的增值服务。沙箱存储区用来存储租户内部分析用的临时数据,以及为应用验证环境提供所需的数据存储区域。

  HDFS实现了数据加密。一旦配置,从指定的HDFS读取和写入数据都会透明的进行加密和解密,不需要用户应用程序代码的变更。这个加密是端到端的,也就意味着数据只能被客户端加密和解密。HDFS不能访问未加密的数据或已加密的密钥。操作系统和HDFS交互过程中仅使用加密过的HDFS数据,减轻了操作系统和文件系统级的安全威胁。

  数据备份包括两个部分,同城双活和本地备份。同城双活方案是高级别的备份方案,通过后台数据同步复制,实现两个数据中心数据的一致性。为了确保生产中心和容灾中心的数据同步不影响生产系统的性能,两地之间的互联网络具备高可靠性和高带宽,成本也相应很高。本地备份相对简单,主要的实现是将HDFS、Hive、HBase等组件的快照技术导出数据,即直接导出HDFS文件,包括HBase存放在HDFS的文件。Hadoop系统提供了数据压缩服务来优化磁盘的使用率,提高备份文件的传输速度。

  3.5 授权

  授权定义了哪些用户可以使用哪些数据,即授权个人用户和组对数据的访问权限。根据多租户的原则,将所有用户绑定到组,可以在现有的LDAP目录中指定。为交互方法提供基于角色的访问控制,如批处理和交互式SQL查询。通过Apache

  Sentry权限管理可以应用于Hive(HiveServer2)和Impala。大数据的目录和文件可以使用传统POSIX风格权限,每个目录和文件都被分配一个所有者和组。文件权限只有简单三种,即读、写和执行,目录有额外的权限来控制对子目录的访问。通过为特定用户或组设置不同的权限,HDFS的扩展访问控制列表(ACL)可以提供HDFS文件权限的细粒度控制。Apache HBase通过对列/列族设置ACL来授权各种操作,包括读、写、创建、管理。对用户和组都可以授予和撤销HBase ACL。

  3.6 审计

  需要审计用户的行为,维护数据访问的日志记录。一方面通过大数据平台门户来审计用户的操作行为,一方面可以借助发行版提供的诸如Cloudera Navigator之类的产品将安全的实时审计组件添加到关键数据和访问架构中。管理员可以配置、收集和查看审计事件,以管理谁何时通过何种设备访问了何种数据。支持对HDFS,Hive,HBase,Impala、Solr等组件的跟踪。

  4 总结

  本文采用租户管理模式,相比业界更多业务系统采用一个业务一套平台环境的竖井模式,更加强调平台整体的服务能力。多租户的环境下业务可以共享数据,也能确保各租户间的数据、配置及计算资源的隔离性,还能根据用户历史资源占用情况适时调整资源配额。真正实现云化的大数据平台使用模式,即按需取用,自助服务,可计量。结合平台提供的用户认证、授权管理、数据加密、审计管理等,给用户营造安全可靠的平台环境。但是也要看到,平台的开源实质容易导致安全漏洞的存在,需要结合管理手段实现真正的安全可控。

  参考文献:

  [1] 马立川,裴庆祺,冷昊,等.大数据安全研究概述 [J].无线电通信技术,2015,41(1):1-6.

  [2] 杨旭,汤海京,丁刚毅.数据科学导论[M] .北京理工大学出版社,2014.

  [3] 孟小峰,慈祥.大数据管理: 概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.

  [4] McKinsey Global Institute Reports. Big data: The Next Frontier for Innovation,Competition and Productivity [R],2011.

  [5] 胡光永.基于云计算的数据安全存储策略研究[J].计算机测量与控制,2011,19(10):2539-2541.


-------------------------------------------------------------------------
加入收藏  打印本文

上一篇论文:恒瑞医药股权激励政策的实施效果分析

下一篇论文:医药卫生院校产教融合与校企合作模式的探索

代写医学论文
护理论文 临床论文
基础医学论文 特种医学论文
药学论文 医药卫生论文
联系我们
最新论文
推荐论文
热门论文
  1. 浅谈医院急救设备的管理
  2. 实习医院对我校药学专业实习生满意度评价
  3. 排队论在医院门诊收费管理中的应用
  4. 盆底超声在产后康复疗效评估中的应用价值及分析
  5. 胸腔镜手术在原发性自发性气胸术后复发的外科治疗研究
  6. 层级护理管理模式在外科护理管理中应用管理的方法及效果
  7. 血型实验室的输血检验的质量控制与输血安全探究
  8. 降低某三甲医院门诊西药房调剂踪近差错率的研究
  9. 前列舒通和哈乐联合治疗前列腺增生的临床效果对照研究
  10. 血清抗体检测在炎症性肠病中的临床应用观察

    联系电话
    18515576166