快讯

上海生科院联手曙光打造蛋白质科研设施信息化平台

2013-07-16 11:52  出处:PConline原创  作者:佚名   责任编辑:mayue 

  随着对复杂生命体系认识的深化和海量数据的产生,计算生物学已经成为当前生命科学的一个新兴前沿学科。计算生物学从海量实验数据信息中,通过计算机处理和数学模拟形成理论模型,提取最有用的数据。蛋白质科学便是计算生物学重要的一个应用领域。

  随着实验方法的改进和技术的发展,酵母双杂交系统、质谱仪、蛋白质芯片等实验手段越来越广泛地应用在研究蛋白质的结构、功能和相互作用上,积累了大量数据,蛋白质科学的数据库不仅数据数量庞大,而且数据类型众多,不同类型数据之间的关系复杂,难以进行深层次的数据加工。

  中国科学院上海生命科学研究院(以下简称生科院)是综合实力较强的我国最大的生命科学研究基地,蛋白质科学研究是上海生科院重点研究领域之一,取得了一大批国内外知名的重要原始创新成果。经过长期规划,上海生科院拟建设一套蛋白质设施专用数据库与计算分析综合服务系统,承载生命科学院蛋白质研究核心技术系统的数据集中存储、备份和计算工作。

  曙光公司在做了大量调研,充分了解用户需求的情况下,立足高性能、高可靠性和高扩展性的原则,朝着如何更好、更有效地进行数据中心信息基础架构的建造,提高数据中心计算机系统的性能和可用性,最大程度的实现系统资源共享,从而带动整个蛋白质科学研究设施信息化建设步伐的目标,为用户设计了包括高性能计算分析平台、蛋白质科学数据库、蛋白质云平台、综合应用服务平台、数据存储备份系统等几部分组成的整体解决方案。

  高性能计算分析平台

  中国科学院上海生命科学研究院的研究和业务涉及应用面广,所需软件种类繁杂,特征不一,对系统硬件的要求各异。为兼顾不同需求的可伸缩的高性能计算任务,曙光为高性能计算分析平台设计采用了CPU+GPU异构,刀片计算节点+胖节点+大型机的混合体系结构。采用此方案,对于问题无法分解的大规模运算可利用共享内存结构的多路多核大型机;对于大量数据并行的计算任务可使用CPU+GPU配合的方式,以高效的实现高加速比。

  方案提供Gridview集群管理软件实现统一调度,统一管理,统一监控,并提供和用户原有的云计算试验平台的无缝链接。

  蛋白质科学数据库

  数据库服务器负责承担蛋白质科学研究设施数据中心中蛋白质科学数据库,包括蛋白质结构数据库,蛋白质功能数据库,蛋白质相互作用数据库,代谢组学数据库,小分子调控数据库,转录因子数据库,蛋白质组数据库,抗体数据库等。数据库类型主要为SQL server数据库管理系统,对其服务器数据计算和处理性能、数据访问频率和性能要求较高。

  曙光方案配置了一套整体数据库服务器系统,并配置了配套的操作系统平台和数据库平台。利用服务器虚拟化技术进行服务器整合,使蛋白质科学研究设施数据中心的各种业务系统有效、可靠地运行,并保障业务系统运行的连续性。

  蛋白质云平台

  蛋白质云系统计算平台采用曙光CloudView云服务平台整体解决方案。硬件基础包括多台四路多核心企业级高可用、高性能机架服务器,以及专用高速光纤云存储设备。借助云计算管理平台CloudView,可以构建易于管理、动态高效、灵活扩展、稳定可靠、按需使用、节能环保的新一代云计算中心。结合曙光公司提供的云存储系统,CloudView云服务平台可以调用服务器和存储等设备的各种接口,统一整合服务器和存储资源,构建灵活高效、可扩展的云系统平台。

  综合应用服务平台

  综合应用服务平台需承担多方面的应用,本系统主要涉及三方面系统应用:功能服务器、邮件服务器、文件服务器。本方案采用性能均衡的曙光企业级高可靠性机架服务器,并针对不同的应用重点分别配置了不同的内存容量和I/O通道。

  数据存储备份系统

  作为数据库和高性能计算分析的数据保障,需要一套完整的数据存储备份系统,集中存储各业务系统的数据信息,消除现有的信息孤岛,实现数据利用率的最大化,将各个信息孤岛连接起来,实现数据信息的扁平化和一致性,提高蛋白质科学研究设施业务信息系统的实时性、安全性、高可用性。

  曙光方案针对数据库和计算分析平台设计了多层次的存储备份系统。建立SAN+NAS网络存储体系,初始存储裸容量接近一个PB,有效容量能扩展到PB级数据磁盘阵列存储,且性能不受影响。各平台能高速可靠地存储计算数据,实现高I/O、大吞吐量的数据访问性能,并预留远程灾背模块,满足系统数据存储的需求,实现数据集中存储、信息共享、集中备份和自动备份。

手机热门文章
IT热词搜索 来源:360新闻
手机论坛帖子排行