数据驱动的高性能计算解决方案
DATA DRIVEN HIGH-PERFORMANCE COMPUTING SOLUTIONS
数据是驱动科学研究的核心引擎,许多基础研究领域需要长期、持续、系统的积累以获得可靠数据。信息技术的发展,带动云计算、大数据、人工智能等新兴技术在科研领域的广泛应用。与此同时,磁共振、PET、CT、冷冻电镜、基因测序仪等高端科研仪器设备的数据采集质量也越来越高,处理数据所需要的存储空间及计算资源也呈指数级上升。对于许多科研院所和课题组,每年积累的数据量可以达到数百TB甚至PB级别。
作为科研工作的核心部分,数据的有效管理已成为一项难题。在物理层方面,用户面临着自然灾害、意外断电等不可抗事件导致的介质损坏或数据丢失;在管理方面,用户面临着网络入侵、人员变动、操作失误等数据泄露或流失风险;在数据生态方面,数据采集、分析、共享的持续开展,给用户带来了动态的管理压力。这些负面因素在一定层面上占用了科研人员的宝贵时间。
解决方案
承蓝致力于为用户提供“数据采集”、“数据管理”、“数据可视化”及“数据处理”的一体化高性能计算解决方案,协助科研人员将更多精力投入到更有学术贡献的研究与转化工作中。
01.
平台建设阶段
承蓝可为用户构建冷热分层的存储架构。分布式存储保障核心数据达到99.9999%的安全性;统一用户认证、ACL权限控制、用户组配额等功能实现对海量数据的集中化、精细化管理;高性能闪存存储为大样本处理带来百倍效率提升;大容量存储提供定期、增量备份。在承蓝IDP数据管理系统中,管理员能轻松管理多套存储系统,用户也能更好的平衡性价比与安全性。
02.
平台使用阶段
承蓝可为用户适配Slurm/PBS/IBM Platform等开源或商业性的任务调度系统,适配多种规格CPU/GPU服务器。在ICP计算资源管理系统中,用户可以轻松创建可视化集群或高性能计算集群,前者可通过提供远程云端Linux桌面对数据进行可视化处理,后者则可以通过任务调度组件充分发挥集群的硬件性能,对数据进行批量化、集化、自动化处理。
03.
集群运维阶段
承蓝可为用户适配生物医学数据分析工具、配置系统环境、维护科学计算库;也可为用户提供计算系统性能调优服务,提供包括算法流程、通信模块、依赖加载、并行计算等层面的调优工作。
01
如何保证数据存储的安全性与可靠性,避免数据丢失或泄露
方案难点
02
如何实现科研数据的集中化、授权式管理,避免因数据分散造成数据丢失
03
如何搭建高性能计算环境、优化系统架构,提升计算效率,充分挖掘数据价值