基因数据属于国家安全保密数据,亟需国内的专业团队和公司服务。 本项目分析下一代高通量基因测序数据的特点,研究针对基因大数据的重复数据删除、压缩存储技术。系统将数据压缩和查重同时进行,数据块经一致性哈希,实现条带化,并可以通过哈希查重实现同一份数据只保留一份,另外,研究垃圾数据回收机制、数据加解密机制及方案,在此基础上实现一种基因大数据安全与存储系统,系统可直接挂载到现有主流Linux平台,访问挂载点的任何文件操作可与现有系统调用做无缝对接。系统为基因大数据的基础设施搭建、基因数据的应用转化提供产品与服务,并逐步打造“大健康”基因数据产品。 系统特性包括: 1 高压缩比:系统实现fastQ等较为复杂基因数据文件的10:1的压缩比以上。对其中的DNA部分的压缩比在20:1以上。 2 高可用:采用hdfs架构,满足目录节点故障时可自动切换;服务器、磁盘等引起的数据节点故障可实现自动切换和自动数据重分布。 3 高吞吐量:整个系统可达到300MB/S的吞吐量,支持PB级别的存储量。