首页 > 成果展示
基于Hadoop和GPU的海量数据处理研究应用

专利权人:河南师范大学

数据是信息的载体,信息是数据的内涵,一般认为数据是信息系统的基础。利用计算机来处理数据,提取信息是信息系统的基本功能。在当今高度信息化的社会里,Web可以说是目前最大的信息系统,其数据具有海量、多样、异构、动态变化等特性。如何实现快速地从这些海量数据中提取出对企业有用的价值信息已成为程序员在开发应用软件的过程中碰到的最令人头疼的问题。该模型应用于大型网站的web日志数据预处理过程中。针对该模型我们还设计了一种有效的基于分布式的预处理模式。该模式首先在各分布式服务器上进行关联匹配,然后将各个服务器上的挖掘结

具体了解该成果信息,请致电:18603730861

数据是信息的载体,信息是数据的内涵,一般认为数据是信息系统的基础。利用计算机来处理数据,提取信息是信息系统的基本功能。在当今高度信息化的社会里,Web可以说是目前最大的信息系统,其数据具有海量、多样、异构、动态变化等特性。如何实现快速地从这些海量数据中提取出对企业有用的价值信息已成为程序员在开发应用软件的过程中碰到的最令人头疼的问题。该模型应用于大型网站的web日志数据预处理过程中。针对该模型我们还设计了一种有效的基于分布式的预处理模式。该模式首先在各分布式服务器上进行关联匹配,然后将各个服务器上的挖掘结果合成。这有利于减轻网络频繁的通讯负担,体现并行计算、异步挖掘、异构数据规约的优势。同时,它允许程序员可以不需要有什么并发处理或者分布式系统的经验,就可以处理超大的分布式系统得资源。除了数据挖掘之外,该模型还可以应用在诸如图片存储、搜索引擎、网格计算等需要处理大数据量的网络应用中。