一、成果概述《面向政府采购的网络数据采集系统》是2017年佛山市科技局科技发展专项资金项目《面向政府采购的大数据服务平台》的阶段性可独立应用的成果。该系统是一款网络“爬虫”软件,实现从政府采购相关网站中自动采集政府采购公开数据,通过抓取、过滤、转换、编码等操作形成结构化数据集合,并以结构化方式将其进行统一存储。二、技术及产品特点系统结构如图1所示。系统基于.Net Framework 4.5+SqlServer 2008 R2开发,由多线程启动、数据采集、链接过滤、数据解析、数据存储和数据导出等六大功能模块组成。各模块功能如下:1、多线程启动通过参数设置创建多个并发性线程,执行数据采集、链接过滤、数据解析、数据存储等任务。2、数据采集通过网站解析、链接分析和页面分析,获取政府采购相关网站的获取网站布局特性、HTML页面信息和链接信息,并将其交给链接过滤模块进行分析。3、链接过滤根据需求设置匹配链接的参数,过滤出链接并将链接交由数据存储模块处理。4、数据解析将链接过滤的链接及数据解析的项目标题和项目内容等内容存进数据库。5、数据存储通过Ado.Net将采集到的并经过多层加工的数据存储到数据库。6、数据导出根据采集目标将所需的数据导出到指定路径本地磁盘中,以txt文档格式进行存储。图1 面向政府采购的网络数据采集系统结构三、应用领域及产业化前景该系统是大数据体系架构中数据采集层的重要工具。实际应用表明该系统在面向政府采购的网络数据采集中,性能良好。实验表明该系统完全适用于其他领域的网络数据采集,在其他行业或领域的网络数据采集有广阔应用前景和推广价值。