专利权人:北京科技大学
本系统从网上下载了人民日报从1946年5月创刊以来至目前为止发表的1,365,802篇文章,并进行了文本可视化。该系统包括人民日报数据下载、数据统计、文本处理与可视化等三个模块。首先是实时爬虫程序,下载截止到目前为止最新的人民日报文章,得到题目、内容和发表时间。然后,对下载的文本数据进行统计,包括统计每年包含的文章数量、总文章数量、某个词是否出现在某篇文章中、某个词在一段时间出现在多少篇文章中等。最后,进行文本处理和可视化,包括中文分词、生成词云和提取关键词等。人民日报内容一定程度上代表了中国官方立场。该
具体了解该成果信息,请致电:13488797964