档案数据云采集系统

南京朗环信息技术有限公司成立于2012年,在南京栖霞区注册成立。是一家集科研、生产、销售为一体的高新技术企业。档案数据采集系统是一档集成现代信息采集技术及数字处理技术的平台。

档案数据云采集系统

系统特点:

1.配置规则简单:图形化界面操作。无须网页操作技术

2.采集数据表格化:列字段可以自由配置;支持文本导出数据库、excel、导出等多种方式;支持直接导出到档案管理系统。

3.采集范围广:可采集各种类型的网站,如门户网站类微博类。

系统功能:

1.数据采集:通过用户给出关键词的组合规则,通过对关注网站版面使用专用爬虫,全爬过滤的方式对数据进行采集。

2.数据处理:对特定种类的以网络为载体的新闻和消息在收集后通过网页净化、词频统计等手段对信息进行有效的预处理活动,并将预处理的所得结果入库。

3.数据分析:采集相关网页之后,再进行消重、去噪,在抽取相关信息后建立全文索引。

解决什么问题?

档案数据采集系统是一档集成现代信息采集技术及数字处理技术,通过网络按照指定规则自动收集数字化信息资源,建立目录数据库和全文数据库,并为档案系统提供数据的平台。