了解最新公司动态及行业资讯
数据管理。利用网络爬虫工具从不同目标政府网站中采集获取的网页是海量且无序的,还应对其实施整理、分类、著录、编目、鉴定等数据管理操作,实现信息的规则排序,使其具备增值的潜能,为后续的资源存储和访问利用奠定基础。
首先,资源分类。根据采集网页资源的特点,可以按照来源机构、资源主题、格式类型等分类标准,将其中具有某种共同属性特征的网页资源进行归类和整合,建立规范统一的政府网站网页资源分类体系,通过不同类别的属性特征来对海量的政府网页内容进行区分。其次,编目著录。对分类后的网页资源还应基于统一的元数据标准对其内容及结构、来源、背景等特征进行揭示和描述,并在相关元数据之间建立联系,形成政府网站网页资源目录体系,实现对海量无序网页信息的序化组织。最后,鉴定整理。政府网页的鉴定整理主要包括内容的识别以及内容的可用性判断,其中内容的识别就是确保实现政府网页长期可存取的元数据、保存策略等信息要素齐全。
内容的可用性判断即是通过人工干预来对政府网页的形成背景、内容质量、重要程度等属性特征进行全面分析,并根据保管期限表对要归档的政府网页标记相应的鉴定标识。
上一篇:网站结构设置上不够美观
下一篇:行业动态用户体验的黏合度