如何写论文?写好论文?免费论文网提供各类免费论文写作素材!
当前位置:免费论文网 > 教育论文 > OA期刊资源特点与分类

OA期刊资源特点与分类

来源:免费论文网 | 时间:2017-11-04 10:32:40 | 移动端:OA期刊资源特点与分类

OA期刊资源特点与分类 本文关键词:期刊,分类,资源,OA

OA期刊资源特点与分类 本文简介:开放获取期刊(OpenAccessJournal,OA期刊)是经过同行评审,且在网络上可免费获取的期刊。OA期刊资源主要包括期刊元数据、论文元数据以及论文全文等。该类资源分布广泛,且经过同行评审,具有重要的学术价值。目前,OA期刊资源采集方法主要有两种:一种是针对遵循OAI-PMH协议的OA期刊,采

OA期刊资源特点与分类 本文内容:

开放获取期刊(OpenAccessJournal,OA期刊)是经过同行评审,且在网络上可免费获取的期刊。OA期刊资源主要包括期刊元数据、论文元数据以及论文全文等。该类资源分布广泛,且经过同行评审,具有重要的学术价值。目前,OA期刊资源采集方法主要有两种:一种是针对遵循OAI-PMH协议的OA期刊,采用OAI-PMH协议的方法对资源进行采集,该方法在此类资源采集应用中较成熟;另一种是对于部分不遵循OAI-PMH协议的OA期刊,通常采用网页信息抽取方法。然而,由于OA期刊资源在网页中存在组织形式不一、揭示粒度多变,且网页结构变化多样等特点,这为此类期刊资源采集带来了一定挑战。本文将从OA期刊资源特点出发,对网页信息采集方法和采集工具在OA期刊资源采集中的适用性进行对比分析,针对无法通过OAI-PMH协议进行资源采集的OA期刊,提出一种基于网页信息抽取的资源采集策略。以期既能丰富OA期刊资源采集方式,也能对不遵循OAI-PMH协议的OA期刊资源采集提供指导,提高资源采集效率。

1、OA期刊资源的特点与分类

OA期刊分为遵循OAI-PMH协议和不遵循OAI-PMH协议两种,但所有的OA期刊都是通过网页对资源进行描述和展示,且描述和展示的方式差异较小,故本文分析的OA期刊资源特点适用于所有类型。

2、OA期刊资源的特点

(1)描述粒度细。OA期刊资源的元数据包含众多字段,如文章标题、中英文关键词、中英文摘要、作者、机构、期刊名、年、卷、期等。相比于其他网络资源,OA期刊资源元数据描述粒度更细。(2)展现形式多样。OA期刊资源的元数据字段众多,而这些字段通常是以不同的组织形式展现在网页中。部分元数据字段在网页中是按照单个字段进行展示,如文章标题、摘要等;而部分元数据是多个字段组合成一条文本信息进行展示,如文章的年、卷、期。(3)描述载体结构多变。在对国内OA期刊资源调研过程中发现,部分OA期刊网站的资源展示页面,在不同时期采用不同的网页模板。在结构发生变化的开放获取资源网站中,一般会存在1—3套不等的网页模板;而其他网络资源,如电商平台、论坛等通常采用统一的网页模板。

3、OA期刊资源分类

OA期刊资源以不同的组织形式在不同网页中进行展示,本文根据OA期刊资源在网页中的组织形式,将其分为单一型资源和组合型资源。单一型资源指网页中一个HTML标签仅展示一个元数据字段信息的资源,如期刊名称、文章标题、摘要、关键词、全文获取链接等。此类资源信息揭示简单明了、层次清晰。组合型资源指网页中一个HTML标签封装多个期刊元数据字段信息的资源,多个字段通常是组合成一个文本信息进行展示,如期刊的年、卷、期字段等。组合型资源的文本信息由固定字段按照一定的形式组合而成,具有一定的结构性,为半结构化文本。

4、现有网页信息采集方法特点分析

现有网页信息采集方法主要分为基于自然语言处理的网页信息抽取、基于本体的网页信息抽取、基于包装器归纳方式的网页信息抽取、基于HTML页面结构分析的网页信息抽取以及基于Web查询的网页信息抽取。5种采集方法特点对比分析结果如表1所示。由表1可见,5种网页信息采集方法采用不同方式来保证资源采集的准确性。如基于包装器归纳方式的网页信息抽取方法需要对样本进行标注,通过机器学习归纳抽取规则来提高采集准确率;基于Web查询的网页信息抽取方法通过对网页分析,编写合适查询语句来准确定位页面中资源。不同的Web信息采集方法由于采集方式不同,适用于不同类型的网页资源采集。如基于自然语言处理的网页信息抽取方法适用于大量文本信息抽取,基于本体的网页信息抽取方法适用于特定领域的信息抽取。


OA期刊资源特点与分类》由:免费论文网互联网用户整理提供;
链接地址:http://www.csmayi.cn/show/211101.html
转载请保留,谢谢!
相关文章