基于改进BP网络的中文期刊论文分类方法

进入电脑版    时间:2017-02-06 14:05:03

张瑾

(郑州轻工业学院图书馆,河南郑州450002)

关键词:BP网络;论文分类;特征提取

摘要:文章将改进BP网络应用到期刊论文的分类领域中。该方法根据中文期刊论文的特点选择题名、摘要及关键词作为特征项的来源,计算特征项的权值,设定阀值对特征项向量进行降维处理,最后利用BP神经网络对不同的阀值分别进行分类实验,比较其效果。

中图分类号:TP391文献标识码:A文章编号:1003-1588(2014)05-0061-03

收稿日期:2014-03-11

作者简介:张瑾(1970-),郑州轻工业学院图书馆馆员。

1序言

1960年,Maron发表了第一篇自动分类文章,将贝叶斯定理运用于文本自动分类,标志着自动分类技术的正式产生[1]。1998年,JoachimsT将支持向量机算法应用于文本自动分类[2],Yang Y.和Chute C.G两位学者提出了 K邻近的分类方法[3]。相对于国外,国内的文本自动分类研究起步相对较晚,基于机器学习技术的自动分类也是目前我国文本自动分类领域的主流。国内学者的研究对象主要是中文文本自动分类,国内学者学习并应用了各种分类算法,并根据中文的特点构建了我国的中文文本自动分类体系[4]。刘锋将径向基神经网络模型应用到了XML文本的自动分类中[5]。胡清华提出了可变精度的粗糙集模型,引入精度的概念,提高了处理不一致信息的能力[6]。

笔者将文本分类技术应用到期刊论文的自动分类中,根据期刊论文的特点,在选择数据上进行改进,同时对传统的BP网络算法进行改进,构建分类系统,从大规模期刊论文中提取分类的信息,并验证其分类的可行性。

2期刊论文分类的问题描述

期刊论文分类的任务是:在给定的分类体系下,根据论文的主题自动确定论文的类别。从数学角度看,期刊论文分类是一个映射过程,它将未知分类的论文映射到已有的类别中。该映射可以是单映射,也可以是一对多映射。笔者为了简化问题,采用一对一映射。

论文分类的映射规则是系统根据已经掌握的每个类别的很多样本数据信息,总结出分类规律而产生的分类规则,完成分类器的构建。输入未知类别的论文,根据分类规则确定其相应的类别。

3数据预处理

3.1空间模型

为了使计算机能够自动分类,必须先将论文转换为计算机可以识别的格式,笔者采用向量空间模型(即VSM)。其基本思想是以向量模式表示一篇论文:(W1,W2,W3,…,Wn),其中Wi为第i个特征项的权重。

论文在结构上由题名、作者、摘要、关键词及正文等组成,笔者认为这些信息中能够为论文分类提供依据的有题名、摘要和关键词。笔者采用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS (Institute of puting Technology,Chinese Lexical Analysis system ) ,对题名和摘要进行分词,然后进行停用词剔除,将得到的词语和关键词一起组成特征项。

在文本自动分类研究中,计算特征项的权值时一般采用TF-IDF算法来计算,笔者采用另外一种方式计算特征项权值,即特征项出现在题名中时其权值为3,出现在关键词中权值为5,出现在摘要中权值为2。在正常情况下特征项在题名中重复的概率很低,故不考虑出现的频率。但在摘要中的特征项重复的概率较高,频率为m,在计算特征权值时,其权值为2*m。因特征项可能即出现在题名中又出现在关键词或摘要中,此时设定权值取最大值。

3.2特征提取

对期刊论文进行向量空间表示之后,特征空间的维数会很大,因此必须进行特征抽取。特征抽取可以降低空间维数,简化计算,防止过度拟合。特征抽取常用的方法有:文档频率法、信息增益、相互信息法和x2统计法等。笔者采用一个新的方法即设定一个阀值,剔除小于阀值的特征项,保留大于阀值的特征项。

3.3期刊论文类别

目前中国知网的期刊论文的类别是依据《中国图书馆分类法》进行人工标引获得的分类号。《中国图书馆分类法》共分5个基本部类、22个大类。采用汉语拼音字母与阿拉伯数字相结合的混合号码,用一个字母代表一个大类,以字母顺序反映大类的次序,在字母后用数字作标记。为适应工业技术发展及该类文献的分类,对工业技术二级类目,采用双字母。例如:分类号TP391代表信息处理(信息加工)。

4改进BP神经网络分类器

传统BP网络具有思路清晰、结构严谨、工作状态稳定、可操作性强等特点,并且由于隐层节点的引入,使得一个三层的非线性网络可以以任意精度逼近任何连续函数,从而在模式识别、非线性映射、复杂系统仿真等许多领域得到广泛应用。但存在几个缺陷[7]:①传统的BP网络既然是一个非线性优化问题,这就不可避免地存在局部极小问题。②学习过程中,学习速度缓慢,易出现一个长时间的误差平坦区,即出现平台。其原因主要是其算法中网络权值以及阈值的每次调节的幅度均以一个与网络误差函数或对其权值导数大小成正比的固定因子进行。

 1/2    下一页 尾页

上一篇:图书馆学论文选题与写作技巧浅谈
下一篇:从博硕士论文角度解析我校重点学科建设及研究状况

相关信息