中国优秀硕士学位论文全文数据库
  查看检索历史 关闭
基于SWN理论的文本复合关键字提取算法的研究
   在线阅读 整本下载 分章下载 分页下载
【英文题名】 Research on a Compound Keywords Abstraction Based on Small World Network Theory
【作者中文名】 董洛兵;
【导师】 武波; 马力;
【学位授予单位】 西安电子科技大学;
【学科专业名称】 计算机软件与理论
【学位年度】 2006
【论文级别】 硕士
【网络出版投稿人】 西安电子科技大学
【网络出版投稿时间】 2006-12-30
【关键词】 小世界模型; 文档语义结构; 平均最短路径长度变化量; 簇系数变化量; 复合关键词;
【英文关键词】 SWN(Small World Network); Document's semantic structure figue; The characteristic path length incremental; The cluster coefficient incremental; Compound Keywords;
【中文摘要】 小世界模型(small world network)因具有高度的局部聚类性和较小的全局平均路径长度而在许多应用领域得到广泛应用。在前人证明人类语言中也存在small world现象的基础上,本文提出了一种基于small World模型的复合关键字提取方法。首先,根据文档中句子的结构,以分词为节点,建立分词间的关联关系,通过合并相关句子中相同的分词,构造文档关联(语义)结构图,通过必要的计算,确定具有Small World模型特性的文档结构图。其次,引入平均最短路径变化量和簇数变化量,计算分词在文档中的重要性,以确定单个关键字侯选集。最后,综合考虑侯选关键字集中分词间的关联关系、分词的两个变化量间相互影响的特点及文档领域的特定需求,按相对位置合并相关分词,即提取出复合关键词。另外,还给出了算法的复杂度的分析。实验结果表明该方法是正确的和有效的,与人为提取的单个关键字集相比,其提取精度为88.35%。利用该方法所获得复合关键所表达的文档的主题比单个关键字的语义来的更加清晰、准确,从而有助于我们在更高一层对文档内容语义的理解。
【英文摘要】 Small World Network characterized by short characteristic path length and high clustering coefficient is widely observed in many real-world networks especially in human language. In this paper, we construct a new kind of algorithm extracting compound keywords from a Chinese document as a small world. Firstly, a Chinese document will be represented by a network: the nodes represent terms, and the edges represent the co-occurrence of terms, which can describe the semantic association relation between single w...
【DOI】 CNKI:CDMD:2.2006.055692
【相似文献】
期刊全文
优秀硕士学位论文
博士学位论文
重要会议论文
点击下列相关研究机构和相关文献作者,可以直接查到这些机构和作者被《中国知识资源总库》收录的其它文献,使您全面了解该机构和该作者的研究动态和历史。
【文献分类导航】从导航的最底层可以看到与本文研究领域相同的文献,从上层导航可以浏览更多相关领域的文献。

工业技术
  自动化技术、计算机技术
   计算技术、计算机技术
    计算机的应用
     信息处理(信息加工)
      文字信息处理
   阅读器 本地下载 中心网站下载
  【打印】 【关闭】
  主管部门:国家教育部      主办单位:清华大学
  CNKI系列数据库编辑出版及版权所有:中国学术期刊(光盘版)电子杂志社
中国知网技术服务及网站系统软件版权所有:清华同方知网(北京)技术有限公司
其它数据库版权所有:各数据库编辑出版单位(见各库版权信息)
京ICP证040431号    京ICP证040441号    互联网出版许可证 新出网证(京)字008号