|
【英文题名】 |
Research on a Compound Keywords Abstraction Based on Small World Network Theory |
|
【作者中文名】 |
董洛兵; |
|
【导师】 |
武波;
马力; |
|
【学位授予单位】 |
西安电子科技大学; |
|
【学科专业名称】 |
计算机软件与理论 |
|
【学位年度】 |
2006 |
|
【论文级别】 |
硕士 |
|
【网络出版投稿人】 |
西安电子科技大学 |
|
【网络出版投稿时间】 |
2006-12-30 |
|
【关键词】 |
小世界模型;
文档语义结构;
平均最短路径长度变化量;
簇系数变化量;
复合关键词; |
|
【英文关键词】 |
SWN(Small World Network);
Document's semantic structure figue;
The characteristic path length incremental;
The cluster coefficient incremental;
Compound Keywords; |
|
【中文摘要】 |
小世界模型(small world network)因具有高度的局部聚类性和较小的全局平均路径长度而在许多应用领域得到广泛应用。在前人证明人类语言中也存在small world现象的基础上,本文提出了一种基于small World模型的复合关键字提取方法。首先,根据文档中句子的结构,以分词为节点,建立分词间的关联关系,通过合并相关句子中相同的分词,构造文档关联(语义)结构图,通过必要的计算,确定具有Small World模型特性的文档结构图。其次,引入平均最短路径变化量和簇数变化量,计算分词在文档中的重要性,以确定单个关键字侯选集。最后,综合考虑侯选关键字集中分词间的关联关系、分词的两个变化量间相互影响的特点及文档领域的特定需求,按相对位置合并相关分词,即提取出复合关键词。另外,还给出了算法的复杂度的分析。实验结果表明该方法是正确的和有效的,与人为提取的单个关键字集相比,其提取精度为88.35%。利用该方法所获得复合关键所表达的文档的主题比单个关键字的语义来的更加清晰、准确,从而有助于我们在更高一层对文档内容语义的理解。 |
|
【英文摘要】 |
Small World Network characterized by short characteristic path length and high clustering coefficient is widely observed in many real-world networks especially in human language. In this paper, we construct a new kind of algorithm extracting compound keywords from a Chinese document as a small world. Firstly, a Chinese document will be represented by a network: the nodes represent terms, and the edges represent the co-occurrence of terms, which can describe the semantic association relation between single w... |
|
【DOI】 |
CNKI:CDMD:2.2006.055692 |