相似度匹配算法的设计思路
相似度匹配算法的设计思路
相似度匹配算法的方法如下:
首先把文章进行分词,然后提取关键字。根据比较和判断关键字,来判断文章的内容关联度。
所得到的相似度的值如果大于0.45,那么就可以认为是同一篇文章了。
影响相似度的结果有以下几个方面:
第一:关键字的质量。关键字的个数以及最好都为名词;代词,副词的关键词不能出现太多等。
第二:计算相似度的值。相似度计算的方法是:根据匹配上的词的数量得出结果。
设计思路:
关键字的数量的控制主要是根据文章的字数的多少来决定。字数越多,repeatcount的直就越大。反之亦然。但是,我们必须确保一篇文章的关键字的个数最少应该大于5,最大不能多于20吧。如果关键字的个数太多或者太少,都没办法确保选出来的关键字能够代表本文。文章的长度应该和关键词的个数正相关。
计算相似度的值的计算主要是把匹配上的词的数量和所有的关键词的数量相比,得到的就是结果。
结果的分析:
在一般情况下,两篇文章的字数在相差不大的情况下,是可以用的,得到的符合预期。但遇到特殊情况时,可能会遇到问题,算法的精度不够,可以采取相应的办法来提高一下相似度的精度。下面就是对遇到的特殊情况的叙述和解决的办法。如果以后还遇到什么其他的特殊情况,可以加在后面。或者发现对特效情况得出来不合理,也可以进行相应的更改。
影响算法性能的特殊情况的问题和处理方法如下:
问题一:两篇文章的字数不一致
调整了repeatcount的值,得到不同的关键字的标准。
问题二:如果一篇文章字数太少或太多,得到的关键字太少或太多,这样得到的结果无法代表整篇文章
太少的话,可以降低repeatcount的值,增加一些关键字。
太多的话,可以从最低出现次数里面随机选取一些关键字,或者去掉代词,副词等关键词。以符合关键词的个数的范围。
问题三:两篇文章的字数相差过大
计算结果来自于较小的文章的关键字匹配结果。
问题四:计算相似度的方法是否合理
是否需要对次数出现最多的关键字进行加大权重等问题。
需要,如果匹配上了出现次数最多的那一项,可以在结果上面增加0.1的相似度。最多项只能为一个,但要保证相似度不能大于1。
问题五:关键字中出现量词和人称代词,如我们,你们,他们,我,你,他等词语,一个,两个等
应把这些词语从关键字中去除掉。
最活跃的读者