您所在的位置:首页 > SEO算法 >SEO关键词提取算法之TF-IDF算法

SEO关键词提取算法之TF-IDF算法

辰哥头像
作者 郑州SEO顾问
2019-5-23 16:17:36 阅读 3241

       做网站SEO优化永远少不了的就是关键词,我们做的其实也是搜索引擎的关键词搜索排序优化。郑州SEO辰风认为我们有必要了解下搜索引擎杜宇网站的内容是怎么提取的,这样我们就可以在网站内合理的布局想要优化的关键词了。

关键词提取算法

        一个网站有非常多的页面组成,而这些页面参与某些关键词的排序,同时整个网站所有页面的组合又参与一定的排序,因此关键词提取的重点在于页面关键词的提取以及整站关键词的集合,这就是郑州SEO下面要讲的TF-IDF算法。

       一、TF-IDF算法介绍

       tf-idf是termfrequency–inversedocumentfrequency的缩写。该算法通过对文本内容的统计划分来衡量一个词语在文本中的重要程度。TF-IDF算法它不仅仅用在搜索引擎中,它在很多信息提取、文本挖掘中都有用到,在中文的互联网应用中占有非常重要的地位。

       二、TF-IDF算法原理

       该算法的核心便是计算一个文本中某个词语的tf值与idf值。

       TF计算

       tf是termfrequency的缩写,指文本中的词频。衡量一个词语在文档中的出现频率有很多方法,最简单也足够有效的,便是直接计算这个词出现的次数,来作为这个词的tf值。

       IDF计算

       idf是inversedocumentfrequency的缩写,指“逆文档频率”,是一个用来衡量一个词常见程度的值。这个值的计算不应该基于单个文档,而应该考虑所有要进行分析的文档,来得出结果。

       idf值的计算方法也有很多,这里仅提供一个常见的公式:

   

IDF计算公式


       分母处加一,是为了防止某个词从未出现过而导致分母为0。

       TF-IDF:

        

TF-IDF算法

       三、TF-IDF算法举例

       看了上面的算法,可能大多数都看不懂,没关系,下面就为大家举了例子。现在有一篇长文《中国的蜜蜂养殖》,用计算机提取它的关键词。

       1、词频:如果某个词很重要,它应该在这篇文章中多次出现。我们进行"词频"(Term Frequency,缩写为TF)统计。

       2、停用词:结果你肯定猜到了,出现次数最多的词是----"的"、"是"、"在"----这一类最常用的词。它们叫做"停用词"(stop words),表示对找到结果毫无帮助、必须过滤掉的词。

          规则一:如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。

      假设我们把它们都过滤掉了,只考虑剩下的有实际意义的词,发现"中国"、"蜜蜂"、"养殖"这三个词的出现次数一样多因为"中国"是很常见的词,相对而言,"蜜蜂"和"养殖"不那么常见,"蜜蜂"和"养殖"的重要程度要大于"中国"

         3、IDF :最常见的词("的"、"是"、"在")给予最小的权重,

    较常见的词("中国")给予较小的权重,

    较少见的词("蜜蜂"、"养殖")给予较大的权重。

    这个权重叫做"逆文档频率"(Inverse Document Frequency,缩写为IDF),

    它的大小与一个词的常见程度成反比。

        4、TF-IDF:"词频"(TF)和"逆文档频率"(IDF)以后,两个值相乘,得到了一个词的TF-IDF值。

    某个词对文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是这篇文章的关键词。

         具体实现:

        1、计算词频

       词频(TF) = 某个词在文章中的出现次数  。    文章有长短之分,为了便于不同文章的比较,做"词频"标准化。

       词频(TF) = 某个词在文章中的出现次数 / 文章总词数

            或者 词频(TF) = 某个词在文章中的出现次数 / 拥有最高词频的词的次数

        2、某个词在文章中的出现次数

        这时,需要一个语料库(corpus),用来模拟语言的使用环境。逆文档频率(IDF) = log(语料库的文档总数/包含该词的文档总数+1)

        3、计算TF-IDF

    TF-IDF = 词频(TF) * 逆文档频率(IDF)

  可以看到,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。所以,自动提取关键词的算法就是计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。

TF-IDF算法案例

 

       从上表可见,"蜜蜂"的TF-IDF值最高,"养殖"其次,"中国"最低。(如果还计算"的"字的TF-IDF,那将是一个极其接近0的值。) 所以,如果只选择一个词,"蜜蜂"就是这篇文章的关键词。

        TF-IDF算法非常简单,但其有一个极为致命的缺陷,就是没有考虑词语的语义信息,单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。

      (一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。所以代价应该明白了关键词应该怎样布局了吧)


预约SEO专家添加微信/QQ:505005324(点击咨询) 免费诊断网站SEO问题
© 著作权归作者所有
郑州SEO辰风简介
辰风 创始人
6年网站整体运营策划经验,擅长SEO优化、SEM竞价、自媒体营销等网络推广方式。
曾主导运营多个网站项目,担任多家公司网站SEO顾问,指导企业网站SEO优化、SEM竞价,自媒体营销等。
郑州SEO辰风
郑州SEO80网络,免费分享各种网站SEO优化算法、技术、工具、技巧、常见问题等,提供SEO培训及网络营销策划服务,欢迎郑州的朋友沟通交流网站SEO问题,微信/QQ: 505005324(点击咨询) 郑州SEO辰风
关键词:郑州SEO | 网站优化 | 网站推广| SEO外包 | 网络营销 | 郑州SEO优化