文本分析与关键词提取

停用词

预料中大量出现
没啥大用,一些标点符号之类的
notion image
Tf-idf :关键词提取
tf-idf(Term frequency-inverse document frequency,词频-逆文档频率)是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方式,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着他在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。tf-idf加权的各种形式常被搜索引擎应用,作为文件与用户查询之间的相关程度的度量或评级。除了tf-idf以外,互联网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜索结果中出现的顺序。

原理(tf-idf)

在一份给定的文件里,词频(term frequency, tf)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以防止他偏向长的文件,(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否)对于某一特定文件里的词语来说,它的重要性可表示为:
 
以上式子中是该词在文件中出现次数,而分母是在文件中出现字词的出现次数之和
 
 
(以上空白为内容待补充)

IDF(inverse document frequency)逆文档频率

如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。
notion image
IDF(x)=logN+1N(x)+1