產品
TF-IDF是一種核算方法,用以評價一字詞關于一個文件集或一個語料庫中的其間一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權的各種形式常被搜索引擎運用,作為文件與用戶查詢之間相關程度的衡量或評級。除了TF-IDF以外,因特網上的搜索引擎還會運用根據鏈接剖析的評級方法,以確認文件在搜尋效果中出現的次序。
“TF-IDF”算法的原理
TFIDF的首要思維是:假設某個詞或短語在一篇文章中出現的頻率TF高,并且在其他文章中很少出現,則以為此詞或許短語具有很好的類別差異才干,適宜用來分類。TFIDF實際上是:TF * IDF,TF詞頻(Term Frequency),IDF逆向文件頻率(Inverse Document Frequency)。TF表明詞條在文檔d中出現的頻率。IDF的首要思維是:假設包含詞條t的文檔越少,也就是n越小,IDF越大,則說明詞條t具有很好的類別區別能力。
假設某一類文檔C中包含詞條t的文檔數為m,而其它類包含t的文檔總數為k,明顯全部包含t的文檔數n=m+k,當m大的時分,n也大,按照IDF公式得到的IDF的值會小,就說明該詞條t類別區別能力不強。
可是實際上,假設一個詞條在一個類的文檔中頻繁出現,則說明該詞條能夠很好代表這個類的文本的特征,這樣的詞條應該給它們賦予較高的權重,并選來作為該類文本的特征詞以區別與其它類文檔。這就是IDF的不足之處. 在一份給定的文件里,詞頻(term frequency,TF)指的是某一個給定的詞語在該文件中出現的頻率。這個數字是對詞數(term count)的歸一化,以避免它傾向長的文件。(同一個詞語在長文件里或許會比短文件有更高的詞數,而不管該詞語重要與否。)
“TF-IDF”算法的的概念與網站運用
一、TF詞頻的概念與建議
TF是指詞頻,查詢的關鍵詞在文檔中出現的次數核算。相關文檔是這樣介紹的,假定查詢關鍵詞在同一個文檔中出現的次數越多,代表這個關鍵詞越重要,越能代表文檔的主題意思,文章主題與關鍵詞意思越接近,那么做怎樣運用這個知識點呢?
假定有一篇文章的標題是:“服務外包”,從字面上了解,文章首要是以服務為中心,“外包”為拓展詞。假定文章內容里服務出現20次,服務出現25次,外包出現10次,按照TF詞頻的規則,那么服務是文章主題,這個很好理解。
實際上有些時分寫文章時,在意思很清晰的情況下,會省掉主詞。比如服務外包價格、服務外包流程、服務外包公司介紹,會縮寫成:外包價格、外包流程、外包公司介紹。這樣會導致外包出現的次數大于服務,TF詞頻則會以為外包是主題,出現錯誤的判別。
那既然是這樣,做關鍵詞布局的時候,應該要恰當考慮主關鍵詞的出現頻率大于副詞。當然搜索引擎判別網頁主題有許多維度,這兒只是單從TF詞頻的視點考慮,個人以為這樣做會縮短搜索引擎判別網頁主題的時間,對來說是有利的。
第二、怎樣快速了解“IDF逆文檔頻率”
這個概念假設看文檔的話有點難了解,最初筆者看百度百科好幾次才了解。涉及到雜亂的公式在這兒就不講,結合TF一起來了解,TF-IDF的意思是,一篇文章中某關鍵詞出現的次數越多,且在搜索引擎的資料庫中包含該關鍵詞文檔數越少,則說明這個關鍵詞越能代表此網頁的主題。
舉個比如來說明,假定有一篇文章,有兩個關鍵詞:“整站營銷”和“服務”,在文章中,這兩個關鍵詞出現的資料都是20次,可是在百度的資料庫中,包含整站營銷的文檔總共有一千萬個,包含服務的文檔有五百萬個,那么則說明,服務越能代表這文章的意思。或許搜索引擎資料庫中包含關鍵詞的文檔數量相同,文章中出現次數越多的關鍵詞越能代表網頁主題。
從的層面講,IDF這個值是客觀存在的
不必去深究,只需了解不同關鍵詞之間的文檔數多少就行,以百度為例,搜索任何一個關鍵詞,在搜索框下面會有一個:“百度為您找到相關效果約XXX個”的這樣句子,里邊的數值能夠作為文檔數參閱。每個搜索引擎的包含關鍵詞的文檔數或許不相同,可是整體的相對比例值應該是差不多的。并且隨著時間的推移,文檔數也會不斷發作改變。
注:內容源自網絡,僅供分享交流,侵刪。
p0