對于剛入職的SEO人員,日常工作中,我們很少談?wù)?ldquo;中文分詞”與“文本分析”,但在實(shí)際的SEO項目操作中,一個(gè)成熟的SEO運營(yíng),有必要的進(jìn)一步對二者進(jìn)行加以了解。
理由很簡(jiǎn)單,它是搜索引擎的工作原理中最基礎,而又十分重要的因素之一,在此之前,我們更多的是對“中文分詞”的了解,而本文,我們也會(huì )進(jìn)一步討論:文本分析在SEO中的重要性。
那么,SEO如何理解:中文分詞與文本分析?
根據以往SEO關(guān)鍵詞優(yōu)化的經(jīng)驗,SEO小編,將通過(guò)如下內容,進(jìn)一步闡述二者的重要性:
1、中文分詞
簡(jiǎn)單理解:在SEO優(yōu)化的過(guò)程中,我們偶爾會(huì )遇到這樣一種情況,那就是當你檢索某一個(gè)特定詞組的時(shí)候,你會(huì )發(fā)現網(wǎng)頁(yè)title中,并沒(méi)有包含特定的完整關(guān)鍵詞,而該頁(yè)面卻在SERP中,排名第一。
這就要提到我們:中文分詞對頁(yè)面相關(guān)性的理解,實(shí)際上,對于任何一個(gè)內容頁(yè)面,搜索引擎都會(huì )常識抓取與識別頁(yè)面詞組,利用一個(gè)個(gè)詞組的頻率,通過(guò)復雜的算法,進(jìn)行頁(yè)面相關(guān)性的識別,從而參與到索引排序中。
通常而言,中文分詞算法主要包括如下四個(gè)策略:正向最大匹配法、逆向最大匹配法、最少切分、雙向最大匹配法。
當然,中文分詞是一個(gè)動(dòng)態(tài)更新的過(guò)程,每天都會(huì )產(chǎn)生大量的新詞匯,對于搜索引擎而言,它需要利用一定周期學(xué)習,一般而言它基于詞典(類(lèi)似于海量關(guān)鍵詞庫)以及相關(guān)統計方法,進(jìn)行篩選與相關(guān)性計算。
一般而言,一個(gè)內容頁(yè)面,在分詞后,被搜索引擎會(huì )按照簡(jiǎn)單的四個(gè)要素,進(jìn)行基礎性分類(lèi),比如:
① 關(guān)鍵詞
② 詞性(關(guān)鍵詞的屬性,名詞、動(dòng)詞、形容詞等)
③ 頻率
④ 權重(它類(lèi)似于關(guān)鍵詞密度)
從而經(jīng)過(guò)一些列的數據分析與評估,進(jìn)入倒排索引的序列,用于用戶(hù)檢索時(shí),給出相應的搜索結果。
2、文檔分析
相對于中文分詞而言,如果說(shuō)它是從詞的角度理解頁(yè)面內容,而經(jīng)過(guò)SEO小編多年的實(shí)戰經(jīng)驗,則認為文檔分析,則更加強調頁(yè)面結構的屬性,它主要包括:
① 字數統計:內容頁(yè)面,可識別文字的數量,側面反應頁(yè)面的長(cháng)度。
② 項目符號:段落中使用的邏輯符號,以及文本內容中,特有表情字符的利用。
③ 邏輯結構:它主要包括段落行文結構,內在的邏輯關(guān)系,以及相關(guān)性詞語(yǔ)的使用。
④ 文本標簽:常見(jiàn)頁(yè)面標簽的使用,比如:H標簽與標簽等。
⑤ 文本比率:在早期一篇關(guān)于SEO代碼優(yōu)化的文章中,我們進(jìn)行了詳細的闡述。
其中,文檔分析中所涉及的相關(guān)元素,使得每個(gè)頁(yè)面,具有一定的獨立性,在成千上萬(wàn)頁(yè)面中,具備一定的稀缺性,特別是針對相關(guān)影響因子,統計分析,它與網(wǎng)站排名之間的關(guān)系。
因此,文檔分析在SEO的工作中,顯得格外重要。
總結:與其說(shuō),中文分詞,讓我們深刻理解,頁(yè)面相關(guān)性的問(wèn)題,而文檔分析,則是讓頁(yè)面脫穎而出的一個(gè)利器,而上述內容,只是針對相關(guān)概念的簡(jiǎn)單闡述,涉及的原理只是冰山一角,僅供參考。