搜索引擎的3個(gè)目標
搜索引擎可以說(shuō)是目前所有互聯(lián)網(wǎng)應用里技術(shù)含量最高的一種,盡管其應用形式非常簡(jiǎn)單:用戶(hù)輸入查詢(xún)詞,搜索引擎返回搜索結果。但是要為以?xún)|計數的互聯(lián)網(wǎng)用戶(hù)提供準確快速的搜索結果,里面包含了很多技術(shù)手段??偟膩?lái)說(shuō),搜索引擎技術(shù)所希望達到的目標可以歸納為:更全、更快、更準,如圖1-1所示。
圖1-1 搜索引擎3個(gè)目標
所謂“更全”,是從其索引的網(wǎng)頁(yè)數量而言的,目前任意一個(gè)商業(yè)搜索引擎索引網(wǎng)頁(yè)的覆蓋范圍都只占了互聯(lián)網(wǎng)頁(yè)面的一部分,可以通過(guò)提高網(wǎng)絡(luò )爬蟲(chóng)相關(guān)技術(shù)來(lái)達到此目標。
“更快”這個(gè)目標則貫穿于搜索引擎的大多數技術(shù)方向,比如索引相關(guān)技術(shù)、緩存等技術(shù)的提出都是直接為了達到此目的。而其他很多技術(shù)也間接為此服務(wù),即使是分布式海量云存儲平臺,也是為了能夠處理海量的網(wǎng)頁(yè)數據,以達到對“更全”和“更快”這兩個(gè)目標的響應和支持。
在這3個(gè)目標中,如何使得搜索結果“更準”是最為關(guān)鍵的目標。無(wú)論是排序技術(shù)也好,還是鏈接分析技術(shù)也好,抑或是用戶(hù)研究等技術(shù),最終都是為了使搜索結果更加準確,以此增強用戶(hù)體驗。對于一個(gè)搜索引擎來(lái)說(shuō),達到“更全”與“更快”可以使其不落后于同類(lèi)產(chǎn)品,但是如果能夠做到“更準”,則能夠構建核心競爭能力。
搜索引擎的3個(gè)核心問(wèn)題
如上所述,搜索引擎如何能夠搜得更準是其最重要的目標,那么如何才能使得搜索結果更準確?這里面涉及了3個(gè)核心問(wèn)題。
3個(gè)核心問(wèn)題
1 用戶(hù)真正的需求是什么
搜索引擎用戶(hù)輸入的查詢(xún)請求非常簡(jiǎn)短,查詢(xún)的平均長(cháng)度是2.7個(gè)單詞。如何從如此短的查詢(xún)請求里獲知隱藏其后的真實(shí)用戶(hù)需求?這是搜索引擎首先需要解決的非常重要的問(wèn)題。如果不能獲取用戶(hù)真正的搜索意圖,搜索的準確性無(wú)從談
起,即使后續內容匹配算法再精巧也無(wú)濟于事。
從另外一個(gè)角度看,即使是同一個(gè)查詢(xún)詞,不同用戶(hù)的搜索目的是不同的,如何識別這種差異?如果更進(jìn)一步,即使是同一個(gè)用戶(hù)發(fā)出的同一個(gè)查詢(xún)詞,也可能因為用戶(hù)所處場(chǎng)景不同,其目的存在差異,又如何識別?所有這些都是搜索引擎需要解決的核心問(wèn)題,即用戶(hù)在此時(shí)此地發(fā)出某個(gè)查詢(xún),他的真實(shí)搜索意圖到底是什么。
2 哪些信息是和用戶(hù)需求真正相關(guān)的
上述第一個(gè)核心問(wèn)題是從用戶(hù)需求角度出發(fā)的,另外兩個(gè)核心問(wèn)題則是從數據角度考慮的。搜索引擎本質(zhì)上是一個(gè)匹配過(guò)程,即從海量數據里面找到能夠匹配用戶(hù)需求的內容。所以,在明確用戶(hù)真實(shí)意圖這個(gè)前提條件做到后,如何找到能夠滿(mǎn)
足用戶(hù)需求的信息則成為關(guān)鍵因素。
判斷內容和用戶(hù)查詢(xún)關(guān)鍵詞的相關(guān)性,一直是信息檢索領(lǐng)域的核心研究課題,不斷提出的信息檢索模型即在試圖解決這個(gè)問(wèn)題。相關(guān)研究歷時(shí)近60年,盡管不斷有新方法提出,檢索效果總體而言也在逐步改進(jìn),但是這個(gè)領(lǐng)域的基本指導思想還是基于關(guān)鍵詞的匹配,包括現在所有搜索引擎的相關(guān)性計算部分,其基本計算思路和幾十年前相比并無(wú)本質(zhì)差異。
如何能夠在這個(gè)核心問(wèn)題上有所突破?這個(gè)問(wèn)題將會(huì )越來(lái)越重要,而從關(guān)鍵詞匹配到讓機器真正理解信息所代表的含義是解決這個(gè)問(wèn)題必須邁過(guò)的門(mén)檻。從目前來(lái)看,盡管包括人工智能在內的很多相關(guān)研究領(lǐng)域對此有所進(jìn)展,但是短期內還未能看到解決這一問(wèn)題的清晰技術(shù)思路。
3 哪些信息是用戶(hù)可以信賴(lài)的
搜索本質(zhì)上是找到能夠滿(mǎn)足用戶(hù)需求的信息,盡管相關(guān)性是衡量信息是否滿(mǎn)足用戶(hù)需求的一個(gè)重要方面,但并非全部。信息是否值得信賴(lài)是另外一個(gè)重要的衡量標準。
搜索引擎需要處理的信息對象是互聯(lián)網(wǎng)上任意用戶(hù)發(fā)布的內容,但是內容發(fā)布者所發(fā)布內容是否可信并無(wú)明確判斷標準。這其間存在惡意的信息發(fā)布者故意歪曲事實(shí)的情況,也有信息發(fā)布者無(wú)心的錯誤。在同一個(gè)查詢(xún)的搜索結果內,完全可能存在相互矛盾的搜索答案,此時(shí)信息的可信性即成為突出問(wèn)題。
比如用戶(hù)想到某一餐館就餐,在做出消費決定前,在網(wǎng)上搜索曾在此餐館就餐的用戶(hù)的過(guò)往評論,以此輔助決策。而搜索到的相關(guān)內容,完全有可能是餐館故意發(fā)布的一些好評信息,以此誤導消費者。但是如果信息發(fā)布者是該用戶(hù)的朋友,那么信息的可信性就會(huì )大大增加。
從某種角度看,鏈接分析之所以能夠改善搜索結果,可以認為是對信息的可信賴(lài)度做出的評判。即將網(wǎng)頁(yè)的重要性作為是否可信賴(lài)的一個(gè)判斷標準,返回重要網(wǎng)頁(yè)即是返回可信賴(lài)網(wǎng)頁(yè)。