2012年5月25日 星期五

從架構為后談搜尋引擎可解讀性(Interpretability)

從架構為后談搜尋引擎可解讀性(Interpretability)

搜尋引擎可解讀性(Interpretability)是什麼意思? 我們在"SEO的核心理念: 內容為王、架構為后"談到三個架構項目,可使用性(Usability)規模可伸縮性(Scalability)都還蠻好理解的,但是搜尋引擎可解讀性(Interpretability)可能必須再詳加解說 ...


假設你出席一個演講場合,結果演講者全程使用日文,對於不懂日文的人來說,絕對是鴨子聽雷一樣,不知所云。

假設你出席一個演講場合,演講者雖然使用中文,但是卻有很重的口音,對於懂中文的人來說,雖然大略還是聽得懂意思,但是一定有部分內容會無法理解而忽略過去。

所以演講者要讓聽眾聽得懂演講的內容,當然要使用聽眾能夠瞭解的語言,並且必須很清楚的表達出來,其間不能有含混不清的地方。前者牽涉到技術性的,後者則牽涉到語文的呈現。

上面的例子跟搜尋引擎可解讀性(Interpretability)有什麼關係呢?

在網站與搜尋引擎的關係中,你的網站就是演講者,而搜尋引擎就是聽眾。

你的網站必須講搜尋引擎聽得懂的語言,也就是技術性相關,網頁的標準表示法,你的網站如果使用的表示法是搜尋引擎不懂的,那麼就無法讓搜尋引擎瞭解。例如你使用了javascript,是搜尋引擎不能或是不願意去解析的,那麼某些內容就會被丟棄。

如果別人的網站使用了semantic tag,但是你卻沒有使用,那麼搜尋引擎就會更瞭解別人的網站,而沒有辦法順利的處理你的網站資料。

所以要讓你的網站具有搜尋引擎可解讀性(Interpretability),第一件事就是要使用搜尋引擎可以瞭解的標準表示法,並且正確的使用。

而另外一種情況是牽涉到語文的呈現,對網站而言就比較困難。因為你必須瞭解搜尋引擎是如何儲存你的網站資料。

這篇"專訪 Google 台灣總經理簡立峰,談網路搜尋難題",提到一個事情,Google 台灣區總經理簡立峰說到一個小技巧:只要搜尋「的」這個字就可以知道有多少中文資料了,因為絕大多數的中文網站都會用到這個字。

其實Google 台灣區總經理簡立峰,應該只是為了要說給不太懂的人可以很快的瞭解,所以才用這個簡化的說法,因為簡立峰就是CKIP (Chinese Knowledge and Information Processing) 的專家。

在Google搜尋「的」這個字,所得到的資料筆數應該比實際上的資料筆數少很多,你也應該可以發現許多應該存在你的網站的字,透過Google是無法搜尋得到的,因為不一定都會被儲存為索引,許多詞組是被丟棄的。

Google如何決定哪些字詞應該被索引呢?

例如我們來看這個句子~ 「從架構為后談搜尋引擎可解讀性」,經過CKIP的分詞可得到其中一種剖析樹圖示如下:

所以被分詞為: [從] [架構為] [后談] [搜尋] [引擎] [可] [解讀] [性] 共8個。

如果都只取單一個詞組的話,[為后] 就搜尋不到了。

如果還取兩個詞組的話,就多出了[從架構為]、[架構為后談]、[后談搜尋][搜尋引擎][引擎可][可解讀][解讀性],就可以搜尋到更多的結果了。如果還取三個或是以上的詞組的話,那就有更多的組合了。

當然Google不是使用CKIP,還有加強很多規則進去,但是絕對沒有不出錯的分詞系統,而不管再怎麼強的搜尋引擎,都不可能把你的網站進行全文索引,除非你的網站重要到不行,因此你的網站的語文呈現,要怎樣才不會讓搜尋引擎把重要的詞組丟棄,就是必須要考慮的問題。

所以要讓你的網站具有搜尋引擎可解讀性(Interpretability),第二件事就是要瞭解搜尋引擎的索引規則,並且盡可能完整的呈現網站內容。

轉載自《SEO關鍵解碼