2008年3月9日 星期日

Wikia Search


  這是我原本打算用在上學期某堂課期末報告的題材,主題是 Wikia Search 和 Google 之間的角力,但是因為同組的組員們覺得這個故事的技術背景稍多了些,怕大家聽不懂,所以後來就換題目了。雖然課程早已結束,投影片中的資料也已經很舊了,但是今天剛好想起還有這件事,那就順手把它放上來。因為只是做個報告的草稿而已,所以投影片中的字數很多而且毫無潤飾,既然用不到了,我也懶得再多加修飾。
  在2006年12月的時候,Jimmy Wales 這個人打算要創造一個新的搜尋引擎-Wikia Search 用來擊敗 Google。先簡介一下Jimmy Wales 是誰吧,其實他就是鼎鼎大名的維基百科(Wikipedia)的創辦人,難怪敢說出這種大話。

  以 Jimmy Wales 的身分,當然不只是說大話而已, Jimmy Wales 所創辦的公司-Wikia(註一)在2007年7月的時候買下了一間叫做 Grub 的公司,這間公司的產品是一種分散式的 Web Crawler,至於什麼是分散式的 Web Crawler 呢?先從 Web Crawler開始說起吧,根據 Wikipedia上的定義

A web crawler is a program or automated script which browses the World Wide Web in a methodical, automated manner. Other less frequently used names for web crawlers are ants, automatic indexers, bots, and worms.

  簡單來說, Web Crawler 就是一種自動搜尋網路上各個頁面的小程式,目前做搜尋引擎的公司基本上都是靠這個程式預先將網路上的網頁製作成索引(index),當使用者下了搜尋指令的時候再從事前準備好的索引中搜尋使用者想要的資料。

  Grub 的分散式 Web Crawler 指的就是透過自願協助的使用者,在他們的電腦上安裝程式,當這些使用者的電腦資源(包含了電腦的計算能力和網路頻寬)閒置下來的時候,這些閒置的資源就會被用來協助 Grub 進行網路搜尋。(註二)

  當 Jimmy Wales 提出這個構想之後,他得到了來自 Amazon 的不少金錢贊助(據說有$4,000,000 USD)。而根據他本人的說法,這個搜尋引擎-Wikia Search 未來大部分的獲利將會用在協助 Wikipedia 的運作上,而且預計會在2008/01/07發表。(我製作投影片的時間是在去年底,當時是尚未發表的)

  說歸說,但是想要擊敗 Google 談何容易?他哪來的自信說出這種話呢?其實是因為 Jimmy Wales 覺得 Google 用來搜尋網頁的 Page Rank 演算法雖然厲害,但是有些盲點,一來這些盲點可能會被人利用而製造出狀似很重要的網頁,影響搜尋結果排名的公平性;二來這種全自動化的搜尋方式並沒有辦法告訴使用者到底這個網頁是好是壞?究竟是不是使用者想要的那個網頁?

  先從 Page Rank 開始談起,基本上 Page Rank 演算法的精神就是以網頁的被連結次數計算這個網頁的等級和重要性,如果有很多人連結到你的網頁,那當然表示你的網頁是很重要的,當然,如果你的網頁被 CNN 這種等級的網站連結,那你的網頁的重要性也會被提高很多。基於這樣的計算方式,當然會有人大量地假造網頁,並且連結到想要捧紅的目標網頁去。雖然沒有辦法像被 CNN 連結那樣以全壘打的方式直接得分,但是以連續安打的方式累積得分的可能性也是一種策略。

  而使用者在搜尋引擎上送出搜尋的要求後,如果你搜尋的關鍵字並不是太精確,那要怎麼確定這個搜尋的結果就是你想要的,而且是對你有意義的呢?(註三)在這點上,我覺得 Google 做得算是還不錯,但是 Jimmy Wales 說 Wikia Search 可以做得更好,接下來就介紹一下 Wikia Search 的特點。

  根據 Wikia Search 官方網站上的說法:

We are aware that the quality of the search results is low.

Wikia's search engine concept is that of trusted user feedback from a community of users acting together in an open, transparent, public way. Of course, before we start, we have no user feedback data. So the results are pretty bad. But we expect them to improve rapidly in coming weeks, so please bookmark the site and return often.

  換言之, Jimmy Wales 的想法就是透過使用者參與/回饋的方式建立一個可信度很高的搜尋引擎。另外,這個 Wikia Search 標榜了四項原則(TCQP),看看標題就好,如果哪天它真的紅起來了,那再回頭來看內容吧:

  1. 透明(Transparency) - Openness in how the systems and algorithms operate, both in the form of open source licenses and open content + APIs.

  2. 社群(Community) - Everyone is able to contribute in some way (as individuals or entire organizations), strong social and community focus.

  3. 品質(Quality) - Significantly improve the relevancy and accuracy of search results and the searching experience.

  4. 隱私(Privacy) - Must be protected, do not store or transmit any identifying data.

  寫到這裡,感覺好像很理想的樣子,但是如果真的這麼簡單,Google 早就被人從王座上拉下來了,其實 Wikia Search 也有自己的問題需要解決:

  之前提到的 Grub 這個系統最核心的搜尋方式就是透過網路上眾人貢獻的閒置資源,但是現在 Grub 被 Wikia Search 給買走了,那憑什麼還要網路上的使用者們貢獻自己的資源讓 Wikia Search 賺錢?這個問題你想到了、我想到了,Wikia Search 當然也想到了,以下是官方說法:

Q: Why would people want to share their resources to help Grub make money?

A: If you don't run a website, or care to contribute to a greater cause, there might not be a good enough reason for you to run the client. We didn't expect that everyone was going to run this thing after all! However, if you run a website or host multiple websites, you would want to run the client because it will index your own content before it crawls other sites. Having your content auto-update into the search engines is a powerful motive to run the client.

  官方說法的意思大致可以分為對兩種族群的喊話:「對於沒有自行架設網站的人,那的確沒有什麼好理由可以叫你幫我們的忙,反正我們也不期望所有人都能幫我們;對於有自行架設網站的人,那你可得仔細看了,因為如果你貢獻你的資源、加入我們的行列,那我們的 Web Crawler 會比較早對你的網站做索引(index), 所以如果你想要你的網站排名比其他同性質網站來得高,那就乖乖地貢獻你的資源給我吧。」或許我把官方說法的口吻詮釋得比較陰險、刻薄了點,不過我覺得它的確是這個意思。

  另外還有一點是讓我覺得 Wikia Search 無法擊敗 Google 的主要原因,如同我真實的身分是個研究生,Google 的真實身份也不只是個搜尋引擎霸主,他是個超級廣告商阿!Google 可是號稱最懂得把適當的廣告送給適當的人看的廣告商,這才是它賺大錢的秘訣,Wikia Search 在這點上實在拿不出什麼能和 Google 較量的長處。要和 Google 對決,除了嘴上說要擊敗它之外,我倒是期待它能拿出什麼能在廣告業務上和 Google 匹敵的厲害招數。(註四)



  如果這篇文章你能讀到這裡,那你的耐心真的太強了,因為連身為作者的我都覺得我能憑著毅力寫得這麼長實在也算是有點強,寫得我好累,希望這是一篇讓人覺得有用的文章。不過,我還沒寫完呢...



  故事說到這裡,還記得我在一開始寫的「主題是 Wikia Search 和 Google 之間的角力」嗎?Wikia Search 的部分已經寫了這麼多,現在該輪到 Google 出場了吧。

  Google 在去年的12月13號宣佈要推出一個新的平台,平台的名稱叫作 knol,knol 這個字代表的意義是"a unit of knowledge",想當然耳,這個平台是和知識有關的。

  這個 knol 平台就和 Wikipedia 一樣是個網路上的百科全書,但是在不少設計的概念上有著不同,以下是我所做的比較:

  1. 在 knol 平台上,提供資料的使用者並不是匿名的,所以其他人都看得到這則知識由誰提供。這個特點有個好處,也就是可以藉此打造個人知名度,變得像是熱門 Blog 的作者一樣成為網路上的名人

  2. 以往在 Wikipedia 上的知識都經過編排而合成為單一篇文章,但是 knol 平台上的知識並不會以這樣的方式呈現,而是以不同作者、不同詮釋的方式呈現知識的內容給社會大眾,如此一來可以讓讀者以各種不同的角度看待同一件事情。

  3. 如果作者同意 Google 在文章上擺放廣告,那麼就可以透過 Google AdSense 的服務讓貢獻知識的作者賺筆錢。

  4. knol 加入了評分機制,可以看看其他人對這則知識的評價。

  5. Google 將會開發演算法將有價值的知識文章根據內容的重要性排序。

  如果想要看看 knol 的頁面長相可以點這裡看看預覽圖。

  故事大概就說到這裡,關於 Wikia Search 和 Google knol 的後續發展還有待觀察,不知道這兩個服務是不是都能做得起來。(其實我覺得 knol 的前景相當看好,但是想要擊敗老字號的 Wikipedia 還要花上不少時間;至於 Wikia Search,根據我個人的測試,還有很長一段路要走、很多東西要改善)



  因為這個投影片是三個月前製作的,其中的消息早已由新聞變成舊聞,不過應該還是有人沒聽說過這件事的吧,一來寫下來讓之前沒有看過這則消息的人看看,二來順便讓我練習寫寫比較長的文章,也練習編排長文章的撰寫結構。(但是應該有很多人看到一半就嫌太長或是太悶看不下去了吧)

  現在的我看到這份投影片實在覺得內容順序安排得有點怪,感覺不太順。但是我還記得當時製作投影片的我也同樣為了安排內容順序這件事花了一番心思,沒想到才沒過幾個月就又和自己的思考邏輯搭不上了,現在的我也想不透當時為什麼這樣安排順序,還是是因為寫成文字版的說故事方式和上台報告的邏輯流程不太一樣呢?

  寫完這篇文章之後,我自己也覺得關於技術部份的內容好像太多了,我的組員們擔心其他非技術背景的同學們聽不懂這個報告也是很合理的,看來我還是還沒習慣試著站在以非理工人的角度看看世界。


  • [註一] 這間公司的營利方式是透過 MediaWiki 這套軟體幫其他公司製作頁面

  • [註二] 還有很多計畫都是運用同樣概念的方式運作,比方專門找尋外星人的 SETI@home。我自己也曾經參與過 Einstein@Home 這個找尋重力波的計畫。

  • [註三] 前陣子讀了隨意搜尋這本書,作者 Alan Beaulieu 也認為:

      搜尋結果的排名次序和展現方式,會對品牌印象產生影響。看看在Google搜尋Business School 的搜尋結果,你希望自己是哈佛學生還是史丹佛學生?還是更後面的哥倫比亞大學?使用者對於搜尋排名越前面的來源,會更信任,認為它們更權威,而其中的文字描述,會影響使用者是否參觀這個頁面。

    所以這段敘述也可以證明我這麼在意我的名字在 Google 上的搜尋排名是有道理的。

  • [註四] 其實關於擊敗 Google 這件事,Jimmy Wales 真的只是說說而已,根據他在紐約大學的演講內容,他的目標只是要拿下搜尋引擎市場的 5% 佔有率,距離擊敗 Google 這個目標真的是天差地遠。



1 則留言:

Egist 提到...

knol是google知識+嘛XD
看起來蠻酷的,這份報告還不賴阿。
我本來以為wikia做的是用人力去維護搜尋結果,沒想到是分散式crawler喔@@

版主回覆:(03/22/2008 03:45:15 PM)


我猜應該是雙管齊下吧
搞不好 distributed crawler 有偷作什麼骯髒事也不一定
主要應該還是靠眾人的工人智慧維持準確度,但是如果它人氣起不來,那就糗了