一、搜索?
我們先說搜索。Google、百度代表一種模式,可以說是全網的基礎搜索模式;而qihoo和daqi代表另一種全網模式。這里我想詳細說說:從表面看,qihoo和daqi目前都是對BBS內容進行聚合,似乎是“垂直搜索(聚合)”,但其實他們也是基于全網的廣域搜索和聚合――即基本上針對所有中文bbs;所以我并不把他們看作是“垂直”的。而第三種搜索模式,就是酷訊網為代表的,真正的“垂直搜索”――他們不用索引海量的網站,直接索引相關信息的宿主網站就可以了。而根據(jù)酷訊的業(yè)務范圍,我分析,比如租房這塊,他們索引主要的百來個租房網站即可。
而一個真正的搜索網站,主要需要三個功能:1,爬蟲系統(tǒng)分析海量未知網站的網頁;2,索引經過爬蟲抓取回來的網站網頁;3,對用戶搜索請求的分析和響應。在上一段中,我之所以試圖澄清目前三種不同類型的“搜索”網站,是因為這三種不同搜索模式,在搜索的三個功能上,技術含量是完全不同的。Google,baidu的技術含量要求最高;而酷訊模式的技術含量最低。
因為第一,酷訊根本不需要用爬蟲分析未知網站,只需要人工對有限的分類信息宿主網站進行分析,然后爬蟲定向抓取即可;(酷訊是否采用機器分析另說,我只是說明人工分析在此點上能達到同樣效果);第二,索引這些宿主網站也不需要特別的策略,因為幾個分類確定了,信息就很容易格式化,比如,租房無非就地點,房租,聯(lián)系方式等等信息;最有趣的是第三――其實真正的搜索網站,對用戶搜索請求的語義理解,技術含量非常高;但酷訊采取了兩個“取巧”的方式,降低了這方面的技術難度:(1)“限定”用戶的查詢請求,以降低系統(tǒng)對用戶語義解釋的難度。以租房為例,提示用戶輸入名詞的“地名”,這樣系統(tǒng)對用戶語義的解釋就很容易了――但即使如此,酷訊做的也不好,比如,搜索“北三環(huán)”有1033條信息;而搜索同義的“北三環(huán)附近”只有143條信息;“北三環(huán)一帶”只有7條信息;(2)網站列出了主要查詢條件,類似分類,用來降低用戶個性化查詢請求的可能性,因此降低了系統(tǒng)語義解釋的難度。同樣以租房為例,酷訊通過幾個最常用的分類推薦,實際上用戶完全可能不用再搜索,只點選這幾個“分類”即可,系統(tǒng)也就不用去理解用戶的語義
通過如上分析可知,理論上,其實不太需要搜索技術,酷訊網站就可以被做出來。所以說酷訊是一個搜索概念的網站,看起來有點勉為其難,比較恰當?shù)亩ㄎ粦且粋€分類網站“mashup的輕量級應用”。
值得一提的是,酷訊比較引以為豪的一些“技術”,其實也恰恰是mashup的應用。比如,“拉框搜索”,即是分類和mapbar的地圖服務的mashup;又比如,“世界上第一個會‘冒泡’的搜索引擎”,其實就是爬蟲爬得勤快點,再加上頁面的ajax就能解決――這些“世界第一”的技術,看起來“酷”,其實如上所述,真正從技術上看也都是輕量級的“花活兒”。
二、脆弱的產業(yè)鏈
也就是說,酷訊其實就是分類信息的用戶入口網站,即用戶如果要找相關分類信息,首先去酷訊,這個是目前酷訊的真實定位。這種垂直portal的定位,其實和新浪的新聞門戶定位是一樣的,只是新浪在產業(yè)鏈中的“宿主”是傳統(tǒng)報紙,而酷訊在產業(yè)鏈中的宿主是:分類網站。
那么酷訊在分類信息產業(yè)鏈中,這樣的定位合適嗎?
要回答這個問題,我們先看看國外分類信息第一網站craigslist的遇到的兩個案例:當craigslist成為最大的分類信息網站之后(請大家務必注意行業(yè)老大這個背景),craigslist允許housingmaps.com引用他們的數(shù)據(jù),但是拒絕了另外一家Oodle。
對此,非常湊巧,我寫此博客,搜索資料的時候發(fā)現(xiàn),酷訊網站方就有一篇文章談論此問題,摘抄如下:
。。。。。。一直有朋友關心,酷訊這種分類信息搜索與分類信息發(fā)布網站是否存在必然的對立和競爭關系,分類信息發(fā)布網站是否會因為利益沖突而拒絕分類信息搜索網站進入其網站獲取數(shù)據(jù)呢?
粗看起來,這兩類網站好象存在一定的競爭關系,而且朋友們一般都舉美國垂直搜索網站Oodle 被craigslist 警告“希望不要再使用”來自其列表的信息的例子,來證明這種說法非常有根據(jù)。
但是,仔細分析后,就會發(fā)現(xiàn)這是一個偽命題。先說oodle與craigslist的故事。為什么craigslist并不屏蔽整合其信息的其他搜索引擎,而獨獨對oodle進行警告呢?只要看看oodle網站就知道了,——它把來自多個分類列表的信息匯聚在一個頁面下,看起來簡直就是第二個craigslist。這就好比google如果抓取雅虎的新聞,而表現(xiàn)形式又和雅虎新聞頻道毫無區(qū)別,必然會被雅虎警告。這也只能說明,如果搜索引擎的業(yè)務模式與原信息提供者過度重疊,而不是另辟蹊徑或有技術上的創(chuàng)新,那么勢必會與原信息提供者形成沖突。
從craigslist 并不拒絕其他垂直搜索引擎(如housingmaps )整合其內容也可以看出,craigslist 在美國分類信息發(fā)布社區(qū)中雖然享有“一哥”的地位,卻也無法抵擋互聯(lián)網整合和共享的大趨勢。從酷訊的用戶行為分析調查也發(fā)現(xiàn),用戶并不是只停留在酷訊網站上面,幾乎每位用戶對于感興趣的信息,都會點擊進去看原數(shù)據(jù)網頁??嵊嵶鳛榉诸愋畔⑺阉鏖T戶給眾多分類信息發(fā)布社區(qū)帶去了活躍的用戶。