80后的互聯(lián)成長錄(九):偉大的搜索引擎

2015/02/21 14:23     

SEO

鈦媒體注:80后這一代人可以說是伴隨著中國互聯(lián)網(wǎng)的成長而長大的。他們經(jīng)歷過互聯(lián)網(wǎng)行業(yè)怎樣的發(fā)展?他們怎么看、怎么想?鈦媒體作者白鼠窩推出“80后的互聯(lián)成長”系列文章,在鈦媒體獨家連載(鏈接地址:http://www.tmtpost.com/author/baishuwo),本文是第九篇:

上一篇講到了醫(yī)院熱衷SEO這個事,而這都和搜索引擎的存在有關,這篇來講講和搜索引擎相關的一些東西。

當我開始可以上網(wǎng)時,怎么找到你需要的信息就成了一個很大的問題。你知道網(wǎng)上有很多的東西,但你卻不知道它在哪里。這時候偉大的搜索引擎就可以救你于水深火熱之中。

如同之前所說的,剛開始上網(wǎng)時,主要是通過門戶網(wǎng)站上的超鏈接(就是點擊了會跳到另外一個網(wǎng)頁的文字或圖片)來瀏覽網(wǎng)絡。超鏈接的確是互聯(lián)網(wǎng)中簡單卻又異常有用的發(fā)明。通過超鏈接,成千上萬的網(wǎng)頁得以互聯(lián)連接。通過不同的組織方式,人們可以更好的瀏覽內容,發(fā)現(xiàn)相關內容,鏈接廣告還可以用來變現(xiàn)等等。

但超鏈接也有很大的局限性,如果你只是在一個內容相對集中的站點中瀏覽,那么超鏈接可以給你很好的指引。但如果你想在茫茫的互聯(lián)網(wǎng)上找到相關的內容,單純的超鏈接似乎就力不從心了。當你從一個頁面進行了10幾次跳轉還沒找到相關內容的時候,估計你就完全沒有耐心繼續(xù)尋找了。

搜索引擎的出現(xiàn),就幫人們解決了互聯(lián)網(wǎng)上的定位問題。通過搜索引擎,只需要相應的關鍵字,你就可以很容易的早點相關的內容,而不需要通過似乎無止境的超鏈接導航一層一層的走。

當然,搜索引擎并不是孤立存在的,能使搜索引擎存在的基礎便是超鏈接的存在。搜索引擎能完成搜索最重要的兩個核心要素——信息抓取和信息排序,都離不開超鏈接。

搜索引擎依靠一種叫做“爬蟲”(spider)的程序在互聯(lián)網(wǎng)獲取信息。之所以稱之為“爬蟲”就是因為這個程序會順著它獲得到的超鏈接一直“爬”,正是由于互聯(lián)網(wǎng)超鏈接的互通性,從一些大的站點或者一些重要的導航站(目錄站)出發(fā),爬蟲就有可能通過這些千千萬萬的鏈接走遍整個互聯(lián)網(wǎng)。

搜索引擎的爬蟲在”爬“到相應的網(wǎng)站時,就會將該網(wǎng)站存到自己的數(shù)據(jù)庫中,以便搜索排序之用。就是說,想要實現(xiàn)真正的搜索,搜索引擎廠商需要將幾乎整個互聯(lián)網(wǎng)都裝進自己的服務器中。

為了存儲這些數(shù)據(jù),搜索引擎公司需要有大量的服務器。谷歌中國前技術總監(jiān)周杰在2008年的一次會議上曾經(jīng)透露過Googl擁有的服務器數(shù)量級,他說“Google的服務數(shù)量大約相當于美國第三大PC生產(chǎn)商。”雖然不知道具體數(shù)據(jù),我們還可以從另外一個側面來看谷歌的數(shù)據(jù)中心規(guī)模,據(jù)谷歌公布的數(shù)據(jù)顯示,谷歌全球能源消費達到2.6億瓦特,這相當于弗吉尼亞州首府里士滿或者加州歐文市家庭用戶的所有用電量,或者說,這相當于一座標準核電站1/4的輸出功率。大多數(shù)數(shù)據(jù)報告都認為谷歌是世界上擁有最多服務器的企業(yè)。

當然,僅僅是儲存這些數(shù)據(jù)是遠遠不夠的,搜索的目的就是要找出最符合用戶需求的網(wǎng)頁。這時候搜索引擎就需要對不同的網(wǎng)頁進行排序,而這個排序的基礎也是通過超鏈接計算出來的。

簡單來說,搜索引擎的排序基礎算法是這樣的:大多數(shù)網(wǎng)頁都有超鏈接鏈向它,或者它會鏈向別人,而這種鏈接可以被認為是每個網(wǎng)頁對其他網(wǎng)頁質量好壞的投票。搜索引擎認為,如果有大量的鏈接鏈向某個頁面,那這個頁面就是受歡迎的,就應該在搜時被排在前面。反之沒有人鏈接的網(wǎng)站就是不受歡迎的。當然,搜索引擎還會考慮關鍵字匹配程度、鏈接網(wǎng)頁本身的質量等多種因素,但大體上其工作原理就是上面所說的那樣。

正是由于搜索引擎的工作原理是通過超鏈接實現(xiàn)的,就可以理解大多數(shù)網(wǎng)站為什么那么喜歡交換友情鏈接了。因為增互相間的鏈接是可以提高網(wǎng)站在搜索引擎的排名的。當然如果你沒有那么多“友人”的話,你還可在網(wǎng)上找到很多賣“友鏈”的人的,他們會很“友好”的告訴你每條鏈接的價錢。

直接賣鏈接,是比較初級的做法。因為即使有鏈接,但效果怎么樣實在難以衡量。在搜索引擎稱霸互聯(lián)網(wǎng)以后,就出現(xiàn)了一種特殊的工種——SEO(搜索引擎優(yōu)化)。SEO的職責就是讓網(wǎng)站的排名在搜索引擎里盡量靠前,這樣你的網(wǎng)站就有可能被跟多的人訪問到。正如上一篇所說的,很多網(wǎng)站會有專門的SEO人員來優(yōu)化自己網(wǎng)站的排名。

圍繞搜索引擎,有很多相關的上下游產(chǎn)業(yè)。這邊就不一一展開去了。當你知道搜索引擎的大概工作原理,你就能大概理解這些行當都是做什么的。

回到搜索引擎本身,如上面提到的,要從成千上億條數(shù)據(jù)中快速找出需要的頁面并完成排序,這在技術上也并不是一件容易的事情,調度上萬臺機器的資源可不容易,包括微軟、雅虎在內的企業(yè)都曾經(jīng)在搜索引擎上摔過跟頭。

搜索引擎在基礎設施投資和技術門檻上都可以說是一件門檻非常高的事,但于此同時搜索引擎又有著一種令人著迷的盈利模式,這讓很多企業(yè)都對引擎業(yè)務趨之若鶩。(本文獨家首發(fā)鈦媒體)

【鈦媒體作者介紹:葉元,微信公眾號“白鼠窩”(baishuwo)】

相關閱讀