Web spider/crawler , 是搜尋引擎公司派出用來檢索分析網路上無數的網頁資料,
然後收納入其後端資料庫的....小蜘蛛人 ^_^
樓主提問的Googlebot, 就是Google的數種 web crwaler 之一.
Yahoo 的 web crawler 稱為 Yahoo! Slurp , 如果你的web accesslog
有出現 Yahoo! Slurp , 那表示它可能來巡訪過了.
它源自美國加州Inktomi Corporation發展的搜尋引擎技術, 目前是3.0版本.
(註1,2)
Google有數種crawler, 其中Googlebot是用以抓取普通網頁內容用的,
其它還有AdsBot, MediaBot..等不同用途的 bots,
如果它們有來過你的網站, web accesslog裡會出現,
以Googlebot之類為User-Agent的訪客記錄, 這是最簡易的辨識方法;
但User-Agent是很容易造假的, 為避免惡意人士假冒Googlebot身份進行不明用途,
Google提供的進階辨識方法是, 其web crawler使用的IP,
有著特定的反解名(reverse domain name),
例如IP是11.22.33.44, 則反解名會是 crawl-11-22-33-44.googlebot.com
由於反解名很難造假, 網站管理人可依此確認連線來源之真偽.
(註3)
有時, 某些資料你不希望被搜尋引擎查訪,
可以視情節輕重採用 nofollow, robot.txt 或直接以帳號密碼來設限.
有些惡意網站會搜集訪客的瀏覽歷史記錄, 如果應用程式在資料防護上
不是那麼週全, 就有可能不需密碼也能取得後端資料.
近幾年搜尋引擎大行其道, 完全把Multi-lingual domain name給比了下去,
但也衍生出一種現象: 搜尋出來的結果, 先不論排行是否滿意,
有很多是賺廣告費(AdSense)而無實質內容,
或是含有惡意程式的不良網站/址(其中也包含被黑而會散播病毒的正當網站).
除了改良搜尋引擎之外,
像Google有在世界各地雇用網頁評估員,
對於回報搜尋結果不滿意的部份(排行結果, 不良網站/址..等),
以人力方式進行細部觀察評估, 當多數評估員認定標的網站不良時,
則視情況予以大幅降低排名, 加註警語, 或是直接除名.
[參考]
1)
以下內文出自: http://tw.knowledge.yahoo.com/question/question?qid=1010050804581
留言列表