搜索引擎能否檢索到知乎網站的內容?

我發現通過搜狗竟然可以搜索到我在知乎上發表的部分內容。


一圖流,不解釋


-----------------------一下內容是2011-08-17 的回復,針對的是當時的提問和原因結果的回答--------------------

就目前狀況(2011-08-17 ),知乎的有限度開放幾乎沒辦法讓任何SE蜘蛛順利抓取(非登陸狀態,蜘蛛看到的也是這種狀態,其實知乎半開放頁面,只是為了吸引真正的訪問者註冊登錄而已,是沒有考慮SEO的):

首先缺乏有效的入口,因為沒有聚合頁面;

現在能被收錄的,許多是有人把問題鏈接發到了外部網站的

:)說不定許多人並不知道或忽略了只有登錄才能看到真正頁面內容的,所以更多互聯網用戶是初級的,經常看到有的網友把個人後台URL當主頁地址發出去,比如,歡迎大家訪問我的主頁:http://www.xxx.com/user/,他以為他看到的內容就是別人可以訪問的內容】;

更要命的是被訪問的頁面(非登陸狀態)放出來的鏈接SE蜘蛛是無法抓取的,因為都是JS結構:

汗 無法直接帖HTML代碼,會給自動清除掉,那貼個鏈接吧:

http://cache.baidu.com/c?m=9d78d513d9d706ef06e2ce384b54c0676a499d267992c715089cc913c9234c413037bee43a6157539283273a5db24a57effa31773607p=8b2a9f5dc0df07f008e292345fuser=baidufm=scquery=site%3Azhihu%2Ecomqid=aa33d17c041b8bbap1=80

直接查看源文件中的鏈接結構:

都是類似

a class="wp" href=" javascript:; " 電子商務 a (處理了下,不然無法發出來)

href=" javascript:; " 電子商務"

也就是說,SE蜘蛛是無法順著這些鏈接去抓取下個頁面的。

======================================================================

2013/6/25補充:的確哪裡都有討厭的人(不是說付鵬),拿13的結果說11年的因與果,直接說我是個二逼(已刪),被人指正,還說我知道,就是討厭Y的(小歐 回復 駱啟明呵呵,我知道。但奏是很討厭丫的。),這樣的素質真不敢恭維,真是自己抽自己的嘴巴。


實際情況需要通過搜索引擎檢索,命令是site: 域名。

是否能被檢索到主要看知乎的運營策略了,在技術上如何應對爬蟲。


現在貌似google可以檢索知乎上的內容了


不知道為什麼@檀斌的回答得到了贊,是現在知乎的風氣就是看回答多的問題就覺得是用心的然後就贊?為什麼就不能親自測試一下呢?

google測試:

關鍵詞 allinurl:http://zhihu.com/question 即搜索所有收錄地址中含有"http://zhihu.com/question"子串的所有鏈接地址,亦即知乎的所有被收錄的問題,找到約 23,800,000 條結果 (用時 0.60 秒)

可以看到,抓取的都是知乎的問題頁面,顯然站外引用兩千多萬條不合理,我們只能認為這是從知乎抓取來的

百度測試:

關鍵詞site:(http://zhihu.com) inurl: (question),作用同上,百度為您找到相關結果約264,000個

百度的爬蟲看起來也像是爬到了知乎全站內容的樣子,如果站外引用達到二十六萬,這很恐怖綜上,搜索引擎肯定不只只是從站外引用抓取到的鏈接


使用指令「site:zhihu.com」搜索可知。

從搜索結果來看,知乎被檢索一小部分。


這要看知乎自己的設置。一般來說用戶登錄才能看但搜索引擎不一定,因為他們看的是另一個版本,就好像discuz論壇早就對搜索提供一個頁面而用戶看的是另一個頁面。


推薦閱讀:

知乎上出現過哪些雋永的名言佳句?
你在知乎見過哪些被嚴重低估的答案?
被知乎大 V 關注是一種怎樣的體驗?
知乎都有哪些值得推薦的專欄?
鏘鏘三人行停了,知乎還會遠嗎?

TAG:知乎 | 互聯網 | 搜狗 | 搜索引擎 |