如何根據網站日誌進行分析並做出優化改進?

知道網站日誌能看出一些基本的內容,如何利用日誌分析網站的不足並做出優化調整,能給出一些實際案例的詳細說明嗎?


統計404

awk $9==404 log-file | wc -l

grep 404會出問題,如果你的URL裡面有「404」,例如/news/20120404S12.html這樣

一般apache的響應碼在$9或者$8,看日誌格式的配置,自己數數格子吧

再來個統計所有響應碼數量的

awk {a[$9]++}END{for(b in a) print b" "a[b]} log-file

從爬蟲日誌分析中能獲取的一些SEO信息

1.抓取頁面量和流量的分配(一般抓得多的頁面權重高,是否著陸合適的關鍵詞)

2.是否有垃圾頁面抓取(手機頁,帶參數的頁面,個人profile,各種非200響應碼等等)

3.抓取是否有斷檔,可能是伺服器或者程序出了問題

4.抓取能覆蓋到頁面的比例是多少,鏈接是否有問題

暫時想到這麼多吧

如果是全站日誌分析,那就是屬於WA的範疇,可以分析的就比較多了。


只說幾條細節:

1. 日誌的數據往往比GA之類統計工具的全,更適合對流量的細分分析;

2. 用日誌數據寫腳本去生成周報什麼的,比GA後台慢慢查、或是用GA的API,相對方便快捷;

3. 可以依其數據屏蔽些頁面。見到最極端例子是前公司,有個主題帖量大致十萬級的論壇,其中大部分抓取,都是抓其中的「只看該作者帖子」的無意義鏈接。

------------------------------------------------------

都在說具體的日誌分析操作,那麼我也說幾條:

1.精簡日誌

純日誌的大小很噁心,因為記錄了很多數據,實際多數都不用。對於爬蟲,僅需取URL,返回碼;對於SEO流量,僅需取URL,關鍵詞(Refer裡面抽取)

這些需要程序來寫腳本(取關鍵詞的步驟較複雜),代碼實現略。

2. grep -cP GET 【URL】 .*?baidu.com/s? access.log

快速查看某一頁面的精確SEO流量。這可以快速的了解到該網頁(或該類網頁)對整站的影響是多少,從而決定對其重視與否。


zero說的很好了。

說下從SEO角度,我們網站常用的一些具體方法,通過看一些實時的日誌來發現搜索引擎的:

1.tail -f /日誌目錄/日誌.log | grep 404

通過這個命令發現網站的404頁面,可以查看是否出現了大量的404頁面,然後找出原因修復。一般在新的代碼上線後測試下,也可以作為每天的常規檢測。

2.tail -f /日誌目錄/日誌.log | grep 503

通過這個命令發現網站的503頁面,因為使用的nginx,503頁面增多,意味著網站目前的連接數量可能過大,有被攻擊、垃圾搜索引擎抓取壓力過大、程序Bug的潛在問題,找出非法IP,然後做封禁處理。

3.tail -f /日誌目錄/日誌.log | grep Baiduspider

通過這個命令觀察百度蜘蛛的抓取頻率和頁面,可以找到一些網站結構等SEO相關的問題。

4.tail -f /日誌目錄/日誌.log | grep xxx

xxx可以是各種http header的狀態,比如200、301、302,也可以是特定搜索引擎蜘蛛或頁面URL,好像還支持正則表達式。

通過類似的語法可以做很多網站實時狀況的分析。

總之,日誌要比任何流量統計提供的數據更全面,而且可以更及時的知道目前網站的一些狀況,對網站的運營和管理來說,是一個極大的幫助。

除了實時查看以外,通過下載網站的日誌文件,本地通過日誌分析工具也可以分析總結出很多有價值的信息,對網站設計、改版、換IP、換域名等都有參考。

因為對Linux技術方面不是很懂,只能給出以上自己用的一些命令(技術教的),希望也適用於樓主的情況。


http://www.ludou.org/learning-how-to-analyse-raw-access-log.html

說的非常詳細,我就不搬運了。


先說一點,有空的時候再接著說

一、看下蜘蛛來訪的時間頻率,一般情況下正在的蜘蛛會考慮站點負荷,會選在晚上站點訪問低的時候訪問。如果發現大量蜘蛛在白天光顧,就要小心了。

這裡就需要分開2個問題來看待:

1、蜘蛛是真的

這個時候,應該而且必須要做的是,通過站長平台設置或反饋蜘蛛的抓取頻率。

2、蜘蛛是假的

下面的幾種反查蜘蛛IP的方法,務必還是需要熟記的

(更多關於蜘蛛的知識,可以關注偶的公眾號:李現龍。)


網站日誌增長太快。正愁怎麼解決呢。http://www.haofeiuav.com


推薦閱讀:

索引的索引:如何不系統地了解運籌學
為何不同標準庫實現的三角函數的執行效率差別如此巨大?
用2個玻璃球找到從一100層的大樓的某一層落下剛好會摔碎,如何制定最優策略?
產品經理該不該畫原型?原型設計上誰負責?

TAG:搜索引擎優化SEO | 優化 | 日誌分析 |