如何根據網站日誌進行分析並做出優化改進?
知道網站日誌能看出一些基本的內容,如何利用日誌分析網站的不足並做出優化調整,能給出一些實際案例的詳細說明嗎?
統計404
awk $9==404 log-file | wc -lgrep 404會出問題,如果你的URL裡面有「404」,例如/news/20120404S12.html這樣
一般apache的響應碼在$9或者$8,看日誌格式的配置,自己數數格子吧
再來個統計所有響應碼數量的
awk {a[$9]++}END{for(b in a) print b" "a[b]} log-file
從爬蟲日誌分析中能獲取的一些SEO信息
1.抓取頁面量和流量的分配(一般抓得多的頁面權重高,是否著陸合適的關鍵詞)
2.是否有垃圾頁面抓取(手機頁,帶參數的頁面,個人profile,各種非200響應碼等等)3.抓取是否有斷檔,可能是伺服器或者程序出了問題4.抓取能覆蓋到頁面的比例是多少,鏈接是否有問題暫時想到這麼多吧如果是全站日誌分析,那就是屬於WA的範疇,可以分析的就比較多了。只說幾條細節:
1. 日誌的數據往往比GA之類統計工具的全,更適合對流量的細分分析;
2. 用日誌數據寫腳本去生成周報什麼的,比GA後台慢慢查、或是用GA的API,相對方便快捷;
3. 可以依其數據屏蔽些頁面。見到最極端例子是前公司,有個主題帖量大致十萬級的論壇,其中大部分抓取,都是抓其中的「只看該作者帖子」的無意義鏈接。
------------------------------------------------------
都在說具體的日誌分析操作,那麼我也說幾條:
1.精簡日誌
純日誌的大小很噁心,因為記錄了很多數據,實際多數都不用。對於爬蟲,僅需取URL,返回碼;對於SEO流量,僅需取URL,關鍵詞(Refer裡面抽取)
這些需要程序來寫腳本(取關鍵詞的步驟較複雜),代碼實現略。
2. grep -cP GET 【URL】 .*?baidu.com/s? access.log快速查看某一頁面的精確SEO流量。這可以快速的了解到該網頁(或該類網頁)對整站的影響是多少,從而決定對其重視與否。
zero說的很好了。
說下從SEO角度,我們網站常用的一些具體方法,通過看一些實時的日誌來發現搜索引擎的:1.tail -f /日誌目錄/日誌.log | grep 404
通過這個命令發現網站的404頁面,可以查看是否出現了大量的404頁面,然後找出原因修復。一般在新的代碼上線後測試下,也可以作為每天的常規檢測。2.tail -f /日誌目錄/日誌.log | grep 503
通過這個命令發現網站的503頁面,因為使用的nginx,503頁面增多,意味著網站目前的連接數量可能過大,有被攻擊、垃圾搜索引擎抓取壓力過大、程序Bug的潛在問題,找出非法IP,然後做封禁處理。3.tail -f /日誌目錄/日誌.log | grep Baiduspider
通過這個命令觀察百度蜘蛛的抓取頻率和頁面,可以找到一些網站結構等SEO相關的問題。4.tail -f /日誌目錄/日誌.log | grep xxx
xxx可以是各種http header的狀態,比如200、301、302,也可以是特定搜索引擎蜘蛛或頁面URL,好像還支持正則表達式。
通過類似的語法可以做很多網站實時狀況的分析。總之,日誌要比任何流量統計提供的數據更全面,而且可以更及時的知道目前網站的一些狀況,對網站的運營和管理來說,是一個極大的幫助。
除了實時查看以外,通過下載網站的日誌文件,本地通過日誌分析工具也可以分析總結出很多有價值的信息,對網站設計、改版、換IP、換域名等都有參考。因為對Linux技術方面不是很懂,只能給出以上自己用的一些命令(技術教的),希望也適用於樓主的情況。http://www.ludou.org/learning-how-to-analyse-raw-access-log.html說的非常詳細,我就不搬運了。
先說一點,有空的時候再接著說
一、看下蜘蛛來訪的時間頻率,一般情況下正在的蜘蛛會考慮站點負荷,會選在晚上站點訪問低的時候訪問。如果發現大量蜘蛛在白天光顧,就要小心了。
這裡就需要分開2個問題來看待:
1、蜘蛛是真的
這個時候,應該而且必須要做的是,通過站長平台設置或反饋蜘蛛的抓取頻率。
2、蜘蛛是假的
下面的幾種反查蜘蛛IP的方法,務必還是需要熟記的
(更多關於蜘蛛的知識,可以關注偶的公眾號:李現龍。)
網站日誌增長太快。正愁怎麼解決呢。http://www.haofeiuav.com
推薦閱讀:
※索引的索引:如何不系統地了解運籌學
※為何不同標準庫實現的三角函數的執行效率差別如此巨大?
※用2個玻璃球找到從一100層的大樓的某一層落下剛好會摔碎,如何制定最優策略?
※產品經理該不該畫原型?原型設計上誰負責?