如何根據網站日誌進行分析並做出優化改進？

01-25

知道網站日誌能看出一些基本的內容，如何利用日誌分析網站的不足並做出優化調整，能給出一些實際案例的詳細說明嗎？

統計404

awk $9==404 log-file | wc -l

grep 404會出問題，如果你的URL裡面有「404」,例如/news/20120404S12.html這樣

一般apache的響應碼在$9或者$8，看日誌格式的配置，自己數數格子吧

再來個統計所有響應碼數量的

awk {a[$9]++}END{for(b in a) print b" "a[b]} log-file

從爬蟲日誌分析中能獲取的一些SEO信息

1.抓取頁面量和流量的分配（一般抓得多的頁面權重高，是否著陸合適的關鍵詞）

2.是否有垃圾頁面抓取（手機頁，帶參數的頁面，個人profile，各種非200響應碼等等）

3.抓取是否有斷檔，可能是伺服器或者程序出了問題

4.抓取能覆蓋到頁面的比例是多少，鏈接是否有問題

暫時想到這麼多吧

如果是全站日誌分析，那就是屬於WA的範疇，可以分析的就比較多了。

只說幾條細節：

1. 日誌的數據往往比GA之類統計工具的全，更適合對流量的細分分析；

2. 用日誌數據寫腳本去生成周報什麼的，比GA後台慢慢查、或是用GA的API，相對方便快捷；

3. 可以依其數據屏蔽些頁面。見到最極端例子是前公司，有個主題帖量大致十萬級的論壇，其中大部分抓取，都是抓其中的「只看該作者帖子」的無意義鏈接。

------------------------------------------------------

都在說具體的日誌分析操作，那麼我也說幾條：

1.精簡日誌

純日誌的大小很噁心，因為記錄了很多數據，實際多數都不用。對於爬蟲，僅需取URL，返回碼；對於SEO流量，僅需取URL，關鍵詞（Refer裡面抽取）

這些需要程序來寫腳本（取關鍵詞的步驟較複雜），代碼實現略。

2. grep -cP GET 【URL】 .*?baidu.com/s? access.log

快速查看某一頁面的精確SEO流量。這可以快速的了解到該網頁（或該類網頁）對整站的影響是多少，從而決定對其重視與否。

zero說的很好了。

說下從SEO角度，我們網站常用的一些具體方法，通過看一些實時的日誌來發現搜索引擎的：

1.tail -f /日誌目錄/日誌.log | grep 404

通過這個命令發現網站的404頁面，可以查看是否出現了大量的404頁面，然後找出原因修復。一般在新的代碼上線後測試下，也可以作為每天的常規檢測。

2.tail -f /日誌目錄/日誌.log | grep 503

通過這個命令發現網站的503頁面，因為使用的nginx，503頁面增多，意味著網站目前的連接數量可能過大，有被攻擊、垃圾搜索引擎抓取壓力過大、程序Bug的潛在問題，找出非法IP，然後做封禁處理。

3.tail -f /日誌目錄/日誌.log | grep Baiduspider

通過這個命令觀察百度蜘蛛的抓取頻率和頁面，可以找到一些網站結構等SEO相關的問題。

4.tail -f /日誌目錄/日誌.log | grep xxx

xxx可以是各種http header的狀態，比如200、301、302，也可以是特定搜索引擎蜘蛛或頁面URL，好像還支持正則表達式。

通過類似的語法可以做很多網站實時狀況的分析。

總之，日誌要比任何流量統計提供的數據更全面，而且可以更及時的知道目前網站的一些狀況，對網站的運營和管理來說，是一個極大的幫助。

除了實時查看以外，通過下載網站的日誌文件，本地通過日誌分析工具也可以分析總結出很多有價值的信息，對網站設計、改版、換IP、換域名等都有參考。

因為對Linux技術方面不是很懂，只能給出以上自己用的一些命令（技術教的），希望也適用於樓主的情況。

http://www.ludou.org/learning-how-to-analyse-raw-access-log.html

說的非常詳細，我就不搬運了。

先說一點，有空的時候再接著說

一、看下蜘蛛來訪的時間頻率，一般情況下正在的蜘蛛會考慮站點負荷，會選在晚上站點訪問低的時候訪問。如果發現大量蜘蛛在白天光顧，就要小心了。

這裡就需要分開2個問題來看待：

1、蜘蛛是真的

這個時候，應該而且必須要做的是，通過站長平台設置或反饋蜘蛛的抓取頻率。

2、蜘蛛是假的

下面的幾種反查蜘蛛IP的方法，務必還是需要熟記的

（更多關於蜘蛛的知識，可以關注偶的公眾號：李現龍。）

網站日誌增長太快。正愁怎麼解決呢。http://www.haofeiuav.com