論文解讀:Analyzing Reviews and Code of Mobile Apps for Better Release Planning

01-30

我最近的研究方向就是在看：評論分類以及bug report定位這方面的，所以論文閱讀一般都是關注於這些點。閱讀的論文吶也基本都是CCF推薦中的A或者B。A的居多

廢話不多說了，咱們開始來正事兒吧。

摘要

手機應用已經經歷了一個快速發展的時期，應用開發人員就很苦逼了，競爭就要變得很激烈了。應用開發人員就不得不快速的實現一些新的功能或者快速的修復一些bug來滿足o(*￣︶￣*)o客戶們的需求。為了實現這樣的目標：快速的監控以及分析用戶的反饋。手動分析當然是不可能的了，因為評論數量實在是太多，手動分析費時又耗力。所以這篇論文就應運而生了。

為了幫助開發人員更好的處理這麼多可用的評論數據，本文的研究人員手動的分析了1566位用戶的評論定義了 a high and low level taxonomy。該分類包含了很多專門針對於手機的特定類別（比如：性能，資源，電池，內存等），這些內容在實施開發和維護計劃中對於開發人員十分的有幫助。

重點來了：UUR- User Request Referencer (URR) prototype

採用機器學習以及信息檢索技術，根據預先定義的類別自動化地將評論數據進行分類，以及根據一個特定的評論推薦其所需要被修改的源代碼文件用於處理論文中所描述的問題。

我們評估我們的方法通過一個經驗研究：試驗包括39個手機應用的評論數據以及源代碼數據

我們的結果展示high precision and recall of URR。

關鍵詞索引：

手機應用，用戶評論，文本分類，代碼定位

正文

評論的數量對於與開發資源來講要多很多，並且用戶評論裡面往往會包含很多有價值的反饋信息，用戶經常會表明一些bug信息，使用報告或者features request等，而且評論的內容往往會影響其他人的下載。

但是實驗表明哈，評論當中的信息參差不齊，有好有壞，其中有信息的數據往往只佔據評論數據的1/3左右。

開發人員如果想要了解用戶的信息，就只能用過評論數據進行分析，分析成堆的非結構化的文本嘗試去理解用戶想表達的意思，並從中抽取有用的信息。

what does a particular cluster talk about?n Does it talk about the UI or about the performance of the app, etc.?n

如何去理解用戶在說什麼，只能去手動的進行分析。所以本文的作者手動分析了1600個評論

通過上述的分析我們可以看到，通過手動的分析基本還是可以從評論數據中抽取出一些我們需要的信息的。

所以我們要開始構建我們的類別標識：

Content analysis in 2 passes:nstart with an empty list of categoriesnanalyse each review and add a new category if necessarynlabel the review with all the matching categoriesnsecond pass: nrevisit the list of reviews and label them with the appropriate categoriesn

high level的類別定義完成之後開始需要定義low level的類別標識了，

low level的類別標識的過程與high level的大致相同

接下來就是Automated Classification

Preprocessing & Feature Extraction：

預處理的過程就是：停用詞去除以及詞幹還原

特徵抽取的方式就是：TF-IDF得分以及2/3grams

Besides capturing expressions or groups of words that are used together, n-grams are able to capture negations in review sentences.

訓練過程：

one-vs-all strategy:nseparate classifier for each high and low level category (18 in total)nnused the Gradient Boosted Trees modeln

這裡面有一個問題就是結構信息怎麼加進去：

Specifically, when a Review i and an Artifact j have a matching taxonomy category,nthen we use the boosting functionality of Lucene to increase the similarity score nbetween them by a given bonus score percentage.n

由此可見這個結果信息是通過bonus 方式加入到檢索結果當中的

Each structure category is then matched with a category from our high levelntaxonomy as described in Table IIIn

文檔的結構信息是通過正則表達式與評論的分類信息進行匹配的

問題的最後就是評估：

RQ1: To what extent does our approach organise reviews naccording to meaningful maintenance and evolution tasks for developers?nnRQ2: Does our approach correctly recommend the software artifacts that need to nbe modified in order to handletuser requests and complaints?n

問題的關鍵點就在於：本文的分類方法到底有多麼的精確，本文的源代碼定位方法到底有多好

謝謝各位老闆可以看到這個位置，，，，

Thanks?(?ω?)?