當眾包變複雜，如何改善平台設計

01-10

眾包是一種特殊的資源尋求模式，自願召集的形式邀請非特定人員完成。這種模式並非突然湧現。古時候各種懸賞緝兇，再到近代為各種科學問題設立獎項。古人言群策群力，到了2006年美國《連線》雜誌的記者傑夫·豪（Jeff Howe）將這種模式正式命名為「眾包」。

眾包的形式非常多：收集服務、收集想法、收集內容、編詞典、籌集資金、競賽、問答、解決方案、尋人……在Daren C. Brabham（2013）的書中，根據問題性質，將眾包活動分為四類：知識發現和管理（Knowledge Discovery & Management）、分散式智力任務(Distributed Human Intelligence Tasking)、廣播搜尋(Broadcast Search)和創意產品的大眾審查(Peer-Vetted

Creative Production)：

知識發現和管理。組織大眾發現和管理信息。一種創造集體知識資源的理想方式，例如維基百科、百度百科。
分散式智力任務處理。組織大眾處理分析信息，例如reCAPTCHA計劃。Brabham的定義里認為此類任務主要是人工智慧無法處理的信息，邀請大眾處理。我認為無論是否人工智慧無法處理，只要將信息處理分析任務分割後邀請大眾處理，都可以列入此類。例如World Community Grid邀請大眾將自己電腦剩餘的處理能力貢獻出來，用以計算蛋白質結構等需要大量處理容量的公益項目。
廣播搜尋。組織大眾對特定客觀的問題提供最佳答案，例如經度大獎，Kaggle競賽。
創意產品的大眾審查。對於主觀性問題或者有賴於大眾支持的問題的提案，邀請大眾來評判。在設計、審美、政策制定領域常見。我認為眾籌活動是可以歸入此類的，大眾用金錢表達意願。點評類網站也屬於此類。例如，對於一家餐館好不好吃這個問題，網站有6個提案，從0到5星代表從一點都不好吃到非常好吃，消費者通過點星星評判自己同意哪一個提案。

過去眾包強調吸引大眾參與，所以任務複雜度一般而言較低，也比較好評價。但隨著越來越多專業化的服務被眾包，例如開發軟體、完成學術研究項目、產品設計等，眾包平台的模式也在進行相應的調整。

從任務處理的角度，眾包平台需要能快速建立即時需求（on-demand）的工作組。因此，一個高效的眾包平台設計需要考量如何分解、分配、監督和考核任務，甚至考慮僱主和工作者在這個平台上的長期發展。有幸聽到一個Stanford HCI group的Micheal Bernstein博士的分享，在此基礎上整理了一些自己感興趣的內容。

GitHub化的項目管理

眾包平台還有一個劣勢是處理的任務比較簡單：聽寫一段錄音、製作一個小廣告等等。當任務變得更加複雜時，比如開發一個有設計過程和用戶體驗測試過程的安卓應用，眾包平台似乎難以應付。首先是人才方面的挑戰，僱主很可能不清楚在整個過程中需要找具體哪些專業上的工作者。另外就是項目管理上的挑戰，每個階段需要召集哪些人，衍生的子項目如何進行等等。

Valentine等人建議學習GitHub的管理方式。維持一個相對穩定的主版本（master），各個分塊的責任人相當於在一個分支（branch）上進行開發，他可以將這個分支任務/人員的變動彙報（pull）到主版負責人，如果主版負責人認為這個變動可以接受則這個變動正式融入主版本。

並且他讓3個項目負責人在Foundry上實驗這種方法。項目負責人可以選擇安排團隊角色、人員和任務。同時他招募到的工作者可以根據對任務的理解要求增加或調整人員並彙報職務和任務描述。這3個項目負責人都順利的在6周時間內完成了一個全棧網路服務的開發。

另外他們發現當採用GitHub式的項目管理方式，能追蹤到的變更都在100次以上。不少變更來自選定的分任務負責人（team leads）和工作者（workers）。這說明在完成複雜任務時候需要頻繁調整組織結構。而Bernstein從平台設計上很好的支持了這一點。

兼顧熟悉性和建隊速度

在大多數情況下，隊伍成員互相之間的熟悉性能產生更好的化學作用。Bernstein等人在觀察了Amazon Mechanical Turk上96名工作者的組隊表現，發現一直和相同人組隊的小組製作的廣告點擊量是隨機小組產生的廣告點擊量的2倍。彼此熟悉的團隊能建立更好的共識，知悉如何彼此協作並且發揮各自的特長。在傳統的公司組織中，管理者會建立相對穩定的團隊來獲得這些加成效果。

然而，在眾包平台上，為了快速響應僱主的即時需求是不考慮成員之間的熟悉性的。Salehi在他們設計的系統里應用了一個名為「huddle」的權衡演算法,權衡成員熟悉性和建隊速度。在一個211人的實驗中，Salehi等人計算成員之間的熟悉性（成員p與團隊其他人共同工作過的歷史）和及時性（成員m在限定時間內接受任務的可能性）將小組分成4種情況：1.控制組，低及時性低熟悉性；2.及時組，高及時性低熟悉性；3.熟悉組，高熟悉性低及時性；4.Huddler組,考慮及時性乘以熟悉性得到的結果進行組隊邀請。如果一名工作者被分配到及時組，只要他接受任務，系統會按及時組的條件安排組隊。小組需要完成的任務是為Kickstarter項目製作Google廣告，實驗者連續7個工作日在Amazon Mechanical Turk上發布任務並引導參與的工作者到Huddler上組隊。每個小組由3名工作者組成。這些小組一共為30Kickstarter項目提交了249個廣告。

從任務完成量的角度驗證了這種設計的效率。結果顯示「huddler」設計相對於控制組顯著提高了完成效率。而且huddler設計能夠提升團隊的熟悉度，並且減少邀請數量，減少等待時間。

專業成長

眾包平台並不假定僱主是職業的管理者。因此僱主似乎很難給與工作者專業上的考核。Whiting等人嘗試一些新的方法。一方面他們讓工作者用雙盲法評價彼此的工作。這種去中心化的評估技術給了非權威成員平等的計劃。他們實施了一個實驗，在控制組中，公會的評價不會反饋給工作者。在公會（guilds）組，反饋聚集到一定數量會反饋給工作者。他們發現這種評價是比Amazon Mechanical Turk上的接受度更準確的任務準確率預測因子。在公會組，知道工作者會收到反饋，人們也會給出更有指導性，更準確的反饋。

傳統公司組織的另一個好處是人才培養機制。中低層管理者也要充當導師的身份，指導下級員工，幫助下級員工的職業道路成長。Suzuki等人在Atelier上探索了導師+實習生的模式。實習生不需要和成熟的工作者競爭，只需具備基本的素質就可申請實習工作。僱主將任務發布後挑選導師，導師接到任務以後挑選實習生。導師會幫助實習生分解任務，解決困難和評審完成質量。一般來說導師投入的時間會比實習生少，但是導師的時薪是實習生的3-4倍。這樣導師們分享的經驗和承擔的責任得到了合理的報酬，實習生們也得到了在實踐中學習並獲得報酬的機會。

信用機制

另一方面僱主必須為他們給出的評價負責。在Amazon Mechanical Turk和Upwork上會有很多平均評價很高的僱主和工作者，但是人們卻很難信用這個分數。有些好評是因為人們不想承擔給人差評的社會壓力，同時有些差評是因為僱主想賴賬，就像淘寶上的評價機制一樣。俗話說行動更勝言語。Gaikwad等人根據博弈論的incentive-compatibility機制，設計了Boomerang機制。

如果僱主給工作者打出了高分，下一次僱主發布任務，這個工作者將會被優先邀請。反之亦然。如果僱主為了壓價刻意打低分，那麼下一次他發布任務是不太可能會被被打低分的工作者看到。目前看來，僱主為了避免損失邀請優質工作者的機會，平均打分會升高，但是低分打分會增多（他們真的不想再僱傭某些人了）。工作者給僱主的打分也是相同設計和相似結果。整體看來，這種設計因為鼓勵人們言行一致，讓整個新系統的體系的信用機制更加透明可信。

References

Crowdsourcing - Wikipedia
Alkhatib, A., Bernstein, M. S., & Levi, M. (2017). Examining Crowd Work and Gig Work Through the Historical Lens of Piecework.
Valentine, M. A., Retelny, D., To, A., Rahmati, N., Doshi, T., & Bernstein, M. S. (2017, May). Flash Organizations: Crowdsourcing Complex Work by Structuring Crowds As Organizations. In Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems (pp. 3523-3537). ACM.
Salehi, N., McCabe, A., Valentine, M., & Bernstein, M. (2016). Huddler: ConveningStable and Familiar Crowd Teams Despite Unpredictable Availability. arXivpreprint arXiv:1610.08216.
Whiting, M. E., Gamage, D., Gaikwad, S. S., Gilbee, A., Goyal, S., Ballav, A., ... &Sarma, T. S. (2016). Crowd Guilds: Worker-led Reputation and Feedback onCrowdsourcing Platforms. arXiv preprint arXiv:1611.01572.
Suzuki, R., Salehi, N., Lam, M. S., Marroquin, J. C., & Bernstein, M. S. (2016, May). Atelier: Repurposing expert crowdsourcing tasks as micro-internships. In Proceedings of the 2016 CHI Conference on Human Factors in Computing Systems (pp. 2645-2656). ACM.
Gaikwad, S. N. S., Morina, D., Ginzberg, A., Mullings, C., Goyal, S., Gamage, D., ...& Ziulkoski, K. (2016, October). Boomerang: Rebounding the consequences ofreputation feedback on crowdsourcing platforms. In Proceedings of the29th Annual Symposium on User Interface Software and Technology (pp.625-637). ACM.