揭秘紅葡萄酒評級的原理—基於R的數據分析
摘要
確定葡萄酒品質的方式一般是聘請專業的品酒師進行評估,每個品酒師對葡萄酒品嘗後進行打分,最後得出酒的品質等級。也就是說,紅酒品質的評定來自於感官數據,並非來自紅酒自身的理化指標。本文試圖從紅酒的理化指標中找出能夠影響感官的直接依據,建立一套合理的釀酒指南。
單因子基本描述
該數據集的樣本數為: 1599。該數據集的因子數為:13
數據集的基本描述
畫出所有圖形的直方圖,觀察各個欄位的分布情況:
固定酸度和揮發性酸度在分布上看非常相似,說明這兩個理化指標存在一定的相似性。
檸檬酸和酒精含量兩個理化指標都是偏左分布,他們的分布都在一定的數值範圍內。其中,檸檬酸數值存在為0的情況,不排除是因為數值缺失的情況。
以上指標不同程度的出現了長尾情況,需要對他們進行對數變換,以便更好的觀察分布情況。
對長尾數據進行對數變換後,我們能夠很好的觀察到這幾個數據的分布情況,幾乎有所的數據都是左偏態分布。後續我將觀察,這幾個指標對質量等級的評定是否存對應關係。
密度和PH值都是正態分布,說明說有的樣本該兩項指標符合正常,沒有明顯的特徵。
## Var1 Freq## 1 3 10## 2 4 53## 3 5 681## 4 6 638## 5 7 199## 6 8 18
絕大部分紅酒的評級都是集中在5、6級,而最差的3級和最好的8級數量較為稀少。
單一指標分析
1. 數據集的結構是什麼樣子?
數據中包含1599個紅酒樣本和13個理化指標( 固定酸度、揮發性酸度、檸檬酸、殘糖、氯化物、遊離二氧化硫、二氧化硫總量、密度、pH、硫酸鹽、酒精、質量)。其中,質量指標是序列因子變數。
(最差)—————>(最好)
質量:3,4,5,6,7,8
2.數據集中讓人最感興趣的特徵是什麼?
密度和PH值是正態分布,說明幾乎所有的紅酒在這兩個指標上幾乎是無差別的,那麼,決定紅酒品質的秘密一定是另外的10個指標上。計劃通過分析,可以找到這個對應關係,從而能夠更好的掌握提高紅酒評級的關鍵因素。
3.數據集中的哪些其他特徵有助於你分析?
殘糖、氯化物、遊離二氧化硫、二氧化硫總量、硫酸鹽有極大的可能對紅酒評級起到至關重要的作用。因為他們都呈現出了左偏態分布。
4.是否可以創建新的變數?
我對檸檬酸和酒精進行了分類統計,試圖找到數值分布的基本規律。同時,我還對殘糖、氯化物、遊離二氧化硫、二氧化硫總量、硫酸鹽等幾個具有長尾現象的數據進行了對數變換,通過變換,我們可以非常清晰的看到數據的分布及他們的共同特點。
5.數據集中是否有異常分布,如果有需要進行哪些操作?
檸檬酸中,有大量為0的數據,我們無法直接排除數據缺失的情況,若這部分為0的數據非缺失,那麼說明檸檬酸並非在紅酒中普遍存在,而檸檬酸是增加紅酒「新鮮度」的感受。弱這部分為0數據是缺失的,那麼則說明,檸檬酸普遍存在於紅酒中,只是含量多少的差別。
雙變數分析
相關性矩陣分析
在對數據有了基本了解之後,我們需要快速的對數據進行一個初步探索,以便能夠快速確定分析方向。使用相關性矩陣分析是個非常不錯的辦法:
通過上圖,我們可以很快的定位到部分理化指標因素具有較高的關聯性。接下來我們將對這些高度關聯性的指標進行進一步的分析。
固定酸度和檸檬酸的散點圖:
檸檬酸和固定酸度呈現高度的正相關關係。
固定酸度和密度的散點圖:
固定酸度和密度呈現高度正相關關係。
固定酸度和PH值的散點圖:
固定酸度和PH值呈現高度負相關關係。
揮發性酸度和檸檬酸的散點圖:
揮發性酸度和檸檬酸呈現出高度負相關關係。
1.核心要素與其他要素之間有何不同?
固定酸度與多個理化指標有高度的相關關係,那麼這些因素是否會直接影響評酒師的評級,因其會影響多個指標發生連鎖反應。
特別需要注意的是,固定酸度和檸檬酸高度負相關,但是卻與揮發性酸度的關聯性卻相對較弱,但是紅酒中的三種酸卻關聯度較高,分別是檸檬酸、固定酸度、揮發性酸度,前者與後兩者呈負相關關係,而且關聯度均相差不多。
接下來我們將針對這一部分進行深入的分析,通過分面手段對數據進行分割繪製觀察。
2.其他特徵之間是否有什麼有趣的關係?
遊離二氧化硫和二氧化硫總量兩個指標,兩個指標高度正相關,其中一個增加,另外一個必然增加,但其實他們兩個指標是同一類型的元素計量的描述。
3.最牢固的關係是什麼?
固定酸度和PH值是高度負相關的,其相關度是最高的,固定酸度的增加會使得PH值降低,偏向酸度。
多變數分析
針對高相關的變數按照質量等級進行分面分析
固定酸度和檸檬酸的分面散點圖:
固定酸度和密度的分面散點圖:
固定酸度和PH值的分面散點圖:
揮發性酸度和檸檬酸的分面散點圖:
通過分面圖觀察發現,品酒師的評級跟紅酒的理化指標沒什麼明顯的對應關係。接下來將按照能夠直接刺激品酒師感官的因素來進行分析,仔細閱讀理化指標說明之後,分類如下:
影響味覺:citric.acid(味道上的新鮮度)、residual.sugar(口味上是否偏甜)、alcohol(口感上是否明顯的酒味)
影響嗅覺:volatile.acidity(導致醋味)、total.sulfur.dioxide(導致刺激性氣味)
檸檬酸對應質量分級的分布特點:
不同等級間檸檬酸分布變化明顯,尤其是7,8級的紅酒檸檬酸是明顯高於其他級別。
殘留糖分對應質量分級的分布特點:
殘留糖分在各個級別中的分布情況基本一致,沒有明顯的差別。
酒精含量對應質量分級的分布特點:
酒精含量在6,7,8級中的分布明顯高於其他級別,具有突出的特徵。
揮發性酸度對應質量分級的分布特點:
揮發性酸度越高的級別的紅酒中,含量越低。特徵明顯
二氧化硫總量對應質量分級的分布特點:
二氧化硫總量在各個級別的紅酒中含量基本一致,沒有明顯的差別。
通過上述圖形可以清晰的看出,檸檬酸、酒精含量、揮發性酸度三個理化指標對品酒師定級具有較明顯的對應關係。而殘留糖分和二氧化硫總量的分布沒有體現出明顯的特徵,究其原因,這兩者的含量在釀酒過程中被很好的控制在了一個比較穩定低水平範圍內。
為了驗證這一發現,我們將採取條件篩選的方式,當滿足檸檬酸、酒精含量、揮發性酸度三個理化指標的樣本,有多大的概率會出現高品質的分級的紅酒。
## [1] "檸檬酸:"## TRUE ## 0.3751759## [2] "酒精含量:"## TRUE ## 11.46591## [3] "揮發性酸度:"## TRUE ## 0.4039196
開始按照高於0.375的檸檬酸,高於11.466的酒精量以及低於0.404的揮發性酸度的標準篩選樣本,並統計最終的結果。
單獨提高檸檬酸含量,紅酒品質主要集中在6,5,7級
單獨提高酒精含量,紅酒品質主要集中在6,7級
單獨減小揮發性酸度,紅酒品質主要集中於6,7,5級。
通過對這三個理化指標單獨控制的結果,對出產紅酒的品質能夠起到一定程度的幫組。那麼接下來,我們看看如果同時對三個指標加以控制的結果。
三個條件同時滿足時,出產紅酒品質主要集中於7,6級
通過對照組一的圖形可以看出,當滿足三個指標的條件並在此基礎上在提高一些,出產高品質紅酒的比例極大的增加。
而通過對照組二的圖形可以看出,如果我們同時未被三個指標的要求時,出產紅酒的品質有較大比例會下降至5級和6級。
通過散點圖來觀察這三個指標作用下的分布情況
從檸檬酸和揮發性酸度的維度來看,高等級的紅酒分布在小於0.4的揮發性酸度和大於0.35的檸檬酸這一區域內。
從揮發性酸度和酒精含量的維度來看,高等級的紅酒分布在小於0.4的揮發性酸度和大於11的酒精含量這一區域內。
從檸檬酸和酒精含量的維度來看,高等級的紅酒分布在大於0.35的揮發性酸度和大於11的酒精含量這一區域內。
1.數據中存在什麼樣的關係,他們是否相互加強?
通過對紅酒各個理化指標的分析發現,品酒師在品定紅酒等級時,通常是不會被這些理化指標所影響的,通過對高關聯性的數據進行等級的分面分析就能夠發現這一結論。
隨後的分析,完全採取能夠直接刺激感官的指標進行對應分析,果然發現檸檬酸、揮發性酸度、酒精含量這三個指標是能夠直接刺激品酒師感官,從而讓品酒師依據這種刺激定下紅酒的等級。
2.特徵之間有什麼驚人的相互作用?
三個在數值上相關度並不高的理化指標,由於是直接刺激感官,從而使得決定了紅酒好壞的關鍵因素,這在邏輯上是說得通的,畢竟紅酒是一種飲料,口感是它最為重要的一個屬性,那麼服務於這個屬性的物理特性就會起到關鍵性作用。
同時,也證明了三個相關性不高的指標可以分別進行人工干預,且不會對紅酒的其他特性產生影響的情況下,將紅酒的品質極大的提高。
結論圖形和結束語
圖一:
結論:在分析中發現,揮發性酸度和檸檬酸他們都是同一類物質的不同性質描述,相關度不是很高,但在後期的分析中,卻發現,他們同時作用於人類的觀感。分布形態較為分散,並沒有體現出突出的特性。
圖二:
結論:通過這一個箱線圖,直觀的發現了感官刺激對紅酒定級有明顯影響的關係,從而堅定了後續的分析方向。
圖三:
結論:從這幅圖中,傳遞出了兩個關鍵信息,一是品酒師評級的依據主要還是來自於感官,能夠刺激感官的因素作用是明顯的。二是即便從數理上相關性較弱的指標,但因為其特性的一致性,也產生了另類的關聯。
結束語
通過以上分析,我們可以得出第一個問題的結論,那就是檸檬酸、酒精含量、揮發性酸度三個理化指標的數值是可以直接影響品酒師對紅酒的定級,也就是說,這三個指標是能夠直接影響品酒師的感官系統。從而得到一個高評級的紅酒。
通過這個結論,我們不難想到,如果在紅酒釀造過程中,對這三個指標加以控制,例如通過添加檸檬酸或者在葡萄原漿里加入檸檬汁,添加葡萄糖增加酒精含量等。人工優化指標數值,我們就有超過60%的概率可以得到高評級的紅酒,即便失敗,也是極大概率可以得到中等偏上品質的紅酒。(事實上,現代釀酒工藝中已經包含了這些工序)
本次數據分析中,因缺乏關鍵因子的原因,通過相關係數矩陣的線索出發,在分面分析的過程,並沒有得出預期的結果,這幾乎讓整個分析中斷。從新整理分析思路後,決定從各個因子的理化指標的類別和屬性來進行分析,使得分析得意繼續,並沿著這個思路獲得了一個喜人的結果。若本次數據能夠包含紅酒整個釀製流程,以及釀造過程中的材料數據,有可能會得到一個更加細緻的對用關係。
參考資料:
葡萄酒釀造工藝_百度百科
推薦閱讀:
※適度飲用紅酒 ,真的有助於懷孕嗎?
※酒匣子賀州店負責人是誰?
※世界上特別難喝的酒有哪些?
※OIV發布最全葡萄酒數據
※啤酒的適飲溫度是多少?有沒有常溫比冰鎮喝起來口味更好的?