原標題:用數據品咖啡,407杯咖啡數據教你如何區分咖啡等級和風味

來源:Medium

嚐遍世界各地不同的咖啡,我好奇風味差異如何影響咖啡評級。儘管知道咖啡等級會影響口感,但我依舊喜歡一些等級較低的咖啡。

看了下兩個咖啡評級數據庫,撇去地區差異,我始終搞不明白風味能起到什麼樣的作用。

因此,我選取Sweet Maria‘s數據庫進行分析。雖然數據庫裏有每杯咖啡的風味評級,但我首先提取了咖啡的Q級分。接着,我提取了所有豆子的風味評級數據,最終得到一個比原先稍大的數據庫,其中有407杯咖啡的數據。

杯測評分(修正Q分)

如表格所示,Sweet Maria’s與SCA的杯測標準略有出入。奇怪的是,相比其他指標,甜度、一致性、乾淨度3個指標在SCA標準中,一開始分數看似挺好,但隨後遞減。反觀Sweet Maria’s評分指標,發現它對咖啡有更深入的洞察。

數據

構建任何數據庫,我們都需要花費時間做數據清洗和數據檢查。此處,我用Q級分畫了一張雷達圖,我用原先代碼生成了一張擴展的輔助指標評分圖。對於咖啡風味數據,爲了便於提數,我做了一定的修正。

經過Sweet Maria‘s授權使用,其他圖均出自本文作者

我將數據整合在一張包含生產地、加工類型類型等元數據的大表中。我對數據做了多次梳理、審覈,並抽樣驗證算法是否運行良好。

數據準備完畢,我開始分析。

分析:風味分佈

12種風味指標加總後求平均,發現堅果和花香味比較少有,最常見的是糖果、可可和醇厚風味。

分析:相關性

相關性用於描述兩個變量之間的相似程度。相關性高不代表一個變量對另一個變量有什麼影響,當發生變化時,兩個變量變化趨勢相同。我認爲一些評級變量最開始具有很高的相關性,因爲它們是從不同角度表示咖啡口感。相關性可以是正向(趨勢相同)的或負向(趨勢相反)。0則表示兩個變量沒有相關性。

顯然,杯測分數(Q分、評級,不管怎樣稱呼)的各項指標之間的相關性比風味指標更高。有趣的是,焦糖、可可、堅果和鄉村風味與杯測分數成反比。這幾種風味與其他風味的相關性不高,表現爲微弱的負相關。莓果與水果具有很高的相關性,看起來是合理的。

我們通過一張更大的表直觀展示各屬性之間最高的相關性。負數表示爲最高相關性的絕對值,但爲負相關值或逆相關值(成反比)

顯而易見,杯測分數與花香味指標最相關,許多風味指標都與明亮度杯測指標具有較高的相關性。但奇怪的是僅有27%的咖啡有花香味(要麼一點都沒有)。

對相關性矩陣按地區進行分解,看看每個指標與總得分(杯測分)的關係。不同地區的咖啡,水果、柑橘和莓果風味差異最大。令人詫異的是,我一直以爲非洲咖啡豆果香味會更濃,但水果對非洲咖啡豆的貢獻分並不大。

咖啡豆的風味部分也依賴於採用不同的工藝處理咖啡果實。我喜歡幹法加工的咖啡豆,富有果香味,這從風味得分也可以看出來。但焦糖味卻相反。我本以爲焦糖與糖果味會相似,最後發現兩者之間沒有多少關聯性。

另外,北美洲、混合拼配地區以外的地區,堅果/可可風味之間沒有多少關係,但它們與總體得分呈現很強的負相關性。

堅果、可可都與幹法加工逆相關,但受蜜處理、溼法加工的負向影響較弱。總體而言,非洲咖啡豆味道越豐富,整體杯測得分越高。杯測糾正與幹法、其他加工方法負相關。這表明幹法、其他加工方法總體得分低,但是實際上豆子很棒,因爲杯測標準裏沒有代表加工工藝的量化指標。

分析:主成分分析(PCA)

主成分分析法(PCA)是將一組變量映射至新的維度空間,原始變量在新空間用新維度表示。簡單數據集在不失真的情況下實現了降維,這樣,每個Q級分(Sweet Maria’s評分)不需要使用所有的評分項,僅用11個維度表示即可。或許你只需要用到三個或主要成分。

讓我們看看所有變量,不出所料,杯測總分是第一主成分,是最主要的影響變量。然而,在鑑別咖啡豆時,風味成分最主要的變量。

在沒有杯測總分的情況下進行同樣的分析,杯測師就在產生了一定的影響,但是,風味仍舊是最具影響力的獨立成分。

進一步研究杯測、風味會對咖啡產生何種影響,我們計算了每個主成分的累積百分比值。

單獨比較風味和杯測評級,風味指標依賴更多的主成分變量,使用到13個成分中的8個成分可達到90%的變化性,杯測評級只需4個指標。這表明風味指標更適合單獨鑑別咖啡豆。

我們可以計算每個指標對各主成分影響的累積絕對值及其對數據的貢獻度。杯測師糾正影響最大,風味和複雜度影響相對小。所有的風味指標,莓果、柑橘、水果和可可對鑑別咖啡豆最有影響,糖果累積影響最小。

使用包含大部分數據變量的2 個主成分繪製成散點圖。杯測評級圖數據分佈比較集中,風味圖數據分佈比較分散。

評級數據相對集中,風味數據的分佈比較有趣。觀察干法加工、溼法加工、非洲地區咖啡豆數據最分散。

此項工作,仔細對比咖啡評級(杯測評級)和風味評級的差異。我發現,評測咖啡產區或加工工藝時,風味等級比咖啡評級更具代表性。咖啡評級應該與風味指標相互獨立,而且Sweet Maria’s杯測方法對特定風味不會出現嚴重偏差。風味偏差最大的是花香味,但它沒有其他杯測參數那麼強的相關性。

相關報道:

https://towardsdatascience.com/a-review-of-coffee-data-grades-and-flavors-5ccb6fc51941

相關文章