這是一個衆所周知並且在日常生活中頻繁使用的工具。是Microsoft辦公軟件三巨頭之一,創建報告、生成表單甚至是項目規劃,我們可以使用它做任何事情。

沒錯,他就是MicrosoftExcel。

雖然它廣爲人知,但其實人們從未真正學會使用它。

雖然對於大多數人來說,這不是一個主要的問題,但是對於那些需要處理複雜管道和系統的數據處理人員來說,這已經開始成爲問題了。

如果瞭解瞭如何構建高效且一致的電子表格,事情會怎樣?

不僅是在工程任務上,日常任務中也有很多好處,它們可以通過提高效率、一致性和可重複性的設計來增強這些文件。

Microsoft Excel的常見誤用

當Redmond公司於1985年發佈Microsoft Excel時,它已經很成功了。新興的個人計算機市場相當開放,隨着Windows3.0的推出,Excel的銷售超過了其主要競爭對手——IBM的Lotus 1-2-3。

從那以後,Windows在整個個人電腦市場的佔有率超過85%。因此,Excel和所有的Office套件是最常用的軟件。

這一成功並不令人驚訝:MicrosoftExcel易於使用,集合了許多特性,並且具有簡單的用戶界面。每個人都可以使用它,它無處不在。人們還想要什麼?

事實上,做一個幾乎每個人都能使用的產品會帶來一些對應產物。

Excel不是在學校學的。每個人都可以使用它,所以每個人都可以用不同的方式使用Excel。沒有明確界定的共識或良好做法。事實上,我們從小學起就不瞭解這類工具,導致一旦到達專業領域才意識到知識的缺乏。

Excel不可自動化。儘管Excel中嵌入了一種可編程語言(VisualBasic),但仍然難以自動執行繁重的任務,無法與其他軟件進行通信。而且,它仍然僅供內部人員使用。

Excel不可擴展。人類正處於大數據時代,因此處理無法在Excel中加載的大文件是很常見的。所有這些都取決於個人的計算能力。在專用服務器上運行Microsoft軟件似乎也很困難。同樣,它不是爲這種用途而設計的。

Excel是不可複製的。最後不得不提,當收到一個包含大量彙總數據、顏色、縮寫或公式的Excel文件時,很難理解所有這些東西是如何設置和收集的。Excel不會保存構建此類文件所涉及的任何工作流狀態。

內部數據團隊

在過去的二十年中,這四點並不是什麼大問題。

但與此同時,一個“新”領域開始了。隨着計算機資源的發展,公司發現他們現在擁有大量數據,但不知道如何處理。

一系列新的工作崗位出現了:數據科學家、數據分析師、數據工程師、機器學習工程師、數據開發工程師等等。最重要的詞是DATA,新崗位的主要目標是從海量數據中發現價值。

有了這些新奇的功能,就可以創建大量的工具來構建數據管道,更好地可視化數據或創建數學模型來預測未來的值。

但大多數數據仍然保存在Excel文件中。此外,開發出來的工具有時使用起來很複雜,只有訓練有素的工程師才能操作它們。

因此,這裏仍然存在差距。一方面有很多人仍然使用電子表格作爲他們的主要工具之一,另一方面工程師必須處理複雜的管道,但也要處理這些混亂的文件。

因此,在清理這些文件並將它們集成到整個數據管道中會損失大量的時間和金錢。數據團隊由學習數學、計算機科學等學科的傑出人才組成。

實際上,工程師們也不學Excel,他們只知道計算機和他們的數據管道,所以他們可以討價還價。然而,與他們在這段時間所能做的相比,這並沒有附加價值。

如果從一開始就學習如何創建和維護乾淨的文件,而不是讓工程師來處理這些混亂的文件,那會怎麼樣呢?通過遵循簡單的規則,就可以構建高效、可重複和自動化的文件,並停止創建混亂的電子表格。

簡單整理電子表格

下面是一個常見電子表格的例子:

一個常見的電子表格

儘管它看起來設計得不錯,但是從可重複的角度來看並非如此。

通過這個簡單的示例,筆者將描述什麼是最好的做法,以建立一個容易讓計算機理解的文件。

第一行與特定字段不對應。在此應將其替換爲“年份” (year) ,“類型” (type) ,“產品” (product),“數量” (quantity)。這就是所謂的“標題”。

使用顏色和字體形狀格式化單元格。雖然添加顏色和粗體/斜體文本便於查看,但對計算機卻沒什麼用。此外,這些設置不是目標,並且對文件的理解可能會因用戶而異。

將不同性質的數據放在同一行。如上所述,它看起來很方便,但實際上,每一行應該只包含一個觀察值的信息。同樣,聚集總體值(如total或average)與其他值在同一條線上通常不是一個好方式。這是不一致的,計算機也無法理解。

合併單元格。同樣的事情:每一行應只包含有關一個數據觀察的信息。

在同一工作表或標籤中中分隔表。用不同的標籤區分年份是使表格更易於閱讀的一種常見做法,但如果計算機只讀取一張表,則該表將無法被讀取。

這些是簡單的規則,不是嗎?以下是應用這些準則後的結果。

整齊的電子表格

兩全其美

讀者如果不是在技術領域工作,可能會說這不是一個很有用的電子表格。說對了一部分。這種設計無法處理總和或平均值之類的聚合值,而且查找特定值也不太方便。

儘管如此,仍然有一些方法可以處理這些文件,甚至改進以前的設計。

保存一份數據完整的表格。首先,一定要像上面演示的那樣,保留一個帶有數據格式的表單。這樣,數據科學家或任何使用特定軟件的人將能夠加載文件,而不需要在以後處理它。

在另一個工作表或應用程序中處理和聚合數據。進行求和、添加過濾器、創建繪圖或任何其他數據處理,只需打開另一個工作表並執行所需操作。將這個空間視爲一個實驗室,可以在這裏對數據進行試驗並生成報告。這樣就可以保護原始數據。

此外,有人可能希望使用或學習其他工具。現在,有很多用戶友好的工具來創建儀表板或報告。它們提供了很好的設計選項,幷包含了許多構建和導出報告的功能。

如果想更進一步,可以使用這些數據人員每天都在使用的工具。這些大多是像Python或R這樣的可編程語言,它們帶來了更多的自由和可複製性。因爲它實際上是代碼,所以創建圖表和報告的整個工作流程都被保存了。因此可以共享代碼,任何人都可以編輯它以適應自己的需要。

儘管它比Excel更復雜,但高自由度允許用戶構建任何想要的東西。最後不得不提:它是免費的。

這只是一種小小的適應

改進這些文件設計有兩個主要優勢:

首先,對技術人員有幫助。不僅僅是利他主義,它還可以加速工程師建立數據管道的方式,從而增加洞察力,爲公司帶來更多的價值。

其次,通過在團隊甚至公司規模上應用這些規則,可以最終得到一個更相似的“語言”來處理這些文件,從而更好地理解和操縱公司的數據。

現在是2020年,人們的耳邊充斥着關於人工智能、大數據、機器學習等的流行語,卻不知道它是什麼。

事實上,它始於數據,存在於每個人的手上和電腦中。

相關文章