大數據與人工智能蓬勃發展的時代,數據科學讓我們身處技術劇變的大潮之中,它改造着我們的社會組織方式。我們必須掌握它,駕馭它,使之最大化發揮效力。

有一種說法:2016年我們產生的數據量,和人類自誕生之日直至2015年的整段歷史的數據量相同。這些數據中包含的信息能揭示我們的思考方式和感受方式。根據預測,10年之後,全球會有1500億個聯網的測量傳感器,比地球上的人類總數還要多20倍。接着,每過12小時,數據總量就會翻番。如今,包括政府在內的各領域都試圖運用數據科學,將數據轉化成財富。所有的一切都將變得數據化。

作爲顛覆性技術學科,數據科學將驅動新一輪科技創新和經濟增長——大數據與人工智能的結合,將克服人類在交通、環境、健康醫療等領域面臨的一系列發展困境,從而開創經濟社會發展的全新範式。

數據科學驅動人工智能轉化

大數據作爲新一代基礎性戰略資源,影響了不同行業的方方面面。數據科學作爲大數據應用落地的一門技術學科,同樣在不同行業進行着運用與實踐。

在人工智能領域,以數據科學爲基礎的機器學習是人工智能的核心,是計算機智能化的基礎,其應用遍及人工智能的各個領域,如數據挖掘、計算機視覺、自然語言處理、生物特徵識別、搜索引擎、醫學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰略遊戲和機器人等領域。

機器學習可以幫助機器從現有的複雜數據中學習規律,以預測未來的行爲結果和趨勢。在某一行業智慧化應用中,用機器學習的方法對數據進行分析建模,最爲關鍵。特別是在龐大的數據面前,如何將數據進行重組、整合、分析,進而轉化爲人工智能產品,是行業邁向進智能化的重要挑戰。

案例一

以近年來農業部門相關智能建設爲例,其與九次方大數據合作,利用九次方神算子平臺提供的機器學習算法快速搭建和訓練模型,將基於20年農產品批發市場日度交易數據,進行數據挖掘與可視化,進行預測分析。包括:

價格波動分析——挖掘長期趨勢、季節波動、短期波動特徵

價格品種間相關分析——挖掘品種間傳導關係、相關性

價格空間關聯分析——挖掘地區間價格相關性

價格與銷售量綜合分析——挖掘需求價格彈性特徵

同時,通過建立空間特徵矩陣,採用計算空間自相關性,對批發市場農產品價格的時間-空間特徵進行建模與分析。發現農產品價格政策在不同區域的落實情況,識別農產品集散區域,分析潛在產地或樞紐區域。

案例二

除了農業相關部門,目前,國家電網也正在加速智能化建設。其與九次方大數據合作,以神算子平臺爲基礎,進行了智能化應用與改善。

電費回收是中國電網智能建設中重要的一環,神算子平臺根據電網營銷系統的歷史數據,提取欠費用戶的關鍵特徵指標,如用電量大小、銷戶記錄、違約金起算時間、繳費渠道、結算方式等,使用神算子平臺封裝的機器學習的方法,學習欠費用戶的屬性與行爲特徵,對用戶的欠費回收風險進行評估與預警。

另外,平臺還建立用戶竊電識別模型,從用戶屬性、歷史用地等方面,按數據,並結合線損、天氣、季節、節假日等維度,識別用電異常行爲,建立竊電的判別規則和竊電識別模型。

同時,建立用戶信用評價模型,基於電費回收風險和用戶竊電行爲的研究,從多個維度對客戶信用進行評價。

機器學習神機妙算解難題

目前,各行各業向大數據化邁進,最爲先進的辦法正是採用大數據建模平臺來降低工作門檻,簡化建模過程,縮短模型訓練的時間,通過簡潔的可視化界面操作即可完成複雜的機器學習任務。

以上述提到的九次方大數據神算子平臺爲例,作爲國內首個成熟的商用人工智能全流程平臺,其正是具備了低門檻、高性能、全方位可視化三大特色。

所謂低門檻,神算子平臺將原本需要多年研究習得的機器學習算法和繁瑣的數據處理步驟流程化、組件化,極大降低了學習門檻。平臺提供已成型的業務方案,以模板的形式讓用戶一鍵上手。同時,數據科學家們根據經驗和世間持續系統內算法,使模型達到智能化,不斷提高模型的效率。

高性能是指,神算子平臺內置了大數據科學院獨有知識產權的高維度模型算法和特徵工程算法,結合自主研發的高性能的分佈式計算框架,在大數據和海量特徵的場景下有很好的計算性能和計算效果。

最具特色的當屬平臺的全方位可視化,爲了能讓用戶在龐雜的數據中快速處理和識別有效特徵,優化模型效果,平臺在數據處理的方方面面提供豐富的可視化操作,從各種維度分析特徵顯著性,通過數據建模過程可視化、數據探索可視化、模型優化可視化,實現了快速、高效的可視化建模。

具體來講,平臺將建模流程中的核心運算節點以可視化的組件和流程形式呈現,包括數據源引用,數據處理,特種選取,機器學習運算,而整個過程中產出的數據和計算參數、評估結果,都存儲在對應的節點詳情中,全流程可視化以豐富的圖表展示數據特性,可以詳盡地透視數據彙總信息,輕鬆定位異常數據,無論是數據清洗、特徵工程還是模型結果評估,都能一目瞭然。

(鳶尾花卉數據集)

(K-means算法)

神算子平臺作爲可視化的機器學習建模平臺,對不同行業的需求,可設計最適合的模型方案,通過集成模型的方式整合機器學習算法與經典行業模型,追求在模型的計算精度與可解釋性間取得最優平衡。

同時,平臺具有支持模型生命週期每個階段的功能,專門用來管理和部署分析模型,使用項目對構建模型過程進行組織管理,不同的項目可對應於不同的業務用途或應用。在平臺中用戶可以通過有意義的業務過程數據,結合自己的業務目標進行人工智能模型調研、模型應用以及模型自學習的過程,通過龐大的算法庫來探索和挖掘政府數據中蘊含的信息價值,自動化、大數據化地幫助政府、企業實現數據價值變現,神機妙算破解政府與行業的各項難題。

未來,平臺還將繼續不斷擴充和優化。從技術到應用落地,越來越多的行業正在搭建以數據科學爲主導的數字智慧化平臺。以數據科學爲指引,大數據與人工智能的結合與突破,一場新的技術革命已經來臨。

相關文章