摘要:"\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002FR6GfEUt4h7e6l7\" img_width=\"600\" img_height=\"99\" alt=\"「工經之聲」大數據技術及其行業應用:基於鐵路領域的概念框架研究\" inline=\"0\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002FRXhM9KCFxa0RqR\" img_width=\"500\" img_height=\"275\" alt=\"「工經之聲」大數據技術及其行業應用:基於鐵路領域的概念框架研究\" inline=\"0\"\u003E\u003Cp\u003E\u003Cstrong\u003E作 者\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cem\u003E馬麗梅 史丹 高志遠 李華傑\u003C\u002Fem\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cem\u003E發表於\u003C\u002Fem\u003E\u003Cem\u003E 《北京交通大學學報(社會科學版)》\u003C\u002Fem\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cem\u003E2019年03期\u003C\u002Fem\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cem\u003E摘要\u003C\u002Fem\u003E\u003C\u002Fp\u003E\u003Cp\u003E在對大數據關鍵技術架構進行總結,對數據獲取、數據處理、數據分析模型和數據應用進行描述的基礎上,利用大數據關鍵技術平臺,構建鐵路大數據應用的體系架構,該體系框架包括鐵路數據獲取層、平臺層和應用層,並刻畫鐵路大數據的處理流程。\u003C\u002Fp\u003E\u003Cp\u003E在國內大數據行業研究領域,現有研究主要集中於現代服務業以及互聯網相關行業,大數據在傳統行業的應用並未得到足夠的重視和充分探討,本文在對大數據的技術架構進行整體描述的基礎上,根據我國鐵路大數據的發展現狀,嘗試探索鐵路大數據技術框架的構建,這將進一步促進大數據技術在我國鐵路行業的落地生效,爲鐵路提高運輸安全水平、實現客貨運精準營銷、提高運輸效率提供參考。

"\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002FR6GfEUt4h7e6l7\" img_width=\"600\" img_height=\"99\" alt=\"「工經之聲」大數據技術及其行業應用:基於鐵路領域的概念框架研究\" inline=\"0\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002FRXhM9KCFxa0RqR\" img_width=\"500\" img_height=\"275\" alt=\"「工經之聲」大數據技術及其行業應用:基於鐵路領域的概念框架研究\" inline=\"0\"\u003E\u003Cp\u003E\u003Cstrong\u003E作 者\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cem\u003E馬麗梅 史丹 高志遠 李華傑\u003C\u002Fem\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cem\u003E發表於\u003C\u002Fem\u003E\u003Cem\u003E 《北京交通大學學報(社會科學版)》\u003C\u002Fem\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cem\u003E2019年03期\u003C\u002Fem\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cem\u003E摘要\u003C\u002Fem\u003E\u003C\u002Fp\u003E\u003Cp\u003E在對大數據關鍵技術架構進行總結,對數據獲取、數據處理、數據分析模型和數據應用進行描述的基礎上,利用大數據關鍵技術平臺,構建鐵路大數據應用的體系架構,該體系框架包括鐵路數據獲取層、平臺層和應用層,並刻畫鐵路大數據的處理流程。鐵路大數據體系結構的建立將促進大數據技術在我國鐵路行業的落地生效,全面提升鐵路數據資源的經營開發水平,爲鐵路提高運輸安全水平、實現客貨運精準營銷、提高運輸效率提供參考。應結合鐵路發展的需求,強化頂層設計,充分借鑑其他行業大數據應用經驗,分階段分步驟實施鐵路大數據策略。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cem\u003E關鍵詞\u003C\u002Fem\u003E\u003C\u002Fp\u003E\u003Cp\u003E工業大數據;Spark框架;大數據產業;鐵路大數據\u003C\u002Fp\u003E\u003Cp\u003E\u003Cem\u003E基金項目\u003C\u002Fem\u003E\u003C\u002Fp\u003E\u003Cp\u003E國家自然科學基金重大應急項目“我國經濟高質量發展與產業結構調整升級研究”(71841015);中國社會科學院工業經濟研究所京津冀智庫課題“大數據應用及實驗室建設”(GJSZK201905)。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E一、引言\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E近年來,隨着經濟社會的發展和信息技術的進步,大數據作爲一門新的行業,其熱度不斷提高,從2011年開始進入人們的視野,之後飛速發展。我國政府高度重視大數據行業的發展,國務院等部門先後印發《促進大數據發展行動綱要》《大數據產業發展規劃(2016—2020年)》等指導性文件,20多個省份出臺了本地區大數據產業發展規劃,我國大數據產業已進入快速發展的軌道。國務院在《促進大數據發展行動綱要》中提出了大數據的概念,其特徵包括類型多、容量大、存取速度快、應用價值高等,這樣一系列的集合即爲大數據,大數據產業是指對大數據開展采集、存儲數據的分析並且創造價值和提升能力的產業。在維克托和庫克耶編寫的《大數據時代》中指出,大數據是不採用抽樣調查等傳統分析法進行處理,而採用計算機信息技術進行分析處理的數據。麥肯錫[1](2016)指出,大數據是一種數據集合,即在數據採集、存儲和分析方面大大超過傳統數據工具處理的能力,具有海量數據規模、多種數據類型、數據快速流轉和價值密度低等特徵。從一般意義上講,普遍認爲大數據具有4V特徵,即體量大(Volume)、種類多(Variety)、速度快(Velocity)和真實性(Veracity)。\u003C\u002Fp\u003E\u003Cp\u003E當前,大數據在經濟領域的應用研究可大致將其歸納爲兩類:一是對宏觀經濟的預測,優化傳統指標或構建新的預測指標;二是建立經濟變量的聯繫以期進行關聯,挖掘用戶特徵,達到優化改善企業經營及銷售的目的,這裏主要涉及大數據在不同行業的應用。在第一類預測問題研究上,主要是通過搜索引擎(如Google Trends、百度指數等)和數據抓取(也稱爲網絡爬蟲)來獲取數據進行預測分析,這些預測指標主要包括GDP、失業率、房地產、通貨膨脹,等等。Askitas和Zimmermann[2](2009)、McLaren和Shanbhogue[3](2011)、Vicente等[4](2015)分別運用搜索引擎得到的數據對德國、英國、西班牙的失業率進行預測,預測結果與真實值較爲接近、效果良好。Cavallo和Rigobon[5](2016)主要闡述了麻省理工學院2008年啓動的“十億價格計劃”,通過抓取網絡上公佈的多種商品價格數據構建指數來研究美國、阿根廷等20多個國家的通貨膨脹指數,對比研究結果發現,這種大數據研究方法更爲接近真實水平。國內學者的研究起步較晚,姜文杰等[6](2016)運用百度指數,通過構建系列模型預測了上海的房價走勢;李鳳岐等[7](2017)通過百度搜索查詢指數對中國的宏觀經濟指標進行了預測,研究結果雖然存在偏差,但仍與真實值接近。\u003C\u002Fp\u003E\u003Cp\u003E在第二類關聯問題及涉及行業的研究上,這類問題研究的數據獲取不僅僅侷限於網絡,還包括來自於行業及企業積累的大容量數據。Antweiler和Frank[8](2004)、Gilbert和Karahalios[9](2010)、Moat等[10](2014)通過Twitter、Google、Wikipedia以及財經網站收集的數據研究投資者情緒、搜索頻次對股市的影響。Li等[11](2015)從TripAdvisor.com的上萬條評論中總結用戶的潛在旅遊偏好,進而進一步優化酒店服務。在行業研究上,電力、互聯網、零售、電信等行業積累了大量的消費者及自身運行的數據信息,通過這些數據在內部可以實現優化自身管理模式的需要,從外部應用上可以豐富自身的增值服務。Chittaranjan等[12](2013)運用智能手機數據來研究五大人格維度的關係,進而探尋用戶個性,改善企業經營銷售業績。李傑[13](2016)從工業4.0視角進一步解讀了工業大數據,對大數據的行業應用從價值理念到實踐案例進行了系統闡述,他提出大數據的行業應用不僅僅是用於企業系統維護和自身功能提升的信息服務,而是以自身核心功能爲基礎,利用大數據挖掘新知識並創造競爭力與社會價值。吳力波等[14](2016)、郭雷風[15](2016)、田歆等[16](2017)、周輝宇[17](2017)、謝康等[18](2018)分別對大數據技術在電力、農業、零售業、交通部門以及產品研發領域的應用,特別是在中國的應用進行了詳細的探討。\u003C\u002Fp\u003E\u003Cp\u003E在國內大數據行業研究領域,現有研究主要集中於現代服務業以及互聯網相關行業,大數據在傳統行業的應用並未得到足夠的重視和充分探討,本文在對大數據的技術架構進行整體描述的基礎上,根據我國鐵路大數據的發展現狀,嘗試探索鐵路大數據技術框架的構建,這將進一步促進大數據技術在我國鐵路行業的落地生效,爲鐵路提高運輸安全水平、實現客貨運精準營銷、提高運輸效率提供參考。主要創新點在於:在解析“大數據+鐵路”的基礎上,闡述大數據之於傳統行業升級的重要意義,基於產業鏈構建鐵路大數據系統架構,嘗試對鐵路大數據的規劃設計、落地實施和其他行業大數據產業示範等提供一定的借鑑意義。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E二、大數據的技術架構\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E如果將大數據處理按處理時間的跨度要求,從長到短可分爲三類:一是流處理,即基於實時數據流的數據處理(Streaming Data Processing),通常的時間跨度在數百毫秒到數秒之間;二是交互式分析,即基於歷史數據的交互式查詢(Interactive Query),通常的時間跨度在數十秒到數分鐘之間;三是批處理,即複雜的批量數據處理(Batch Data Processing),通常的時間跨度在幾分鐘到數小時之間[19]。當然,這三類數據處理流程並不一定能完全分開,它們的處理一般情況下要涉及兩類組件:Hadoop和Spark,這兩個組件也是大數據技術兩個重要的核心部分。圖1展示了大數據的核心架構,主要包括4個層級,即數據獲取層、數據處理層、模型層和應用層。\u003C\u002Fp\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002FRXhM9KR6UmBIBP\" img_width=\"1080\" img_height=\"683\" alt=\"「工經之聲」大數據技術及其行業應用:基於鐵路領域的概念框架研究\" inline=\"0\"\u003E\u003Cp\u003E圖1 大數據技術架構\u003C\u002Fp\u003E\u003Cp\u003E1.數據獲取\u003C\u002Fp\u003E\u003Cp\u003E常見的數據獲取方法主要包括兩類:①系統日誌採集方法。許多互聯網企業形成了自身的數據採集方法,可以用在系統日誌的採集過程中,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等,這些工具都是使用的分佈式結構,可以滿足每秒數百MB的採集及傳輸需要。②網絡數據採集方法。網絡數據採集就是通過網絡爬蟲以及網絡公開API的方法在網上獲得數據,這種方法將非結構的數據在網頁中提取,然後存儲在本地的數據文件中,並且通過結構化的存儲模式存儲起來,可以進行圖片、音視頻等文件的採集操作,附件可以和正文進行關聯,不僅包括網絡的相關內容,還包括網絡流量的採集,可以使用DPI或者是DFI等管理技術進行處理[20]。\u003C\u002Fp\u003E\u003Cp\u003E2.數據處理\u003C\u002Fp\u003E\u003Cp\u003E數據處理層包括兩個重要架構,Hadoop架構和Spark架構。Hadoop爲開源軟件框架,對數據採取分佈式處理方式,其主要特徵體現爲高可靠性、高擴展性、高容錯性、低成本及高效性。Hadoop能夠實現一個名爲Map Reduce的簡單編程模型[21]。Map Reduce是由Google提出來的一種新的數據處理編程模型,可以處理TB級以及TB級以上的數據工作。Map Reduce主要的優勢就是隱藏了編程系統的細節,開發者能夠集中全力地解決核心問題,並不是關注計算機執行的細節。它繼承了函數式以及矢量語言的優點,該編程語言不僅可以用在非結構化中,而且能夠用在結構化的數據上,實現查找、知識挖掘、機器語言智能學習等功能。Spark是現在大數據領域最熱門、高效的數據快速分析解決框架。它立足於內存計算,從多迭代批量處理出發,將流計算(Streaming)、圖計算(Graph Processing)等不同的模型能夠在一個平臺中統一起來,通過一致的接口,促進各個框架在內存中進行集成,有利於系統任務得到更好的實現[19,21]。\u003C\u002Fp\u003E\u003Cp\u003E3.數據模型\u003C\u002Fp\u003E\u003Cp\u003E數據挖掘與機器學習。數據挖掘和機器學習是大數據技術架構中模型層的重要組成部分。數據挖掘是通過算法搜索來獲取大量數據中潛在有用的、有效的、最終可理解的信息的過程。機器學習是數據挖掘中的一種重要工具,目前已經成爲計算機數據分析技術的創新源頭之一。數據模型常用的大數據分析軟件包括統計分析軟件(如R軟件、SAS軟件、SPSS軟件等)、數據庫軟件(如Oracle軟件、SQL Server軟件等)以及計算機編程軟件(如Java軟件、C語言等軟件)。大數據的分析方法包括統計分析(如聚類、關聯規則等)、在線分析處理、情報檢索、機器學習,等等。\u003C\u002Fp\u003E\u003Cp\u003E4.數據應用\u003C\u002Fp\u003E\u003Cp\u003E大數據技術怎樣服務化是一個值得研究的領域。雲計算是大數據應用中不可避免的問題。目前,大數據雲服務有兩種經典模式:一是託管模式,這種模式的核心是通過雲的能力簡化了集羣的創建、運維等;二是服務化模式,用戶不用關心集羣、資源等問題,只需將大數據任務交給大數據雲即可享受相應服務。大數據應用主要在智慧城市、城市交通、醫療、金融、城市規劃等各領域中,應用媒介主要是門戶網站、個人事務、郵件系統等。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E三、案例研究:\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E鐵路大數據的應用框架探索\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E我國鐵路部門非常重視數據的積累工作,當前的鐵路數據已經達到了一定的規模,數據的存儲格式以結構化的數據爲主,視頻以及圖片等非結構化數據量也在不斷增加。我國鐵路實行模塊化管理,主要包括機務、車務、工務、電務和車輛等模塊,具有跨區域網絡、技術構成複雜、部門繁多、業務應用廣泛等特點,因此,鐵路是一項全流程、全業務、全數據的複雜系統工程,構建鐵路大數據,必須考慮鐵路自身專業的特點,加強頂層設計、跨部門協作、跨業務管理和跨技術耦合。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E(一)鐵路大數據及其內涵\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E1\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E鐵路大數據內涵\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E鐵路大數據是指大數據技術在鐵路行業中的應用,不僅包括大數據的數據採集技術、分析技術和統計預測技術[22],還包括大數據的思維和理念在鐵路行業中的應用。從更深層次考慮,將鐵路數據從傳統的報表分析、數據統計向智能化、精準化、網絡化、協作化方向轉變,從結構化數據的傳統方法分析向非結構化數據的智能方法轉變,從有限數據向多維度、多粒度、多模型、多形態的海量鐵路數據轉變,鐵路大數據是鐵路技術、鐵路科研、生產管理等全產業鏈的跨業務、跨部門、跨區域、跨專業的有效工具,是汲取鐵路數據價值、促進鐵路發展、加快鐵路企業轉型升級的重要手段,是加快鐵路現代化、實現鐵路走向更高級階段的一個必經過程。\u003C\u002Fp\u003E\u003Cp\u003E鐵路大數據包含了以下層面的含義:一是我國鐵路信息化經過近40年建設,在12.4萬公里鐵路軌道6000多個車站、近4萬多臺機車和動車組上安裝大量感知器,在鐵路工程建設、聯調聯試、客貨運輸等領域通過軟硬件接入、數據共享等方式產生了海量的結構、半結構化和非結構化的數據。二是鐵路數據的獲取方式、獲取範圍和獲取時間產生了很大變化,隨着各類信息系統建設,包括鐵路建設BIM平臺、12306客運服務系統、95306鐵路物資採購與招商平臺、機車遠程診斷和監測CMD系統、機車車載安全防護6A系統等,可以實現對數據的實時採集、全面分析和動態管理,數據集成平臺在鐵路領域獲得了更大範圍的利用。三是鐵路大數據理念被廣泛接受,海量鐵路數據提供的有價值決策被用於進行設備狀態管理、客貨流量預測、故障預測和健康管理、工程建設、安全保障,等等。四是增值服務。這是鐵路行業轉型升級的關鍵要素,利用鐵路數據可以給用戶提供更加豐富的增值服務內容,同時,也可作爲城市發展以及投資決策的重要參考。通過完善“出行地圖”,能夠更精準地反映地區經濟狀況及各羣體的出行習慣,可以爲城市和基礎設施建設規劃提供基礎依據。\u003C\u002Fp\u003E\u003Cp\u003E2\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E鐵路大數據特徵\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E鐵路大數據是由結構化數據和非結構化的數據組成的。隨着各種智能設備在鐵路中不斷的推廣應用,非結構化數據也在快速發展,其數量將大大超過結構化的數據,鐵路大數據不僅能夠滿足4V特點,它還包括以下三個明顯的特徵:①泛在性。鐵路大數據覆蓋了鐵路運輸生產各個環節,包括機、車、工、電、輛,實現了業務鏈條全覆蓋。②地域性。由於我國鐵路分佈較廣,全路18個路局集團公司所管轄的機車、動車組、車輛、軌道、信號等都會產生各類數據,具有較強的時空特徵。③交叉性。鐵路大數據不僅僅涉及鐵路企業自身管理,而且還涉及軍事輸送、資源調配、社會安全、公共管理等多個方面。交通出行將成爲未來國家經濟發展的重要組成部分,鐵路大數據的應用前景會隨着與不同行業的交叉關聯,變得更爲廣闊。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E(二)鐵路大數據概念框架設計\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E1\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E鐵路大數據產業鏈分析\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E鐵路運輸行業的應用系統包括鐵路組織結構(總公司、路局、站段等)中涉及到的業務系統,根據“鐵路信息化總體規劃”,鐵路信息系統涵蓋鐵路業務層面的多個系統,包括運輸生產組織、運輸調度指揮、運輸安全管理、客運營銷、貨運營銷、人力資源管理、黨建管理等,表1展示了部分鐵路相關業務系統。\u003C\u002Fp\u003E\u003Cp\u003E表1 部分鐵路相關業務系統\u003C\u002Fp\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002FRXhM9Kn2AFDoDZ\" img_width=\"1080\" img_height=\"428\" alt=\"「工經之聲」大數據技術及其行業應用:基於鐵路領域的概念框架研究\" inline=\"0\"\u003E\u003Cp\u003E資料來源:鐵路總公司《鐵路信息化總體規劃》。\u003C\u002Fp\u003E\u003Cp\u003E2\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E鐵路大數據系統架構\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E根據圖1的大數據技術架構,以及鐵路大數據產業鏈及其本身的特性,本文構建了鐵路大數據的系統架構,並將其分爲五個層級來滿足大數據技術從數據採集到最後應用端的全部過程,見圖2。\u003C\u002Fp\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002FRXhM9LHEhSYREY\" img_width=\"1080\" img_height=\"1084\" alt=\"「工經之聲」大數據技術及其行業應用:基於鐵路領域的概念框架研究\" inline=\"0\"\u003E\u003Cp\u003E圖2 鐵路大數據系統架構\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E(1)數據獲取層\u003C\u002Fstrong\u003E。主要包括數據的採集及初步分析,涉及圖2的第一、二、三層。各類感知設備、信息系統等是數據採集的來源,主要是安裝在機車和動車組上的各類元件、工務上的軌道檢測設備、車輛上的測量儀器等,信息系統主要包括鐵路運輸生產的客貨運系統、安全管理系統等。除此之外,還包括服務器設備、網絡設備,服務器設備主要滿足大數據的雲環境,網絡設備主要是指數據的傳輸設備。數據的獲取可以通過互聯網技術,應用智能設備,對數據進行集中和統一操作,並且形成數據中心,促進了數據的鏈接以及共享和使用,這一應用主要集中於圖2的第三層。通過無線網絡獲取地面綜合應用子系統的遠程數據,實現全路客運、貨運、工務、供電、電務、安全管理、人才培養、協同辦公等業務數據採集,構建清晰、完整、高質量、高可靠的數據資產體系。以6A系統、CMD系統爲例。\u003C\u002Fp\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002FRXhM9Lw4rx1Nbn\" img_width=\"1080\" img_height=\"540\" alt=\"「工經之聲」大數據技術及其行業應用:基於鐵路領域的概念框架研究\" inline=\"0\"\u003E\u003Cp\u003E圖3 機車車載安全防護系統\u003C\u002Fp\u003E\u003Cp\u003E① 安全管理系統(6A)\u003C\u002Fp\u003E\u003Cp\u003E圖3爲機車上的6A系統,即機車車載安全防護系統[23],主要通過機車上的各類傳感器實時採集制動監測、防火監控、高壓絕緣檢測、列車供電監測、走行部監測和視頻監控六項數據,視頻監控爲視頻數據,其他爲文本和圖像數據,並利用三次樣條插值法對時間不同步的數據進行處理,最後通過交換單元傳輸到外部接口。\u003C\u002Fp\u003E\u003Cp\u003E② 機車信息化系統(CMD)\u003C\u002Fp\u003E\u003Cp\u003ECMD系統,即機車遠程監測與診斷系統主要集成了智能設備、大數據和互聯網的理念,通過車載LDP設備實時採集機車的各類信息,包括機車安全信息、機車狀態信息和機車監測信息,數據包括了文本數據、圖像數據和視頻數據,通過我國自主的北斗衛星導航系統進行數據傳輸,最後通過鐵路內網實現機務段、路局機關和總公司三層信息共享。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E(2)平臺層。\u003C\u002Fstrong\u003E主要包括鐵路大數據的處理及初步應用,涉及圖2的第四層。平臺層通過批量計算、內存計算等多種計算方式,滿足鐵路不同業務類型數據的計算需求[24]。鐵路安全監控系統包括大量非結構化的數據,並且進行在線實時處理,實現在線的人機交互和在線分析。鐵路客運大數據分析提供批量查詢技術,實現海量客運數據特徵分析。此外,還有大批量的離線數據,可以利用批量化的處理技術進行離線處理,包括各類報表、歷史記錄等,在以上數據計算的基礎上,開展更高層次的數據分析,進行數據建模、數據預測、數據分類和聚類等,支持在線算法處理應用,爲鐵路分析決策提供平臺支撐。以客運數據、基礎設施數據爲例。\u003C\u002Fp\u003E\u003Cp\u003E① 客運大數據\u003C\u002Fp\u003E\u003Cp\u003E客運大數據處理主要包括對數據的清洗、聚類、預測等,客運大數據屬性達60多個,包括列車車次、乘車日期、乘車時間、列車類型、速度等級等,因此,針對特定數據需求需進行數據清洗,進行維度歸約處理,進行特定屬性的選擇。然後對特定屬性的數據進行聚類,如把旅客出行距離進行聚類,可以劃分爲短途、中途和長途旅行。在此基礎上,根據聚類數據,對不同旅行距離的客流量進行預測。\u003C\u002Fp\u003E\u003Cp\u003E② 基礎設施大數據\u003C\u002Fp\u003E\u003Cp\u003E鐵路基礎設施主要包括軌道、接觸網、信號機、橋樑、隧道等,通過大數據中的數據挖掘、預測分析等對工務進行故障發現、故障預測,通過大數據中的關聯分析、數據挖掘等對接觸網運行質量進行評價,通過大數據中的聚類分析、判別分析等對通信設施故障進行歸類,對不同路局的通信故障進行判別分析。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E(3)應用層。\u003C\u002Fstrong\u003E主要包括鐵路大數據的深度應用,涉及圖2的第五層,針對各個業務領域的數據分析和決策支持的需求,能夠實現多業務的數據系統,支撐面向多層次多用戶的分析應用,包括戰略決策、經營管理、現場管理等。在經營效益層面,重點對客貨運開展營銷分析、行業競爭分析、價格管理、成本分析等;在運輸安全方面,進行運營安全隱患預測、行車安全分析、事故調查等;在運輸效率方面,進行物資供應分析、運力的調配和優化、運輸組織優化等;在客戶服務方面,進行客貨運客戶精準營銷、擴展服務和產品質量提升等。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E(三)鐵路大數據處理流程\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E鐵路是一個龐大的體系,針對各個領域的數據採集、處理、分析等都有相應研究,如:通過CMD系統對機車數據的採集與處理,通過6A系統對機車安全數據的採集與處理,通過TMIS系統對鐵路運輸管理數據的採集與處理,通過12306系統針對客運數據的採集與處理,通過95306平臺針對貨運數據的採集與處理等。隨着信息技術的發展,鐵路數據採集的頻率、精度不斷提高,基於各種數據融合的數據分析方法越來越多。然而,如果從大數據流程的角度來考慮,大部分研究僅僅側重於數據流程的幾個環節,還很難有能夠全部覆蓋整個鏈條的應用。通過對比其他領域的相關研究,鐵路大數據流程應該包括鐵路數據的採集、預處理、管理、處理、分析等,不同階段的支撐有所不同。在數據採集階段,主要是各種硬件設備(傳感器、應答器、攝像儀等)對數據的採集和信息系統的數據交換;在數據預處理階段,主要是數據篩選、數據清洗、數據整理、數據標準化等工作,通過制定標準或設計算法能解決大部分的問題;在數據管理階段,更多的是依託於現有的一些大數據軟件、系統等;在數據處理階段,針對具體的應用場景需要不同的處理平臺或技術支撐,比如分佈式處理等;數據分析階段是與應用或需求息息相關的,通過設計不同的模型可以獲得不同的分析結果。\u003C\u002Fp\u003E\u003Cp\u003E1\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E鐵路大數據獲取\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E嚴格意義上講,數據採集包括“採”和“集”兩個內容,“採”是指對物體的數字化表達、形成數據的過程,主要是各類硬件設備、信息系統,“集”是指將數據匯聚的過程,主要是傳輸網絡,包括鐵路內網、北斗導航、GPRS、WLAN等技術。當前,電子技術、信息技術快速發展,面向鐵路領域的數據感知設備越來越多,傳感器、移動終端等快速推廣和應用,結構化、弱結構化、半結構化及非結構化的鐵路數據源源不斷地產生。現有研究展示了數據的多種方式,包括基於硬件設備的機車、車輛、線路等數據採集、基於信息系統的運輸生產數據採集,數據採集的頻率越來越高、精度越來越高、質量越來越高,圖片、視頻、音頻等非格式化的數據也越來越多。例如,機車CMD系統不僅要通過傳感器、攝像儀等採集機車運行數據,還要通過數據交換的方式採集6A系統中的機車安全數據,集成了所有機車數據。\u003C\u002Fp\u003E\u003Cp\u003E2\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E鐵路大數據預處理\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E鐵路很多數據是實時採集,硬件設備的損壞、人工處理的紕漏、傳感器等時間不一致等都會使採集的數據中存在大量雜亂、重複、不完整的數據,嚴重影響後期的數據處理分析,進而導致決策偏差、失誤等。數據預處理非常重要,比如在一個完整的數據挖掘過程中,數據預處理所花費時間比例能約達60%。數據預處理主要包括對已採集數據的清理、抽取、集成、變換、數據質量評估等,鐵路數據預處理過程需要注意以下問題:①數據清理重點針對數據源中的噪聲數據、無關數據等;②通過數據抽取技術進行數據的歸一化表達和一致性處理;③通過集成實現模式層的數據一致;④數據變換主要是通過規格化、旋轉、投影等操作對數據進行簡化,找到數據特徵表示;⑤對數據質量進行有效評估,一致性、正確性、完整性和最小性是數據質量評價的基本指標。例如,對機車能耗數據的處理,首先要對重複、無效的數據進行篩選、清洗,對來源於不同數據庫的信息進行集成,以時間爲標準進行統一,對不同區段的能耗數據按照公里標進行判別、提取,最後得到完整的機車能耗數據庫。\u003C\u002Fp\u003E\u003Cp\u003E3\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E鐵路大數據管理\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E大數據管理是指利用數據庫技術、分佈式文件系統技術等實現對各種數據的有效組織,達到快速索引、高效查詢等目的。傳統的數據庫技術以關係型數據管理爲主,數據量級相對小,在面對半結構化、非結構化數據洪流時,其擴展性存在障礙,難以滿足需要。面對類型多樣、形態各異、數量龐大的鐵路大數據,需要根據具體需求選擇合適的數據庫。圖存數據庫以及文檔數據庫等非關係型數據庫、傳統關係數據庫系統以及New SQL數據庫等都將在鐵路大數據的管理中起到重要作用。例如,對客運大數據進行管理,全路每天上千輛列車運行產生海量數據,在進行數據預處理後按照特定需求對數據進行判別,建立數據倉庫,進而形成不同類別的數據庫。\u003C\u002Fp\u003E\u003Cp\u003E4\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E鐵路大數據建模\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E大數據的研究最主要的功能在於利用數據分析技術獲取未知潛在關聯、隱藏範式、市場及社會規律和附加價值等。傳統的數據分析技術,如數據挖掘中的關聯、聚類、分類、預測、時序模式、偏差分析等技術將仍然可用。一些新興的數據分析技術,也將不斷湧現,並將在鐵路大數據領域佔據重要位置。例如,通過先進的人臉識別技術,將旅客頭像與海量的治安大數據進行匹配,實現刷臉進站,簡化了安檢流程,也在一定程度上打擊在逃人員。\u003C\u002Fp\u003E\u003Cp\u003E5\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E鐵路大數據應用\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E現有的鐵路數據的應用大多還集中於行業內部,用於安全運營以及相應的服務功能。實際上,鐵路行業的泛在特性決定了鐵路行業的多維應用,基於數據挖掘得到的附加價值使鐵路行業的大數據應用外延可以拓展更廣。在旅遊行業,高鐵作爲交通出行的重要選擇可以爲旅遊行業提供旅客流動數據及其呈現的特徵,便於行業利潤的提升。在國家層面,基於鐵路大數據的地域性特徵根據旅客出行的目的及地區旅客流動量,可以作爲地區經濟發展的重要評估指標。交通出行將成爲未來國家經濟發展的重要組成部分,鐵路大數據的應用前景會隨着與不同行業的交叉關聯,變得更爲廣闊。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E四、總結及政策建議\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E在大數據時代,數據成爲基礎戰略性資源,本文對大數據關鍵技術架構進行總結,並以鐵路行業爲例,構建了大數據技術在鐵路行業的應用概念框架,主要總結如下:\u003C\u002Fp\u003E\u003Cp\u003E1.從數據來源、數據獲取和數據服務等方面對鐵路大數據的內涵和特徵進行了闡述。鐵路大數據是指大數據技術在鐵路行業中的應用,不僅包括大數據的數據採集技術、分析技術和統計預測技術,還包括大數據的思維和理念在鐵路行業中的應用。鐵路大數據不僅具有大數據的一般特性,還具有自身行業的獨特特點:泛在性、地域性和交叉性。這爲更清晰的認識鐵路大數據和應用鐵路大數據奠定了基礎。\u003C\u002Fp\u003E\u003Cp\u003E2.從鐵路數據獲取層、平臺層和應用層提出了鐵路大數據的平臺架構。首先,鐵路大數據的獲取層主要包括數據的採集及初步分析,通過採集各類鐵路信息系統、傳感器、生產報表等類型的數據,實現鐵路海量數據的集成。其次,平臺層主要包括鐵路大數據的處理及初步應用,通過批量計算、內存計算等多種計算方式,滿足鐵路不同業務類型數據的計算需求。最後,應用層主要包括鐵路大數據的深度應用,針對各個業務領域的數據分析和決策支持的需求,能夠實現多業務的數據系統,支撐面向多層次多用戶的分析應用,包括戰略決策、經營管理、現場管理等。鐵路大數據的三層平臺架構爲建設鐵路數據服務平臺奠定了基礎,涵蓋了鐵路基礎數據管理、數據集成、數據共享、大數據存儲與分析等功能,保障了鐵路數據的準確性及共享性,可有效提升大數據分析的數據質量,便於建立對不同業務實體的數據關聯,以實現多實體關聯分析。\u003C\u002Fp\u003E\u003Cp\u003E3.從鐵路數據獲取、處理、管理、建模和應用等方面提出了鐵路大數據處理的流程。在數據獲取階段,主要是各種硬件設備(傳感器、應答器、攝像儀等)對數據的採集和信息系統的數據交換;在數據處理階段,針對具體的應用場景需要不同的處理平臺或技術支撐,比如分佈式處理等,在此階段,針對數據自身特點,需要提前進行預處理分析,主要包括數據篩選、數據清洗、數據標準化等工作;數據分析階段(包括管理、建模和應用等)是與應用或需求息息相關的,通過設計不同的模型可以獲得不同的分析結果。鐵路大數據處理流程的確立可利用當前較爲成熟的大數據採集、分析、應用等相關技術,解決當前鐵路面臨的數據共享、數據治理、數據分析等方面的挑戰,使大數據技術在鐵路領域的廣泛應用成爲可能。\u003C\u002Fp\u003E\u003Cp\u003E針對鐵路大數據基礎框架的研究,對於鐵路提高運輸安全水平、實現客貨運精準營銷、提高運輸效率均具有一定的借鑑意義。通過以上三個方面的總結,爲更好地實現大數據技術在我國鐵路行業的應用,本文提出以下政策建議:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E1.強化頂層設計。\u003C\u002Fstrong\u003E鐵路大數據的內涵及特徵表明,鐵路大數據是鐵路技術、鐵路科研、生產管理等全產業鏈的跨業務、跨部門、跨區域、跨專業的有效工具。大數據在鐵路行業的開展需要多個部門相互配合和協調,加強頂層設計至關重要。這需要從總公司層面進行鐵路大數據的相關組織工作,包括制定鐵路大數據的目標和計劃、重點任務(包括鐵路大數據基礎設施的實施、大數據應用技術的選擇和大數據平臺的建設)的分解和落實、實施鐵路大數據的保障措施(包括組織保障、資金保障、制度保障等)。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E2.充分借鑑其他行業的大數據應用經驗。\u003C\u002Fstrong\u003E鐵路大數據的平臺架構與其他行業的平臺架構存在一定的相似之處,均是以大數據的關鍵技術架構爲基礎結合自身行業的特徵而建立的。電信行業和電力行業在我國開展大數據技術應用起步較早,在某些領域已經應用的比較成熟,並且這兩個行業與鐵路行業相同,都具有天然壟斷性特徵,在大數據技術應用方面可以進行借鑑。例如,借鑑電信行業在數據採集和分析方面應用的經驗,借鑑電力行業利用大數據進行智能化建設,可爲鐵路利用大數據技術建設智能高鐵提供思路。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E3.分階段開展大數據應用。\u003C\u002Fstrong\u003E鐵路是一個龐大的體系,針對鐵路各個領域的數據處理流程都需要與該領域相對應的研究。鐵路開展大數據應用需要大量基礎設施投入,並且還存在需求和應用的銜接等問題,因此,可以採取分階段分步驟、先典型後示範的措施。在初期,可以利用既有的基礎設施進行鐵路數據的採集、處理和分析,形成一批大數據應用典型業務試點;在中期,適時建設一批大數據中心,擴大數據採集分析的範圍,在某些業務形成成熟應用;在後期,根據業務需求建設大數據中心基地,對鐵路數據採集分析實現業務全覆蓋,形成成熟的鐵路大數據應用。\u003C\u002Fp\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002FR691XBGCBSZpFv\" img_width=\"640\" img_height=\"69\" alt=\"「工經之聲」大數據技術及其行業應用:基於鐵路領域的概念框架研究\" inline=\"0\"\u003E\u003Cp\u003E\u003Cstrong\u003E參考文獻\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E[1]麥肯錫.麥肯希大數據指南[M].北京:機械工業出版社,2016.\u003C\u002Fp\u003E\u003Cp\u003E[2]ASKITASN,ZIMMERMANN K F.Google Econometrics and Unemployment Forecasting[J].Applied Economics Quarterly,2009,55(2):107-120.\u003C\u002Fp\u003E\u003Cp\u003E[3]MCLAREN N,SHANBHOGUER.Using Internet Search Data as Economic Indicators[J].Bank of England Quarterly Bulletin,2011,51(2):134-140.\u003C\u002Fp\u003E\u003Cp\u003E[4]ICENTE M R,LÓPEZ-ÉMENÉNDEZAJ,PÉREZR.Forecasting Unemployment with Internet Search Data:Does It Help to Improve Prediction When Job Destruction is Skyrocketing?[J]Technological Forecasting & Social Change,2015,92(92):132-139.\u003C\u002Fp\u003E\u003Cp\u003E[5]CAVALLO A,RIGOBON R.The Billion Price Project:Using Online Prices for Measurement and Research[J].Journal of Economic Perspective,2016,30(2):151-178.\u003C\u002Fp\u003E\u003Cp\u003E[6]姜文杰,賴一飛,王愷.基於百度指數的房地產價格相關性研究[J].統計與決策,2016,(2):90-93.\u003C\u002Fp\u003E\u003Cp\u003E[7]李鳳岐,李光明.基於搜索行爲的經濟指標預測方法[J].計算機工程與應用,2017,53(6):215-222.\u003C\u002Fp\u003E\u003Cp\u003E[8]ANTWEILER W,FRANK M Z.Is All That Talk Just Noise? The Information Content of Interest Stock Message Boards[J].The Journal of Finance,2004,59(3):1259-1294.\u003C\u002Fp\u003E\u003Cp\u003E[9]GILBERT E,KARAHALIOS K.Widespread Worry and the Stock Market[R].Palo Alto:Association for the Advancement of Artificial Intelligence,2010.\u003C\u002Fp\u003E\u003Cp\u003E[10]MOAT H S,CURMEC,STANLEY H E,et al.Anticipating Stock Market Movement with Google and Wikipedia[J].Nonlinear Phenomenain Complex Systems:From Nano to Macro Scale,2014,(1):47-59.\u003C\u002Fp\u003E\u003Cp\u003E[11]LIY,ARORAS,YOUTIEJ,et al.Using Web Mining to Explore Triple Helix Influences on Growth in Small and Mid-size Firms[J\u002FOL].Technovation,2016,http:\u002F\u002Fdx.doi.org\u002F10.1016\u002Fj.technovation.2016.01.002.\u003C\u002Fp\u003E\u003Cp\u003E[12]CHITTARANJAN G,BLOM J,GATICA-PEREZD.Mining Large-scale Smartphone Data for Personality Studies[J].Personal and Ubiquitous Computing,2013,17(3):433-450.\u003C\u002Fp\u003E\u003Cp\u003E[13]李傑.工業大數據——工業4.0時代的工業轉型與價值創造[M].邱伯華等譯.北京:機械工業出版社,2015.\u003C\u002Fp\u003E\u003Cp\u003E[14]吳力波,周陽,陳海波,楊增輝.基於智能電網大數據的工業企業大氣污染排放特徵研究[J].中國環境管理,2016,(4):37-42.\u003C\u002Fp\u003E\u003Cp\u003E[15]郭雷風.面向農業領域的大數據關鍵技術研究[D].北京:中國農業科學院農業信息研究所,2016.\u003C\u002Fp\u003E\u003Cp\u003E[16]田歆,汪壽陽,額爾江,丁玉章.零售大數據與商業智能系統的設計、實現與應用[J].系統工程理論與實踐,2017,37(5):1282-1293.\u003C\u002Fp\u003E\u003Cp\u003E[17]周輝宇.基於大數據規則挖掘的交通擁堵治理研究[J].統計與信息論壇,2017,(5):96-101.\u003C\u002Fp\u003E\u003Cp\u003E[18]謝康,肖靜華,王茜.大數據驅動的企業與用戶互動研發創新[J].北京交通大學學報(社會科學版),2018,17(2):18-26.\u003C\u002Fp\u003E\u003Cp\u003E[19]朱潔,羅華霖.大數據架構詳解:從數據獲取到深度學習[M].北京:電子工業出版社,2016.\u003C\u002Fp\u003E\u003Cp\u003E[20]李華傑,史丹,馬麗梅.基於大數據方法的經濟研究:前沿進展與研究綜述[J].經濟學家,2018,(6):96-104.\u003C\u002Fp\u003E\u003Cp\u003E[21]EMC Education Services.數據科學與大數據分析[M].曹逾等譯.北京:中國工信出版集團、人民郵電出版社,2016.\u003C\u002Fp\u003E\u003Cp\u003E[22]劉俊等.智能鐵路大數據分析平臺研究[G]\u002F\u002F中國智能交通協會.第十一屆中國智能交通年會大會論文集,北京:電子工業出版社,2016:105.\u003C\u002Fp\u003E\u003Cp\u003E[23]申瑞源.機車車載安全防護系統(6A系統)總體方案研究[J].中國鐵路,2012,(12):1-6.\u003C\u002Fp\u003E\u003Cp\u003E[24]王同軍.中國鐵路大數據應用頂層設計研究與實踐[J].中國鐵路,2017,(1):8-16.\u003C\u002Fp\u003E\u003Cp\u003E馬麗梅\u003C\u002Fp\u003E\u003Cp\u003E深圳大學中國經濟特區研究中心講師。研究方向:產業經濟學。\u003C\u002Fp\u003E\u003Cp\u003E史丹\u003C\u002Fp\u003E\u003Cp\u003E中國社會科學院工業經濟研究所所長、研究員、博士生導師。研究方向:產業經濟學。\u003C\u002Fp\u003E\u003Cp\u003E高志遠\u003C\u002Fp\u003E\u003Cp\u003E中國鐵道科學研究院運輸及經濟研究所助理研究員。研究方向:運輸經濟學。\u003C\u002Fp\u003E\u003Cp\u003E李華傑\u003C\u002Fp\u003E\u003Cp\u003E中國社會科學院工業經濟研究所。\u003C\u002Fp\u003E\u003Cp\u003E馬麗梅,史丹,高志遠,李華傑.大數據技術及其行業應用:基於鐵路領域的概念框架研究[J\u002FOL].北京交通大學學報(社會科學版),2019(03):1-10[2019-07-25].https:\u002F\u002Fdoi.org\u002F10.16797\u002Fj.cnki.11-5224\u002Fc.20190717.002.\u003C\u002Fp\u003E"'.slice(6, -6), groupId: '6719387900334572046
相關文章