原標題:論文|阿里 基於雷達圖像的短期降水預報

小嘰導讀:CIKM AnalytiCup 2018大賽正在進行中,藉此機會我們一起回顧CIKM AnalytiCup 2017冠軍團隊——清華大學的Marmot團隊 [ 姚易辰,李中傑(均已入職阿里)]的風采。

如果提前知道什麼時候會下雨,就能提前給關心的人準備雨傘,就能成爲愛人的“保護傘”。今天的文章,就是科技服務生活的一部分——提升短期降水預報的準確性。

比賽介紹

《基於雷達圖像的短期降水預報》是由ACM頂級數據挖掘會議CIKM舉辦的數據科學競賽。CIKM 2017以“智慧城市,智慧型國家”爲主題,通過人工智能同各學科領域的交叉研究,通過技術手段有效管理城市。CIKM AnalytiCup 2017 由深圳氣象局與阿里巴巴聯合承辦,旨在提升基於雷達回波外推數據的短期降水預報的準確性。

採集雷達圖像用到的是氣象多普勒雷達,它能夠監測到氣象目標的反射率,反射率的大小反映了氣象目標內部降水粒子的尺度和數密度。雷達圖中每個網格點記錄的是雷達反射率因子值Z ,因爲Z的變化範圍比較大,出題方對反射因子Z值做了一定的變換,而且爲了數據脫敏,又對這個轉換後的值進行了線性變換。

從氣象雷達的監測原理來看,由於監測的是雲團的反射率,一般來說,反射率越大,雲團的含水量就越大,一定程度上可以預測降水量的強弱。但是雲團反射率數值的大小和降水量的大小並不是簡單的線性關係,而是存在複雜的非線性關係。此外,降水量的大小還與雲團的空間結構及運動狀態有密切聯繫,需要從雷達圖像的空間序列和時間序列中提取。

賽題目標

賽題提供10,000組的雷達圖像樣本。每組樣本包含60幅圖像,爲過去90分鐘內(間隔6 min,共15幀),分佈在4個高度(0.5km, 1.5km, 2.5km, 3.5km)上的雷達反射率圖像。

每張雷達圖像大小爲[101,101],對應的空間覆蓋範圍爲101×101km。每個網格點記錄的是雷達反射率因子值Z。反射率因子,表徵氣象目標對雷達波後向散射能力的強弱,散射強 度一定程度上反映了氣象目標內部降水粒子的尺度和數密度,進而推測其與降水量之間的聯繫。

目標:利用各個雷達站點在不同高度上的雷達歷史圖像序列,預測圖像中心位於[50,50]座標位置的目標站點未來1-2小時之間的地面總降水量,損失函數爲降水量預測值與真實值的均方誤差。

算法架構

本次比賽的特點在於時空序列的預測,即給出了目標站點周圍一定空間範圍的歷史信息,需要預測在站點座標上未來的降水走勢,因而搭建時空之間的關聯特性爲解決問題的重中之重。同時有別於一般的計算機視覺問題,此次比賽提供的氣象圖像,其沿着時空方向的演化規律會滿足一定的守恆律及連續性限制,發現物理問題的特殊性並尋找對應的表徵量也是解決問題的關鍵。

解決方案的流程分爲前處理,特徵提取,模型訓練三個部分。前處理步驟中,完成局部圖像的拼接,並通過SIFT描述子尋找時間方向的對應關係,獲得雲團運動的軌跡。特徵描述中,將問題的特徵歸納爲3部分,分別爲時間空間方向的矢量描述,雲團形狀的統計描述,及由雲團軌跡外推得到目標站點的雷達反射率的空間圖像描述。模型訓練主模型採用了卷積神經網絡CNN,圖像部分採用2層卷積池化,隨後將向量拉平到一維,即在全連接層與其餘非圖像類特徵合併,共同輸入到2個隱藏層的神經網絡中。

圖像拼接

賽題給出的局部雷達圖像,樣本與樣本之間並不完全獨立,圖像樣本之間存在一定的重疊,可以通過模板匹配的方式尋找樣本之間的座標關聯特性。通過樣本之間的局部圖像拼接,能夠將一系列小範圍的局部雷達圖像恢復到空間更大範圍的雷達圖像,進而獲得關於雲團更加整體的特性。通過局部圖像的拼接,能夠獲得如下兩方面效果:

軌跡追蹤

根據流體力學中的泰勒凍結假設(Taylor Frozen Hypothesis),流場中存在顯著的時空關聯特性,即可以認爲雷達反射圖中雲團在短時間內趨向於在空間以當地平均對流速度平移,短時間內並不會發生外形或者反射強度的劇烈改變。即監測點 x 處在未來 τ 時刻後的 雷達信號 f ,能夠通過平均對流速度 U ,從當前時刻 t 位於座標的 x - U τ 的信號中體現:

爲了尋找每個空間座標對應的對流速度 U , 可以通過SIFT描述子在一定時間間隔內,在空間座標上的匹配,尋找相同關鍵點在較短時間間隔 δ t 內像素的平移量 δ x ,即得到空間每個位置處的對流速度。

下圖給出了相鄰兩幀圖像上,SIFT描述子及相應的空間匹配關係。其中圓圈大小對應了關鍵點的特徵尺度,圓圈中的刻度方向表徵其主方向。兩幀圖像的匹配連線基本平行, 即全場以一個近似相同的速度作對流運動。

特徵提取

特徵包含時間外插反射率圖像,時間空間的矢量,雲團形狀的統計描述三部分。

時間外插反射率圖像:由上述的圖像拼接及軌跡追蹤後,能夠定位出全場的速度矢量見 下圖。以泰勒凍結假設和關鍵點匹配追蹤到未來1.5個小時流場速度矢量後,能夠外插未來每個座標點的運動軌跡,即能夠推測出未來位於目標站點上方的雲團,在當前時刻雷 達圖像上的空間座標。 圖中白色圓圈座標點的雲團,會在1.5小時由圖中對流矢量的作用下,運動到紅色目標站點上方。因此截取空間軌跡上白點周圍41×41大小,3個空間高度 (1.5km,2.5km,3.5km)的局部圖像作爲卷積神經網絡的圖像輸入。

時間和空間特徵提取:在時間和空間方向(高度方向)提取圖像像素的統計值(平均值、 最大值、極值點個數、方差等等),作爲時空特徵的描述輸入CNN的全連接層。

全局雲團形狀特徵提取:某些特定的雲層形態會對應典型降水事件。從拼接後的全局圖像 中提取雲團形狀的整體形態特徵,包含雷達反射率的直方圖和統計類信息、雲團運動速 度和方向、加速度、流線曲率、SIFT描述子的直方圖、監測點位置、檢測點反射率與最大值比值等。

訓練模型

卷積層中圖像的輸入爲時間外推得到目標站點附近41×41的空間範圍,採用較大的空間圖像輸入,希望能夠包含軌跡預測的誤差以及測評目標在1小時內的總降水量。圖像部分採用 2層卷積池化,隨後將向量拉平到一維,即在全連接層與其餘非圖像類特徵合併,共同輸入到2個隱藏層的神經網絡中。

模型通過dropout防止過擬合,keep_prob取值爲0.65,梯度下降採用的Adam優化算法。1200個迭代步後即達到穩定。

總結

本次解題方案並未使用ImageNet上較爲流行的InceptionNet或者ResNet,即用深度的圖像卷積網絡來做訓練。而是針對氣象問題的特殊性,針對時間空間關聯這一重要線索, 採用傳統的關鍵點提取SIFT方法與卷積神經網絡CNN結合的形式預測目標站點的降水量。

本文來自:數據派THU

—END—

微信公衆號:數據分析聯盟

加羣請加微信:lestat911

相關文章