在多維信號表示發展的歷史長河中,傅立葉變換曾經長時間佔據信號處理的統治地位,但由於其局部模式分析不足,人們逐步研究出小波分析、多尺度幾何分析(如Ridgelet、 Curvelet變換)等不同形式的固定基函數系統,提供人工解析形式的數據表示或者變換。其典型構造思想在於採取各向異性基提升信號的特徵表達、幾何奇異性捕獲和逼近能力。冗餘與稀疏表示方法曾風靡一時,形態分量分析方法(Morphological Component Analysis,MCA),稀疏子空間聚類(Sparse Subspace Clustering,SSC)等研究延續至今並熱力不減。然而,經典的“稀疏表示”方法通常以度量向量的一階稀疏性爲主要手段,其對類似圖像等數據結構信號緊緻表示能力有限。

對於二維圖像信號而言,由於圖像往往是冗餘的,內部存在大量相似性,度量矩陣的低維結構的有效方式是結構化的稀疏性,這表現爲矩陣低秩(low rank)性。矩陣的秩是向量稀疏性的高階推廣。向量稀疏性模型往往在矩陣低秩下可以得到推廣,性能更爲優異。以矩陣“秩”爲度量的低秩表示已經證實是矩陣型結構數據冗餘性,更好地刻畫圖像低維結構,例如低秩去噪可以取得更好的效果。基於矩陣低秩極小化,人們提出矩陣填補、矩陣迴歸、魯棒PCA等方法。例如,魯棒PCA就是將一個矩陣分解爲一個儘可能低秩的矩陣和一個儘可能稀疏的矩陣。該方法被廣泛應用於視頻背景建模、人臉識別、雨滴去除、舊電影修復等。在高光譜遙感中,稀疏和低秩融合、稀疏子空間聚類、稀疏與低秩表示、監督分類與異常檢測等是目前的研究熱點。

隨着成像硬件的發展,所獲取的多維數據表現爲大體量、多樣化的多模多通道矩陣信號。以高光譜遙感數據爲例,通常以巨大的分塊矩陣或多路數組(multi-way array)的形式表示,又稱之爲張量(tensor)。這些多路數據往往需要進行模式轉換才能在特定的容許時間內高效處理海量數據集(快速性),這促使人們開始重新關注適用於超大數據集的矩陣和張量算法。從多線性代數爲基礎的張量分析的視角看,向量是一階張量,矩陣是二階張量,當遇到三維數組或更高階的數據時,高階張量表示因其更爲豐富的多路分量分析和代數特徵,具有數據多視角內在結構的捕獲和表達能力。

對於高維數據,直接的方法是表達爲高階張量,可以推廣矩陣秩的相關概念,引入張量秩,通過多重線性數據分析挖掘高維數據的內在本質結構,如Turker分解(或稱爲高階SVD分解)和典範分解(canonical polyadic,分解爲秩-1張量之和)等。在矩陣分析中,矩陣的秩是唯一確定的概念,即矩陣的行秩、列秩和矩陣秩相同。但在張量情形中,秩的概念並不像矩陣秩那樣唯一定義,研究者構造了不同形式的張量秩。例如,一種張量的秩的定義形式是相對於矩陣的行秩和列秩進行描述,其方法是通過高階張量矩陣化,通過張量模n-展開矩陣的秩進行定義。張量分析具有如下優勢:

1. 提供快速且靈活地表示框架,能同時表示結構豐富的數據和複雜的優化。

2. 提供大規模多維數據的壓縮形式,通過張量化和低秩張量分解,將大規模多維數據有效壓縮成低階因子矩陣及核心張量。

3. 具有處理有噪聲和有缺失的數據的能力,能夠利用低秩張量或矩陣逼近算法的數值穩定性和魯棒性處理不完備數據或噪聲數據。

4. 提供自然結合各種多樣性先驗和約束的靈活框架,可以無縫地將標準成分分析(雙路成分分析)方法擴展到多路成分分析;在張量秩最小化的框架下建立低秩張量恢復、基於張量的RPCA、張量壓縮感知等相關理論與方法。

5. 基於張量表示可以建立張量框架下的機器學習模型。由於張量能夠保持關於對象結構的固有信息,張量表示通常有助於減輕鑑別性子空間選擇中出現的小樣本問題。

6. 在實際高維信號處理中,也可以將直接域是低階張量的數據通過張量化操作組織爲高階張量然後執行多重線性分析。由於張量是向量和矩陣的自然推廣,因此在張量表示框架下,可以建立張量PCA分解、張量填補(tensor completion)等,發展張量回歸(tensor regression)新型機器學習方法;也可以與深度學習結合,建立張量隊列網絡(tensor train network)等。張量表示框架對於高光譜圖像處理與分析具有天然優勢,大多數稀疏與矩陣低秩分析算法可方便地推廣到張量情形,如張量表示融合超分辨、監督分類,都能獲得更爲優異的性能。

隨着深度學習模型的興起,數據驅動式的高維信號表示學習方法在學術界與工業界如火如荼。雖然早期神經網絡學習是受模擬生物學習所啓發,但是深度學習的發展超越了神經科學的觀點,通過學習“多層次複合函數”的更普遍原理,可以產生新的機器學習框架。深度學習通過較簡單的表示來表達複雜表示,解決了表示學習的核心問題。大量深度學習模型應用於高光譜圖像低層反問題(去噪、復源、超分辨)、多源融合等領域,也應用於混合像元分解、地物監督分類、目標檢測識別等領域,並取得了前所未有的性能提升。然而,數據驅動的深度學習方法存在“過擬合現象”、“小樣本學習能力不足”、“黑盒導致的不可解釋性”以及“參數難調”等問題。

相關文章