摘要:如果把Lorenz系統的運動軌道按出現在左邊或右邊分別標記爲0或1,我們就會發現對於這樣一個確定的動力系統,它的運動軌道也與前面一串拋硬幣的實驗結果一樣,可以得到一串由0和1組成的數字序列。Lorenz系統、拋硬幣實驗、摩爾斯密碼,這三個例子分別代表了確定系統、隨機系統和信息傳播系統。

專題:《科學大家》聚焦新型冠狀病毒

實時疫情入口 

出品:新浪科技《科學大家》、高山大學

主講嘉賓:夏志宏 高山大學教務長、校董,數學家、天文學家,美國西北大學終身教授

一、上帝玩擲骰子嗎?

科學界經常會有這樣的討論:世界是確定的還是隨機的?

愛因斯坦曾說過“上帝不跟宇宙玩擲骰子”。這句話是針對一些不太直觀的量子力學理論的質疑。量子力學的基本思想與我們的直觀感覺是完全不一樣的,它認爲在亞原子世界中所有的東西都是隨機的,而且是真正的隨機。有兩個最著名的例子:“海森堡的測不準原理”和“薛定諤的貓”。

“海森堡的測不準原理”說的是,如果要準確測量原子的位置,那麼就無法準確測量它的動量。這兩個量沒有辦法同時準確測量。

“薛定諤的貓”是把微觀世界和量子世界的東西擴展到宏觀世界所做的生動描述。

薛定諤的貓:在一個盒子中放一隻貓,這隻貓的生死取決於某個原子的衰變。假如該原子發生了衰變,盒子中的毒氣瓶就會被打破,釋放出毒氣,貓被毒死;假如該原子沒有發生衰變,毒氣瓶就不會被打破,貓不會被毒死。

原子的衰變是隨機的。盒子打開之前,我們不知道貓是生還是死;盒子打開之後,就可以看到貓是活着的還是死了。盒子打開之前,一般人會認爲貓的生死狀態已經確定,只是我們不知道而已。

但量子力學並不這麼認爲。原子的衰變是以一定概率發生的,它有可能衰變也有可能不衰變。但在我們沒有打開盒子之前,衰變的狀態,我們當然是不知道。

但事實上不僅如此:並不是我們不知道,而是在我們觀測之前,它本身就處於一個疊加的狀態,衰變與否同時存在!

反映到宏觀世界,在我們打開盒子之前,貓的“生”態和“死”態是疊加在一起的,“生”態和“死”態同時發生,在我們打開盒子的那一刻,“生”態或“死”態才得以確定。

這可能非常難以想象,也是爲什麼愛因斯坦當初會說“上帝不跟宇宙玩擲骰子”這句話。從此以後對“世界是隨機的還是確定的”有了很多爭論。

二、隨機與確定的數學原理

從數學的角度來看,世界是隨機的還是確定的,其實都是一回事,看似對立實則統一。

第一,隨機系統並非隨意,而是具有很強的確定性。

例如,對於房間中的空氣,每一個空氣分子都是隨機的,但整體是一個非常確定的系統。

從數學上來講,由於分子數量極大,可以應用大數定理和中心極限定理。這兩個定理保證了在大數據情況之下,世界其實是確定的。

再例如,量子計算機利用的就是像薛定諤的貓一樣的疊加態。它的每一個計算過程都是隨機的,得到的可以說是一個隨機結果,但在大量重複計算以後,就變成一個非常確定的結果。

第二,確定的系統有很強的隨機性。

一個系統即使是完全由物理規律確定好的,它也會展現出非常隨機的一面。最著名的例子就是“蝴蝶效應”。

對應於確定系統中出現的隨機現象,數學中有一套理論叫做“混沌”,即動力系統的混沌理論。

用古人的說法,原因在於“差若毫釐,謬以千里”這樣的哲學思想。我們由此可以得到宏觀的世界也是測不準的原理,儘管它是一個確定系統。同樣地,我們還可以確定將來是不可測的,其原因是混沌效應的存在。

三、隨機系統的確定性

拋硬幣的學問

我們先看一個簡單的例子,拋硬幣。

一枚硬幣只有兩面,正面與反面。拋出一枚硬幣後出現的有可能是正面,也有可能是反面。一般情況下,出現正面和出現反面的概率是一樣的,都是50%,除非硬幣是特製的。

假設老師在概率課上佈置作業,要求學生課後拋200次硬幣,並把結果記錄下來。下面是小張的記錄,其中0代表硬幣正面,1代表硬幣反面。

小張的這個數據記錄有非常大的可能性是在造假!也就是說他根本沒有去拋硬幣,而是隨意寫出了這串數字。

爲什麼認爲小張是在做假呢?可以用最簡單的辦法來分析:數一下這個記錄中0和1出現的次數。

我們發現這串數字有111個0,89個1,也就是說小張200次拋硬幣的結果中有111次出現正面,89次出現反面。計算一下就會知道,這個結果的可信度非常低,低於1%,也就是說可能性不大。

拋硬幣得到任何一串0、1數字都是有可能的,但是有些數字串出現的可能性非常小。

比如拋200次,每一次出現的都是0,或者每一次出現的都是1,這種情況基本上是不可能的。全是0或全是1的記錄基本上可以肯定是造假的。

我們再看看小李的記錄:

幾乎可以肯定,小李也在造假。我們首先來數一下小李這個記錄中0和1的個數:101個0,99個1。好像一點問題都沒有,正面和反面出現的概率差不多。但是,我們發現在這個記錄中,111出現了三次,而1111一次都沒有出現。

我們可以去計算一下,拋200次硬幣的過程中,出現111的次數小於或等於3的情形的可信度非常低,低於千分之一;一次1111都沒有出現的可信度低於百分之一。所以,幾乎可以肯定小李的記錄也是隨便做出來的,儘管他把0和1的概率設置得差不多,但其它方面還是存在問題。

也許有人可以僞造一些記錄出來,把111和1111出現的頻率也進行適當調整。但是在200個數字裏面,不僅是111和1111,我們還可以再看010出現的次數,或者101出現的次數,這些都是有規律的。

我們看到,假如不真正去拋硬幣而是想僞造出拋硬幣的結果,這其實是非常難的。最簡單的方法就是老老實實地去拋硬幣,然後把結果寫出來,這個時候數據內在的統一性纔會體現出來,不然很難做到。

如何用大數據發現論文造假

我們經常會看到科學文獻裏有一大堆的數據,其中不乏數據造假的情況。同樣的道理,造假的時候沒法做到數據的統一性。所以,我們可以用大數據來打假。

假如下面是一組從某實驗室得來的數據,總共有40個數字:

我們可以發現:

(1)每個數都有7位數字,包括小數點後面的6位數字;最後一位數字爲0的一個都沒有。

從心理上分析,造假者爲了把小數點後的每個數字都寫出來,一般來說他放的0就會非常少。而一組真正從實驗中得來的數據,40個數字中一個0都沒有的概率是非常小的。

(2)倒數第二位沒有一個1。

這種情形出現的概率也是非常非常小的。一般的物理數據或任何通過實驗得到的數據,精確的有效數字可能只有前面兩三位數字。

在一些比較精確的實驗中,可能有效數字更多,而其他一些實驗裏的有效數字比較少。假如說上面的例子中有效數字是三位,其後面幾位數字基本上是隨機的;即使有效數字是四位,那最後面的三位數字也是比較隨機的。

一般的實驗數據,最後幾位數字都是比較隨機的。所以,最後一位數不出現0的概率就非常小。我們可以用這種方法去找有可能做假的文章來進行打假分析,且數據量越大,打假就越精確。

我們也可以用一些更簡單的辦法。剛纔這組數據總共才40個數字,這個數據量是比較小的,統計規律有時候不是那麼明顯。但我們可以不按照0、1、2、3、4、5、6、7、8、9來分,而是分成奇數和偶數兩大類,這個時候它的統計規律會比較明顯。或者可以把數據用二進制表示,此時某一位置上數字的統計規律就會體現得非常強。

隨機系統的應用

我們可以利用隨機系統的性質做一些真正有意義的統計。

例如,某個防疫部門需要以問卷形式統計某個傳染病的發病情況,比如性病、肺結核等。

但出於對自己隱私的保護,調查對象可能不願意對問卷上的有關問題進行如實回答,即使調查結果不會對外公佈。

那該如何完成這項調查呢?

利用隨機的性質,我們有一個簡單的解決辦法。給每個調查對象一個骰子,在回答問卷前自己投骰子,如果骰子出現的結果是1、2、3、4,就如實回答;如果骰子出現的結果是5、6,就一定要撒謊。

由於收問卷者並不知道每個人投骰子的具體情況,他也就不知道問卷上的答案是真是假。被調查者因此也可以毫無顧慮地回答問卷。

此時,儘管每個人的回答都是隨機的,但按照前面講的原理,整體的統計數據可以非常精確。

假設3萬份問卷裏有1.2萬人回答有傳染病,那麼真實情況下應該是多少人?誤差會有多大?

我們不妨來計算一下:假如真實情況下有病的人數爲x,假定精確地有2/3如實回答,1/3撒謊,則回答有病的人應該是:

x∗2/3+(30000-x)∗1/3=12000

解這個方程可以得到x=6000。

由於每一次投骰子是一個隨機的過程,所以有病的人數不一定是精確的6000人。假如置信區間放在95%,那麼我們算出,這個統計結果的誤差上下不超過139人,即真正有病的人數範圍爲6000±139;把置信區間放大到99%,最大的可能的誤差也就是200人左右,所以統計結果還是相當可信的。

大數定理與中心極限定理

從上面的例子我們可以看出,隨機系統中存在的確定性比想象的要強得多。在物質世界中,每個原子、分子都有很大的不確定性,但是把大量的原子、分子放在一起,這種不確定性就會消失,展示出非常強的確定性。

比如說拋100萬次硬幣,在置信度爲0.26%(即±3δ)的情況下,正反面出現次數的平均值誤差不會超過0.015。

有一些數學理論揭示了隨機系統的一些非常好的內在規律,而其中最好的也是最簡單的一個是大數定理。

大數定理告訴我們,一個實驗重複次數多了,或者數據量大了以後,數據的平均值將會越來越接近數據的期望值。

中心極限定理是比大數定理更加精確的一個數學理論。它在形式上比大數定理要稍微複雜一點,但其實也很簡單。

我們仍然考慮拋硬幣的例子。假設正反面出現的概率各是50%,正面記錄爲0,反面記錄爲1。

扔第1次,記錄爲0的概率是50%,爲1的概率也是50%;[見圖(1)]

扔第2次,記錄爲0的概率是50%,爲1的概率是50%;對前兩次結果取平均,平均值爲0的概率是25%,爲1的概率是25%,另外還有50% 的概率爲 0.5。[見圖(2)]

扔第3次,對三次結果取平均,平均值爲0(即記錄爲000)或平均值爲1(即記錄爲111)的概率都很小。[見圖(3)]

……

扔100次取平均,平均值的分佈是中間突出,兩邊特別小,一百次全是0或全是1都基本上不可能。[見圖(4)]

如果我們換一個重量分佈不均的硬幣(一頭重一頭輕),其正反面出現的概率是不一樣的。有趣的是,用這個非均勻硬幣拋100次所得平均值的概率分佈圖形與之前拋均勻硬幣100次所得到的概率分佈圖形在形狀上幾乎是一樣的[圖(4)與圖(8)],都很像教堂裏的鐘。

中心極限定理是說,不管原來的概率分佈是怎麼樣的,只要滿足一些基本的性質要求,一次次重複實驗,最後的平均值都呈現出鐘形的分佈。

四、確定系統的隨機性

與隨機系統相對應的是確定系統。一個確定系統的“確定性”並不是絕對的,有很多時候其實是不可測的。

故事:棋盤上的麥粒

傳說一位印度的數學家發明了國際象棋,皇帝知道後很高興,希望可以獎賞數學家。數學家說:“我要的不多,你在我棋盤的第1格放1顆麥子,第2格放2顆,第3格放4顆,第4格放8顆……用這種方式把棋盤放滿了,我就滿意了。”

皇帝一聽,覺得數學家不是很貪婪,就要幾顆麥子而已。但他沒有想到的是,他得有多少麥子才能滿足數學家的要求。我們可以簡單算一下麥子的顆數:

最後得到的是一個非常大的數字。可以簡單換算一下,這麼多顆麥子大概有140萬億升,約爲去年全世界麥子產量的400倍。相當於將2000年以來全世界麥子的總產量放在棋盤上,才差不多滿足數學家的要求。

這個例子說明,幾何級數增長得特別快。開始看上去微不足道,但每一次增加的量大於以前所有量的總和。即使幾何級數以7%的增速(比如我國的GDP),大概10年就會加倍。如果保持7%的增速,每十年的產值將會大於歷史產值總和!

將來不可預測的混沌系統

假設一個封閉盒子裏面裝滿了氣體。我們可以數學證明氣體分子在盒子裏運動具有這樣的性質:某一個氣體分子的運動可能因爲某些原因產生一個小的偏差,這個小的偏差將可能以指數形式增加,也就是每隔一段時間偏差會加倍。

由於氣體分子運動比較快,它運動軌跡的誤差可能不到一兩秒鐘就會加倍。假如是1秒鐘加倍,64秒鐘之後,這個誤差就有可能超過“棋盤上的麥粒”那個故事中的天文數字。但是好在盒子對它的運動是有限制的,總體誤差限制在盒子的範圍之內。

從數學理論上來講,假如系統存在這種機制,即在微觀狀態下誤差呈指數增長,那麼其影響的效果就要“差若毫釐,謬以千里”。指數增長是一種非常可怕的增長態勢。存在這種增長機制的系統稱爲一個混沌動力系統。

在微觀狀態下,混沌動力系統的誤差將按指數級增長。在宏觀狀態下,我們不知道它會怎麼樣,可能會因爲運動的折返或者有其他宏觀上的物理限制,使誤差不會無止境地增長下去。

混沌的狀態一般還可以量化,量化的結果在數學裏面就是Lyapunov指數。Lyapunov指數是告訴我們微小誤差經過多長時間加倍。假如每隔單位時間加倍的話,這個指數爲ln(2)。假如每隔T單位時間加倍,這個指數就是ln(2)/T。

一個複雜系統的不同區域可能有不同的壓縮指數。對於混沌的系統,結論是它的將來是不可預測的。最典型的“將來不可預測”的例子是蝴蝶效應。蝴蝶效應是氣象系統的例子,指的是蝴蝶翅膀的微小抖動可以在幾周的時間內引起全球性的氣候變化。氣象系統是非常複雜的混沌系統。

Lorenz 吸引子

Lorenz(洛倫茨)是麻省理工學院(MIT)的教授,他專門研究氣象。氣象方程是非常複雜的偏微分方程組,其解的結構非常複雜,有衆多的未解問題。未來研究氣象方程,Lorenz將其簡化爲一組三維空間的常微分方程:

這個常微分方程裏有三個參數δ、β和ρ,它看起來是一個非常簡單的三維方程,但它有兩個非線性項。一般來說,只要有非線性項的存在,基本上就不太可能用理論上的公式來精確求解,獲取具體軌道,唯一的辦法是採用數值計算。

當δ=10、β=8/3和ρ=28時,數值計算發現方程解的軌道呈現出下面的奇怪現象:

無論從哪裏出發,所有軌道最終都會跑向以上這個圖形,在數學上被稱爲一個奇異吸引子。

也就是說對於上面的三維方程,從幾乎所有的初始點出發,跟蹤該點的軌道就會發現,它在做一種非常類似的、看似簡單的運動,其運動軌跡最終都會畫出如上奇異吸引子的形狀。

這個形狀大致可分爲兩個部分,暫且定爲左邊和右邊。但對每一根軌道的每一個時刻,運動出現在左邊還是右邊是非常隨機的,看上去毫無章法。

在吸引子上任意選取一點,它的軌道往往在左邊走若干圈後,再到右邊走若干圈,然後再回到左邊走若干圈,如此往返,以至無窮。

每一次在每一邊走的圈數由初始點決定,類似於蝴蝶效應,稍微變動一下初始點位置,但一定時間以後就會出現很大差異,將來出現在左邊和右邊的次數就與原來完全不一樣。也就是說,長時間以後,出現在左邊或右邊變成完全隨機。

Lorenz系統是一個混沌系統。它是一個確定性的動力系統,因爲它的運動完全由一組常微分方程確定;但是它具有不可測性,即我們沒有任何辦法去精確地知道一個點經過長時間運動後的位置。只要時間長了,一個非常小的誤差都會給最終測量帶來非常大的、不可接受的誤差。

五、複雜度、信息量和熵

如果把Lorenz系統的運動軌道按出現在左邊或右邊分別標記爲0或1,我們就會發現對於這樣一個確定的動力系統,它的運動軌道也與前面一串拋硬幣的實驗結果一樣,可以得到一串由0和1組成的數字序列。在信息學領域,一串摩爾斯密碼也給出了一串由0和1組成的序列。

Lorenz系統、拋硬幣實驗、摩爾斯密碼,這三個例子分別代表了確定系統、隨機系統和信息傳播系統。而從數學的角度來看,它們是一模一樣的,沒有任何區別。

一根軌道、一串拋硬幣實驗和一串摩爾斯密碼帶來的都是一串0或1的字符。所以,這三個系統在本質上不存在所謂的隨機和確定的嚴格區分,而且它們的很多性質可以用同一種方法去研究,比如我可以研究不同系統的複雜性。

熵的概念是度量動力系統複雜性的一種方式,熵越大表示系統越複雜。但在概率論和信息學裏同樣的概念,或者同樣的量,有不同的意義和應用。

熵在概率學或信息論裏代表的是信息量,或者說是信息量的期望值。熵越大則信息量越高。信息量在大數據分析裏有重要的應用。

熵在網絡或信息傳播學裏代表的是網絡容量和傳播能力。熵越大則網絡容量越大。

綜上所述,表面上看這些系統以及相對應的概念是完全不一樣的,有時甚至是相對立的,比如說隨機和確定的系統,但數學把他們巧妙地統一起來了。

隨機?確定?這取決於你觀察的位置。

本文根據夏志宏教授2020年3月21日在高山大學和更新學堂聯合出品的“科學公益直播”的課程整理而成,經老師審覈後公開發布。

推薦

《科學大家》欄目精彩文章彙總

《科學大家》專欄投稿郵箱:[email protected]  來稿請註明姓名、單位、職務

相關文章