科技改變生活 · 科技引領未來
近年來,人們發現了越來越多的基礎物理學與人工智能之間的聯系。首先,深度學習與物理系統存在著本質上的對應關系,例如受限玻爾茲曼機與自旋系統,深度神經網絡與重整化群;其次,機器學習是一種比傳統的數值模擬、蒙特卡洛模擬更有效的對復雜問題近似求解的
近年來,人們發現了越來越多的基礎物理學與人工智能之間的聯系。首先,深度學習與物理系統存在著本質上的對應關系,例如受限玻爾茲曼機與自旋系統,深度神經網絡與重整化群;其次,機器學習是一種比傳統的數值模擬、蒙特卡洛模擬更有效的對復雜問題近似求解的方法。這種有效性讓人們開始思考物理與機器學習更深層次的聯系,也許它能幫我們獲得對智能以及宇宙本質的真知灼見。
本文是于2017年2月發表在科學上的重磅文章,由集智俱樂部翻譯團隊翻譯完成。作者提出了基于神經網絡的量子態表示方案,并展示了它在多個經典量子多體問題上的高精度和表達能力。這篇文章甚至引發了我們對量子系統更本質的思考:是否那些讓我們困惑的反直覺的量子特性,特別是哥本哈根解釋壓根兒就不存在,而只不過是更復雜的經典系統的某種表象呢?而這種表象卻恰恰能被神經網絡很好地表達出來。換個角度思考,一個經典的復雜的神經網絡有可能展現出那些匪夷所思的量子系統特征,如量子遂穿、不確定性原理等等。
用人工神經網絡解決量子多體問題
Giuseppe Carleo1* and Matthias Troyer1,2
摘要
量子物理中的量子多體問題給我們帶來的很多挑戰都起源于對編碼在多體波函數中指數級復雜性中的非平凡關聯特性如何描述。在本文中,我們對于幾個物理學感興趣的問題,展示了如何通過機器學習的方式來學習波函數,從而可以將量子多體問題的復雜性簡化為可計算的程度。我們引入了一種量子狀態的變分表示方法,該方法基于隱層神經元數量可變的人工神經網絡來完成。我們將說明強化學習方案既能找到基態,又能描述復雜相互作用的量子系統的幺正時間演化。我們的方法在描述一維和二維的交互自旋模型這樣的簡單系統時,達到了很高的精度。
波函數Ψ是量子物理學中最基本的對象,也是從古典物理框架下最難被理解的東西了。Ψ是一個龐大的數學量,因為它包含了一個量子態的所有信息,無論是單個粒子還是一個復雜的分子。原則上,對通用的多體量子態進行充分編碼需要指數級數量的信息;然而,真實的情況是描述許多物理多體系統的波函數卻只需要有限的信息就夠了,其容量遠比相應的Hilbert空間所能容納的最大容量要小得多。在這樣的系統中,我們用現代的方法可以根據有限數量的量子糾纏和少量的物理狀態就能用有限的經典資源解出多體的薛定諤方程。
人們通常會使用直接依賴于波函數的數值近似方法,來對物理相關構型進行有限采樣,也可以對量子態進行有效的壓縮。例如人們常用的量子蒙特卡羅(Quantum Monte Carlo,QMC)方法(即統計模擬方法)等隨機方法就屬于第一類,它們都依賴于概率框架,并通常要求一個半正定的波函數(1-3)。而另一種壓縮的方法依賴于波函數的有效表征,例如矩陣乘積態(Matrix Product Space, MPS)(4-6)或更常見的張量網絡(Tensor Network,7-9)。然而,采用現有方法也有很多失敗的例子,這主要是由于QMC(10)(量子蒙特卡羅方法)本身的問題,以及當前的壓縮方法在高維度系統中表現低效的問題。因此,盡管這些方法取得了顯著的成功,但仍有大量未經探索的物理條件存在,其中也包括許多未解決的問題,從高維度系統的動力學特性(11、12)到強相互作用的費米子(13、14)的精確基態屬性這樣的基礎問題。這種問題的核心就在于找到一種普遍的策略,以減少龐大的多體波函數的指數級復雜性,從而降低其最基本的特征維度(15)。
廣義地看,實際上這些問題的本質就是對數據進行降維和特征提取。而這恰恰就是人工神經網絡最擅長的事情(16)。它們已經在各種各樣的問題和環境,包括圖像和語音識別(17)再到博弈(18)中表現突出。最近,神經網絡被引入到了物理學研究中(19-23),但這些研究都集中在對物相的分類上,前提條件是從這些物相的狀態中進行精確采樣是可能的。而在沒有精確樣本的先驗知識的情況下,解決多體問題的挑戰性目標仍然未被探索,而這恰恰是人工智能有可能發揮作用的領域。因此,認識人工神經網絡是否能夠修改和調整自己以適應分析和描述這樣的量子多體系統是一個非常基本,也是具有實際意義的問題。這種能力可以被用來解決在某種物理條件下,那些用現有的精確數值方法難以解決的量子多體問題。
這里我們介紹一種用人工神經網絡方法來表達波函數的方法,它由一組內部參數W指定。我們給出了一個隨機框架,用于加強對參數W的強化學習,使給定量子哈密頓量H的基態和時間依賴的物理狀態能得到最好的表示,然后對神經網絡的參數進行訓練。或者當我們對動態屬性感興趣時,我們還可以通過靜態變分蒙特卡羅(Varational Monte Carlo,VMC)采樣(24)或時間依賴的VMC(25,26)方法來求解。接下來,我們就通過對一維和二維Ising(伊辛)模型和海森堡(Heisenberg)模型來驗證這種方法的正確性。我們證明了神經網絡量子態(Neural network Quantum State,NQS)的強大能力,并在基態和非平衡動力學等問題中獲得了目前所能達到的最好的精度。
神經網絡量子態
考慮一個量子系統, 這個系統有N個離散取值的自由度S=(S1,S2,...,SN), 這些自由度有可能是自旋, 玻色子占據數, 或者其他類似的值. 該系統的多體波函數是一個從N維的集合S(數量呈指數增長的)到復數之間的映射, 這些復數能夠完全表征量子態的振幅和相位。我們看待這個問題的視角是, 將波函數理解成一個可計算的黑匣子, 這個黑匣子能夠對給定的多體系統的構型S, 依據Ψ(S)返回一組相位和振幅. 我們的目標是用一個神經網絡來近似這個能進行計算的黑匣子, 使得它經過訓練后可以極好地表征我們關心的系統。針對特定的任務, 人們已經提出了不同的人工神經網絡結構作為備選方法.。同理, 用來描述一個多體系統所需要的最好的(神經網絡)結構也因問題而異。更具體地說, 我們將討論限定在受限玻爾茲曼機(Ristricted Boltzman Machine,RBM)這種特殊的結構上, 用它來描述自旋1/2的量子系統。
圖1:人工神經網絡編碼了N個自旋的多體量子態
這是一個受限玻耳茲曼機的體系結構,它是由N個可見的人工神經元(黃點)和M個隱藏層神經元(灰點)組成的。對于多體自旋狀態的每一個值S=(σ^z_1,σ^z_2,…,σ^z_N),人工神經網絡計算波函數Ψ(S)的值。
在這個情況下, RBM人工網絡擁有一層具有N個節點的可見層, 可見層對應一組選定基矢下的自旋物理量(如: S=(σ^z_1,σ^z_2,…,σ^z_N) , 還擁有一層具有M個輔助變量的隱藏層(h1,h2,...,hM) (圖1). 這樣的描述對應量子態的變分表達式:
這里,hi={-1,1}是一組M個隱含自旋變量,網絡參數:W={a,b,W}完全表征了這個網絡對于一個給定的輸入狀態S的響應。由于這個結構的特點是沒有層內部的相互作用, 這些隱變量可以顯式地通過求跡來消除, 求跡后波函數就變成了:
且有
這個網絡的權重一般來說取復數, 這樣能同時完整描述波函數的振幅和相位。
數學上人們已經證明了所謂的"表示定理"(27-29),這個定理能夠保證用(神經)網絡來近似足夠光滑且規則的高維函數。該定理同樣能夠保證NQS(Neural network Quantum States,神經網絡量子態)能夠描述錯綜復雜的多體波函數, 只要多體波函數滿足這些條件。我們有理由相信NQS結構是一個合理的選擇。
這個表述方式的一個實際好處是, 原則上它的(訓練)效果能夠通過增加隱變量的數量得到系統性的提高. 數量M(或者, 等價的說, 比例a = M/N,其中M為隱含層單元數量,N為可見層單元數量)扮演了類似MPS里成鍵維度的角色。但是, 這些隱層單元導致的關聯本質上是非局域的, 因此, 這種關聯十分適合描述具有任意維度的量子系統。
NQS另一個便利之處是, 特定的對稱性會降低,例如, 具有平移不變性的受限波爾茲曼機中考慮晶格平移對稱性可以減少NQS方案(NQS Ansatz)的變分參數的數量。具體點來說, 對于整數的隱變量密度a = 1,2,..., 權重矩陣取特征過濾器的形式W_j^{f},其中f屬于[1,a]。這些過濾器總共有aN個變分元素, 而不是非對稱情況下的aN^2個元素。
如果現在給定一個一般的量子多體態的表達式, 我們余下的任務就是用機器學習,通過最優化網絡參數W, 來求解多體問題。一個非常有意思的應用是, 具體的多體狀態我們并不知道, 一般我們通過給定的哈密頓量H來求解靜態薛定諤方程H|Ψ>=E|Ψ>或含時方程:H|Ψ(t)>=id/dt |Ψ>。在沒有真實的波函數提供樣本的情況下,通過監督學習得到Ψ并不可行。但是, 我們推出了一個自恰的強化學習方法. 在這個方法中, 基態波函數或者含時波函數可以基于變分原理提供的反饋進行學習得到.
基態
為了證明NQS在復雜多體量子態的描述中的準確性,我們首先關注于找到給定哈密頓函數H的未知基態的最好的神經網絡表示的目標。在這種情況下,實現強化學習需要通過使網絡權重W的能量E(W) = <Ψ_M|H|Ψ_M >/<Ψ_M |Ψ_M>的期望值最小化來達到。在隨機設置下,這是通過迭代方案實現的。在每次迭代k中,對于給定的一組參數W_k實現|Ψ_M(S;W_k)|^2的蒙特卡羅采樣。同時,獲得能量梯度的隨機估計。然后,使用一種改進的梯度下降優化(32)來給出下一組權重W_{k+1}。這個方法的總體計算成本與標準基態量子蒙特卡羅模擬的總體計算成本相當(參見原論文補充材料)。
為了驗證我們的方案,我們考慮了兩個典型的自旋模型的基態問題,橫向場Ising (TFI)模型和反鐵磁海森堡 (AFH)模型。他們的哈密爾頓算子分別是:
和:
其中σ_x,σ_y和σ_z是泡利矩陣。
圖2: 多體基態的神經網絡表示
這些結果是一維二維Ising這樣的原型系統產生的。在最頂端的圖中,我們展示了在臨界點h=1下面的一維橫向場Ising模型(TFI)以及反鐵磁模型(AFH)模型的特征圖。在這兩種情況下, 隱含層的密度都是a=4,格點包含了80個。每一個水平的色圖展示了第f個特征圖W_j^{(f)}在第j個格點的取值(為了圖像更清楚,我們將橫坐標軸加寬了)。在下面一組圖中,我們展示了立方網格上的2D海森堡模型,其中a=16。在這種情況下,水平(或豎直)坐標軸對應了x(或y)在10*10格點上的坐標。每一個有效的特征圖都相當于一個有效的可以對自旋構型進行過濾的濾波器,捕獲了最重要的量子關聯。
接下來,我們將考慮具有周期邊界條件(PBCs)的一維和二維(1D和2D)晶格的情況。在圖2中,我們展示了兩個隱含變量密度α = 4的兩個自旋模型的基態的最優網絡結構,并且我們規定這些結構具有平移對稱性。我們發現每個過濾器f = [1,...α]能夠學習在基態波函數中涌現的特定的關聯特征。例如,在二維情況下(如圖2所示,右邊的面板)神經網絡學習與反鐵磁性關聯的模式。NQS的一般行為完全類似于在卷積神經網絡中觀察到的那樣,在不同層次學習輸入數據的特定結構。
圖3.用神經網絡量子態(NQS)尋找多體基態能量
幾個測試用例顯示了NQS基態能量相對于精確值的誤差。可以通過增加隱藏單元密度α獲得基態能量的任意精度。(A) 在給定磁場強度h的幾個不同取值下,1維TFI模型的精度,該模型由80個格點組成自旋鏈,具有周期性邊界條件(PBCs)(我們隱去了低于10^{–8} 的點以提高可讀性)。(B) 80個格點具有周期邊界條件的自旋鏈得到的精度與Jastrow 假設的精度(水平虛線)對比。(C) 在10×10格點上具有周期邊界條件的AFH模型精度與采用EPS [上虛線(35)]和PEPS [下虛線(36)]的精度對比。對于這里考慮的所有情況,NQS方法在一維上達到了MPS級精度,并系統性地改進了2維有限格點系統的最佳已知變分狀態。
在圖3中,我們展示了NQS的精度,將其量化為基態能量E_{rel} = (E_{NQS}(α)-E_{exact})/|E_{exact}|相對誤差在不同α和模型參數下的取值。在圖3A,我們在具有PBCs的1維鏈上用費米化的TFI模型的精確結果與NQS的能量變化進行了比較。最明顯的結果是,NQS實現了一個可控且任意精準的準確性,與對于α的冪律行為相符。最難學習的基態是在量子臨界點h = 1附近,盡管如此,我們可以通過相對適度的隱藏單元密度輕松實現每一個百萬分之一的顯著精度。同樣的精度可以在更復雜的一維AFH模型中得到(圖3B)。在這種情況下,我們還觀察到基態能量誤差的系統性下降,對于小的α = 4,在臨界點獲得與TFI模型相同的高精度。我們的模型的精度比自旋Jastrow 方案高幾個數量級(虛線圖3B)。同樣有趣的是將α值與能夠達到相同精度水平所需要的MPS約束維度M進行比較。例如,在有PBCs的AFH模型中,我們發現如果應用標準的密度矩陣重整化群(Density Matrix Renormalization Group,DMRG)(33),我們需要M~160才能達到NQS在α = 4的準確度。這表明了NQS方案可以對多體狀態進行更緊湊的表示,這比相應的MPS方案所需要的變分參數少了約三個數量級。
我們接下來研究了二維正方形陣列上的AFH模型(與QMC結果的比較,見圖3C)(34)。考慮到量子態有糾纏,對于NQS來說,研究二維情況會更加困難。盡管如此,隨著α的增加,我們總能發現變量會有系統性的改進,定量上這與一維情況類似。難度增加反映在收斂性更慢了。當然,我們還是能得到和現有最先進方法不相上下的結果的,甚至更好。特別是在隱單元密度相對較小的情況下(α?4),我們已經獲得了與最有名的有限大小集群變分方程(variational results)相同的結果[(35)的糾纏plaquette狀態(EPS)和(36)投影糾纏對狀態(PEPS)]。進一步增加α能得到一個可觀的改進,最終產生迄今為止在有限網格上該2維模型的最佳變分結果。
幺正(或酉,Unitary)動力學
神經網絡量子態(NQS)并不僅限于基態問題的研究,還可以擴展到含時的薛定諤方程。關于這個問題,我們定義了復數域上的含時網絡權值W(t)。在不同的時間t下,根據狄拉克的非定態原理(37, 38),可以訓練W(t)并衍生出最好的量子動力學。在這個條件下,變分殘差:
成為了關于時間權值導數的目標函數,要通過訓練求其最小值來找到。在隨機結構中,這個過程通過包含時間的VMC方法(25,26)來實現。在每一個時間都對|Ψ_M(S;W(t))|^2進行采樣,隨后通過計算給出使損失R(t)^2最小的W(t)的隨機估量,其計算成本為O(aN^2)。當由時間產生的附加項得到確定,并且對時間整合后,就可以通過這個方法方便的獲得全部的時間演化結果。
圖4:NQS的多體幺正時間演化
該圖顯示了由量子退火(Quantum quench)引起的NQS時間演化結果(實線)。(A)TFI隨時間改變的橫向自旋極化,與準確結果(虛線)對比。(B)AFH模型中演化后的依賴近鄰自旋統計,與在t-DMRG中獲得的準確結果(虛線)對比。所有的結果都參照熱力學限定的一維鏈代表,同時有限尺寸修正小于線寬。
為了證明在動力學環境下NQS的效率,我們考慮在自旋模型中的耦合常數進行量子退火所誘導出的幺正動力學。在TFI模型中,我們通過迅速改變橫向場的方法引起非線性的量子動力學:這個系統首先處在某一個場hi的TFI模型基態,然后在橫向場hf<>hi下演化。我們將我們的結果和在控制系統中的具有PBCs的一維鏈的費米化的TFI模型獲得的解析解對比。在圖4A中,準確的由時間決定的橫向自旋極化的結果與在α=4時的NQS系統進行了對比。在AFH模型中(圖4B),我們研究了縱向耦合Jz的量子退火,并且監控了最近鄰的時間演化相關性。我們將時間演化結果(α=4)和已經存在數字的開放邊界的MPS動力學系統(39-41)相對比(圖4B)。
結果表明,幺正動力學的預測仍然可以獲得很高的精度,這更加證實了以神經網絡法為基礎的途徑可以用來解決量子多體問題,不僅在基態下適用,在建立的由復雜原因引起的激發態模型也適用。
展望
基于人工神經網絡的變分量子態能夠用來有效的捕獲了一維和二維的糾纏多體問題的復雜性。盡管這里用到的受限玻爾茲曼機很簡單,但是我們在基態和典型自旋模型的動力學演化方面都取得了很高的精度。在不遠的將來,人們會設計出更多的研究方法。機器學習的新進展,比如深度網絡架構和卷積神經網絡都可以成為更先進的NQS的基礎,因此這有可能大大增強它的表達能力。此外,將我們的方法延伸到除自旋系統以外的量子系統中去也是相當直接的。我們期待著利用這種方法來求解最具挑戰性的二維費米子的問題。最后,作為張量網絡狀態的一種變體,NQS具備內在的非局域關聯特性,這就使得對多體量子態的表達可以更簡潔。因此對NQS糾纏特性的形式化分析可能給量子信息理論帶來本質上的新概念。(點擊閱讀原文下載原文pdf)
翻譯志愿者介紹:
本文譯者是集智俱樂部志愿者孫金薇 、黃 晨 、李麗京 、王宇劍 ,感謝大家的辛勤翻譯。
黃晨 物理學博士在讀,主要方向為凝聚態物理,對量子計算和機器學習感興趣。(同時也是本期的優秀譯者,撒花!)
王宇劍,來自內蒙古呼和浩特,研究生三年級,物理專業,喜歡跆拳道,羽毛球,游泳。
孫金薇,目前大三,感興趣的領域是html5和css。
李麗京,服裝設計師,感興趣的方向是復雜科學、人工智能、認知神經科學等。
想加入集智俱樂部,成為翻譯志愿者?
復制鏈接填寫申請即可
http://swarmaai.mikecrm.com/vZffkt
參考文獻與注記
1. D. Ceperley, B. Alder, Science 231, 555–560 (1986).
2. W. M. C. Foulkes, L. Mitas, R. J. Needs, G. Rajagopal, Rev. Mod. Phys. 73, 33–83 (2001).
3. J. Carlson et al., Rev. Mod. Phys. 87, 1067–1118 (2015). 4. S. R. White, Phys. Rev. Lett. 69, 2863–2866 (1992).
5. S. Rommer, S. Ostlund, Phys. Rev. B 55, 2164–2181 (1997).
6. U. Schollw?ck, Ann. Phys. 326, 96–192 (2011).
7. R. Orús, Ann. Phys. 349, 117–158 (2014).
8. F. Verstraete, V. Murg, J. I. Cirac, Adv. Phys. 57, 143–224 (2008).
9. K. H. Marti, B. Bauer, M. Reiher, M. Troyer, F. Verstraete, New J. Phys. 12, 103008 (2010).
10. M. Troyer, U.-J. Wiese, Phys. Rev. Lett. 94, 170201 (2005). 11. A. Polkovnikov, K. Sengupta, A. Silva, M. Vengalattore, Rev. Mod. Phys. 83, 863–883 (2011).
12. J. Eisert, M. Friesdorf, C. Gogolin, Nat. Phys. 11, 124–130 (2015).
13. A. Montorsi, The Hubbard Model: A Collection of Reprints (World Scientific, 1992).
14. D. J. Thouless, The Quantum Mechanics of Many-Body Systems (Reprint of the Academic Press, ed. 2, 1972).
15. J. K. Freericks, B. K. Nikoli?, O. Frieder, Int. J. Mod. Phys. B 28, 1430021 (2014).
16. G. E. Hinton, R. R. Salakhutdinov, Science 313, 504–507 (2006).
17. Y. LeCun, Y. Bengio, G. Hinton, Nature 521, 436–444 (2015).
18. D. Silver et al., Nature 529, 484–489 (2016).
19. S. S. Schoenholz, E. D. Cubuk, D. M. Sussman, E. Kaxiras, A. J. Liu, Nat. Phys. 12, 469–471 (2016).
20. J. Carrasquilla, R. G. Melko, https://arxiv.org/abs/1605.01735 (2016).
21. L. Wang, Phys. Rev. B 94, 195105 (2016).
22. G. Torlai, R. G. Melko, Phys. Rev. B 94, 165134 (2016).
23. M. H. Amin, E. Andriyash, J. Rolfe, B. Kulchytskyy, R. Melko, https://arxiv.org/abs/1601.02036 (2016).
24. W. L. McMillan, Phys. Rev. 138, A442–A451 (1965).
25. G. Carleo, F. Becca, M. Schiró, M. Fabrizio, Sci. Rep. 2, 243 (2012).
26. G. Carleo, F. Becca, L. Sanchez-Palencia, S. Sorella, M. Fabrizio, Phys. Rev. A 89, 031602 (2014).
27. A. N. Kolmogorov, Dokl. Akad. Nauk SSSR 108, 179–182 (1961).
28. K. Hornik, Neural Netw. 4, 251–257 (1991).
29. N. Le Roux, Y. Bengio, Neural Comput. 20, 1631–1649 (2008).
30. K. Sohn, H. Lee, “Learning invariant representations with local transformations,” in Proceedings of the 29th International Conference on Machine Learning, Edinburgh, Scotland, 26 June to 1 July 2012 (Omnipress, 2012), pp. 1311–1318.
31. M. Norouzi, M. Ranjbar, G. Mori, “Stacks of convolutional restricted Boltzmann machines for shift-invariant feature learning,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 20 to 25 June 2009 (IEEE, 2009), pp. 2735–2742.
32. S. Sorella, M. Casula, D. Rocca, J. Chem. Phys. 127, 014105 (2007).
33. M. Dolfi et al., Comput. Phys. Commun. 185, 3430–3440 (2014).
34. A. W. Sandvik, Phys. Rev. B 56, 11678–11690 (1997).
35. F. Mezzacapo, N. Schuch, M. Boninsegni, J. I. Cirac, New J. Phys. 11, 083026 (2009).
36. M. Lubasch, J. I. Cirac, M.-C. Ba?uls, Phys. Rev. B 90, 064425 (2014).
37. P. A. M. Dirac, Math. Proc. Camb. Philos. Soc. 26, 376–385 (1930).
38. Y. I. Frenkel, Wave Mechanics: Advanced General Theory (International Series of Monographs on Nuclear Energy: Reactor Design Physics, The Clarendon Press, 1934). 39. S. R. White, A. E. Feiguin, Phys. Rev. Lett. 93, 076401 (2004).
40. G. Vidal, Phys. Rev. Lett. 93, 040502 (2004).
41. A. J. Daley, C. Kollath, U. Schollwock, G. Vidal, J. Stat. Mech. 2004, P04005 (2004).
42. B. Bauer et al., J. Stat. Mech. 2011, P05001 (2011).
推薦閱讀:
為什么他們要來集智AI學園學習 PyTorch?|早鳥福利最后一天
重磅系列課:火炬上的深度學習(下)|集智AI學園
引力、量子與人工智能的深度對話|尤亦莊
量子計算時代的機器學習|黃金龍
量子糾纏:從量子物質態到深度學習
記2016年集智-凱風研讀營|統一之路:量子糾纏、時空幾何與機器學習
記2017集智-凱風研讀營:機器學習、理論物理、計算社會學、復雜網絡的碰撞
集智俱樂部:人工智能在量子物理中的應用|上海分舵公開活動
用深度學習解讀量子宇宙奧秘|甘文聰
集智QQ群|292641157
商務合作|zhangqian@swarma.org
投稿轉載|wangting@swarma.org
◆ ◆ ◆
搜索公眾號:集智俱樂部
加入“沒有圍墻的研究所”
劉同林