編后語: 神經(jīng)網(wǎng)絡(luò)的培訓(xùn)關(guān)鍵根據(jù)求得一個(gè)優(yōu)化問題來進(jìn)行,但這是一個(gè)艱難的離散系統(tǒng)優(yōu)化問題,傳統(tǒng)式的優(yōu)化理論無法立即運(yùn)用。在神經(jīng)網(wǎng)絡(luò)和提升的交叉式行業(yè),一直以來科學(xué)研究工作人員累積了大批量的研究和專業(yè)知識(shí),但是這種科學(xué)研究或過度基礎(chǔ)理論而不被絕大多數(shù)踐行者所掌握,或過度偏工程項(xiàng)目而不被基礎(chǔ)理論專家學(xué)者所掌握和賞析。文中闡述了神經(jīng)網(wǎng)絡(luò)的計(jì)算方法和優(yōu)化理論。對(duì)煩擾調(diào)參常覺得苦惱的技術(shù)人員來講,文中能夠 給予一些已經(jīng)有的基礎(chǔ)理論了解以僅供參考,并給予一些思索的方法。對(duì)基礎(chǔ)理論專家學(xué)者來講,文中試圖表述其做為數(shù)學(xué)題的難題之所屬及其當(dāng)前的基礎(chǔ)理論進(jìn)度,以求吸引住大量學(xué)者投身于神經(jīng)網(wǎng)絡(luò)優(yōu)化理論和優(yōu)化算法科學(xué)研究。
1 引言優(yōu)化問題一直是神經(jīng)網(wǎng)絡(luò)科學(xué)研究的關(guān)鍵構(gòu)成部分。神經(jīng)網(wǎng)絡(luò)的獨(dú)特性,造成其優(yōu)化問題看起來好像非常簡單,但事實(shí)上由于非線性函數(shù)組成的緣故而越來越比較復(fù)雜。開啟神經(jīng)網(wǎng)絡(luò)的“黑箱子”,其內(nèi)部構(gòu)造宛如一個(gè)非常龐大的謎宮。假如可以了解他們而且有效的使用他們,大家將得到十分強(qiáng)有力的專用工具。 但目前的離散系統(tǒng)優(yōu)化理論遠(yuǎn)遠(yuǎn)地不能表述神經(jīng)網(wǎng)絡(luò)練習(xí)的具體個(gè)人行為。一些實(shí)踐活動(dòng)看起來簡潔的方式 ,盡管有有效的實(shí)際效果,但沒法依靠原有的基礎(chǔ)理論遠(yuǎn)來表述他們的實(shí)效性。這篇具體描述將重點(diǎn)關(guān)注前饋控制神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)難題。神經(jīng)網(wǎng)絡(luò)的優(yōu)化問題能夠 分成三個(gè)流程:第一步是保證優(yōu)化算法可以運(yùn)作,并能收斂到一個(gè)科學(xué)合理的解;第二步是使優(yōu)化算法盡量快地收斂;第三步是保證優(yōu)化算法收斂到比如全局最少那樣的更快的解,即收斂性、收斂速率和全局品質(zhì)。
2 有監(jiān)管深度學(xué)習(xí)優(yōu)化問題假定給出個(gè)數(shù)據(jù)信息點(diǎn),在其中各自意味著樣版點(diǎn)的矩陣的特征值與對(duì)應(yīng)的標(biāo)識(shí)空間向量。有監(jiān)管深度學(xué)習(xí)每日任務(wù)一般是運(yùn)用的消息來預(yù)測(cè)分析相對(duì)應(yīng)的。在我們應(yīng)用一個(gè)神經(jīng)網(wǎng)絡(luò) 來類似到的映射函數(shù)時(shí),必須挑選神經(jīng)網(wǎng)絡(luò)中的主要參數(shù),促使預(yù)測(cè)分析輸出最貼近真正輸出。這類貼近水平可以用某類間距度量開展衡量。假定意味著和中間的間距,那麼優(yōu)化問題就變?yōu)檎覍ぷ罴阎饕獏?shù),促使間距涵數(shù)最少。在回歸問題中,間距度量一般用二次交叉熵來表明,而在二分類難題中,常常挑選 。
3 梯度下降法很多的神經(jīng)網(wǎng)絡(luò)優(yōu)化問題都選用梯度下降法(GD)開展求得。梯度下降法的基礎(chǔ)方式是 ,在其中是步幅(也稱之為“學(xué)習(xí)培訓(xùn)速度”),是第t次迭代更新的交叉熵的梯度方向。交叉熵的梯度方向選用從網(wǎng)絡(luò)高層向網(wǎng)絡(luò)最底層反向傳播的形式開展測(cè)算,那樣一種重啟動(dòng)在附加的假定標(biāo)準(zhǔn)下還可以被覺得是達(dá)到一般的意義上的收斂,但也會(huì)在一些狀況下造成 梯度爆炸及其梯度消失的難題。
4 應(yīng)用神經(jīng)網(wǎng)絡(luò)的方法在沒有先驗(yàn)工作經(jīng)驗(yàn)的情形下,練習(xí)一個(gè)神經(jīng)網(wǎng)絡(luò)而求獲得一個(gè)科學(xué)合理的精密度是十分艱難的?,F(xiàn)如今,大家也從很多的試驗(yàn)中匯總出一些應(yīng)用神經(jīng)網(wǎng)絡(luò)的方法。
4.1 梯度爆炸/梯度消失梯度爆炸/梯度消失是練習(xí)神經(jīng)網(wǎng)絡(luò)全過程中最為常見的難題,這類難題會(huì)造成 收斂速率過度遲緩。在梯度方向的反向傳播全過程中,輸出層的偏差將被傳到前一層,進(jìn)而調(diào)節(jié)權(quán)重值以降低偏差。在一系列散播環(huán)節(jié)中,梯度方向有可能在每一層被變大進(jìn)而發(fā)生爆炸,或是在每一層被變小進(jìn)而消退。這2種狀況一定會(huì)造成 權(quán)重值的升級(jí)發(fā)生難題。那麼如何解決梯度爆炸/消退難題呢?針對(duì)一維優(yōu)化問題,能夠 在“山間盆地”內(nèi)部挑選一個(gè)貼近全局極小值的起始點(diǎn)逐漸迭代更新全過程。而針對(duì)一般的高維空間難題,一種相近的解決辦法也是在“好山間盆地”內(nèi)挑選一個(gè)原始點(diǎn),那樣加能夠 加速迭代更新速率。這就與原始點(diǎn)的選擇問題密切有關(guān)。
4.2 原始點(diǎn)的挑選在起始點(diǎn)的選取區(qū)域內(nèi),有一大片地區(qū)會(huì)導(dǎo)致梯度爆炸/消退,這種地區(qū)就被稱作梯度爆炸/消退地區(qū)。那麼如何確定哪兒是梯度爆炸/消退地區(qū),哪兒也是好的范圍呢?最先試著一些簡潔的起始點(diǎn),比如全零原始點(diǎn), 或是是僅有一小部分非零權(quán)重值的稀少原始點(diǎn)。亦或是從一些隨機(jī)分布中提取權(quán)重值。殊不知這類試著并不具備盈余管理,因此此外一類具備標(biāo)準(zhǔn)的起始點(diǎn)挑選方式 獲得普遍應(yīng)用,比如Bouttou和LeCun明確提出的具備特殊標(biāo)準(zhǔn)差的任意復(fù)位法,預(yù)訓(xùn)練方法及其根據(jù)此改善的Xavier復(fù)位法,Kaiming復(fù)位法,層序企業(yè)標(biāo)準(zhǔn)差(LSUV)復(fù)位法,根據(jù)Kaiming法演化的帶一般離散系統(tǒng)激活函數(shù)的無盡寬網(wǎng)絡(luò)法,對(duì)于不一樣網(wǎng)絡(luò)類型的動(dòng)態(tài)性定距法及其元復(fù)位法。
4.3 規(guī)范化方式第二種處理梯度爆炸/消退的辦法是在優(yōu)化算法全過程中實(shí)現(xiàn)規(guī)范性。它被覺得是前一種方式 的拓展,由于除開改善原始點(diǎn)以外,還需要改善事后迭代更新全過程的網(wǎng)絡(luò)。一種象征性的辦法是批處理命令規(guī)范性(BatchNorm),其目的是對(duì)樣版中每一層的輸入輸出開展規(guī)范性,將規(guī)范性全過程看作一個(gè)離散系統(tǒng)轉(zhuǎn)換“BN”,并將BN層加入到初始神經(jīng)網(wǎng)絡(luò)中。BN層與激活函數(shù)和別的網(wǎng)絡(luò)層充分發(fā)揮同樣的功效。BatchNorm方式 被證實(shí)在理論上具備明顯的優(yōu)勢(shì),比如降低了李普希茲參量,提升了學(xué)習(xí)率等。其缺陷取決于,BatchNorm應(yīng)用判別分析的平均值和標(biāo)準(zhǔn)差來做為樣版整體的平均值與標(biāo)準(zhǔn)差的類似,進(jìn)而致使練習(xí)具備不一樣統(tǒng)計(jì)量的小批量生產(chǎn)樣版時(shí)主要表現(xiàn)不佳。因而學(xué)者指出了此外一些計(jì)量法,如權(quán)重值規(guī)范化,網(wǎng)絡(luò)層規(guī)范化,案例規(guī)范化,群規(guī)范化,譜規(guī)范化及其能換規(guī)范化。
4.4 更改神經(jīng)系統(tǒng)構(gòu)架第三種解決方案是更改神經(jīng)系統(tǒng)構(gòu)造。ResNet選用了一個(gè)簡潔的實(shí)用技巧:每過多層網(wǎng)絡(luò)就提升一個(gè)真實(shí)身份自動(dòng)跳轉(zhuǎn)聯(lián)接。以前的神經(jīng)網(wǎng)絡(luò),每一層能夠 表述為,在其中是層的權(quán)重值,是層的輸出。ResNet的每一層網(wǎng)絡(luò)則轉(zhuǎn)換為,在其中F意味著初始網(wǎng)絡(luò)的多層,比如。ResNet早已獲得了明顯的取得成功。神經(jīng)系統(tǒng)架構(gòu)模式是當(dāng)今深度神經(jīng)網(wǎng)絡(luò)科學(xué)研究的具體構(gòu)思之一。
4.5 練習(xí)極深神經(jīng)網(wǎng)絡(luò)現(xiàn)階段有幾種辦法能夠 練習(xí)十分深的網(wǎng)絡(luò)(例如超出1000層),并在圖像分類每日任務(wù)中獲得很好的精確性。
除開這三個(gè)方法以外,也有非常多的危害神經(jīng)網(wǎng)絡(luò)主要表現(xiàn)的設(shè)計(jì)方案挑選,比如數(shù)據(jù)處理方法,優(yōu)化方法,損失函數(shù),神經(jīng)系統(tǒng)構(gòu)造和激活函數(shù)等。
5 練習(xí)神經(jīng)網(wǎng)絡(luò)的常用優(yōu)化算法5.1 任意梯度下降法與學(xué)習(xí)培訓(xùn)速度調(diào)節(jié)任意梯度下降法(SGD)的原理以下:在第t次迭代更新中,任意挑選一組小批樣版的系數(shù)開展升級(jí),在其中意味著步幅(學(xué)習(xí)培訓(xùn)速度)。在非常簡單的SGD版本里,步幅是不變的,這類任意梯度下降法也被稱作vanilla SGD。在非穩(wěn)定步幅的情形下,學(xué)習(xí)培訓(xùn)速度也是有不一樣的轉(zhuǎn)換方式。比如,學(xué)習(xí)培訓(xùn)速度的“加熱”在深度神經(jīng)網(wǎng)絡(luò)中被普遍應(yīng)用,其含意是在數(shù)次迭代更新中先應(yīng)用特別小的學(xué)習(xí)培訓(xùn)速度, 隨后提升到“基本”學(xué)習(xí)培訓(xùn)速度。另一種轉(zhuǎn)變是循環(huán)系統(tǒng)學(xué)習(xí)率,基本上觀念是妥協(xié)長在低限和最大值中間彈跳。
固定不動(dòng)學(xué)習(xí)率與下降學(xué)習(xí)率的非常與剖析一直是SGD的概念解析的關(guān)鍵?;A(chǔ)理論分析表明,神經(jīng)網(wǎng)絡(luò)提升具備獨(dú)特的構(gòu)造,因而經(jīng)典優(yōu)化理論很有可能不適合用以神經(jīng)網(wǎng)絡(luò)。梯度下降法的收斂加快難題也是理論基礎(chǔ)研究的關(guān)鍵。 有關(guān)研究證實(shí),SGD相對(duì)性于一般梯度下降法的收斂速率有些加速。但這類加快作用也在于很多其它要素。
5.2 拋體運(yùn)動(dòng)和加快SGD推動(dòng)量的SGD的原理以下:在第五次迭代更新中,任意選擇小批樣版,并根據(jù)下列方法升級(jí)拋體運(yùn)動(dòng)項(xiàng)和主要參數(shù):。這類方法在深度學(xué)習(xí)行業(yè)獲得了普遍的運(yùn)用,他們?cè)诰唧w運(yùn)用中的收斂速率比一般的任意梯度方向法要快,并且在解決凸難題或二次難題中也具備理論上的優(yōu)點(diǎn)。拋體運(yùn)動(dòng)SGD的良好主要表現(xiàn)僅適用批處理命令方式 (即每一次迭代更新應(yīng)用全部樣版)。但在具體運(yùn)用中,這類理論上的優(yōu)越性也無法達(dá)到。 有這兩種辦法能夠取得比SGD迅速的收斂速率。最先,根據(jù)運(yùn)用例如標(biāo)準(zhǔn)差減縮這類的方法,更高等級(jí)的優(yōu)化方法來完成拋體運(yùn)動(dòng)與SGD這一組成在收斂速率上的基礎(chǔ)理論提高。但這種方式 有一些繁雜, 結(jié)合實(shí)際并不時(shí)興。第二種方式 是根據(jù)考慮到情況的大量構(gòu)造和更簡易的SGD組合來完成加快。以上方式 僅適用凸難題,因而無法同時(shí)可用于非凸的神經(jīng)網(wǎng)絡(luò)難題。近期有很多邏輯性新辦法的設(shè)計(jì)方案,使其收斂速率在一般非凸難題上比一般的隨即梯度下降法還需要快,但這種方式 仍待普遍地運(yùn)用與檢測(cè)。
5.3 響應(yīng)式梯度方向方式第三類時(shí)興的辦法是如 AdaGrad,RMSProp和Adam的響應(yīng)式梯度下降法。 AdaGrad的表述如下所示:在第五次迭代更新中,任意挑選小批量生產(chǎn)樣版并將主要參數(shù)升級(jí)為:,在其中。AdaGrad的一個(gè)缺陷是它對(duì)全部以前的梯度方向都一視同仁,因而對(duì)以往的梯度方向應(yīng)用指數(shù)值下降權(quán)重值。的這一新界定啟迪了RMSProp和一個(gè)更繁雜的優(yōu)化算法AdaDelta。AdaGrad響應(yīng)式梯度方向方式 是用于解決稀少和高寬比不平衡的數(shù)據(jù)信息,也被廣泛認(rèn)為比平常的SGD和推動(dòng)量的SGD有更快的收斂速率但更差的廣泛性。
5.4 規(guī)模性分布式計(jì)算神經(jīng)網(wǎng)絡(luò)提升的一個(gè)關(guān)鍵課題研究是怎樣運(yùn)用幾臺(tái)設(shè)備加快練習(xí)。這一題材與分布式系統(tǒng)和并行處理息息相關(guān)。另有其余的學(xué)習(xí)培訓(xùn)速度回歸分析法與二階法被明確提出來改善神經(jīng)網(wǎng)絡(luò)的培訓(xùn)全過程。
6 神經(jīng)網(wǎng)絡(luò)的全局提升上述情況的辦法關(guān)鍵用于求得部分最佳主要參數(shù),但因?yàn)樯疃葘W(xué)習(xí)的優(yōu)化問題具備非凸性,這種方式 無法確保求取全局最佳主要參數(shù)?,F(xiàn)階段有愈來愈多的科研已經(jīng)嘗試處理全局最佳難題,比如:優(yōu)化算法啥時(shí)候收斂到全局極小值?是不是存有最優(yōu)部分極小值?提升自然環(huán)境有什么特點(diǎn)?如何選擇一個(gè)原始點(diǎn)來確保收斂到全局極小值?這種難題分歸屬于下列的分類行業(yè)
可解決的難題 哪些的情況是可解決的?大家一般覺得非凸難題難以解決,但事實(shí)上很多非凸優(yōu)化問題能夠 被再次表明為凸難題,因而可解決與不能解決難題的邊界并不清楚。創(chuàng)作者猜測(cè)一些神經(jīng)網(wǎng)絡(luò)難題歸屬于“易解決的”難題。全局提升 致力于設(shè)計(jì)方案和剖析優(yōu)化算法,尋找全局最優(yōu)解。非凸引流矩陣/偏微分溶解 這也是與神經(jīng)網(wǎng)絡(luò)全局提升最有關(guān)的子行業(yè),試著表述為何很多非凸引流矩陣/偏微分難題能夠 很容易地求得到全局極小值6.1 實(shí)證研究探尋神經(jīng)網(wǎng)絡(luò)的高維空間交叉熵組成了一個(gè)損害斜面,也被稱作提升地貌。Dauphin等人到她們初期的文章中說明,沒有在神經(jīng)網(wǎng)絡(luò)的提升地貌上發(fā)覺槽糕的部分極小值。在一些二維數(shù)據(jù)可視化科學(xué)研究中,伴隨著總寬的提升,提升地貌越來越“更光滑”,而且加上自動(dòng)跳轉(zhuǎn)聯(lián)接也會(huì)使這一地貌更為光滑。雖然難以準(zhǔn)確地作出高維空間表層的表現(xiàn),但在神經(jīng)網(wǎng)絡(luò)行業(yè),大家看到了深層神經(jīng)網(wǎng)絡(luò)的一個(gè)幾何圖形特性,即“方式連接度”。Draxler等人與Garipov等單獨(dú)地發(fā)覺2個(gè)全局極小值能夠 根據(jù)等價(jià)途徑聯(lián)接。另一個(gè)與提升地貌息息相關(guān)的研究課題是練習(xí)更小的神經(jīng)網(wǎng)絡(luò)(或稱之為“高效率深度神經(jīng)網(wǎng)絡(luò)”)。網(wǎng)絡(luò)剪修方式 說明,很多大中型網(wǎng)絡(luò)能夠 被剪修以取得更小的網(wǎng)絡(luò),而檢測(cè)精密度只降低非常少。殊不知,在網(wǎng)絡(luò)剪修歷程中,小網(wǎng)絡(luò)一般務(wù)必從具備優(yōu)良特性的大網(wǎng)絡(luò)的解中遺產(chǎn)繼承重,不然重新開始練習(xí)小網(wǎng)絡(luò)一般會(huì)致使特性明顯降低。 Frankle和Carbin發(fā)覺,在某種情形下,一個(gè)好的起始點(diǎn)能夠 被相對(duì)性非常容易地尋找。針對(duì)一些數(shù)據(jù),工作經(jīng)驗(yàn)說明,一個(gè)大中型網(wǎng)絡(luò)包括一個(gè)中小型子網(wǎng)掩碼和一個(gè)指定的“半任意”原始點(diǎn),因而從這一原始點(diǎn)練習(xí)中小型網(wǎng)絡(luò)能夠 得到類似大中型網(wǎng)絡(luò)的特性。可練習(xí)地子網(wǎng)掩碼被稱作 “得獎(jiǎng)福利彩票”,因?yàn)樗@得了“復(fù)位福利彩票”。福利彩票理論(LTH)強(qiáng)調(diào),那樣的獲獎(jiǎng)福利彩票一直出現(xiàn)的。有關(guān)網(wǎng)絡(luò)剪修和LTH的工作中大部分是事實(shí)性的,還須要越來越多的基礎(chǔ)理論論述。
提升地貌一直以來也被指出與廣泛偏差相關(guān)。一個(gè)普遍的猜測(cè)是一個(gè)平且寬的極小值比險(xiǎn)峻的很小有更強(qiáng)的廣泛性,這一猜測(cè)也被相應(yīng)的實(shí)驗(yàn)室認(rèn)證。也有的人覺得險(xiǎn)峻的極小值能夠 根據(jù)再次參數(shù)化設(shè)計(jì)的辦法變?yōu)槠綄挼臉O小值,進(jìn)而提升 廣泛性。因而,怎樣嚴(yán)苛界定“寬”和“尖”,進(jìn)而怎樣找尋較寬的極小值,變成現(xiàn)階段主要的課題研究。
6.2 深層神經(jīng)網(wǎng)絡(luò)的優(yōu)化理論針對(duì)超高網(wǎng)絡(luò)的梯度下降法難題的概念剖析在三類深層次神經(jīng)網(wǎng)絡(luò)獲得了充分的結(jié)果,他們分別是深層線形網(wǎng)絡(luò)、深層過多參數(shù)化設(shè)計(jì)網(wǎng)絡(luò)和優(yōu)化的網(wǎng)絡(luò)。深層次線形網(wǎng)絡(luò)線形網(wǎng)絡(luò)基本上沒有表明工作能力,但在十分放松的標(biāo)準(zhǔn)下,深層次線形網(wǎng)絡(luò)的每一個(gè)部分極小值全是一個(gè)全局極小值。 深層過參數(shù)化設(shè)計(jì)網(wǎng)絡(luò)過參數(shù)化設(shè)計(jì)網(wǎng)絡(luò)是非常典型的離散系統(tǒng)網(wǎng)絡(luò)。大家廣泛認(rèn)為 “超過必需范疇的主要參數(shù)”能夠 使提升地貌越來越光滑,但這類猜測(cè)沒有獲得嚴(yán)苛的證實(shí)。試驗(yàn)發(fā)覺,過多參數(shù)化設(shè)計(jì)不可以清除壞的部分極小值,只有清除不好的“山間盆地”(或虛報(bào) 的峽谷)。網(wǎng)絡(luò)的改善難題主要是科學(xué)研究原始的神經(jīng)網(wǎng)絡(luò)的變動(dòng)對(duì)提升地貌產(chǎn)生的危害。迄今為止,大家依然沒法保證任何的神經(jīng)網(wǎng)絡(luò)都能取得成功練習(xí),神經(jīng)網(wǎng)絡(luò)無效的隱患與網(wǎng)絡(luò)的構(gòu)造相關(guān)。比如,很多研究表明帶ReLU激活函數(shù)的網(wǎng)絡(luò)具備太差的部分極小值。
好的提升地貌促使優(yōu)化問題自身有著優(yōu)良的特性,但無法確保蟻群算法也可以有好的結(jié)果。針對(duì)一般的神經(jīng)網(wǎng)絡(luò)而言,對(duì)優(yōu)化算法開展收斂性剖析是非常艱難的。而在線形網(wǎng)絡(luò)和超高網(wǎng)絡(luò)這兩類關(guān)鍵深層網(wǎng)絡(luò)中,很多優(yōu)化算法的收斂性獲得了證實(shí)。
6.3 淺部網(wǎng)絡(luò)科學(xué)研究淺部網(wǎng)絡(luò)的分析主要是聚集在單隱層神經(jīng)網(wǎng)絡(luò)的全局地貌剖析,兩層神經(jīng)網(wǎng)絡(luò)的算法分析及其單隱層神經(jīng)網(wǎng)絡(luò)的算法分析中。
匯總這篇具體描述回顧了現(xiàn)有的與神經(jīng)網(wǎng)絡(luò)優(yōu)化相關(guān)的理論成果,尤其關(guān)注前饋神經(jīng)網(wǎng)絡(luò)的訓(xùn)練問題。目前,我們熟悉理解了初始點(diǎn)的選擇對(duì)穩(wěn)定訓(xùn)練的影響, 也對(duì)過度參數(shù)化對(duì)優(yōu)化地形的影響有了相應(yīng)的理解。而在網(wǎng)絡(luò)的設(shè)計(jì)問題上,受到理論研究的啟發(fā)而產(chǎn)生的算法已經(jīng)成為非常實(shí)用的工具。此外,一些在實(shí)驗(yàn)中出現(xiàn)的有趣的現(xiàn)象,例如模式連通性和彩票假說,需要進(jìn)行更多的理論研究??傮w來說,神經(jīng)網(wǎng)絡(luò)優(yōu)化理論有相當(dāng)大的進(jìn)步。盡管仍有許多挑戰(zhàn),盡管尚不知道我們是否觸及神經(jīng)網(wǎng)絡(luò)優(yōu)化理論的天花板,但就像優(yōu)化理論發(fā)展史所揭示的那樣,我們需要的只是時(shí)間。
作者簡介孫若愚,UIUC(伊利諾伊大學(xué)香檳分校)助理教授,研究數(shù)學(xué)優(yōu)化和機(jī)器學(xué)習(xí) 。在加入U(xiǎn)IUC之前,曾擔(dān)任Facebook人工智能研究所的訪問科學(xué)家。他曾于斯坦福大學(xué)隨INFORMS馮諾依曼獎(jiǎng)獲得者葉蔭宇教授從事博士后研究,博士于美國明尼蘇達(dá)大學(xué)師從加拿大皇家科學(xué)院院士、Farkas獎(jiǎng)獲得者羅智泉教授,本科畢業(yè)于北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院。最近的研究方向包括神經(jīng)網(wǎng)絡(luò)的優(yōu)化理論和算法、生成對(duì)抗網(wǎng)絡(luò)、大規(guī)模優(yōu)化算法、非凸矩陣分解等等。個(gè)人網(wǎng)站 https://ruoyus.github.io/
相關(guān)文章推薦流形優(yōu)化在計(jì)算和應(yīng)用數(shù)學(xué)、科學(xué)工程、機(jī)器學(xué)習(xí)、物理和化學(xué)等領(lǐng)域中有著廣泛應(yīng)用
袁亞湘院士團(tuán)隊(duì)最新力作:流形優(yōu)化綜述https://mp.weixin.qq.com/s/mB4T3S7IWhUoG_834DwZMg