1 調查目的

1.1 了解近三年來在機器學習(與並行計算)的範疇內,在非光滑凸優化、非強凸優化和非凸優化問題上的最新研究進展,包括重要突破、熱點問題、主要壁壘和實際應用等;

1.2 加深理解研究(非)凸優化問題對於機器學習的意義;

1.3 幫助儘快確定畢業設計的研究課題;

2 調查範圍

2.1 時間範圍:2015年至2018年

2.2 文獻來源:JMLR(Journal of Machine Learning Research),ICML(International Conference on Machine Learning),ICLR(International Conference on Learning Representations),NIPS(Neural Information Processing Systems),arxiv.org

3 調查結論

共收集了60篇論文,其中

l 2018年的有17篇,2017年的有23篇,2016年的有15篇,2015年的有5篇;

l 來自ICML的有22篇,來自NIPS的有15篇,來自JMLR的有4篇,來自ICLR有的3篇,其餘16篇。

根據主要研究的問題,將所有論文分為以下種七類別:

3.1 Finite-sum optimization/Empirical loss minimization:[2,4,13,24,27,34,44,53,54,55,56,57,58]

即形式如下的問題:

在參考文獻中均是研究非凸問題。

[44,2016] 給出了SVRG的收斂性證明,並證明了其非漸近的收斂速度(快於SGD與GD);並且對其中一類子問題, SVRG可線性收斂到全局最優;另外擴展到mini-batch variants of SVRG,從理論上證明了線性提速。

而關於SVRG的變體,[55,2016] 提出first-order minibatch stochastic method,收斂階從 O(1/ε2) 提升到 O(1/ε) (faster than full gradient descent by ?(n1/3));

[27,2017] 在SCSG演算法的基礎上改進,結合PL條件提出新的加速方法;證明在訓練多層神經網路中,表現優於SGD;[57,2018] 根據動量方法,對 SVRG 進行改進,提出了Katyusha X;[13,2018] 則嘗試對牛頓方法進行改進,提出了一種新的立方正則化方法——SVRC演算法(stochastic variance-reduced cubic regularized Newton method),證明只需要 二階oracle調用,就可收斂到 局部最小值;這似乎是首次成功利用方差下降在牛頓方法上優化收斂階;[4,2018] 提出NCGS演算法(免映射優化)——一種批量、隨機的方法;以及它的變體NCGS-VR(variance reduced NCGS),表現優於batch NCGS。

亦有研究子抽樣技術的文獻,如[24,2017] 提出子抽樣版本的立方正則化方法(SCR),可避開嚴格鞍點並且有些情況下收斂性更強;子抽樣通過減少每次迭代過程中使用的樣本來降低計算複雜度;不過此文只證明了收斂性,但未定義收斂階;[34,2018] 提出子抽樣版本的variants of trust region (TR) and adaptive regularization with cubics (ARC) algorithms,試圖解決一階演算法(如SGD)中覺的難題,如收斂階相對較低、對超參數敏感以及易陷入鞍點等等。

在二階問題的研究上,[53,2017] 基於GD和SGD提出了NEON,提升了避開非退化型鞍點的時間複雜度;另外結合NEON和已知的一階隨機演算法,使其能夠收斂到二階穩定點(在作者看來,這是首個證明用一階隨機演算法可以在關於目標函數的維度的、幾乎線性時間內、收斂到二階穩定點的理論成果);[56,2017] 在不降低原演算法性能的前提下,提出兩種歸約方法:將找穩定點的演算法轉化為找局部最小值(成功用SGD, GD, SCSG, and SVRG找到局部最小值,表現中等);將Hessian-free方法中的計算Hessian內積的過程用梯度來計算,成功將Natasha2轉化為一階方法。

另外還有一些較獨立的研究:[54,2017] 提出一系列可凸化的卷積神經網路(CCNNs,convexified convolutional neural networks);證明對於兩層的CNN可收斂到最優網路;而對於更深的網路雖無同樣的保證,但至少表現優於backpropagation, SVMs, fully-connected neural networks, stacked denoising auto-encoders等傳統方法;[58,2017] 結合了Oja方法(用以避開鞍點),對任意光滑神經網路,使用 O(ε?3.25) 向後傳播便可收斂到ε-approximate local minima;

[2,2018] 解釋了為何在過參數化的問題中,神經網路能夠有好的泛化表現;並證明了在此條件下,SGD可有效防止過擬合,且收斂階與網路大小無關。

總的來說,這類問題涵蓋了較多的實際機器學習問題,因而引來了較多的關注,對於不同的情況也陸續有新的研究成果出現。建議的研究方向可以是對Leaky ReLU([2])的進一步探索,對原始數據放寬假設;或是對[4,2017]的NCGS演算法使用accelerated steps。

3.2 有兩項的組合函數(特別地,包括Regularized empirical loss minimization):[3,23,39,40;5,10,11,15,16,18,28,29,31,37,38,43,48,59;7,9,19,30,51]

對於一般的Regularized empirical loss minimization 的研究是最多的,比如有兩篇論文對CoCoA提出了改進:[5,2015] 提出CoCoA的變體:CoCoA+,降低了收斂速度受問題規模的影響,從而提高了效率;將CoCoA(+)都擴展到了非光滑問題,從理論上給出了原始對偶收斂階,並在某些前提下給出了提速的方法;[29,2015] 改進了mini-batched SDCA(stochastic dual coordinate ascent)以適用於不同類型的樣本;相較CoCoA+更簡單且更快收斂。

亦有文獻基於SVRG提出新成果,如[43,2016] 提出fast stochastic algorithms,經過常量個小批量即可收斂到穩定點;在此基礎上還提出比batch proximal gradient descent更快的一種變體,並且對於其中一類子問題證明了全局的線性收斂;[16,2017] 提出fast stochastic variance reduction gradient (FSVRG) method,引入了Nesterovs momentum和growing epoch size兩種技術;相比先前的演算法,只有一個輔助變數和一個動量參數,從而收斂速度更快;值得一提的是,此方法對於強凸問題有線性斂速、對於非強凸有O(1/T2)斂速(T是外循環次數); [59,2017] 提出一種隨機一階方法,其結果取決於Hessian矩陣的最小特徵值——該值能反映非凸性的強弱;改進 SVRG,把每個epoch劃分為p個sub-epochs,並加上正則項 σ||x – x*||2,從理論上證明可以有更優的表現。

有數篇文獻討論了更加一般化的組合函數,如[39,2015] 提出了 parallel coordinate descent method (PCDM) 的改進版本,在強凸與非強凸的情況下均用實驗證明了更優的表現;另外證明了PCDM得到的序列本身就是單調的,原作中的monotonicity test可以省去;還證明了水平集無界的情況下亦可收斂;[23,2016] 提出 multi-step inertial Forward–Backward splitting algorithm,用於解兩個非凸函數之和的最小值,在KL性質的條件下證明了收斂性;[40,2016] 將computed tomography (CT) imaging中的思想移植到組合函數中,提出一個原始/對偶最優化方法MOCCA,在每個迭代過程中把局部最優解賦值給每一項。有個較新的研究[3,2018] 針對非光滑問題、線性約束和凸分解問題,給出了CGM(條件梯度)的實現,並證明了最優可達收斂階O(1/√k) 。

另外有些文獻研究的問題比較特殊,但因為形式同樣可化為兩項的組合函數形式,故而也放在這一類中。如[7,2015]和[19,2017]都研究對偶問題,前者提出parallel asynchronous stochastic dual coordinate descent algorithms (PASSCoDe),即DCD演算法的非同步並行版本;每個線程重複地用原始變數隨機選擇對偶變數、更新坐標;文獻證明了DCD演算法在原子操作下可達線性收斂速度,而對於非原子操作的環境則引入了perturbed regularizer,大大提升了收斂速度(但文中未給出與其他方法的比較);而後者提出自適應版本的坐標下降和隨機梯度下降方法,引入了 Bandit 優化算 法,「學習」概率以採樣坐標或樣本,從而保證接近最優的採樣方式;並證明了如果這種結構(指在不同的坐標或樣本上表現出明顯不同的梯度)確實存在,那這種自適應方法比非自適應方法更快。

在矩陣相關的問題上,[30,2016] 對於一般化的分解問題(如rank-one matrix sensing),基於one-pass alternating updating framework提出One-Pass gFM演算法(mini-batch演算法)在特定的數據上可達到線性收斂階。

另外注意到兩個較獨立的議題:[51,2017] 也嘗試對牛頓方法進行改進,結合最優梯度和多態鬆弛法提出了DC proximal Newton algorithm,在稀疏問題上達到了二階收斂速;[9,2018] 在深度線性與非線性神經網路非凸問題上,提出了關鍵點為全局最小值點的必要條件和充分條件。

兩項組合函數問題是個很廣泛的問題,但也因此很大程度上覆蓋了機器學習中諸多問題。總的來看目前的研究多集中在經驗損失函數加上正則項的問題上,已經有少量的研究者在嘗試突破將問題一般化並取得了初步成效,目測這會是個不錯的研究方向。另外根據文中的提議,具體說來有以下研究內容可作為參考:[3]提出的CGM演算法降低了計算複雜度,但缺陷是丟失了仿射不變性(affine invariance),可考慮將其結合;[7]中未對擾動項明確定義邊界,可以嘗試研究出更合適的擾動範圍;[17]針對ASAGA提出非同步版本,可嘗試對SGD、Prox-SVRG等演算法也研究非同步版本;[59]最後提出的對SVRG的改進未給出實驗證明,而且發現一個有趣的「二分」現象——即計算複雜度受Hessian矩陣的最小特徵根的明顯影響,這兩者都可以作為潛在的研究方向。

3.3 低秩問題(典型地,包括low-rank matrix recovery與matrix completion):[6,33,36,42,46,49,50,60]

此類別主要為矩陣填充問題,如[6,2016] 對matrix completion問題首次提出可證的、高效的online演算法,證明在初始點選得好的情況下迭代速度很快:複雜度關於d為線性,但與offline方法相比各有所長;對於SGD方法,用本文的框架可改善其在避開鞍點的過程中步長過小的問題,從而由次線性提升到幾乎最優的收斂速度;[49,2016] 研究矩陣填充問題,利用Burer-Monteiro factorization將原矩陣轉化為更高維度的半正定矩陣,並用普通的GD方法求解;[42,2017] 將數個低秩矩陣問題(包括 matrix sensing, matrix completion and robust PCA)的研究結果關聯起來,證明局部最小點亦為全局最小點,且無高階鞍點;並證明在設定的誤差範圍內,收斂速度為多項式時間。

對於矩陣還原問題,[46,2016] 證明對於一類子問題(non-convex factorized parametrization of low-rank matrix recovery from incoherent linear measurements),所有局部最小點與全局最小點很近;並為SGD提供了達到多項式收斂速度的方法;[50,2018] 在損失函數強凸、強光滑的條件下,設計出了基於原始對偶的演算法來還原低秩矩陣。

還有兩個同為低秩問題的研究比較特殊:[60,2017] 嘗試對多視圖表示學習使用非凸方法,在文獻中給出了理論支撐,但無實驗驗證;[33,2016] 研究了一系列SDPs(包括max-cut, community detection in the stochastic block model, robust PCA, phase retrieval and synchronization of rotations),證明其在低秩Burer–Monteiro形式下幾乎可認為無局部最優點;

至於新研究方向,文獻中給出了以下建議:[42]研究的是不同問題的相似性,但主要只討論了三種類型,考慮將問題類型進一步擴展;[46]討論的是秩約束問題下的全局收斂性,此問題可以當作是較新的議題,值得跟進;[50]中指出可以對基於原始對偶的演算法提供收斂性證明,並且將問題擴展到無incoherence constraints。

3.4 有三項的組合函數:[1,12,26,32]

三項組合函數研究難度大,但因其適用範圍廣,而且可以輕易套用很多研究成果,所以也有部分人在研究,但重要突破似乎不多。

在原始對偶問題上,相關研究如[1,2017] 結合四種思想:smoothing, acceleration, homotopy以及coordinate descent,提出一種坐標下降演算法,收斂速度可達到O(n/k)(k是迭代次數);作者表示這是首次有人證明坐標下降演算法也可達到此收斂階;[12,2016] 提出 NonconvEx primal-dual SpliTTing (NESTT) algorithm,將問題劃分為N個子問題,在分散式環境下建立了多個版本,其中一個版本的收斂速度最高可經GD方法快O(N)倍;對於多面約束的L1二次罰函數問題(nonconvex L1 penalized quadratic problems with polyhedral constraints)有Q線性收斂速度。

此外還有使用DC技術以及對KL性質的應用的,如[32,2015] 改進DC方法為DCA演算法,擴展到非光滑,並且只要求第二個函數為凸函數;在KL性質下證明了收斂性,但未定義收斂階;

[26,2018] 證明對特定類型的問題,迭代過程中的下降點列的極限為穩定點並證明在條件KL下可保證下降點列極限存在。

在研究建議上,[1]提出可考慮將強凸結合到坐標下降方法中。

3.5 Generic optimization:[17,21,45,47]

這個類別與第一個類別有較多的交集,但考慮的函數類型更加一般,研究的人也很少,不過依然有一些不錯的成果值得關注。

[17,2016] 提出了一個在研究中很實用的結論:在L-gradient條件下,有如下強弱關係:SC -> ESC -> WSC -> RSI -> EB == PL -> QG。進一步地,若目標函數為凸函數,則:RSI == EB == PL == QG。這樣等價關係使得很多研究成果相互挪用的空間得到很大的提升。

其他文獻是對GD或SGD方法的改進。[21,2017] 提出針對 SGD的熱重啟技術,並用四個實例表明達到同樣的效果epochs只需要一半甚至1/4;[45,2017] 證明GD避開鞍點耗時為指數時間,而perturbed GD則只需要指數時間;[47,2018] 對次梯度方法進行改進,周期性地重啟(熱啟動)SG(次梯度)進程,對於很多非光滑非強凸優化問題表現優於SG。

在研究建議方面,[17]未從實驗方面驗證兩個關係式,可考慮研究;[45]未研究若是局部最優點在初始區域內的情況,面向的函數類型也較少,因此也有較大的挖掘空間。

3.6 圖相關問題:[35,52]

3.7 特殊問題:[8,14,20,22,25,41]

這一類有較明顯的交叉性質,難以放在以上類型中,因而單獨提出。

有研究擴散過程的:[8,2016] 為nonconvex statistical optimization提供理論支撐,主要針對SGD用於張量分解問題;

[14,2017] 將以往對於Sparse+Group-Sparse Dirty Models with convex penalties的嚴格假設放寬,並提供了(首個)一致性的理論支撐,用來解釋其在實踐中的良好表現;進一步地,擴展到non-convex penalties,對樣本量與假設都可以有更低的要求;

[22,2018] 研究分散式神經網路中的圖像壓縮;使用SIGNSGD同時實現壓縮梯度和SGD級別的收斂階;

[41,2017] 研究robust optimization問題(包括robust neural network training and submodular optimization),通過將其轉化為隨機優化問題來解決,並證明了這個轉化過程通常是NP-hard的。

至於研究建議,[14]提出可將結論擴展到其他dirty模型;[20]提出可研究在隨機初始化條件下的收斂性。

4 總結

目前主流的研究方法還是有限和和兩項組合函數的光滑非凸問題,而且非凸方面的實踐成果較多、理論成果較少,但應用廣泛,有很強的探索意義。

總的來看,論稀缺性,推薦的研究方向為:對[3]的CGM演算法補上仿射不變性,或[42]中所提的問題的相似性,或[20]提出的可研究在隨機初始化條件下的收斂性;論難度,也許研究SGD、Prox-SVRG等演算法的非同步版本、討論秩約束問題下的全局收斂性、對基於原始對偶的演算法提供收斂性證明等會更容易出成果。

5 參考文獻

[1] Ahmet Alacaoglu, Quoc Tran-Dinh, Olivier Fercoq, Volkan Cevher. Smooth Primal-Dual Coordinate Descent Algorithms for Nonsmooth Convex Optimization. In NIPS, 2017.

[2] Alon Brutzkus & Amir Globerson, Eran Malach & Shai Shalev-Shwartz. SGD LEARNS OVER-PARAMETERIZED NETWORKSTHAT PROVABLY GENERALIZE ON LINEARLY SEPARABLEDATA. In ICLR, 2018.

[3] Alp Yurtsever, Olivier Fercoq, Francesco Locatello, Volkan Cevher. A Conditional Gradient Framework for Composite Convex Minimization with Applications to Semidefinite Programming. In ICML, 2018.

[4] Chao Qu, Yan Li, Huan Xu. Non-convex Conditional Gradient Sliding. In ICML, 2018.

[5] Chenxin Ma, Virginia Smith, Martin Jaggi, et al. Adding vs. Averaging in Distributed Primal-Dual Optimization. In ICML, 2015.

[6] Chi Jin, Sham M. Kakade, Praneeth Netrapalli. Provable Efficient Online Matrix Completion via Non-convex Stochastic Gradient Descent. In NIPS, 2016.

[7] Cho-Jui Hsieh, Hsiang-Fu Yu, Inderjit S. Dhillon. PASSCoDe: Parallel Asynchronous Stochastic dual Co-ordinate Descent. In ICML, 2015.

[8] Chris Junchi Li, Zhaoran Wang, Han Liu. Online ICA: Understanding Global Dynamics of Nonconvex Optimization via Diffusion Processes. In NIPS, 2016.

[9] Chulhee Yun, Suvrit Sra & Ali Jadbabaie. GLOBAL OPTIMALITY CONDITIONS FOR DEEP NEURALNETWORKS. In ICLR, 2018.

[10] Clarice Poon, Jingwei Liang, Carola-Bibiane Schonlieb. Local Convergence Properties of SAGA Prox-SVRG and Acceleration. In ICML, 2018.

[11] Damek Davis and Madeleine Udell, Brent Edmunds. The Sound of APALM Clapping: Faster Nonsmooth Nonconvex Optimization with Stochastic Asynchronous PALM. In NIPS, 2016.

[12] Davood Hajinezhad, Mingyi Hong, Tuo Zhao, Zhaoran Wang. NESTT: A Nonconvex Primal-Dual Splitting Method for Distributed and Stochastic Optimization. In NIPS, 2016.

[13] Dongruo Zhou, Pan Xu, Quanquan Gu. Stochastic Variance-Reduced Cubic Regularized Newton Methods. In ICML, 2018.

[14] Eunho Yang, Aurelie C. Lozano. Sparse+Group-Sparse Dirty Models: Statistical Guarantees without Unreasonable Conditions and a Case for Non-Convexity. In ICML, 2017.

[15] Fabian Pedregosa, Remi Leblond, Simon Lacoste-Julien. Breaking the Nonsmooth Barrier: A Scalable Parallel Method for Composite Optimization. In NIPS, 2017.

[16] Fanhua Shang, Yuanyuan Liu, James Cheng, Jiacheng Zhuo. Fast Stochastic Variance Reduced Gradient Method with Momentum Acceleration for Machine Learning. arXiv:1703.07948v1, 2017.

[17] Hamed Karimi, Julie Nutini, and Mark Schmidt. Linear convergence of gradient and proximal gradient methods under the polyak-?ojasiewicz condition. 2016.

[18] Hoai An Le Thi, Hoai Minh Le, Duy Nhat Phan, Bach Tran. Stochastic DCA for the Large-sum of Non-convex Functions Problem and its Application to Group Variable Selection in Classification. In ICML, 2017.

[19] Hongseok Namkoong, Aman Sinha, Steve Yadlowsky, John C. Duchi. Adaptive Sampling Probabilities for Non-Smooth Optimization. In ICML, 2017.

[20] Huishuai Zhang, Yi Zhou, Yingbin Liang, Yuejie Chi. A Nonconvex Approach for Phase Retrieval Reshaped Wirtinger Flow and Incremental Algorithms. In JMLR, 2017.

[21] Ilya Loshchilov & Frank Hutter. SGDR STOCHASTIC GRADIENT DESCENT WITHWARM RESTARTS. In ICLR, 2017.

[22] Jeremy Bernstein, Yu-Xiang Wang, Kamyar Azizzadenesheli, Anima Anandkumar. SIGNSGD Compressed Optimisation for Non-Convex Problems. In ICML, 2018.

[23] Jingwei Liang and Jalal M. Fadili, Gabriel Peyre. A Multi-step Inertial Forward–Backward Splitting Method for Non-convex Optimization. In NIPS, 2016.

[24] Jonas Moritz Kohler, Aurelien Lucchi. Sub-sampled Cubic Regularization for Non-convex Optimization. In ICML, 2017.

[25] Junpei Komiyama, Akiko Takeda, Junya Honda, Hajime Shimao. Nonconvex Optimization for Regression with Fairness Constraints. In ICML, 2018.

[26] Koulik Khamaru, Martin J. Wainwright. Convergence guarantees for a class of non-convex and non-smooth optimization problems. In ICML, 2018.

[27] Lihua Lei, Cheng Ju, Jianbo Chen, Michael I.Jordan. Non-convex-finite-sum-optimization-via-scsg-methods. In NIPS, 2017.

[28] LiShen, Wei Liu, Ganzhao Yuan, Shiqian Ma. GSOS: Gauss-Seidel Operator Splitting Algorithm for Multi-Term Nonsmooth Convex Composite Optimization. In ICML, 2017.

[29] Martin Takac, Peter Richtari, Nathan Srebro. Distributed Mini-Batch SDCA. arXiv:1507.08322v1, 2015.

[30] Ming Lin, Jieping Ye. A Non-convex One-Pass Framework for Generalized Factorization Machine and Rank-One Matrix Sensing. In NIPS, 2016.

[31] Mingyi Hong, Jason D. Lee, Meisam Razaviyayn. Gradient Primal-Dual Algorithm Converges to Second-Order Stationary Solution for Nonconvex Distributed Optimization Over Networks. In ICML, 2018.

[32] Nguyen Thai An, Nguyen Mau Nam. Convergence analysis of a proximal point algorithm for minimizing differences of functions. arXiv:1504.08079v4, 2015.

[33] Nicolas Boumal, Vladislav Voroninski, Afonso S. Bandeira. The non-convex Burer–Monteiro approach works on smooth semidefinite programs. In NIPS, 2016.

[34] Peng Xu, Farbod Roosta-Khorasani, Michael W. Mahoney. Second-Order Optimization for Non-Convex Machine Learning-An Empirical Study. arXiv:1708.07827v2, 2018.

[35] Qiang Sun, Kean Ming Tan, Han Liu,Tong Zhang. Graphical Nonconvex Optimization via an Adaptive Convex Relaxation. In ICML, 2018.

[36] Qingqing Zheng, John Lafferty. Convergence Analysis for Rectangular Matrix Completion Using Burer-Monteiro Factorization and Gradient Descent. arXiv:1605.07051v2, 2016.

[37] Quanming Yao, James T. Kwok. Efficient Learning with a Family of Nonconvex Regularizers by Redistributing Nonconvexity. In JMLR, 2018.

[38] Qunwei Li, Yi Zhou, Yingbin Liang, Pramod K. Varshney. Convergence Analysis of Proximal Gradient with Momentum for Nonconvex Optimization. In ICML, 2017.

[39] Rachael Tappenden, Martin Takac, Peter Richtarik. On the complexity of parallel coordinate descent. arXiv:1503.03033v1, 2015.

[40] Rina Foygel Barber, Emil Y. Sidky. MOCCA: Mirrored Convex/Concave Optimization for Nonconvex Composite Functions. In JMLR, 2016.

[41] Robert Chen, Brendan Lucier, Yaron Singer, Vasillis Syrgkanis. Robust Optimization for Non-Convex Objectives. In NIPS, 2017.

[42] Rong Ge, Chi Jin, Yi Zheng. No Spurious Local Minima in Nonconvex Low Rank Problems: A Unified Geometric Analysis. arXiv:1704.00708v1, 2017.

[43] Sashank J. Redd, Suvrit Sra, Barnabas Poczos, et al. Proximal Stochastic Methods for Nonsmooth Nonconvex Finite-Sum Optimization. In NIPS, 2016.

[44] Sashank J. Reddi, Ahmed Hefny, Suvrit Sra, et al. Stochastic variance reduction for nonconvex optimization. arXiv:1603.06160v2, 2016.

[45] Simon S. Du, Chi Jin, Jason D. Lee, et al. Gradient Descent Can Take Exponential Time to Escape Saddle Points. In NIPS, 2017.

[46] Srinadh Bhojanapalli, Behnam Neyshabur, Nathan Srebro. Global Optimality of Local Search for Low Rank Matrix Recovery. arXiv:1605.07221v2, 2016.

[47] Tianbao Yang, Qihang Lin. RSG: Beating Subgradient Method without Smoothness and Strong Convexity. In JMLR, 2018.

[48] Tomoya Murata, Taiji Suzuki. Doubly Accelerated Stochastic Variance Reduced Dual Averaging Method for Regularized Empirical Risk Minimization. In NIPS, 2017.

[49] Wei-Lin Chiang, Mu-Chu Lee, Chih-Jen Lin. Parallel Dual Coordinate Descent Method for Large-scale Linear Classification in Multi-core Environments. In ACM, 2016.

[50] Xiao Zhang, Lingxiao Wang, Yaodong Yu, Quanquan Gu. A Primal-Dual Analysis of Global Optimality in Nonconvex Low-Rank Matrix Recovery. In ICML, 2018.

[51] Xingguo Li, Lin F. Yang, Jason G, Jarvis Haupt, Tong Zhang, Tuo Zhao. On Quadratic Convergence of DC Proximal Newton Algorithm in Nonconvex Sparse Learning. In NIPS, 2017.

[52] Xun Zheng, Bryon Aragam, Pradeep Ravikumar, Eric P. Xing. DAGs with NO TEARS Smooth Optimization for Structure Learning. arXiv:1803.01422v1, 2018.

[53] Yi Xu, Rong Jin, Tianbao Yang. First-order Stochastic Algorithms for Escaping From Saddle Points in Almost Linear Time. arXiv:1711.01944v3, 2017.

[54] Yuchen Zhang, Percy Liang, Martin J. Wainwright. Convexified Convolutional Neural Networks. In ICML, 2017.

[55] Zeyuan Allen-Zhu, Elad Hazan. Variance Reduction for Faster Non-Convex Optimization. arXiv:1603.05643v2, 2016.

[56] Zeyuan Allen-Zhu, Yuanzhi Li. Neon2: Finding Local Minima via First-Order Oracles. arXiv:1711.06673v3, 2017.

[57] Zeyuan Allen-Zhu. Katyusha X: Practical Momentum Method for Stochastic Sum-of-Nonconvex Optimization. In ICML, 2018.

[58] Zeyuan Allen-Zhu. Natasha 2: Faster Non-Convex Optimization Than SGD — How to Swing By Saddle Points. arXiv:1708.08694v4, 2017.

[59] Zeyuan Allen-Zhu. Natasha: Faster Non-Convex Stochastic Optimization via Strongly Non-Convex Parameter. In ICML, 2017.

[60] Zhehui Chen, Lin F. Yang, Chris J. Li, Tuo Zhao. Online Partial Least Square Optimization Dropping Convexity for Better Ef?ciency and Scalability. In ICML, 2017.


推薦閱讀:
相关文章