收縮
資訊網全站頂部廣告
RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結
國內市場 時間:2019-05-24

RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結

雷鋒網 AI 科技評論按:上周,深度學習頂級學術會議 ICLR 2019 在新奧爾良落下帷幕。畢業于斯坦福大學、現就職于英偉達的女性計算機科學家 Chip Huyen 參加了這次會議,談到對這次峰會的感想,她有以下 8 點想要講:

1. 包容性

這次 ICLR 2019 著重強調了包容性在 AI 中的重要作用:前兩個主要演講——Sasha Rush 的開場致辭和 Cynthia Dwork 的受邀演講——都是有關公平和平等的。其中一些數據引起了人們的擔憂:

演講者和參會者中,女性的占比率分別只有 8.6% 和 15%;

2/3 的 LGBTQ+研究者沒有以專業身份出席;

這次邀請的大會演講嘉賓一共 8 位,但均為白人。

RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結

Sasha Rush 開場致辭的一頁 PPT

不幸的是,這種情況似乎并沒有引起 AI 研究者的注意和反思。其他的 workshop 都門庭若市,但 AI for Social Good workshop 卻無人問津,這種情況一直到 Yoshua Bengio 的出現才有所改善。在我參與的眾多 ICLR 交流活動中,沒有人提到過多樣性——直到有一次我大聲質問會方為什么要邀請我來這個并不適合我的科技活動時,一位朋友才告訴我:「說出來可能有點冒犯,請你來是因為你是女性?!?/span>

這種現象存在的某種原因是——這類話題是非「技術性」的,這意味著,就算你在此花費再多是時間也不會對你的研究生涯有所助益。另一方面是由于社會風氣依然存在一些問題。一位朋友曾告訴我,不要理睬那個在群聊挑釁我的人,因為「他喜歡取笑那些探討平等和多樣性的人」。我有些朋友不會在網上談論任何有關多樣性的話題,因為他們不想「和那種話題扯上關系」。

2. 無監督表征學習 & 遷移學習

無監督表征學習的主要目標,是從無標注數據中發現有用的數據表征以完成后續任務。在 NLP 中,無監督表征學習通常是利用語言建模完成的。然后將學到的表征運用到情感分析、命名實體識別、機器翻譯等任務中。

去年有幾篇成果不錯的論文,內容是關于 NLP 無監督表征學習的,其中包括 ELMo (Peters et al.)、ULMFiT (Howard et al.)、OpenAI 的 GPT (Radford et al.)、BERT (Devlin et al.),當然,還有「危險性太大而不能公布的完整的 GPT-2」。

在完整的 GPT-2 模型在 ICLR 上進行展示之后,效果令人十分滿意。你可以輸入任意開頭語句,它將會幫你完成后續的文本創作——比如寫出 Buzzfeed 文章、同人文、科學論文甚至是一些生造詞匯的含義。但它現在的水平依然還沒法完全與人類持平。團隊現在正在研究 GPT-3,規模更大、可能效果也更好。我已經迫不及待想看到它的成果了。

雖然計算機視覺是較早的成功應用遷移學習的社區,但其基本任務——在 ImageNet 上訓練分類模型——仍然是監督式的。自然語言處理社區和計算機視覺社區都在問同一個問題:「怎樣才能將無監督表征學習應用到圖像上?」

盡管那些最有名的實驗室已經開始研究,但只有一篇論文出現在 ICLR 大會上:「Meta-Learning Update Rules for Unsupervised Representation Learning」(Metz et al.)。他們的算法沒有更新權重,而是更新了學習規則。接下來在少量標注樣本上微調從習得學習規則中學到的表征,來解決圖像分類問題。他們能夠在 MNIST 和 Fashion MNIST 上找到準確率大于 70% 的學習規則。

作者解釋了其中的一部分代碼,但是并不打算公開它們,因為「它與計算有關」。外層循環需要大約 10 萬訓練步,在 256 個 GPU 上需要 200 個小時的訓練時間。

RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結

元學習的內、外循環(Metz et al.)

我有種預感,在不久的將來,我們會看到更多這樣的論文??梢允褂夢藜嘍窖暗娜撾癜ǎ鶴遠嗦?、預測圖像旋轉(Gidaris 等人的論文《Unsupervised Representation Learning by Predicting Image Rotations》在 ICLR 2018 上很火)、預測視頻中的下一幀。

3. 回溯 ML

機器學習領域的理念和時尚類似,都是在轉圈子。在 poster session 四處走走感覺像走在記憶的回廊上。即使更受期待的 ICLR 辯論也終結在「先驗 vs 結構」的話題上,而這是去年 Yann LeCun 和 Christopher Manning 討論過的話題,這種討論類似貝葉斯學派和頻率學派之間的經年辯論。

MIT 媒體實驗室的「Grounded Language Learning and Understanding」項目在 2001 年就中斷了,但是 grounded language learning 今年帶著兩篇論文重回舞臺,不過它穿上了強化學習的外衣:

DOM-Q-NET: Grounded RL on Structured Language (Jia et al.):給出一個用自然語言表達的目標,該強化學習算法通過填充字段和點擊鏈接學習導航網頁。

BabyAI: A Platform to Study the Sample Efficiency of Grounded Language Learning (Chevalier-Boisvert et al.):一個和 OpenAI Gym 兼容的平臺,具備一個手工制作的 bot 智能體,該智能體可以模擬人類教師指導智能體學習合成語言。

我對這兩篇論文的想法和 AnonReviewer4 一樣:

「……這里提出的方法和語義解析文獻中研究的方法非常類似,盡管這篇論文僅引用了最近的深度強化學習論文。我認為作者會從語義解析文章中受益良多,語義解析社區也可以從這篇論文中得到一些啟發……但是這兩個社區實際上交流并不多,即使在某些情況下我們研究的是類似的問題?!?/span>

確定性有限狀態自動機(DFA)也有兩篇論文登上了 ICLR 2019 的舞臺:

Representing Formal Languages: A Comparison Between Finite Automata and Recurrent Neural Networks (Michalenko et al.)

Learning Finite State Representations of Recurrent Policy Networks (Koul et al.)

兩篇論文的主要動機是,因為 RNN 中的隱藏態空間很大,那么狀態數量是否可以減少到有限的數量呢?我懷疑 DFA 是否能準確地在語言中代表 RNN,但我很喜歡在訓練階段學習 RNN,然后把它轉換到 DFA 進行推理的想法,如同 Koul 等人的論文所示。結果得到的有限表征在游戲 Pong 中只需要 3 個離散記憶狀態和 10 個觀察狀態,它也能幫助解釋 RNN。

RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結

從RNN學習一個DFA的三個階段(koul等人)

RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結

提取自動機(Koul 等人)

4. RNN 失寵

2018 到 2019 年的提交論文主題變化反映出:RNN 出現大幅下降。這也在意料之中,因為 RNN 雖然適用于序列數據,但也存在極大缺陷:它們無法并行化計算,因而無法利用 2012 年以來較大的研究驅動因素——算力。RNN 在計算機視覺和強化學習領域并不流行,而在一度流行的自然語言處理領域,它們也正在被基于注意力的架構取代。

RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結

RNN 失寵(圖源: ICLR 2019 補充統計數據)

這是否意味著 RNN 將被拋棄?并不盡然。ICLR 2019 上最好的兩篇論文之一《Ordered neurons: Integrating tree structures into Recurrent Neural Networks》就和 RNN 有關。除了這篇佳作和上文提到的兩篇關于自動機的論文以外,ICLR 2019 還接收了 9 篇關于 RNN 的論文,其中大部分研究深入挖掘 RNN 的數學基礎知識,而不是探索 RNN 的新應用。

在工業界,RNN 仍然很活躍,尤其是處理時序數據的公司,比如貿易公司。但遺憾的是,這些公司通常不會發表自己的研究。即使現在 RNN 對研究者不是那么有吸引力,我們也知道未來它可能「卷土重來」。

5. GAN 仍然勢頭強勁

相比去年,GAN 的相關變化比較負面,但相關論文的數量實際上有所增長,從大約 70 篇增長到了 100 篇左右。Ian Goodfellow 受邀發表了以 GAN 為主題的演講,一如既往受到了眾多關注。

ICLR 2019 第一個 poster session 是關于 GAN 的。出現了很多新的 GAN 架構、對已有 GAN 架構的改進,以及 GAN 分析。GAN 應用囊括圖像生成、文本生成、音頻合成等多個領域,有 PATE-GAN、GANSynth、ProbGAN、InstaGAN、RelGAN、MisGAN、SPIGAN、LayoutGAN、KnockoffGAN 等不同架構。講真我并不知道這些意味著什么,因為我在 GAN 領域堪稱文盲。另外,對于 Andrew Brock 沒有把他的大型 GAN 模型稱為 giGANtic,我也感覺挺失望的。

RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結

狗球萬歲(Brock 等人)

GAN poster session 揭示了社區對 GAN 的反應是多么地兩極分化。一些非 GAN 研究者如此評論:「我等不及想讓 GAN 這波風潮趕緊過去」、「一有人提到對抗,我的腦子就宕機?!乖諼銥蠢?,他們可能是嫉妒吧。

6. 缺乏受到生物學啟發的深度學習

鑒于大家對基因測序和 CRISPR 嬰兒的憂慮和討論,ICLR 竟然沒有出現很多結合深度學習和生物學的論文,這令人驚訝。關于這個話題一共有 6 篇論文:

其中有兩篇論文關于受到生物學啟發的架構:

Biologically-Plausible Learning Algorithms Can Scale to Large Datasets (Xiao et al.)

A Unified Theory of Early Visual Representations from Retina to Cortex through Anatomically Constrained Deep CNNs (Lindsey et al.)

一篇關于 RNA 設計:

Learning to Design RNA (Runge et al.)

三篇關于對蛋白質的操作(protein manipulation):

Human-level Protein Localization with Convolutional Neural Networks (Rumetshofer et al.)

Learning Protein Structure with a Differentiable Simulator (Ingraham et al.)

Learning protein sequence embeddings using information from structure (Bepler et al.)


RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結

受視網膜啟發的卷積神經網絡 (Lindsey 等人)

但是卻沒有一篇論文是關于基因組的,也沒有一個 workshop 是關于這個話題的。這還真是令人沮喪……不過,這對于對生物學感興趣的深度學習研究者或對深度學習感興趣的生物學家而言,是一個巨大的契機。

我們來隨便列舉一個事實:視網膜論文的第一作者 Jack Lindsey 仍然是斯坦福大學的在校大學生。孩子們還沒開始接受社會的壓榨呢。

7. 強化學習仍然是提交論文中最熱門的話題

ICLR 2019 大會上的研究論文表明強化學習社區正在從無模型方法轉向樣本高效的基于模型的算法和元學習算法。這種轉變很可能受到 TD3 (Fujimoto et al., 2018) 和 SAC (Haarnoja et al., 2018) 設置的 Mujoco 連續控制基準上的極高分數,以及 R2D2 (Kapturowski et al., ICLR 2019) 得到的 Atari 離散控制任務上的極高分數的啟發。

基于模型的算法(即從數據中學習環境模型,然后利用該模型規劃或生成更多數據)在使用 1/10-1/100 的經驗進行訓練時,仍能達到和無模型算法一樣的漸近性能。這種優勢表明基于模型的算法適合現實世界任務。當學得的模擬器可能有缺陷時,其誤差可以通過更復雜的動態模型得到緩解,比如模擬器的集成 (Rajeswaran et al.)。將強化學習應用到現實世界問題的另一種方式是,使模擬器支持任意復雜的隨機化:在多樣化的模擬環境中訓練的策略可能認為現實世界是「另一次隨機化」,并取得成功 (OpenAI)。

可在多個任務上執行快速遷移學習的元學習算法使得樣本效率和性能得到大幅改善 (ProMP (Rothfuss et al.)、PEARL (Rakelly et al.))。這些改善使我們更加接近「強化學習的 ImageNet 時刻」,即我們可以使用從其他任務上學習的控制策略,而不用從頭開始訓練策略(當然了,太復雜的任務目前還無法實現)。

RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結在六個基準任務上,PEARL (Rakelly 等人) 的漸近性能和元訓練樣本效率都優于之前的元強化學習方法

ICLR 2019 接收論文中的很大一部分,以及 Structure and Priors in RL (SPiRL) workshop 中的所有論文,是關于如何將環境知識集成到學習算法的。盡管早期深度強化學習算法的主要優勢之一是一般性(如 DQN 對所有 Atari 游戲使用同樣的架構,而無需了解其中哪一個特定游戲),但是新算法展示出引入先驗知識有助于解決更復雜的任務。例如,在 Transporter Network (Jakab 等人) 中,智能體使用先驗知識執行具備更多信息的結構探索。

總的來說,在過去 5 年里,強化學習社區開發了大量有效的工具來解決無模型強化學習難題。現在,是時候提出更采樣高效、可遷移的算法在現實世界問題上利用強化學習了。

此外,Sergey Levine 可能是今年論文最多的作者,有 15 篇之多。

8. 大部分接收論文很快就會被遺忘

在會上,我問一位知名研究者他如何看待今年的接收論文。他輕笑道:「大部分接收論文會議一結束就會被遺忘?!瓜窕餮罷庋燜俜⒄溝牧煊?,目前最先進的結果幾周甚至幾天后就可能被打破,大部分接收論文還沒正式展示就已經被超越也就不令人驚訝了。例如,ICLR 2018 論文中 8 篇對抗樣本論文中的 7 篇在大會開始前已經被打破。

我經?;嵩詿蠡嶸咸秸庋桓銎纜郟郝畚慕郵?拒收很隨機。我不點名,但一些很有名或者引用率很高的論文就曾被大會拒收過。相對的,許多論文雖然被接受了卻無人引用。

作為這個領域的一份子,我經常面臨各種威脅。無論我想到什么點子,似乎總有其他人已經在做了,且做得更好、更快??墑?,假使一篇論文對任何人都沒有幫助,那又有什么發表的意義呢?誰能說出個所以然??!

結論

因為篇幅有限,還有很多趨勢我沒能詳盡的寫出來,比如:

優化和正則化:Adam 和 SGD 的爭論仍在繼續。今年 ICLR 大會提出了許多新技術,其中一些相當令人激動??雌鵠?,每個實驗室都在開發自己的優化器,我們團隊同樣如此。

評估度量:隨著生成模型越來越流行,我們不可避免地需要提出新的度量標準,以評估生成的輸出。

如果你想要了解更多,可以去看看David Abel 發布的一個 55 頁的 ICLR 2019 筆記。對于想了解 ICLR 2019 熱點的人,下面這張圖也許能夠幫助到你:

RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結

看起來,應該寫一篇名為「A robust probabilistic framework for universal, transferrable unsupervised meta-learning」的論文

我真的很享受 ICLR 這個大會——它夠大,你能在此找到很多志同道合的朋友;也夠小,可以盡情享受不用排隊的樂趣,4 天的會議安排也正好。相比之下,NeurIPS 的會議就有點長了,參會 4 天后我就會邊看 論文海報邊想:「看看所有這些知識,我應該現在就掌握,但又懶得行動?!?/span>

我在 ICLR 大會上收獲最大的不僅僅是思路,更是科研的動力。許多和我年紀相仿的科研者作出的卓越成就讓我看到了科研之美,激勵我更努力地去做研究。再說了,哪怕只是用這一周的時間來看看論文、見見老友也是個超棒的選擇~

via huyenchip.com/2019/05/12/top-8-trends-from-iclr-2019.html,雷鋒網 AI 科技評論編譯

更多頂會報道請繼續關注雷鋒網(公眾號:雷鋒網) AI 科技評論

相關文章:

AI領域的蝙蝠俠大戰超人:LeCun與Manning如何看待神經網絡中的結構設計

一個續寫故事達到人類水平的AI,OpenAI大規模無監督語言模型GPT-2

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

注:點擊本文章中各藍色文字,可查閱,下載本中心收集到的此文字相關的文章、新聞、信息


主辦:福建省質量管理協會、中質協福州審核中心
地址:福建省福州市八一七北路五洲大廈8層福州審核中心 郵編:350001 閩ICP備16028795號
電話:0591-87521316、0591-87673069、0591-87674019 傳真:(0591)87674025 郵箱:[email protected]
ag森林舞会押法平局 北京快车pk10官方网站 十一选五6码复式 3d包胆8开980算中奖吗 时时彩万位6码100% 靠赌博每天稳赚300元 bet007足球即时比分l 北京pk全天人工计划 彩友多上买彩票合法吗 可以玩天津时时 包胆直选3d 山东时时平台 北京快三预测大小攻略 时时定千位 彩票助赢软件手机网页 75秒极速时时网站