MATLAB代做|MATLAB專業(yè)代做|強化學(xué)習(xí)簡介

發(fā)布時間：2019/4/5 瀏覽數(shù)：33759

強化學(xué)習(xí)的思想源于行為心理學(xué)（behavioural psychology）的研究。1911年Thorndike提出了效用法則（Law of Effect）：一定情境下讓動物感到舒服的行為，就會與此情景加強聯(lián)系，當此情景再現(xiàn)時，動物的這種行為也更易再現(xiàn)；相反，讓動物感覺不舒服的行為，會減弱與此情景的聯(lián)系，此情景再現(xiàn)時，此行為將很難再現(xiàn)。換句話說，那種行為會被記住取決于該行為產(chǎn)生的效用。例如：在主人扔出飛盤時，狗叼回飛盤給主人的行為獲得了肉骨頭，將會使得“狗叼回扔出的飛盤”這個行為和“主人扔出飛盤時”這個情景加強了聯(lián)系，“獲得肉骨頭”的效用將使狗記住“叼回扔出的飛盤”的行為。

在給定情境下，得到獎勵的行為會被“強化”而受到懲罰的行為會被“弱化”。這樣一種生物智能模式使得動物可以從不同行為嘗試獲得的獎勵或懲罰學(xué)會在該情境下選擇訓(xùn)練者最期望的行為。這就是強化學(xué)習(xí)的核心機制：用試錯（trail-and-error）來學(xué)會在給定的情境下選擇最恰當?shù)男袨椤utton定義強化學(xué)習(xí)為：通過試錯學(xué)習(xí)如何最佳地匹配狀態(tài)（states）和動作（actions），以期獲得最大的回報（rewards）。

強化學(xué)習(xí)不僅直接模仿了生物學(xué)習(xí)的智能模式，而且也不像其它大多數(shù)機器學(xué)習(xí)方法中，智能體需要被告訴去選擇哪種動作，使用強化學(xué)習(xí)方法的智能體能夠通過嘗試不同的動作，自主地發(fā)現(xiàn)并選擇產(chǎn)生最大回報的動作。正如Tesauro所描述的那樣：強化學(xué)習(xí)使得智能體可以根據(jù)自己的經(jīng)驗進行自主地學(xué)習(xí)，既不需要任何預(yù)備知識也不依賴任何外部智能“老師”的幫助。

強化學(xué)習(xí)大腦

“如何最佳的匹配狀態(tài)和動作”，強化學(xué)習(xí)所解決的這樣很具有普遍性的問題。使得強化學(xué)習(xí)在機器人學(xué)，最優(yōu)控制，棋類對弈，策略博弈，飛行控制，導(dǎo)彈制導(dǎo)，預(yù)測決策，金融投資以及城市交通控制等領(lǐng)域都有大量的應(yīng)用。

再從計算機實現(xiàn)的角度看，大多數(shù)其它機器學(xué)習(xí)的方法都需要實現(xiàn)智能體的人事先知道要智能體解決的問題是“什么”，以及問題“怎么樣”來解決。再通過編寫指令來告訴智能體如何求解。遺憾的是，知道“做什么”遠比知道“怎么做”的情形多得多。例如，對于這樣一個問題：一個城市交通網(wǎng)絡(luò)由多個十字路口以及它們之間的道路組成，每一個十字路口的交通燈由一個Agent控制，那么這多個Agent應(yīng)該如何協(xié)作控制紅綠燈的時段長短，使得進入該城市交通網(wǎng)絡(luò)的所有車輛在最短時間內(nèi)離開該城市交通網(wǎng)絡(luò)呢？Agent學(xué)習(xí)要“做什么”的問題是清晰的：使所有車輛以最短時離開該城市交通網(wǎng)絡(luò)；但“怎樣做”卻是復(fù)雜和困難的。

強化學(xué)習(xí)提供了這樣一種美好的前景：只要確定了回報，不必需要規(guī)定Agent怎樣完成任務(wù)，Agent 將能夠通過試錯學(xué)會最佳的控制策略。在前面的多Agent交通控制問題中，只需規(guī)定所有車輛通過時間越短獲取的回報越大，那么這多個Agent將自主學(xué)會最優(yōu)的交通燈協(xié)作控制策略使得所有車輛在最短時間內(nèi)通過該城市網(wǎng)絡(luò)。盡管直到今天，解決這樣多個十字路口的交通燈控制問題，強化學(xué)習(xí)依然面臨巨大的計算量和較長的計算時間。但從實現(xiàn)的角度來看，本文認為強化學(xué)習(xí)是一種可以把人從必須考慮“怎么做”中解放出來的機器學(xué)習(xí)方法，也相信強化學(xué)習(xí)是能夠使得智能能夠從如Bezdek描述的從計算智能進化到人工智能直至生物智能的途徑之一。

強化學(xué)習(xí)示意

強化學(xué)習(xí)的研究歷史：1954年Minsky首次提出“強化”和“強化學(xué)習(xí)”的概念和術(shù)語。1965年在控制理論中Waltz和傅京孫也提出這一概念，描述通過獎懲的手段進行學(xué)習(xí)的基本思想。他們都明確了“試錯”是強化學(xué)習(xí)的核心機制。Bellman在1957年提出了求解最優(yōu)控制問題以及最優(yōu)控制問題的隨機離散版本馬爾可夫決策過程（Markov Decision Process，MDP）的動態(tài)規(guī)劃（Dynamic Programming）方法，而該方法的求解采用了類似強化學(xué)習(xí)試錯迭代求解的機制。盡管他只是采用了強化學(xué)習(xí)的思想求解馬爾可夫決策過程，但事實上卻導(dǎo)致了馬爾可夫決策過程成為定義強化學(xué)習(xí)問題的最普遍形式，加上其方法的現(xiàn)實操作性，以致后來的很多研究者都認為強化學(xué)習(xí)起源于Bellman的動態(tài)規(guī)劃，隨后Howard提出了求解馬爾可夫決策過程的策略迭代方法。

到此時強化學(xué)習(xí)的理論基礎(chǔ)（馬爾可夫決策過程）和求解算法:試錯的策略迭代基本確定下來。此后一段時間，強化學(xué)習(xí)被監(jiān)督學(xué)習(xí)（supervised learning）的光芒所遮掩，像統(tǒng)計模式識別，人工神經(jīng)網(wǎng)絡(luò)均屬于監(jiān)督學(xué)習(xí)，這種學(xué)習(xí)是通過外部有知識的監(jiān)督者提供的例子來進行學(xué)習(xí)的，但這種學(xué)習(xí)已經(jīng)完全違背了強化學(xué)習(xí)的宗旨，因為監(jiān)督學(xué)習(xí)有了“教師”（supervisor），有了預(yù)備知識（examples）。到1989年，Watkins提出的Q學(xué)習(xí)進一步拓展了強化學(xué)習(xí)的應(yīng)用和完備了強化學(xué)習(xí)。Q學(xué)習(xí)使得在缺乏立即回報函數(shù)（仍然需要知道最終回報或者目標狀態(tài)）和狀態(tài)轉(zhuǎn)換函數(shù)的知識下依然可以求出最優(yōu)動作策略，換句話說，Q學(xué)習(xí)使得強化學(xué)習(xí)不再依賴于問題模型。此外Watkins還證明了當系統(tǒng)是確定性的馬爾可夫決策過程，并且回報是有限的情況下，強化學(xué)習(xí)是收斂的，也即一定可以求出最優(yōu)解。至今，Q學(xué)習(xí)已經(jīng)成為最廣泛使用的強化學(xué)習(xí)方法。

聯(lián)系：highspeedlogic

QQ ：1224848052

微信：HuangL1121

郵箱：1224848052@qq.com

網(wǎng)站：http://www.mat7lab.com/

網(wǎng)站：http://www.hslogic.com/

微信掃一掃：

а天堂中文地址在线|中国白嫩的18sex少妇hd|91网址视频|裸体芭蕾性xxx|性欧美最猛

首頁

業(yè)務(wù)范圍

項目展示

資源共享

業(yè)內(nèi)新聞

合作說明

關(guān)于我們

MATLAB代做|MATLAB專業(yè)代做|強化學(xué)習(xí)簡介

關(guān)于我們

業(yè)務(wù)范圍

項目展示

資源共享

聯(lián)系我們