時間: 分類:教育論文 次數(shù):
摘要:為適應人機協(xié)作組裝任務分配日趨復雜的任務結(jié)構(gòu)和高維的任務狀態(tài)空間,提出了一種基于深度強化學習的人機協(xié)作組裝任務分配方法。首先,將人機協(xié)作組裝任務分配形式化為強化學習問題,設計了通道幀圖進行任務分配環(huán)境狀態(tài)的表示,并構(gòu)建了通用化的組裝闖關游戲模擬環(huán)境。其次,為解決DQN(DeepQNetworks)算法頻繁的情節(jié)重啟導致探索效率低下的問題,提出了存檔機制及其改進算法ArchiveDDQN(DoubleDQN),并介紹了利用該算法與模擬環(huán)境交互以進行人機協(xié)作組裝任務分配的流程方法。最后,通過種不同難度的組裝模擬環(huán)境進行對比實驗,驗證了所提出方法的有效性。
關鍵詞:深度強化學習;存檔機制;人機協(xié)作;任務分配;生產(chǎn)組裝
0引言
自1990年以來,制造業(yè)中的人機協(xié)作(RC,Humanrobotcollaboration)得到了廣泛的研究和關注[14]。工業(yè)4.0的推行,人機協(xié)作成為制造業(yè)中主要的網(wǎng)絡物理技術和促成技術之一[5,6],利用人機協(xié)作的工業(yè)應用數(shù)量迅速增長7]。其中,組裝是人機協(xié)作最有趣和最有前景的應用場景之一8]。在人機協(xié)作組裝的工業(yè)設計中,任務分配決定著人和機器人的工作內(nèi)容和執(zhí)行順序,深刻影響著人機協(xié)作的流暢性和生產(chǎn)系統(tǒng)的效率,是當前學界研究的熱點之一。傳統(tǒng)的人機協(xié)作組裝任務分配方法通常將問題形式化為帶約束的組合優(yōu)化問題,并通過算法進行優(yōu)化以實現(xiàn)特定目標利益的最大化10。
LAMON等11以任務復雜性、靈巧性和工作量為組合指標,提出了一種離線分配算法,可以將任務最佳地分配給工作單元,并在金屬結(jié)構(gòu)的概念協(xié)作組裝中進行了驗證。WANG等12設計了包含時間消耗和人工的協(xié)作成本函數(shù),并開發(fā)了啟發(fā)式行動計劃算法優(yōu)化成本函數(shù),從而生成最優(yōu)的組裝任務分配方案。JOHANNSMEIER等13將人和機器人的差異特殊性轉(zhuǎn)移到不同的成本函數(shù)中,并基于方法定義了一種啟發(fā)式算法優(yōu)化人機協(xié)作組裝成本。
孔繁森等14以資源利用均衡率、工人操作復雜度均衡率、平均決策過程復雜度為約束條件,以最小化平衡滯延時間為目標,并使用遺傳算法優(yōu)化得到人機協(xié)作組裝任務分配最佳方案。傳統(tǒng)的組合優(yōu)化方法主要針對簡單的任務結(jié)構(gòu)和極小的任務空間,并未考慮人和機器人均可執(zhí)行的操作,缺乏靈活性和通用性。隨著人機協(xié)作技術的發(fā)展,組裝任務的結(jié)構(gòu)將變得愈加復雜(如人機并行執(zhí)行共享任務),任務空間也愈加龐大(如多個工人和多個機器人)。在充分考慮必要的人和機器人信息以及組裝約束條件下,人機協(xié)作組裝任務分配將具有高維復雜的狀態(tài)空間,這是傳統(tǒng)的組合優(yōu)化方法難以解決的。近年來,隨著物聯(lián)網(wǎng)(IOT,InternetofThings)的發(fā)展,大數(shù)據(jù)處理方法如廣域存儲與計算協(xié)同調(diào)度15、移動邊緣計算16等有利于實現(xiàn)更高效率的大規(guī)模人機協(xié)作組裝任務分配。
值得注意的是,深度學習和強化學習技術在處理高維復雜空間問題和大規(guī)模決策問題上表現(xiàn)出日益顯著的優(yōu)勢,為克服傳統(tǒng)任務分配方法的局限性提供了新的方向。如ZHEYUAN等[17]開發(fā)了一種新的基于深度圖注意網(wǎng)絡的分配算法來自動學習分配問題的特征,在測試中約的任務分配問題找到了高質(zhì)量的任務分配方案。等[18]通過將人機協(xié)作組裝過程格式化為具有映射規(guī)則和游戲規(guī)則的組裝棋盤,并使用基于強化學習的自演算算法實現(xiàn)了可調(diào)節(jié)高度的辦公桌組裝案例的最佳任務分配。
隨后,在組裝棋盤的基礎上,等[19]采用基于深度強化學習算法DQN(DeepQNetworks)的多智能體強化學習MARLMultigenteinforcementearning方法求解任務分配策略,并通過組裝案例驗證了該方法在不同任務數(shù)和智能體數(shù)下的有效性。受上述研究的啟發(fā),結(jié)合華晨寶馬搭建智能白車身生產(chǎn)系統(tǒng)的項目需求,本文提出了一種基于深度強化學習的人機協(xié)作組裝任務分配方法。
本文首先將人機協(xié)作組裝任務進行問題建模,并構(gòu)建闖關游戲形式的通用化強化學習求解環(huán)境。區(qū)別于文獻18]和19]的組裝棋盤,本文設計了通道幀圖來表示任務分配的環(huán)境狀態(tài),這種格式不僅能更清晰地反映高維復雜任務分配環(huán)境的狀態(tài)信息,而且可以直接轉(zhuǎn)化為數(shù)字張量輸入到深度神經(jīng)網(wǎng)絡以便于深度強化學習算法的求解。在該組裝闖關游戲模擬環(huán)境中,DQN系列算法可以在沒有任何指導的情況下從初始狀態(tài)開始執(zhí)行任務分配動作。然而,在訓練過程中,現(xiàn)有的DQN算法容易遭遇錯誤動作,導致頻繁的情節(jié)重啟。在實現(xiàn)完整的任務分配之前,算法容易陷入困境。因此,本文開發(fā)了存檔機制,以提升算法的探索效率并改善經(jīng)驗池回放基準。同時,本文還提供了存檔機制的兩種應用模式及其改進算法ArchiveDDQN,以進一步提升算法的性能,實現(xiàn)更高效的人機協(xié)作組裝任務分配。
1.人機協(xié)作組裝任務分配問題建模
1.1問題描述
人機協(xié)組裝作任務通常可以按照三個主要步驟進行實施。首先是任務分解,即將一個組裝任務拆分成一定數(shù)量的子任務。其次是任務排序,根據(jù)實際的需求和約束等將子任務按照一定的先后順序進行排列。最后也是最關鍵的是任務分配,需要根據(jù)子任務特征來進行工作負荷分配,以充分發(fā)揮工人和協(xié)作機器人的各自優(yōu)勢,提高生產(chǎn)效率。在華晨寶馬搭建智能白車身生產(chǎn)系統(tǒng)這一項目中,需要在項目前期自動生成最優(yōu)的人機協(xié)作組裝任務分配序列,為人機協(xié)作生產(chǎn)工位的快速布置和規(guī)劃提供指導。為了清晰地描述人機協(xié)作組裝任務過程,使用該項目中一組前端模塊支架的人機協(xié)作組裝任務進行演示。
(1)任務分解。該組裝任務的目的是通過前表面和上表面的螺栓組(由螺栓和墊片組成)來連接支架零件。前表面朝上時,先放置個螺栓組(B1~B4),然后擰緊螺栓。接著通過翻轉(zhuǎn)使上表面朝上,工作內(nèi)容與前表面一致。該任務被分解為18個子任務,如表所示。根據(jù)任務的物理特性和工作單元的操作特性,子任務可以分為三種類型,類(僅適合人),類II(僅適合機器人),類III(通用型任務,適合人和機器人)。例如,人可以輕松地拾取螺栓組合,并精準地將螺栓旋入帶螺紋的孔中。
但是,這個任務對于機器人來說可能需要花費非常高昂的代價。類似的,使用機器人擰緊螺栓速度更快且可以保證穩(wěn)定的預緊力。此外,有些任務是通用的,如翻轉(zhuǎn)支架沒有太高的約束要求,分配給人和機器人都是可以的。值得一提的是,這類通用型的任務分配給人或者機器人的執(zhí)行時間可能是不一樣的。因此,可將時間項按工作單元類型進行劃分。
(2)任務排序。對于組裝任務,其子任務的執(zhí)行順序是受組裝條件限制的,如產(chǎn)品設計、質(zhì)量控制、物理約束等。因此,有些子任務之間存在順序約束。例如,必須先放置了螺栓組合才可以去擰緊。相反,有些子任務之間沒有順序約束,如先放置哪個螺栓組合。此外,放置完一個螺栓組合就立即執(zhí)行擰緊操作也是允許的。為了規(guī)范組裝順序,在本案例中,將同一個工作面上的所有螺栓組合放置好之后再執(zhí)行擰緊操作。為了清晰地表述子任務之間的順序約束,設計了關系聯(lián)絡矩陣。其中,第一行和第一列為子任務的編號。編號
(3)任務分配。一般而言,任務排序受到的限制條件是相對寬松的,這意味著子任務的具體執(zhí)行順序存在很多可能性。這無疑增加了任務分配的難度。同時,任務分配還要考慮子任務的屬性和工作單元的負載平衡,以實現(xiàn)最大化的工作效率。其中很重要的一點就是決定通用型任務到底分配給人還是機器人更合適。
1.2形式化強化學習
將人機協(xié)作組裝任務分配形式化為一般的強化學習,可以為問題求解提供極大的便利。
2以存檔機制改進的算法ArchiveDDQN
2.1存檔機制及其原理
在深度強化學習算法中,由MNIH等20,2提出的DQN算法,在處理高維的狀態(tài)空間問題上展現(xiàn)出巨大的優(yōu)勢。近年來,DQN得到了極大的改進和拓展[2,在多種Atati游戲中都取得了超越人類平均水平的成績。在人機協(xié)作組裝闖關游戲環(huán)境中,DQN系列算法可以從零開始通過不斷自學習獲得最優(yōu)的任務分配策略從而完成闖關游戲。但在訓練的早期階段,由于QN深度近似網(wǎng)絡權重參數(shù)初始化的隨機性和深度近似網(wǎng)絡擬合能力的不確定性,算法十分容易產(chǎn)生錯誤的分配動作,導致闖關失敗從而使游戲情節(jié)頻繁重啟。現(xiàn)實中的許多闖關游戲都設置了功能選項進行存檔,在終結(jié)或者中途退出后,游戲可以通過重載存檔繼續(xù)進行。
2.2存檔機制應用模式及其改進算法
根據(jù)存檔機制的特點,本文提出了兩種存檔機制的應用模式,分別是普通模式存檔機制(Archiveormalmode,Archive)和通關模式存檔機制(rchiverushmod,Archive)。顧名思義,普通模式就是在
此外,通關模式存檔機制Archive能保證所有子任務均能得到分配,避免了任務分配失敗。VANHASSELT等人25改進的DoubleDQN(DDQN)學習算法,通過兩個網(wǎng)絡分別進行學習解決了學習中因最大化偏置導致的狀態(tài)值被過度估計的問題。因此,本文在DQN的基礎上,提出了以存檔機制改進的算法ArchiveDQN。
3利用ArchiveDDQN進行任務分配
3.1ArchiveDDQN算法訓練和測試
在獲取人機協(xié)作組裝任務分配策略和最優(yōu)方案之前,需要使用人機協(xié)作組裝闖關游戲模擬環(huán)境對ArchiveDDQN算法的智能體進行訓練和測試。
在訓練過程中,組裝闖關游戲模擬環(huán)境和ArchiveDDQN算法之間需要進行實時交互。首先,執(zhí)行環(huán)境將環(huán)境狀態(tài)輸出,并轉(zhuǎn)換為張量輸入到算法的近似網(wǎng)絡。算法智能體得出分配動作后由模擬環(huán)境執(zhí)行分配動作,然后輸出新的環(huán)境狀態(tài)和獎勵。然后對每一次獲得的分配動作、環(huán)境狀態(tài)和獎勵進行統(tǒng)一格式并存入經(jīng)驗池。最后通過小批量隨機采樣抽取經(jīng)驗池中的經(jīng)驗數(shù)據(jù)對智能體進行訓練,從而不斷改進智能體的任務分配策略。在進行測試時,需要先獲取訓練過程得到的深度網(wǎng)絡權重參數(shù),然后加載到深度近似網(wǎng)絡。與訓練過程不同的是,測試過程不進行經(jīng)驗回放和小批量采樣訓練,智能體的任務分配策略是固定不變的。
3.2獲取最優(yōu)任務分配策略和分配方案
通過訓練和測試對比,可以獲得最優(yōu)的任務分配策略。在應用ArchiveDDQN算法進行人機協(xié)作組裝任務分配時,只需將最優(yōu)任務分配策略對應的深度網(wǎng)絡權重參數(shù)加載到算法的深度近似網(wǎng)絡即可。
在任務分配過程中,組裝闖關游戲模擬環(huán)境與ArchiveDDQN算法是實時交互的,面對任意的模擬環(huán)境狀態(tài),ArchiveDDQN算法均能以最優(yōu)任務分配策略輕松獲得下一步的最優(yōu)任務分配動作,這對于拓展到動態(tài)任務分配是十分有利的。通過整理模擬環(huán)境和算法的輸出信息,可快速獲得最優(yōu)任務分配方案。組裝闖關游戲模擬環(huán)境與ArchiveDDQN算法之間的交互是按情節(jié)劃分的,通過將單一情節(jié)的分配動作依次排序即可得到該情節(jié)的任務分配工作序列,由獎勵功能定義可知,累積獎勵最大的工作序列具有最短的工作時長,為最優(yōu)任務分配方案。
4實驗與討論
為了驗證任務分配環(huán)境以及所提出改進算法的有效性,我們在兩個不同難度的分配任務中,對DQN和存檔機制改進算法ArchiveDDQN(rchiveDQN和ArchiveRDQN)進行了訓練和測試。實驗中,三種算法均使用文獻[2提供的深度神經(jīng)網(wǎng)絡,通過兩個網(wǎng)絡分別學習目標函數(shù)。
5結(jié)束語
本文提出了一種基于深度強化學習的人機協(xié)作組裝任務分配方法,以適應人機協(xié)作任務分配日趨復雜的任務結(jié)構(gòu)和高維的任務空間。本文的貢獻和創(chuàng)新點主要有兩點:
(1)將人機協(xié)作組裝任務分配形式化為強化學習問題,并構(gòu)建了通用化的組裝闖關游戲模擬環(huán)境,使得高維復雜的任務分配問題可以便捷地使用深度強化學習方法進行求解;(2)提出了存檔機制及其改進算法ArchiveDDQN,解決了傳統(tǒng)DQN系列算法情節(jié)頻繁重啟的問題,進一步提升了算法的性能和人機協(xié)作組裝任務分配的穩(wěn)定性。在兩種不同難度的實驗環(huán)境中,普通模式存檔機制均能有效提升DQN算法的訓練速度和訓練效果。
在通關模式下,存檔機制得到了更好的發(fā)揮,使得DQN算法獲得了優(yōu)秀的全局探索能力和測試穩(wěn)定性。實驗證明了所提出的人機協(xié)作組裝任務分配方法的有效性。在未來的工作中,將考慮更復雜的場景,如多個組裝任務的混合執(zhí)行和人類行為的不確定性等。在進一步拓展所提出算法工業(yè)應用的同時,將考慮采用更先進的技術去減少計算量和提升訓練效率。
參考文獻:
[1]ROBLAGOMEZS,BECERRAVM,LLATAJR,etal.Workingtogether:Areviewonsafehumanrobotcollaborationinindustrialenvironments[J].IEEEAccess,2017,5:2675426773.
[2]WANGL,GAOR,VANCZAJ,etal.Symbiotichumanrobotcollaborativeassembly[J].CIRPAnnalsManufacturingTechnology,2019,68(2):701726.
[3]ZACHARAKIA,KOSTAVELISI,GASTERATOSA,etal.Safetyboundsinhumanrobotinteraction:Asurvey[J].SafetyScience,2020,127:104667.
[4]LIHao,LIUGen,WENXiaoyu,etal.Industrialsafetycontrolsystemandkeytechnologiesofdigitaltwinsystemorientedtohumanmachineinteraction[J].ComputerIntegratedManufacturingSystems,2021,27(2):16(inChinese).[李浩,劉根,文笑雨等.面向人機交互的數(shù)字孿生系統(tǒng)工業(yè)安全控制體系與關鍵技術[J].計算機集成制造系統(tǒng),2021,27(2):16.]
[5]SARA,JENSEN.TheIndustrialInternetofThings[J].OEMOffHighway,2016,34(7):2022.
作者:熊志華1,陳昊2,王長生1,岳明1,侯文彬1,3,+,徐斌2
級別:北大核心,CSSCI,AMI擴展
ISSN:1002-6487
刊期:進入查看
格式:咨詢顧問
級別:北大核心,JST,CSSCI,WJCI,AMI權威
ISSN:1002-4565
刊期:進入查看
格式:咨詢顧問
級別:北大核心,JST,CSCD,CSSCI,WJCI
ISSN:1002-2104
刊期:進入查看
格式:咨詢顧問
級別:北大核心,CSSCI擴展版,AMI核心
ISSN:1003-0476
刊期:進入查看
格式:咨詢顧問
級別:北大核心,CSSCI擴展版,AMI核心
ISSN:1007-8266
刊期:進入查看
格式:咨詢顧問
級別:北大核心,CSSCI,AMI頂級,社科基金資助期刊,
ISSN:0577-9154
刊期:進入查看
格式:咨詢顧問
級別:北大核心,CSSCI,AMI核心
ISSN:1001-4233
刊期:進入查看
格式:咨詢顧問
級別:北大核心,CSSCI,AMI核心,社科基金資助期刊,
ISSN:1671-7465
刊期:進入查看
格式:咨詢顧問
級別:北大核心,CSSCI,AMI核心,社科基金資助期刊,
ISSN:1005-9245
刊期:進入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:2045-2322
刊期:進入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:0284-1851
刊期:進入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:2352-4928
刊期:進入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:0169-4332
刊期:進入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:0960-7412
刊期:進入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:0048-9697
刊期:進入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:0191-2917
刊期:進入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:1741-7007
刊期:進入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:2214-7144
刊期:進入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:2238-7854
刊期:進入查看
格式:咨詢顧問