基于Q學習蟻群算法的熱網優(yōu)化方法

摘 要

摘要:以熱網最小年費用作為目標函數(shù),引入基于Q學習規(guī)則的蟻群算法,建立了熱網優(yōu)化算法。結合算例,比較了比摩阻算法、模擬退火算法、基于Q學習規(guī)則蟻群算法,基于Q學習規(guī)則蟻群算

摘要:以熱網最小年費用作為目標函數(shù),引入基于Q學習規(guī)則的蟻群算法,建立了熱網優(yōu)化算法。結合算例,比較了比摩阻算法、模擬退火算法、基于Q學習規(guī)則蟻群算法,基于Q學習規(guī)則蟻群算法的熱網最小年費用最低。
關鍵詞:Q學習;蟻群算法;供熱管網優(yōu)化
Optimization Method of Heat Supply Network with Ant Colony Algorithm Based on Q-learning Rule
CHEN Rui
AbstractTaking the minimum annual cost of heat supply network as objective function,the optimization algorithm for heat supply network is developed by introducing ant colony algorithm based on Q-learuing rule. The specific frictional resistance algorithm,simulated annealing algorithm and ant colony algorithm based on Q-1earning rule are compared using an example. The ant colony algorithm based on Q-learning rule has the lowest minimum annual cost of heat supply network.
Key wordsQ-learning;ant colony algorithm;optimization of heat supply network
1 熱網優(yōu)化模型
1.1 目標函數(shù)
    隨著我國城市化建設的推進和居民生活水平的提高,城市集中供熱系統(tǒng)規(guī)模不斷擴大。本文研究的熱網優(yōu)化模型以熱網年費用最小作為目標函數(shù),主要影響因素包括[1、2]:熱網造價、循環(huán)泵運行費用、熱網年熱損失費用、熱網年折舊費用,目標函數(shù)的表達式為:
    Fmin=g(Fn+Fp+FL+Fd)    (1)
式中Fmin——熱網最小年費用,元/a
    Fn——熱網造價,元
    Fp——循環(huán)泵年運行費用,元/a
    FL——熱網年熱損失費用,元/a
    Fd——熱網年折舊費用,元/a
1.2 主要影響因素
    ① 熱網造價
熱網造價Fn的計算式為:
 
式中n——熱網管段數(shù)量
    fi——第i段管段單位長度造價,元/m
    Li——第i段管段長度,m
    B、D——回歸系數(shù)
    di——第i段管段管徑,m
   ② 循環(huán)泵年運行費用
   循環(huán)泵年運行費用Fp的計算式為:
   
式中ε1——換算系數(shù)
    g——重力加速度,m/s2
    qm,p——循環(huán)泵的計算質量流量,kg/h
    H——循環(huán)泵揚程,m
    Pp——電價,元/(kW·h)
    tp——循環(huán)泵年運行時間,h/a
    η——循環(huán)泵效率,取0.5~0.7
    ③ 熱網年熱損失費用
熱網年熱損失費用FL的計算式為:
 
式中ε2——換算系數(shù)
    Ph——熱價,元/J
    tn——熱網年運行時間,h/a
    K——管道的平均傳熱系數(shù),W/(m2·K)
    θav——熱網年平均水溫,℃
    θ0——管道周圍介質的平均溫度,℃
   β——管道附件的熱損失因數(shù)
    ④ 熱網年折舊費用
熱網年折舊費用Fd的計算式為:
Fd=λFn    (5)
式中λ——折舊率
    由式(1)~(5)可知,熱網最小年費用F…可轉變?yōu)楣軓胶凸芏伍L度的函數(shù)。
1.3 約束條件
   ① 節(jié)點流量平衡條件
同一節(jié)點的流入、流出質量流量的代數(shù)和為零,即:
 
式中m——與該節(jié)點有關的管段數(shù)量
    qm,r——與該節(jié)點有關的第r條管段的質量流量,kg/s
    δr——閾值,當流入時為1,流出時為-1
   ② 質量流量與熱負荷的關系
質量流量與熱負荷關系的表達式為[3]
 
式中μ——管網漏損系數(shù),取1.05
    Фr——與該節(jié)點有關的第r條管段的熱負荷,kW
    cp——水的比定壓熱容,kJ/(kg·K)
    θs——供水溫度,℃,取130℃
    θr——回水溫度,℃,取70℃
   ③ 管徑與質量流量的關系
管徑與質量流量關系的表達式為[4]
 
式中dr——與該節(jié)點有關的第r條管段的管徑,m
    W——管道內表面的當量絕對粗糙度,mm,取0.5mm
    ρ——熱水密度,kg/m3
    Rr——與該節(jié)點有關的第r條管段的比摩阻,Pa/m,取值范圍為60~120Pa/m
2 Q學習蟻群算法
    20世紀90年代,蟻群算法作為一種求解復雜組合優(yōu)化問題的算法被提出[5],其應用范圍已拓展到旅行問題[6]、車間調度問題[7]等領域。但傳統(tǒng)蟻群算法存在運算時間較長、容易陷入局部極小、參數(shù)選取過程復雜、算法的智能化程度較低等弊病。
    Q學習蟻群算法將Q函數(shù)的環(huán)境無關性、Agent的學習能力和蟻群算法的分布式計算、正反饋等優(yōu)點相結合,避免了傳統(tǒng)蟻群算法繁瑣的參數(shù)選取過程,提高了運算效率[8]。螞蟻對應Q學習算法中的Agent,所研究的多階段決策問題對應Agent周圍的環(huán)境。螞蟻在當前狀態(tài)s,通過行為選擇系統(tǒng)選擇狀態(tài)s下合適的行為a,當前狀態(tài)s則在行為a的作用下變化至s′。通過學習系統(tǒng)根據(jù)反饋信息(包括瞬時回報和期望回報)更新自身的知識(包括Q函數(shù)和相關策略知識)。這樣的過程重復多次,直至學習過程收斂,此時螞蟻對應的Agent的策略π*將是最優(yōu)的。
    假設信息素模型(包括信息素更新規(guī)則、強化信號等)和狀態(tài)轉移規(guī)則均未知,則對所優(yōu)化問題的每一個節(jié)點j都賦以Q值(行為一狀態(tài)對),用Q值取代螞蟻信息素作為決策信息,通過對Q函數(shù)變化規(guī)律的學習不斷逼近最優(yōu)策略。
設當前狀態(tài)πj={a1,a2,a3,…,aj}下螞蟻k位于節(jié)點j,螞蟻將按照ε-貪婪規(guī)則確定在節(jié)點j′要選擇的行為a′,即以概率1-ε按貪婪策略選取當前狀態(tài)下最大Q值對應的行為。而以概率ε隨機選擇一個當前狀態(tài)下允許行為的表達式為:
 
式中aj——螞蟻在節(jié)點,采取的行為
    q——服從區(qū)間均勻分布隨機數(shù)
    ε——概率,一般取0.1
    A——當前仍未被選擇的任一項任務
    在第x代循環(huán)中,當螞蟻局構建一個可行解時,按下式更新所含節(jié)點的Q值:
 
式中α——學習率,0≤α<1
    Eπj(aj)——螞蟻在狀態(tài)πj時采取行為aj獲得的瞬時回報
    rand(0,1)——(0,1)區(qū)間的一個隨機數(shù)
    v——問題的最大節(jié)點數(shù)
    若第x代循環(huán)產生了新的當前最優(yōu)解,則按下式更新所含節(jié)點的Q值,表達式為:
   
式中γ——折扣因子,0<y<1
    G——當前狀態(tài)下可能選擇的行為集
    π′——采取了最新行為之后的狀態(tài)
    Q*——函數(shù)的極限
    π*——最優(yōu)狀態(tài)
    由于強化信號模型未知,故以(0,1)區(qū)間的一個隨機數(shù)作為當前最優(yōu)解的瞬時回報值,而未來期望回報則可通過BP網絡對Q*值進行估計求得。
3 算例研究
    我們采用文獻[1]中的算例進行對比計算,這是一個雙熱源的枝狀供熱管網,節(jié)點數(shù)為23個,運算環(huán)境為Java 1.4。
3.1 算法流程
    取與節(jié)點j關聯(lián)的某管段的管徑、長度作為節(jié)點j的Q函數(shù)的行為-狀態(tài)對——Q值,對所有Q值賦以(0,1)區(qū)間隨機數(shù)。螞蟻k從任一個熱源節(jié)點j按式(9)開始搜索,每找到一個可行節(jié)點j′,就以當前階段可行解的倒數(shù)作為瞬時回報值按式(10)、(11)更新節(jié)點j′的Q值。一旦完成搜索過程且有更好的可行解產生,就以當前最優(yōu)解的倒數(shù)作為期望回報值按式(12)、(13)更新所有可行解節(jié)點的Q值。以此類推,直至當前最優(yōu)解不能再優(yōu)化。
3.2 計算結果
   針對算例,分別采用比摩阻法、模擬退火法[1]、Q學習蟻群算法的熱網優(yōu)化結果見表1。由表1可知,采用Q學習蟻群算法的熱網最小年費用最低。
表1 不同算法的優(yōu)化結果
算法
比摩阻法
模擬退火法
Q學習蟻群算法
熱網最小年費
用/(元·a-1)
246.76×104
227.61×104
221.43×104
4 結論
    將Q學習規(guī)則引入蟻群算法,使螞蟻具備自行尋優(yōu)的能力,避免了傳統(tǒng)蟻群算法復雜的參數(shù)選取過程,減少了人為干預,提高了算法的智能性和運算效率。算例研究表明,該算法在熱網優(yōu)化問題中的應用是有效的。
參考文獻:
[1] 李祥立,鄒平華.基于模擬退火算法的供熱管網優(yōu)化設計[J].暖通空調,2005,(4):77-81.
[2] 趙廷元.熱力管道設計手冊[M].太原:山西科學教育出版社,1986.
[3] 韋節(jié)廷,金洪文,姜潔.大型供熱管網優(yōu)化方案的確定[J].煤氣與熱力,2003,23(2):80-82.
[4] 師涌江,劉麗莉.供熱管網布置的優(yōu)化方法[J].河北建筑工程學院學報,2004,(4):31-34.
[5] COLORNI A,DORIGO M,MANIEZZO V,et al. Distributed optimization by ant colonies[A].Proceedings of the 1st European Conference on Artificial Life[C].Paris:European Conference on Artificial Life,1991.134-142.
[6] 劉心報,葉強,劉林,等.分支蟻群動態(tài)擾動算法求解TSP問題[J].中國管理科學,2005,(6):57-63.
[7] 葉強,劉心報,程浩.改進蟻群算法求解單機總加權延遲調度問題[J].系統(tǒng)仿真學報,2008,(8):2052-2055.
[8] 葉強.基于改進蟻群算法的一類單機調度問題研究(博士學位論文)[D].合肥:合肥工業(yè)大學,2008.
 
(本文作者:陳蕊 合肥熱電工程公司 安徽合肥 230061)