6533b85efe1ef96bd12bf68a

RESEARCH PRODUCT

Paredzošā stimulētā mācīšanās

Rihards Krišlauks

subject

Markova izvēles procesiDatorzinātnestimulētā mācīšanāsnepārtrauktas telpasneironu tīkli

description

Continuous actor-critic learning automaton, jeb CACLA, algoritma aktiera un kritiķa komponentes ir apvienojamas vienā, izmantojot faktu, ka tās no stāvokļu telpas izgūst līdzīgas pazīmes savu funkciju veikšanai. Tas ļauj divas reizes samazināt to realizēšanā izmantotā neironu tīkla trenējamo parametru skaitu, kā arī ļauj aģentam ātrāk nonāk pie labas stratēģijas, jo optimālās stratēģijas funkcijas parametri tiek pielāgoti arī vērtību funkcijas izmaiņu rezultātā. Tas noved pie savdabīga optimālās stratēģijas funkcijas parametru nepārraudzītās mācīšanās procesa. Šāds netiešā veidā veikts optimālās stratēģijas funkcijas parametru pielāgošanas process atstāj ietekmi uz trenēšanas procesu, jo saistās ar troksni optimālās stratēģijas funkcijas parametru vērtību izmaiņās. Ar to iespējams cīnīties, liekot apvienotajai aktiera-kritiķa komponentei apgūt papildus vides dinamikas aspektus, kas nav tiešā veidā nepieciešami algoritma darbībā. Darbā tiek parādīts, kā šie efekti ir apvienojami, radot algoritmu saimi, ko autors dēvē par Combined CACLA, jeb CCACLA. CCACLA priekšrocības tiek parādītas eksperimentāli. Tas tiek salīdzināts ar CACLA dažādos stimulētās mācīšanās uzdevumos.

https://dspace.lu.lv/dspace/handle/7/33226