Учене с подсилване
Биологията на обучението с подсилване може да бъде намерена на адрес Operant conditioning, and Reward
Ученето с подсилване (Reinforcement learning - RL) е обучение на софтуерен агент как да се държи в дадена среда, като му се казва колко добре се справя. Това е област на машинното обучение, вдъхновена от поведенческата психология.
Ученето с усилване се различава от ученето с наблюдение, тъй като правилните входове и изходи никога не се показват. Освен това обучението с подсилване обикновено се учи в движение (онлайн обучение) за разлика от обучението с наблюдение. Това означава, че агентът трябва да избира между проучване и придържане към това, което знае най-добре.
Въведение
Системата за учене с подсилване се състои от политика ( π {\displaystyle \pi } ), функция за възнаграждение ( R {\displaystyle R} ), функция за стойност ( v {\displaystyle v} ) и допълнителен модел на средата.
Полицата указва на агента какво да направи в определена ситуация. Тя може да бъде проста таблица с правила или сложно търсене на правилното действие. Политиките могат да бъдат дори стохастични, което означава, че вместо правила политиката приписва вероятности на всяко действие. Политиката сама по себе си може да накара агента да направи нещо, но тя не може да се учи сама.
Функцията за възнаграждение определя целта на даден агент. Тя приема състояние (или състояние и действието, предприето в това състояние) и връща число, наречено награда, което казва на агента колко добре е да бъде в това състояние. Задачата на агента е да получи възможно най-голямото количество награда в дългосрочен план. Ако дадено действие дава ниско възнаграждение, агентът вероятно ще предприеме по-добро действие в бъдеще. Биологията използва сигнали за възнаграждение като удоволствие или болка, за да се увери, че организмите остават живи, за да се възпроизвеждат. Сигналите за възнаграждение могат да бъдат и стохастични, като игрален автомат в казино, където понякога се плаща, а понякога не.
Функцията на стойността казва на агента колко възнаграждение ще получи, следвайки дадена политика π {\displaystyle \pi } , започвайки от състояние s {\displaystyle s} . Тя представя колко желателно е да бъдеш в определено състояние. Тъй като функцията на стойността не се дава директно на агента, той трябва да измисли добро предположение или оценка въз основа на наградата, която е получил досега. Оценката на функцията на стойността е най-важната част от повечето алгоритми за обучение чрез подсилване.
Моделът е умственото копие на средата, което агентът създава. Той се използва за планиране на бъдещи действия.
Знаейки това, можем да говорим за основния цикъл на епизод от обучението с подсилване. Агентът взаимодейства с околната среда на дискретни стъпки във времето. Представете си го като "тик-так" на часовник. При дискретното време нещата се случват само по време на "тикването" и "тактовете", но не и между тях. Във всеки момент t = 0 , 1 , 2 , 3 , ... {\displaystyle t=0,1,2,3,... } агентът наблюдава състоянието на средата S t {\displaystyle S_{t}} и избира действие A t {\displaystyle A_{t}} въз основа на политика π {\displaystyle \pi } . На следващата времева стъпка агентът получава сигнал за възнаграждение R t + 1 {\displaystyle R_{t+1}} и ново наблюдение S t + 1 {\displaystyle S_{t+1}} . Функцията на стойността v ( S t ) {\displaystyle v(S_{t})} се актуализира, като се използва възнаграждението. Това продължава, докато се достигне крайно състояние S T {\displaystyle S_{T}} .