Tópicos
Este paradigma diferencia-se dos já estudados anteriormente. Essencialmente, existe uma política de trial and error, onde o objetivo é o modelo maximizar a sua recompensa numérica. Ou seja, o learner deve descobrir quais ações garantem uma recompensa maior testando-as.
Alguns exemplos de aplicação destes algoritmos:
- Carros autónomos
- Jogos com IA
Termos
Agente Uma entidade que executa ações num determinado ambiente com o objetivo de ganhar alguma recompensa.
Ambiente O cenário que o agente tem de enfrentar.
Recompensa Uma recompensa imediata dada ao agente quando o mesmo executa uma ação.
State O estado atual retornado pelo ambiente.
Policy Estratégia aplicada pelo agente como forma de decidir qual a próxima ação a realizar.
Valor Recompensa esperada a longo prazo.
Fator de desconto Encoraja o agente a preferir recompensas imediatas do que recompensas que irão demorar muito tempo a alcançar.
Q-Learning
Este algoritmo é conhecido por ter uma política de escolha gulosa. Isto é, não pensa em maximizar a recompensa a longo prazo, mas sim a curto prazo.
SARSA
Este algoritmo também é guloso, mas até um certo ponto. Existe um parâmetro, epsilon, dedicado a atribuir a chance de uma dada ação ser escolhida.
Em ambos os algoritmos, existem três hiper parâmetros:
- Epsilon, que corresponde à chance do agente escolher um passo
- Learning rate, que corresponde à rate à qual o agente aprende a partir de novas observações
- Discount value, já explicado em cima