Tópicos

Este paradigma diferencia-se dos já estudados anteriormente. Essencialmente, existe uma política de trial and error, onde o objetivo é o modelo maximizar a sua recompensa numérica. Ou seja, o learner deve descobrir quais ações garantem uma recompensa maior testando-as.

Alguns exemplos de aplicação destes algoritmos:

  • Carros autónomos
  • Jogos com IA

Termos

Agente Uma entidade que executa ações num determinado ambiente com o objetivo de ganhar alguma recompensa.

Ambiente O cenário que o agente tem de enfrentar.

Recompensa Uma recompensa imediata dada ao agente quando o mesmo executa uma ação.

State O estado atual retornado pelo ambiente.

Policy Estratégia aplicada pelo agente como forma de decidir qual a próxima ação a realizar.

Valor Recompensa esperada a longo prazo.

Fator de desconto Encoraja o agente a preferir recompensas imediatas do que recompensas que irão demorar muito tempo a alcançar.

Q-Learning

Este algoritmo é conhecido por ter uma política de escolha gulosa. Isto é, não pensa em maximizar a recompensa a longo prazo, mas sim a curto prazo.

SARSA

Este algoritmo também é guloso, mas até um certo ponto. Existe um parâmetro, epsilon, dedicado a atribuir a chance de uma dada ação ser escolhida.

Em ambos os algoritmos, existem três hiper parâmetros:

  • Epsilon, que corresponde à chance do agente escolher um passo
  • Learning rate, que corresponde à rate à qual o agente aprende a partir de novas observações
  • Discount value, já explicado em cima