Utilização do Método Perceptron de Raio-ε Fixo para Aprendizado por Reforço

Authors

  • Lucas de Almeida Teixeira
  • Saul de Castro Leite

Abstract

Problemas de aprendizado por reforço podem ser definidos como problemas nos quais um agente inteligente deve agir com base na observação do ambiente ao seu redor de modo a maximizar a soma total das recompensas imediatas que ele receberá no estado atual e nos estados subsequentes. O valor esperado desta soma de recompensas imediatas dado um estado inicial s e uma ação a ´e conhecido como função Q. E possível definir uma política ótima conhecendo-se a função Q ótima. Para aproximar essa função podem ser utilizadas técnicas de programação dinâmica que, usualmente, tratam o problema como um Processo de Decisão de Markov. Porém, existe o problema de representar a função Q computacionalmente.

A utilização de algoritmos de regressão para aproximar a função Q soluciona o problema de representação. Contudo, a aproximação deve ser realizada em cada iteração do algoritmo, o que pode levar a propagação de erros e consequentemente a divergência do algoritmo. Uma abordagem que vem gerando bons resultados ´e baseada no aprendizado de forma off-line e em lote, como o algoritmo Fitted Q Iteration [1]. Esta abordagem foi modificada em [2], em que o método de regressão foi substituído por uma rede neural, dando origem ao algoritmo Neural Fitted Q Iteration. Neste trabalho, é proposto a utilização do algoritmo de regressão Perceptron de Raio-ε Fixo [3] no papel do algoritmo de regressão no Fitted Q Iteration. Uma das principais vantagens desse método é que ele depende de um número menor de parâmetros em relação a outros algoritmos de regressão, e.g., as redes neurais, que dependem da escolha do número de camadas e nós adequado para ter sucesso.

Downloads

Download data is not yet available.

Published

2018-02-14

Issue

Section

Resumos