Utilização do Método Perceptron de Raio-ε Fixo para Aprendizado por Reforço

Lucas de Almeida Teixeira; Saul de Castro Leite

Autores

Lucas de Almeida Teixeira
Saul de Castro Leite

Resumo

Problemas de aprendizado por reforço podem ser definidos como problemas nos quais um agente inteligente deve agir com base na observação do ambiente ao seu redor de modo a maximizar a soma total das recompensas imediatas que ele receberá no estado atual e nos estados subsequentes. O valor esperado desta soma de recompensas imediatas dado um estado inicial s e uma ação a ´e conhecido como função Q. E possível definir uma política ótima conhecendo-se a função Q ótima. Para aproximar essa função podem ser utilizadas técnicas de programação dinâmica que, usualmente, tratam o problema como um Processo de Decisão de Markov. Porém, existe o problema de representar a função Q computacionalmente.

A utilização de algoritmos de regressão para aproximar a função Q soluciona o problema de representação. Contudo, a aproximação deve ser realizada em cada iteração do algoritmo, o que pode levar a propagação de erros e consequentemente a divergência do algoritmo. Uma abordagem que vem gerando bons resultados ´e baseada no aprendizado de forma off-line e em lote, como o algoritmo Fitted Q Iteration [1]. Esta abordagem foi modificada em [2], em que o método de regressão foi substituído por uma rede neural, dando origem ao algoritmo Neural Fitted Q Iteration. Neste trabalho, é proposto a utilização do algoritmo de regressão Perceptron de Raio-ε Fixo [3] no papel do algoritmo de regressão no Fitted Q Iteration. Uma das principais vantagens desse método é que ele depende de um número menor de parâmetros em relação a outros algoritmos de regressão, e.g., as redes neurais, que dependem da escolha do número de camadas e nós adequado para ter sucesso.

Downloads

Não há dados estatísticos.

Utilização do Método Perceptron de Raio-ε Fixo para Aprendizado por Reforço

Autores

Resumo

Downloads

Downloads

Publicado

Edição

Seção

issn

Desenvolvido por