- Faça o exercício 2.5 do livro de Sutton & Barto (disponível na Internet; veja a bibliografia
do curso).
- Pense em como seria possível implementar o jogo da velha sem o algoritmo Minimax,
mas usando aprendizado por reforço. De que dependeria o desempenho do algoritmo?
Dê detalhes da abordagem que usaria. (Que método? Mostre o pseudo-código da parte
que aprende)