• Faça o exercício 2.5 do livro de Sutton & Barto (disponível na Internet; veja a bibliografia do curso).
  • Pense em como seria possível implementar o jogo da velha sem o algoritmo Minimax, mas usando aprendizado por reforço. De que dependeria o desempenho do algoritmo? Dê detalhes da abordagem que usaria. (Que método? Mostre o pseudo-código da parte que aprende)