IA, exercício 9: Aprendizado por reforço

Faça o exercício 2.5 do livro de Sutton & Barto (disponível na Internet; veja a bibliografia do curso).
Pense em como seria possível implementar o jogo da velha sem o algoritmo Minimax, mas usando aprendizado por reforço. De que dependeria o desempenho do algoritmo? Dê detalhes da abordagem que usaria. (Que método? Mostre o pseudo-código da parte que aprende)