Olof Björk

The use of machine learning techniques to control individuals of fighting squads in computer games

Abstract

Computer game producers have started to use machine learning techniques to improve the artificial intelligence in their games during the past few years. In todays advanced games, the creators usually try to give the player the impression that the artificiall intelligence is truly intelligent. This builds immersion and lets the player become more attached to the game. One problem is that players have a tendency to find and exploit flaws in the artificial intelligence, which usually destroys the immersion. Allowing the artificial intelligence to adapt to the player, gives it the opportunity to regain that immersion. In this project, supervised learning with a teacher and reinforcement learning have been used to create a system that chooses the behaviour of individuals in a military squad. An artificial neural network with one hidden layer has been used to model the different functions. During the reinforcement learning phase of the project, TD, SARSA and Advantage Learning were used. While each of them managed to produce good policies, SARSA did it in the shortest time. Using the method in a commercial context would require some amount of smarts, since it has a tendency to switch between good and bad policies while improving.

Utvärdering av maskinlärningstekniker för styrning av individer i stridande förband i datorspel

Sammanfattning

Datorspelstillverkare har på senare tid börjat upptäcka maskininlärningstekniker. I dagens komplexa spel försöker man ofta skapa artificiella intelligenser som spelaren ska uppleva som intelligenta. Ett vanligt problem är dock att spelare tenderar att hitta brister i den artificiella intelligensen och sedan utnyttja dessa, varvid illusionen av intelligens oftast försvinner. Genom att låta den artificiella intelligensen utvecklas under spelets gång, kan den återvinna spelarens förtroende. I detta arbete används övervakad och belöningsbaserad inlärning för att låta individerna i ett stridande förband välja hur de ska bete sig. Som funktionsapproximator har ett artificiellt neuronnät med ett gömt lager använts. För den belöningsbaserade inlärningen testades tre olika inlärningsalgoritmer: TD, SARSA och advantage learning. Alla tre gav fungerande resultat, men SARSA, som är den enklaste, var snabbast. Metoden torde kräva ett visst mått av handpåläggning för att kunna användas i kommersiella syften, då den ofta växlar mellan bra och dåliga strategier under inlärning.