Χρήση βαθιάς ενισχυτικής μάθησης για την επίλυση του Rubik's Cube [article]

Stylianos-Andreas Stavroulakis, National Technological University Of Athens, National Technological University Of Athens
2020
Περίληψη ΄Ενας από τους κλάδους της μηχανικής μάθησης, ο οποίος παρουσιάζει μεγάλη πρόοδο τα τελευταία χρόνια, είναι η βαθιά ενισχυτική μάθηση. Προγράμματα που στοχεύουν στη μεγιστοποίηση κάποιας σωρευτικής ανταμοιβής αποδεικνύονται ελπιδοφόρα στην προσπάθεια να επεκταθεί το εύρος των επιλύσιμων προβλημάτων μεγάλης πολυπλοκότητας. Ωστόσο, το εκάστοτε περιβάλλον με το οποίο αλληλεπιδρά κάποιος πράκτορας βαθιάς ενισχυτικής μάθησης, ενδέχεται να περιέχει μια ευρύτερη ποικιλία πιθανών σημάτων
more » ... θανών σημάτων ανταμοιβής κατά την εκπαίδευση. ΄Ενα παράδειγμα συνδυαστικού προβλήματος με αραιές ανταμοιβές αποτελεί και ο φημισμένος κύβος του Ρούμπικ. Η αντιμετώπιση των αραιών ανταμοιβών καθώς και το γεγονός ότι δεν υπάρχει εγγύηση τερματισμού του προβλήματος, είναι μια από τις μεγαλύτερες προκλήσεις στην βαθιά ενισχυτική μάθηση. Στόχος της διπλωματικής εργασίας είναι η εισαγωγή της έννοιας της εντροπίας του κύβου του Ρούμπικ, και η μερική χρήση του σαν οδηγό από έναν πράκτορα, ο οποίος χρησιμοποιεί έναν αλγόριθμο αυτοδιδασκόμενης επανάληψης κατά την εκπαίδευση του, με απώτερο σκοπό την αποδοτικότερη λύση του κύβου. Abstract One of the most promising types of Machine Learning called Deep Reinforcement Learning has advanced to the point where we're seeing computers do things that would have been considered science fiction just a few years ago. Deep Reinforcement Learning agents have achieved state-of-the-art results by directly minimizing cumulative reward. However, many environments contain a plethora of possible training signals. In particular, for many combinatorial optimization environments (such as the famous Rubik's Cube), rewards are sparse and episodes are not guaranteed to terminate. Learning goal-directed behavior in environments with sparse feedback is a major challenge for reinforcement learning algorithms. The goal of the thesis is to introduce the concept of cube entropy and let the agent take advantage of entropy minimization, while using an autodidactic iteration algorithm, in its pursuit of finding God's Numnber. iii στους γονείς μου Ευχαριστίες Θα ήθελα καταρχήν να ευχαριστήσω τον καθηγητή κ. Ανδρέα -Γεώργιο Σταφυλοπάτη για την επίβλεψη αυτής της διπλωματικής εργασίας και για την ευκαιρία που μου έδωσε να πραγματοποιήσω την εκπόνηση αυτής στο Εργαστήριο Ευφυών Συστημάτων. Εξαιρετικής σημασίας ήταν και η βοήθεια των υποψηφίων διδακτόρων Θάνου Τασάκου και Τάσου Παπαγιάννη, οι οποίοι μου έδωσαν χρήσιμες συμβουλές και κατευθύνσεις καθ' όλη τη διάρκεια μέχρι την περάτωσή της. Τέλος, ευχαριστώ τους γονείς, τα αδέρφια και τους φίλους μου για όλη την υποστήριξη που μου παρείχαν κατά τη διάρκεια των σπουδών μου. Ιδιαίτερα ευχαριστώ θερμά τους Βασίλη Σταυρουλάκη, Αδάμ Ραπτάκη, Γιώργο Χαλκιόπουλο (ε είσαι φίλος) και Αντώνη Νικολαΐδη για την έμπρακτη συμπαράστασή τους όλα αυτά τα χρόνια. vii Περιεχόμενα Περίληψη i Abstract iii Ευχαριστίες vii Περιεχόμενα xi
doi:10.26240/heal.ntua.17830 fatcat:wg3ughiqpndilkeobmco7xrise