CENG 567

Pekiştirmeli Öğrenme

CENG 567

 

Pekiştirmeli Öğrenme
Dersin Yarıyılı T+U Kredi AKTS
3+0 3 9
Dersin Dili İngilizce
Dersin Düzeyi Lisansüstü
Bölümü / Programı Bilgisayar Mühendisliği Bölümü/Bilgisayar Mühendisliği Yüksek Lisans Programı
Öğrenim Türü Yüz yüze
Dersin Türü Zorunlu [ ] / Teknik Seçmeli [ x ]
Dersin Amacı Bu ders, çok kollu banditler, Q-öğrenme ve derin pekiştirmeli öğrenme gibi temel teknikleri kapsayan pekiştirmeli öğrenmeyi tanıtmaktadır. Öğrenciler belirsizlik altında karar vermeyi öğrenecek ve aktör-kritik modelleri gibi gelişmiş yöntemleri gerçek dünya problemlerine uygulayacaklardır.
Dersin İçeriği Çok kollu banditler, epsilon açgözlü seçim, üst güven sınırları, Thompson örnekleme, bağlamsal banditler, Markov karar süreci, dinamik programlama, politika ve değer yineleme, Monte Carlo yöntemleri, zamansal fark, Q-öğrenme, derin Q-öğrenme, aktör-kritik modelleri.
Ön Koşulları Yok
Dersin Koordinatörü Dr. Öğr. Üyesi Osman GÖKALP
Dersi Verenler Dr. Öğr. Üyesi Osman GÖKALP
Dersin Yardımcıları Yok
Dersin Staj Durumu Yok
Ders Kaynakları
Kaynaklar Mastering Reinforcement Learning with Python, Enes Bilgin, Packt Publishing, 2020.

Reinforcement Learning, second edition: An Introduction, Richard S. Sutton and Andrew G. Barto, Bradford Books, second edition.

Planlanan Öğrenme Aktiviteleri ve Metotları
Sunumlar, ödevler, araştırma.
Değerlendirme Ölçütleri AKTS Hesaplama İçeriği
Yarıyıl Çalışmaları Sayısı Katkı % Etkinlik Sayı Süre İş Yükü (Saat)
Ödevler 2 %20 Haftalık Ders 14 3 42
Vaka çalışmaları Dersle İlgili Sınıf Dışı Etkinlikler (Ödev, Okuma, Bireysel Çalışma vb.) 14 2 28
Laboratuvar çalışması
Diğer uygulamalar
Proje
Kısa sınavlar Sınavlar ve Sınava Hazırlık (Derse Katılım, Sunum, Yarıyıl Sınavı, Final Sınavı, Kısa Sınavlar vb) 2 5 10
Yıl içi sınavları 1 %30
Final sınavı 1 %50
Toplam 80
Dersin Öğrenme Çıktıları
Bu dersi başarılı bir şekilde tamamlanmasıyla öğrenciler şunları yapabileceklerdir:
Sıra No Açıklama
Ö1 Pekiştirmeli öğrenmenin temel prensiplerini ve ana kavramlarını anlamak.
Ö2 Q-öğrenme ve derin Q-öğrenme gibi temel algoritmaları uygulamak.
Ö3 Markov karar süreçlerini ve politika optimizasyonunu analiz etmek.
Ö4 Gerçek dünya senaryolarında pekiştirmeli öğrenme çözümleri uygulamak.
Ders Konuları
Hafta Konu
1 Pekiştirmeli Öğrenmeye (RL) Giriş
2 Çok Kollu Banditler, Epsilon Açgözlü Seçim
3 Üst Güven Sınırları, Thompson Örnekleme
4 Bağlamsal Banditler
5 Markov Karar Süreci
6 Dinamik Programlama, Politika Yineleme, Değer Yineleme
7 Monte Carlo Yöntemleri
8 Zamansal Fark Öğrenme, SARSA, Q-Öğrenme
9 Derin Q-Öğrenme
10 Aktör-Kritik Modelleri, A2C
11 Derin Deterministik Politika Gradyanı
12 Pekiştirmeli Öğrenme Uygulamaları – I
13 Pekiştirmeli Öğrenme Uygulamaları – II
14 Dersin Genel Değerlendirmesi ve Geri Bildirimler