İnsan Geri Bildirimi ile Pekiştirmeli Öğrenme

NOT: Amazon’da Makine Öğrenmesi Mühendisi olarak çalışan Vinija Jain Chadha’nın yazdığı “Reinforcement Learning from Human Feedback” isimli gönderisinin kendisinin izni ile verilmiş Türkçesi’dir. Orijinal yazıyı buradaki bağlantıda bulabilirsiniz.

Genel Bakış

Pekiştirmeli Öğrenme’nin Temelleri

Yukarıdaki görüntü (kaynak), RLHF modelinin hem bir Dil Modelinden (Language model) hem de insan etiketinden (human annotation) girdileri nasıl aldığını ve her ikisinden de ayrı ayrı daha iyi bir yanıt oluşturduğunu göstermektedir.

Eğitim

Önceden Eğitilmiş Modeller kullanılarak Dil Modeli Oluşturma

Ödül Modeli

Dil Modeline, Pekiştirmeli Öğrenme ile İnce-Ayar Çekme

Yanlılık

İnce Ayar Çekmek için Pekiştirmeli Öğrenme’ye karşı Denetimli Öğrenme

Not: Bu bölüm Sebastian Raschka’nın bu bağlantıdaki gönderisinden esinlenilmiştir ve aşağıdaki görsel de Sebastian Raschka‘ya aittir.

Kullanım Senaryoları

Referanslar