في الثمانينيات من القرن الماضي ، كان أندرو بارتو وريتش سوتون يعتبران من المصلين غريب الأطوار لمفكرة أنيقة ولكن محكوم عليها في نهاية المطاف – تتعلم آلات الحجارة ، كما يفعل البشر والحيوانات ، من التجربة.
بعد عقود ، مع هذه التقنية التي قاموا بها الآن ، تم منحها الآن أهمية متزايدة للذكاء الاصطناعي وبرامج مثل Chatgpt و Barto و Sutton جائزة Turing ، وهي أعلى شرف في مجال علوم الكمبيوتر.
قام بارتو ، أستاذ فخري بجامعة ماساتشوستس أمهيرست ، وسوتون ، أستاذ بجامعة ألبرتا ، على تقنية تُعرف باسم التعلم التعزيز ، والتي تتضمن إقناع الكمبيوتر لأداء المهام من خلال التجربة مقترنة إما ردود فعل إيجابية أو سلبية.
يتذكر بارتو بابتسامة: “عندما بدأ هذا العمل بالنسبة لي ، كان الأمر غير عصري للغاية”. ويضيف: “لقد كان من اللافت للنظر أن (لقد حقق) بعض التأثير وبعض الاهتمام”.
ربما كان التعلم المعزز أكثر شهرة من قبل Google DeepMind في عام 2016 لبناء AlphaGo ، وهو برنامج تعلم لنفسه كيفية لعب لعبة اللوحة المعقدة والخفية بشكل لا يصدق ، تذهب إلى مستوى الخبراء. أثار هذا العرض التوضيحي اهتمامًا جديدًا بالتقنية ، التي استمرت في الإعلان ، وتحسين استخدام الطاقة ، والتمويل ، وتصميم الرقائق. يحتوي النهج أيضًا على تاريخ طويل في الروبوتات ، حيث يمكن أن يساعد الآلات على تعلم أداء المهام المادية من خلال التجربة والخطأ.
في الآونة الأخيرة ، كان التعلم التعزيز أمرًا بالغ الأهمية لتوجيه ناتج نماذج اللغة الكبيرة (LLMS) وإنتاج برامج chatbot قادرة بشكل غير عادي. يتم استخدام نفس الطريقة أيضًا لتدريب نماذج الذكاء الاصطناعي على تقليد التفكير البشري وبناء وكلاء الذكاء الاصطناعي أكثر قدرة.
ومع ذلك ، يلاحظ Sutton أن الأساليب المستخدمة لتوجيه LLMs تشمل البشر الذين يقدمون الأهداف بدلاً من خوارزمية تتعلم بحتة من خلال استكشافها. يقول إن وجود آلات تتعلم تمامًا من تلقاء نفسها قد يكون في النهاية أكثر فائدة. يقول: “الانقسام الكبير هو ما إذا كان (الذكاء الاصطناعي) يتعلم من الناس أو ما إذا كان يتعلم من تجربته الخاصة”.
قال جيف دين ، نائب الرئيس الأول في Google ، في بيان صدر عن جمعية آلات الحوسبة (ACM) التي صدرت جائزة تورينج سنويًا “لقد كان عمل بارتو وساتون” عمل “من” من الذكاء الاصطناعي على مدار العقود القليلة الماضية “. “تظل الأدوات التي طوروها عمودًا مركزيًا لطفرة الذكاء الاصطناعى وجعلت تقدمًا كبيرًا”.
التعزيز له تاريخ طويل ومتقلب داخل الذكاء الاصطناعي. كان هناك عند فجر الحقل ، عندما اقترح آلان تورينج أن الآلات يمكن أن تتعلم من خلال التجربة والتعليقات في ورقته الشهيرة عام 1950 “آلات الحوسبة والذكاء” ، والتي تفحص فكرة أن الآلة قد تفكر في يوم من الأيام كإنسان. استخدم آرثر صموئيل ، وهو رائد منظمة العفو الدولية ، تعليم التعزيز لبناء أحد برامج التعلم الآلي الأولى ، وهو نظام قادر على لعب المداخن ، في عام 1955.