DeepMind تطلق Acme ، وهو إطار عمل موزع لتطوير خوارزمية التعلم المعزز
أصدر DeepMind هذا الأسبوع Acme ، وهو إطار يهدف إلى تبسيط تطوير خوارزميات التعلم المعزز من خلال تمكين الوكلاء الذين يقودهم الذكاء الاصطناعي من العمل على مستويات مختلفة من التنفيذ. وفقاً للمهندسين والباحثين الذين قامو بتنفيذ Acme ، الذين شاركوا في تأليف هذه الورقة فنية حول العمل ، يمكن استخدامها لإنشاء عوامل بموازاة أكبر من الطرق السابقة .
يشمل التعلم المعزز وكلاء يتفاعلون مع بيئة معينة لإنشاء بيانات التدريب الخاصة بهم ، وقد أدى إلى تقدم كبير في مجالات مثل ألعاب الفيديو والروبوتات إلى سيارات الأجرة ذاتية القيادة. تُعزى التطورات الأخيرة جزئياً إلى الزيادات في كمية بيانات التدريب المستخدمة ، والتي حفزت تصميم النظم حيث يتفاعل الوكلاء مع أمثلة البيئة لتراكم الخبرة بسرعة. غالباً ما يتطلب هذا التوسع من النماذج الأولية للخوارزميات أحادية العملية إلى الأنظمة الموزعة إعادة تنفيذ العوامل المعنية ، كما يؤكد DeepMind ، وهو المكان الذي يأتي فيه إطار عمل Acme .
DeepMind تطلق Acme ، وهو إطار عمل موزع لتطوير خوارزمية التعلم المعزز
Acme هو مجموعة تطوير لتدريب وكلاء التعلم المعزز الذي يحاول معالجة قضايا التعقيد والنطاق ، مع مكونات لبناء وكلاء على مستويات مختلفة من الخوارزميات والسياسات للمتعلمين. يذهب التفكير إلى أن هذا سيسمح بالتكرار السريع للأفكار وتقييم تلك الأفكار في الإنتاج ، وبشكل رئيسي من خلال حلقات التدريب ، وتسجيل الإبداع .
داخل إطار عمل Acme ، يتفاعل الأشخاص مع البيئة ، ويقومون بتقديم الملاحظات التي تنتجها البيئة ويتخذون الإجراءات التي بدورها تعتمد على البيئة. بعد مراقبة الانتقال الذي أعقب ذلك ، يتم منح المشاركين فرصة لتحديث دولهم ؛ يرتبط هذا في الغالب بسياسات اختيار العمل الخاصة بهم ، والتي تحدد الإجراءات التي يتخذونها استجابة للبيئة. يتألف نوع خاص من ممثل Acme من كل من عناصر التمثيل والتعلم – ويشار إليهم باسم “الوكلاء” – ويتم تشغيل تحديثات حالتهم من خلال عدد من الخطوات داخل مكون المتعلم. ومع ذلك ، فإن العملاء في الغالب يؤجلون اختيار عملهم إلى عنصر التمثيل الخاص بهم.
يوفر Acme وحدة مجموعة بيانات تقع بين مكونات الممثل والمتعلم ، مدعومة بنظام تخزين منخفض المستوى يسمى Reverb الذي أصدره DeepMind هذا الأسبوع. بالإضافة إلى ذلك ، ينشئ الإطار واجهة مشتركة لإدراجها في تردد ، لتمكين أنماط مختلفة من المعالجة المسبقة والتجميع المستمر لبيانات الرصد .
يتم تقسيم مكونات التمثيل والتعلم والتخزين بين سلاسل عمليات أو عمليات مختلفة داخل Acme ، مما يمنح فائدتين : تحدث تفاعلات البيئة بشكل غير متزامن مع عملية التعلم ، ويتسارع توليد البيانات. في مكان آخر ، يسمح تقييد معدل Acme بتطبيق المعدل المرغوب من التعلم إلى التمثيل ، مما يسمح للعمليات بالغاء الحظر ، على سبيل المثال ، إذا بدأت إحدى العمليات متخلفة عن الأخرى بسبب مشكلات في الشبكة أو عدم كفاية الموارد ، فسيحظر محدد المعدل على laggard بينما يلتقط الآخر.
بالإضافة إلى هذه الأدوات والموارد ، يتم شحن Acme مع مجموعة من الوكلاء الذين يُقصد بهم العمل كتطبيقات مرجعية لخوارزميات التعلم التعزيزية الخاصة بهم بالإضافة إلى خطوط الأساس البحثية القوية. يقول DeepMind أن المزيد قد يصبح متاحاً في المستقبل. كتب الباحثون : “من خلال توفير هذه … نأمل أن تساعد Acme في تحسين وضع قابلية الإنتشار في [التعلم المعزز] ، وتمكين مجتمع البحث الأكاديمي من خلال لبنات بناء بسيطة لإنشاء وكلاء جدد”. “بالإضافة إلى ذلك ، يجب أن توفر خطوط الأساس لدينا معايير إضافية لقياس التقدم في هذا المجال.”