موقع ينافس شات جي بي تي العملاق الصيني Qwen.ai
يمتلك التعلم التعزيزي المتوسع (RL) القدرة على تحسين أداء النماذج بما يتجاوز أساليب التدريب المسبق واللاحق التقليدية. وقد أثبتت الدراسات الحديثة أن التعلم التعزيزي يُحسّن بشكل كبير قدرات النماذج على التفكير المنطقي. على سبيل المثال، حقق DeepSeek R1 أداءً متطورًا من خلال دمج بيانات البداية الباردة والتدريب متعدد المراحل، مما يُتيح التفكير العميق والتفكير ...
موقع ينافس شات جي بي تي العملاق الصيني Qwen.ai
يمتلك التعلم التعزيزي المتوسع (RL) القدرة على تحسين أداء النماذج بما يتجاوز أساليب التدريب المسبق واللاحق التقليدية. وقد أثبتت الدراسات الحديثة أن التعلم التعزيزي يُحسّن بشكل كبير قدرات النماذج على التفكير المنطقي. على سبيل المثال، حقق DeepSeek R1 أداءً متطورًا من خلال دمج بيانات البداية الباردة والتدريب متعدد المراحل، مما يُتيح التفكير العميق والتفكير المنطقي المُعقد.
يستكشف بحثنا قابلية توسّع التعلم المعزز (RL) وتأثيره على تعزيز ذكاء نماذج اللغات الكبيرة. ويسعدنا أن نقدم نموذج QwQ-32B، وهو نموذج يحتوي على 32 مليار معلمة، ويُحقق أداءً يُضاهي أداء DeepSeek-R1، الذي يضم 671 مليار معلمة (مع تفعيل 37 مليار منها). تُؤكد هذه النتيجة اللافتة فعالية التعلم المعزز عند تطبيقه على نماذج أساسية متينة مُدرّبة مسبقًا على معرفة عالمية واسعة. علاوة على ذلك، قمنا بدمج قدرات مرتبطة بالوكيل في نموذج التفكير، مما يُمكّنه من التفكير النقدي أثناء استخدام الأدوات وتكييف تفكيره بناءً على التغذية الراجعة البيئية. لا تُظهر هذه التطورات الإمكانات التحويلية للتعلم المعزز فحسب، بل تُمهد الطريق أيضًا لمزيد من الابتكارات في مجال الذكاء الاصطناعي العام.
QwQ-32B هو وزن مفتوح في Hugging Face و ModelScope بموجب ترخيص Apache 2.0 ويمكن الوصول إليه عبر Qwen Chat .
أداء
تم تقييم QwQ-32B عبر مجموعة من المعايير المصممة لتقييم قدرته على التفكير الرياضي، وكفاءته في البرمجة، وقدرته العامة على حل المشكلات. تُبرز النتائج أدناه أداء QwQ-32B مقارنةً بالطرازات الرائدة الأخرى، بما في ذلك DeepSeek-R1-Distilled-Qwen-32B، وDeepSeek-R1-Distilled-Llama-70B، وo1-mini، وDeepSeek-R1 الأصلي.