أطلقت شركة StepFun AI نموذجاً جديداً يُدعى Step‑DeepResearch، وهو وكيل بحث عميق شامل من نوع end-to-end يحتوي على 32 مليار معاملة، مبني على قاعدة Qwen2.5-32B-Base.

ويهدف النموذج إلى تحويل عمليات البحث العادية على الويب إلى سير عمل بحثي حقيقي متقدم يشمل التفكير طويل الأفق، استخدام الأدوات، والتقارير المنظمة مع الاستشهادات، مع الحفاظ على تكلفة استدلال منخفضة نسبياً مقارنة بالنماذج الكبيرة الأخرى.

ويعيد النموذج صياغة مهمة البحث العميق كعملية اتخاذ قرار تسلسلي تعتمد على مجموعة مدمجة من أربع قدرات أساسية (atomic capabilities): التخطيط وتفكيك المهمة، البحث العميق عن المعلومات، التأمل والتحقق، وإنتاج التقارير المهنية، بدلاً من الاعتماد على تنسيق عدة وكلاء خارجيين، يدمج النموذج هذه الحلقة داخلياً في وكيل واحد يقرر الخطوة التالية في كل مرحلة.

 

بناء البيانات والتدريب الموجه نحو القدرات الأساسية

وفقًا لتقرير نشر على موقع مارك تيك بوست، قام فريق البحث ببناء خطوط بيانات منفصلة لكل قدرة أساسية، للتخطيط، تم استخراج خطط بحث واقعية من تقارير فنية وأوراق مسحية وتحليلات مالية، ثم توليد مسارات تتبع هذه الخطط، أما للبحث العميق، فقد تم إنشاء استفسارات قائمة على الرسوم البيانية عبر قواعد معرفية مثل Wikidata5m وCN-DBpedia، مع التركيز على الأسئلة الصعبة التي تتطلب استردادًا متعدد الوثائق.
تم توليد بيانات التأمل والتحقق عبر حلقات تصحيح ذاتي وتتبعات معلم متعدد الوكلاء، بينما تم تدريب إنتاج التقارير على مراحل مع التركيز على التنسيق الصارم والاستشهادات، ويتكون التدريب من ثلاث مراحل: mid-training لإدخال القدرات الأساسية (حتى 150 مليار توكن مع سياق 32k ثم 128k)، supervised fine-tuning لتركيب مسارات بحث كاملة، وreinforcement learning باستخدام PPO ومحكم Rubrics لتحسين التقارير وفقاً لمعايير دقيقة.

هندسة ReAct واحدة مع مكدس بحث مختار وذاكرة خارجية

يعمل النموذج عند الاستدلال كنظام ReAct واحد يتناوب بين التفكير واستدعاء الأدوات والملاحظات حتى يقرر إصدار التقرير، تشمل الأدوات البحث الجماعي على الويب، مدير المهام، أوامر الشل، وعمليات الملفات داخل sandbox مع استمرارية الطرفية. يستخدم مكدس البحث API خاصاً يغطي أكثر من 20 مليون ورقة بحثية عالية الجودة و600 مؤشر متميز، بالإضافة إلى تصنيف سلطة يفضل أكثر من 600 نطاق موثوق (حكومي، أكاديمي، مؤسسي)، لتجنب تجاوز السياق، يستخدم تخزيناً ذكياً يعتمد على الملخصات وتحرير التصحيحات الجزئية للملفات، مما يعمل كذاكرة خارجية فعالة للمشاريع الطويلة.
 

زيارة مصدر الخبر