أعلنت شركة شاومي الصينية عن إطلاق أول نموذج لها في مجال الروبوتات الكبيرة باسم Xiaomi-Robotics-0، وهو نظام يجمع بين الرؤية الحاسوبية والفهم اللغوي وتنفيذ الحركات الفعلية، ويضم نحو 4.7 مليارات معلمة، ويستهدف ما تصفه الشركة بـ«الذكاء الفيزيائي»، أي الدمج بين الإدراك واتخاذ القرار والتنفيذ الحركي.
التكوين والتقنية
يتبع النموذج بنية Mixture-of-Transformers، وهو مقسّم إلى مكوّنين رئيسيين: نموذج بصري-لغوي يعمل كدماغ الروبوت لفهم التعليمات البشرية ومعالجة الصور والتفكير المنطقي، ومكوّن حركي قائم على Diffusion Transformer متعدد الطبقات لتوليد تسلسل حركات دقيقة وسلسة.
أوضحت الشركة أن النموذج خضع لتدريب مشترك على بيانات متعددة الوسائط والحركة، بهدف الحفاظ على قدراته الإدراكية أثناء تعلم المهام الحركية، مع إدخال تحسينات تقنية لتقليل زمن الاستجابة وتعزيز استقرار الأداء.
وفي الاختبارات، سجل النظام نتائج متقدمة في بيئات المحاكاة، كما جرى تطبيقه على روبوت ذراعين أظهر قدرة على تنسيق العين واليد في مهام معقدة مثل طي المناشف وتفكيك المكعبات، مع التعامل مع مواد صلبة ومرنة بكفاءة.
يُنظر إلى هذا النموذج بوصفه خطوة متقدمة لشركة شاومي نحو تطوير روبوتات قادرة على الجمع بين الفهم اللغوي والإدراك البصري والتنفيذ الفيزيائي، في إطار المنافسة المتصاعدة عالمياً في مجال الروبوتات الذكية.







