في الدرس الأول، ناقشنا سبب تحول الذكاء الاصطناعي إلى البنية التحتية الجديدة لتداول العملات الرقمية. والسؤال الأهم: مهما بلغت قوة الذكاء الاصطناعي، فإنه يظل يعمل ضمن حدود البيانات التي تقدمها له.
تفشل الكثير من الاستراتيجيات ليس بسبب بساطة النموذج، بل نتيجة أخطاء اتجاهية في طبقة البيانات: إما أن جودة البيانات غير كافية، أو أن تصميم الخصائص مشوّه، أو أن طرق التحقق متحيزة.
لذلك، غالبًا ما يبدأ التداول الحقيقي المعتمد على الذكاء الاصطناعي بـ"بناء أساس البيانات" وليس بـ"اختيار النموذج". ما تزود به النموذج يحدد ما يمكنه رؤيته؛ وما يراه يحدد قدرته على إصدار الأحكام.
يقع المتداولون الجدد في مجال الذكاء الاصطناعي كثيرًا في فخ "تجميع البيانات": جمع كل البيانات الممكنة، معتقدين أن كثرة الخصائص تسهل اكتشاف Alpha.
في الواقع، تؤدي البيانات منخفضة الجودة والمليئة بالضجيج وضعيفة الارتباط إلى تقليل استقرار النموذج. السبب بسيط:
لذا، القاعدة الأولى لبناء نظام بيانات:
اختر البيانات بناءً على مشكلات التداول—ولا تبحث عن مشكلات في البيانات نفسها.
إذا كنت تعمل على "توقع الاتجاه قصير الأجل"، ركز على البنية الدقيقة والصدمات المعنوية؛ أما في "إدارة المراكز متوسطة الأجل"، فركز أكثر على السيولة، وهيكل التقلبات، والعوامل الكلية.

في أسواق العملات الرقمية، تأتي البيانات الأكثر قيمة عادة من أربع طبقات: بيانات السوق، بيانات المشتقات، بيانات على السلسلة، والمعلومات الخارجية.
تشكل هذه الطبقة الأساس لجميع الاستراتيجيات، وتشمل:
تجيب هذه البيانات عن: كيف تتغير الأسعار، كيف تتغير السيولة، وكيف يتغير سلوك التداول.
يمكن بناء الكثير من الاستراتيجيات الأساسية باستخدام بيانات السوق فقط، لكن محدوديتها تكمن في أنها أشبه بـ"متغير ناتج"، مع قدرة تفسيرية محدودة على "سبب التغير".
ذات أهمية خاصة في أسواق العملات الرقمية، وتشمل:
تعكس هذه البيانات ازدحام الرافعة المالية في السوق وهشاشة المراكز.
على سبيل المثال، "ارتفاع السعر + ارتفاع OI + معدل تمويل مرتفع" مقابل "ارتفاع السعر + انخفاض OI" يحمل معاني مختلفة تمامًا. الأول قد يشير إلى تقوية الاتجاه أو ازدحام الرافعة المالية؛ والثاني غالبًا ما يكون نتيجة تغطية المراكز القصيرة.
بدون بعد بيانات المشتقات، يصعب فهم بنية المراكز وراء تحركات السوق.
ميزة رئيسية تميز أسواق العملات الرقمية عن الأسواق التقليدية، وتشمل:
تكمن قيمة بيانات السلسلة في مراقبة "مسارات رأس المال والسلوك"، لكن التحدي يكمن في تأخر التفسير وتصفيه الضجيج.
على سبيل المثال، زيادة التدفق إلى المنصات قد تعني الاستعداد للبيع أو التحوط. يجب تفسير بيانات السلسلة مع هيكل السعر وبيانات المشتقات—واستخدامها منفردة قد يؤدي بسهولة إلى سوء التقدير.
تشمل الأخبار، حرارة النقاش على وسائل التواصل الاجتماعي، الأحداث السياسية، توقيتات إصدار البيانات الكلية.
هذه البيانات بمثابة "مصدر الصدمات": تفسر لماذا ترتفع التقلبات فجأة أو تتغير الاتجاهات لفترة وجيزة.
لكن لهذا النوع من البيانات مشكلات واضحة: ذاتية عالية، مليئة بالضجيج، مختلطة بين الصحيح والخاطئ.
لذا، من الأفضل استخدام النصوص الخارجية كـ"عوامل تنبيه للمخاطر" و"مرشحات للأحداث"، ولا يُنصح بالاعتماد عليها كإشارات دخول رئيسية.
الذكاء الاصطناعي لا يفهم "سرديات السوق" بشكل مباشر؛ بل يتعرف فقط على أنماط الخصائص.
لذا، الخطوة التالية ليست الإسراع في تدريب النماذج بل تحويل البيانات الخام إلى خصائص قابلة للتعلم والتحقق والتداول.
يمكن تصنيف الخصائص المفيدة الشائعة إلى أربع مجموعات:
المفتاح ليس في "الخصائص المبهرجة"، بل في ثلاثة معايير:
يفترض الكثيرون تلقائيًا أن النموذج يجب أن يتنبأ بـ"اتجاه الشمعة التالية صعودًا أو هبوطًا"، لكن ذلك ليس بالضرورة الأمثل.
يمكن أن تتخذ أهداف التداول أشكال علامات متنوعة:
إذا كان هدف استراتيجيتك "تجنب الانسحابات الكبيرة" لكنك تستخدم "اتجاه السعر قصير الأجل" كعلامة، فلن يكون النموذج مفيدًا مهما بلغت دقته.
لذا يجب أن تتطابق العلامات مع أهداف الاستراتيجية: أي ربح تسعى إليه في التداول، اجعل النموذج يتعلم ذلك الهدف.
في مهام التعلم الآلي التقليدية، من الشائع خلط مجموعات التدريب والاختبار عشوائيًا؛ لكن في التداول يؤدي ذلك إلى تشويه كبير.
لأن الأسواق لها بنية تعتمد على الزمن—يجب ألا "يتسرب" أي معلومات مستقبلية إلى الماضي.
يجب أن يلتزم التداول بالذكاء الاصطناعي بثلاث قواعد تحقق على الأقل:
تنهار العديد من "استراتيجيات المعجزة في الاختبار الرجعي" ليس لأن الأسواق ساءت، بل لأن طرق الاختبار كانت متفائلة منذ البداية.
استخدام بيانات غير متاحة في وقتها يؤدي إلى نتائج مبالغ فيها.
التدريب فقط على العملات أو المنصات الباقية—وتجاهل العينات الفاشلة.
حذف الضجيج الحقيقي باعتباره بيانات غير نظيفة—فيخسر النموذج القدرة على التكيف مع الأسواق المتطرفة.
تحتوي الخصائص ضمنيًا على معلومات العلامة—مما يجعل النموذج يبدو أكثر دقة من الواقع.
فرض خصائص على السلسلة منخفضة التردد في مهام التداول عالي التردد—مما يسبب إشارات خاطئة.
هذه المشكلات لا تظهر أثناء الاختبار الرجعي، لكنها تتضخم بسرعة في التداول المباشر.
بالنسبة لمتعلمي الدورة، النهج الأكثر أمانًا ليس البدء بـ"نموذج شامل لجميع العوامل في السوق"، بل البدء بإطار بيانات أولي قابل للتطبيق:
هذا النهج يحافظ على وضوح تحديد المشكلات، ويقلل من تكاليف التكرار، ويقصر مسار النشر.
لا تُبنى الأنظمة المعقدة دفعة واحدة—بل تتوسع طبقة تلو طبقة من أنظمة صغيرة قابلة للتفسير.
في التطبيق العملي، غالبًا ما تكون مرحلة البيانات هي الأكثر استهلاكًا للوقت: جمع متعدد المصادر، تنظيف الصيغ، محاذاة الزمن، خطوط معالجة الخصائص، ودمج الاستراتيجيات.
لهذا السبب تزداد أهمية أدوات الذكاء الاصطناعي القائمة على المنصات. وبالاستعانة بـ Gate for AI كمثال على هذه البنية التحتية—تكمن القيمة في مساعدة المتداولين على إكمال دورة الهندسة من البيانات إلى الاستراتيجية بكفاءة وتقليل الاحتكاك بين البحث والتنفيذ، وليس في "توليد استراتيجية عالمية". يظل على المتداولين تحديد المشكلات، وتعيين القيود، وإدارة المخاطر—لكن سير العمل الأساسي يمكن أن يكون أكثر معيارية وقابلية لإعادة الاستخدام.