Trong Bài 1, chúng ta đã phân tích vì sao AI đang trở thành hạ tầng mới cho giao dịch tiền điện tử. Câu hỏi then chốt tiếp theo là: dù AI mạnh mẽ thế nào, nó chỉ hoạt động trong phạm vi dữ liệu bạn cung cấp.
Nhiều chiến lược thất bại không phải do mô hình quá đơn giản, mà vì có sai lệch định hướng ở tầng dữ liệu: chất lượng dữ liệu không đủ, thiết kế đặc tính bị bóp méo hoặc phương pháp xác thực bị thiên lệch.
Do đó, giao dịch AI thực tế thường không bắt đầu bằng việc “chọn mô hình”, mà là “xây dựng nền tảng dữ liệu”. Những gì bạn cung cấp cho mô hình quyết định mô hình nhìn thấy gì; mô hình nhìn thấy gì quyết định mô hình có thể đưa ra phán đoán nào.
Nhà giao dịch mới với AI thường rơi vào tư duy “tích trữ dữ liệu”: thu thập mọi dữ liệu có thể, tin rằng càng nhiều đặc tính càng dễ tìm alpha.
Thực tế, dữ liệu chất lượng thấp, nhiều nhiễu, liên kết yếu lại làm giảm độ ổn định của mô hình. Lý do là:
Do đó, nguyên tắc đầu tiên khi xây dựng hệ thống dữ liệu là:
Chọn dữ liệu xoay quanh vấn đề giao dịch—không truy tìm vấn đề từ dữ liệu.
Nếu bạn giải quyết “dự đoán hướng ngắn hạn”, hãy ưu tiên vi cấu trúc và tác động tâm lý; nếu bạn triển khai “quản lý vị thế trung hạn”, hãy tập trung vào thanh khoản, cấu trúc biến động và yếu tố vĩ mô.

Trong thị trường tiền điện tử, dữ liệu giá trị nhất thường đến từ bốn tầng: dữ liệu thị trường, phái sinh, trên chuỗi và thông tin bên ngoài.
Đây là tầng nền tảng cho mọi chiến lược, gồm:
Giải đáp: giá biến động thế nào, thanh khoản biến động ra sao, hành vi giao dịch thay đổi như thế nào.
Nhiều chiến lược cơ bản có thể xây dựng chỉ với dữ liệu thị trường, nhưng hạn chế là: nó giống như “biến kết quả”, khả năng giải thích “vì sao mọi thứ thay đổi” còn hạn chế.
Đặc biệt quan trọng trong thị trường tiền điện tử, bao gồm:
Dữ liệu này phản ánh sự tập trung đòn bẩy thị trường và tính dễ tổn thương của vị thế.
Ví dụ, “giá tăng + khối lượng mở tăng + tỷ lệ funding cao” so với “giá tăng + khối lượng mở giảm” mang ý nghĩa hoàn toàn khác nhau. Trường hợp đầu có thể báo hiệu xu hướng mạnh lên hoặc đòn bẩy tập trung; trường hợp sau thường do short bị đóng.
Không có chiều phái sinh, khó đánh giá cấu trúc vị thế phía sau biến động thị trường.
Lợi thế then chốt phân biệt thị trường tiền điện tử với truyền thống, bao gồm:
Giá trị của dữ liệu trên chuỗi nằm ở việc quan sát “quỹ đạo vốn và hành vi”, nhưng thách thức là diễn giải trễ và lọc nhiễu.
Ví dụ, dòng tiền vào sàn tăng có thể là chuẩn bị bán hoặc chuẩn bị phòng ngừa rủi ro. Dữ liệu trên chuỗi phải kết hợp với cấu trúc giá và dữ liệu phái sinh—nếu dùng riêng dễ dẫn đến đánh giá sai.
Bao gồm tin tức, độ nóng thảo luận mạng xã hội, sự kiện chính sách, thời điểm công bố dữ liệu vĩ mô.
Đây giống như “dữ liệu nguồn sốc”: giải thích vì sao biến động đột ngột tăng hoặc xu hướng chuyển nhanh.
Nhưng loại dữ liệu này có vấn đề rõ rệt: tính chủ quan cao, nhiều nhiễu, thật giả lẫn lộn.
Do đó, văn bản bên ngoài nên dùng làm “yếu tố cảnh báo rủi ro” và “bộ lọc sự kiện”, không nên dùng làm tín hiệu vào lệnh duy nhất.
AI không trực tiếp hiểu “câu chuyện thị trường”; nó chỉ nhận diện mẫu đặc tính.
Vì vậy, bước tiếp theo không phải vội huấn luyện mô hình mà là chuyển đổi dữ liệu thô thành đặc tính có thể học, xác thực và giao dịch.
Các đặc tính hữu ích phổ biến có thể phân thành bốn nhóm:
Điểm mấu chốt không nằm ở “đặc tính hào nhoáng”, mà là ba tiêu chuẩn:
Nhiều người mặc định để mô hình dự đoán “K-line tiếp theo lên/xuống”, nhưng đó không nhất thiết là tối ưu.
Mục tiêu giao dịch có thể có nhiều dạng nhãn:
Nếu mục tiêu chiến lược của bạn là “tránh sụt giảm lớn” nhưng lại dùng “hướng giá ngắn hạn” làm nhãn, dù mô hình chính xác đến đâu, cũng có thể không hữu ích.
Vì vậy, nhãn phải phù hợp với mục tiêu chiến lược: bạn muốn tìm lợi nhuận nào trong giao dịch, hãy để mô hình học đúng mục tiêu đó.
Trong các tác vụ học máy thông thường, xáo trộn ngẫu nhiên tập huấn luyện và kiểm tra là phổ biến và hợp lý; nhưng với giao dịch, điều này gây bóp méo nghiêm trọng.
Bởi thị trường có cấu trúc phụ thuộc thời gian—thông tin tương lai tuyệt đối không được “rò rỉ” về quá khứ.
Giao dịch AI nên tuân thủ tối thiểu ba quy tắc xác thực:
Nhiều chiến lược “backtest thần kỳ” sụp đổ không phải vì thị trường xấu đi mà bởi phương pháp kiểm tra đã thiên lệch lạc quan ngay từ đầu.
Dùng dữ liệu không khả dụng tại thời điểm dẫn đến kết quả bị thổi phồng.
Chỉ huấn luyện trên các coin hoặc nền tảng còn sống—bỏ qua mẫu thất bại.
Xóa nhiễu thực tế như dữ liệu bẩn—mô hình mất khả năng thích ứng với thị trường cực đoan.
Đặc tính ngầm chứa thông tin nhãn—làm mô hình có vẻ quá chính xác.
Bắt buộc đặc tính trên chuỗi tần suất thấp vào tác vụ giao dịch tần suất cao—gây tín hiệu giả.
Những vấn đề này không kích hoạt cảnh báo khi backtest nhưng sẽ nhanh chóng phóng đại khi giao dịch thực tế.
Đối với học viên khóa học, cách tiếp cận an toàn nhất không phải bắt đầu với “mô hình toàn thị trường, toàn yếu tố”, mà là xây dựng khung dữ liệu tối thiểu khả dụng:
Cách này giúp khoanh vùng vấn đề rõ ràng, chi phí lặp thấp, đường triển khai ngắn.
Hệ thống phức tạp không xây dựng một lần—mà mở rộng từng tầng từ hệ thống nhỏ dễ diễn giải.
Trong thực tế triển khai, giai đoạn dữ liệu thường tiêu tốn nhiều thời gian nhất: thu thập đa nguồn, làm sạch định dạng, căn chỉnh thời gian, pipeline đặc tính, tích hợp chiến lược.
Đó là lý do các công cụ AI nền tảng ngày càng quan trọng. Gate for AI là ví dụ điển hình cho hạ tầng này—giá trị không nằm ở việc “tạo chiến lược phổ quát”, mà ở hỗ trợ nhà giao dịch hoàn thành hiệu quả vòng lặp kỹ thuật từ dữ liệu đến chiến lược và giảm ma sát giữa nghiên cứu và thực thi. Nhà giao dịch vẫn phải tự xác định vấn đề, đặt ràng buộc, quản lý rủi ro—nhưng quy trình nền tảng có thể chuẩn hóa và tái sử dụng nhiều hơn.