在第一课中,我们讲了 AI 为什么会成为加密交易的新基础设施。接下来的关键问题是:AI 再强,也只能在你提供的数据边界内工作。
很多策略失败,不是模型不够复杂,而是数据层已经出现了方向性错误:要么数据质量不足,要么特征设计失真,要么验证方式有偏差。
因此,真正的 AI 交易往往不是从“选模型”开始,而是从“搭数据底座”开始。你喂给模型什么,决定了它能看见什么;它能看见什么,决定了它能做出什么判断。
刚接触 AI 的交易者容易陷入“数据囤积”思维:把能抓到的数据都抓进来,认为特征越多越容易出 alpha。
现实中,低质量、多噪声、弱相关的数据反而会降低模型稳定性。原因很简单:
所以,搭建数据体系的第一原则是:
围绕交易问题选数据,而不是围绕数据本身找问题。
如果你要解决的是“短周期方向判断”,就优先关注微观结构与情绪冲击;如果你要做的是“中周期仓位管理”,就更应关注流动性、波动结构与宏观因子。

在加密市场里,最有价值的数据通常来自四个层面:行情、衍生品、链上与外部信息。
这是所有策略的基础层,包括:
它回答的问题是:价格如何变化、流动性如何变化、成交行为如何变化。
很多基础策略只用行情数据就可以建立,但它的局限是:更像“结果变量”,对“为什么变化”解释能力有限。
在加密市场尤其关键,包括:
这类数据能反映市场杠杆拥挤度和仓位脆弱性。
例如,“价格上涨 + OI 同步上升 + 资金费率偏高”与“价格上涨 + OI 下降”的含义完全不同。前者可能是趋势强化,也可能是杠杆拥挤;后者更可能是空头回补驱动。
没有衍生品维度,你很难判断行情背后的仓位结构。
这是加密市场区别于传统市场的重要优势,包括:
链上数据的价值在于能观察“资金与行为轨迹”,但难点在于解释滞后和噪声过滤。
同样是交易所流入增加,可能是抛压准备,也可能是对冲准备。链上数据必须与价格结构和衍生品数据联合解释,单独使用容易误判。
包括新闻、社媒讨论热度、政策事件、宏观数据发布时间点等。
它们更像“冲击源数据”:解释波动为何突然放大,或趋势为何在短时转向。
但这类数据问题也最明显:主观性强、噪声高、真假信息混杂。
因此,外部文本更适合做“风险提示因子”和“事件过滤器”,不建议直接作为唯一入场信号。
AI 不直接理解“市场叙事”,它只识别特征模式。
所以第二步不是急着训练模型,而是把原始数据变成可学习、可验证、可交易的特征。
常见可用特征可以分四组:
关键不在“特征多炫”,而在三个标准:
很多人默认让模型预测“下一根 K 线涨跌”,但这并不一定是最优任务。
交易目标可以有很多种标签形式:
如果你的策略目标是“避开大回撤”,却用“短线涨跌”做标签,模型再准确也未必有用。
所以标签应与策略目标一致:交易要赚什么钱,就让模型学习什么目标。
在普通机器学习任务里,随机打乱训练集与测试集常见且合理;但在交易里这么做会严重失真。
因为市场有时间依赖结构,未来信息绝不能“泄漏”到过去。
AI 交易至少要坚持三条验证纪律:
很多“回测神策略”崩盘,根因不是市场变坏,而是测试方法一开始就乐观偏置。
使用了当时不可得的数据,导致结果虚高。
只用“活下来的币种或平台”训练,忽略失败样本。
把真实噪声当脏数据删除,模型失去对极端行情的适应力。
特征里隐含了标签信息,让模型看起来过度准准。
把低频链上特征硬套到高频交易任务,造成伪信号。
这些问题不会在回测里主动报警,但会在实盘里迅速放大。
对课程学习者而言,最稳妥的做法不是一上来就做“全市场全因子大模型”,而是从最小可行数据框架开始:
这样做的好处是:问题定位清晰、迭代成本低、上线路径短。
复杂系统不是一开始就做出来的,而是在可解释的小系统上逐层扩展出来的。
在实际落地中,数据环节常常是最耗时的部分:多源采集、格式清洗、时间对齐、特征流水线、策略联调。
这也是为什么平台化 AI 工具越来越重要。以 Gate for AI 这一类基础设施为例,其价值不在“替你生成一个万能策略”,而在于帮助交易者更高效地完成从数据到策略的工程闭环,降低研究到执行之间的摩擦成本。交易者仍然要定义问题、设定约束、管理风险,但底层工作流可以更标准、更可复用。