В занятии 1 мы рассмотрели, почему ИИ становится новой инфраструктурой для криптотрейдинга. Важно понимать: насколько бы мощным ни был ИИ, он ограничен только теми данными, которые вы ему предоставляете.
Многие торговые стратегии терпят неудачу не из-за простоты модели, а из-за ошибок на уровне данных: недостаточное качество, искажение признаков или предвзятые методы проверки.
Поэтому реальная торговля с ИИ начинается не с «выбора модели», а с «создания базы данных». Какие данные вы подаёте в модель, то она и сможет анализировать. То, что она видит, определяет её решения.
Трейдеры, только начинающие работать с ИИ, часто стремятся собрать максимум данных, считая, что больше признаков упростит поиск alpha.
На деле низкокачественные, шумные и слабо связанные данные только снижают устойчивость модели. Причина очевидна:
Первый принцип построения системы данных:
Выбирайте данные, исходя из задач трейдинга, а не подбирайте задачи к имеющимся данным.
Если вы решаете задачу «прогноза краткосрочного направления», фокусируйтесь на микроструктуре и шоках настроения. Для «среднесрочного управления позицией» уделяйте внимание ликвидности, структуре волатильности и макрофакторам.

В крипторынках наиболее ценные данные обычно поступают из четырёх источников: рыночные данные, деривативы, ончейн и внешняя информация.
Это основа всех стратегий, включает:
Эти данные показывают, как меняются цены, ликвидность и поведение трейдеров.
На одних рыночных данных можно построить базовые стратегии, но их ограничение — это скорее «результат», слабо объясняющий причины изменений.
В крипторынках особенно важны:
Они отражают концентрацию плеча и уязвимость позиций на рынке.
Например, «рост цены + рост открытого интереса + высокая ставка финансирования» и «рост цены + падение открытого интереса» имеют разную природу. Первый вариант может означать усиление тренда или перегруженность плеча, второй — чаще связан с покрытием шортов.
Без данных по деривативам сложно понять структуру позиций за движением рынка.
Это главное отличие крипторынков от традиционных:
Ончейн-данные позволяют отслеживать «капитальные и поведенческие траектории», но их сложно быстро интерпретировать и очистить от шума.
Например, рост притока на биржу может означать как подготовку к продаже, так и к хеджированию. Ончейн-данные нужно анализировать вместе с ценовыми и деривативными показателями — их отдельное использование приводит к ошибкам.
Сюда входят новости, активность обсуждений в соцсетях, политические события, время публикации макроэкономических данных.
Это «данные источника шока»: объясняют, почему резко изменилась волатильность или краткосрочно сменился тренд.
Такие данные имеют очевидные недостатки: субъективность, высокий шум, смешение правдивой и ложной информации.
Внешние тексты лучше использовать как «фильтры событий» и «факторы оповещения о рисках», а не как единственный источник сигналов.
ИИ не понимает рыночные истории, он распознаёт только паттерны признаков.
Второй шаг — не обучение моделей, а преобразование сырых данных в обучаемые, проверяемые и пригодные для торговли признаки.
Полезные признаки делятся на четыре группы:
Главное — не «яркость признаков», а соответствие трём критериям:
Многие по умолчанию заставляют модель прогнозировать «следующее движение свечи», но это не всегда оптимально.
Цели стратегии могут оформляться разными метками:
Если ваша цель — «избежать крупных просадок», а вы используете метку «краткосрочное направление цены», даже точная модель не даст результата.
Метки должны соответствовать целям стратегии: какую прибыль вы хотите получить, тому и должна обучаться модель.
В стандартных задачах машинного обучения случайное перемешивание обучающей и тестовой выборки допустимо, но в трейдинге это приводит к искажениям.
Потому что рынки имеют временную структуру — нельзя допускать утечку будущей информации в прошлое.
ИИ-трейдинг требует соблюдения трёх базовых правил валидации:
Многие «чудо-стратегии» рушатся не из-за ухудшения рынка, а из-за изначально оптимистичных методов тестирования.
Использование данных, которые не были доступны в момент сделки, приводит к завышенным результатам.
Обучение только на выживших монетах или платформах — игнорируются неудачные примеры.
Удаление реального шума как грязных данных — модель теряет адаптивность к экстремальным рынкам.
Признаки неявно содержат информацию о метке — модель кажется слишком точной.
Использование низкочастотных ончейн-признаков для высокочастотных торговых задач приводит к ложным сигналам.
Эти ошибки не видны на тестах на истории, но быстро проявляются в реальной торговле.
Для учащихся курса наиболее безопасно не строить сразу «мегамодель на все факторы по всему рынку», а начать с минимального жизнеспособного фреймворка данных:
Такой подход позволяет чётко локализовать проблему, снизить издержки на итерации и ускорить внедрение.
Сложные системы строятся не сразу — они растут слой за слоем из небольших интерпретируемых систем.
На практике этап работы с данными — самый трудоёмкий: сбор из разных источников, очистка, выравнивание по времени, построение пайплайнов признаков, интеграция в стратегию.
Поэтому платформенные инструменты ИИ становятся всё важнее. Gate for AI — пример такой инфраструктуры: его ценность не в «генерации универсальной стратегии», а в эффективной организации полного инженерного цикла от данных к стратегии и снижении трения между исследованием и исполнением. Трейдеру всё равно нужно формулировать задачи, определять ограничения, управлять рисками, но базовые процессы становятся стандартизированными и повторно используемыми.