Искусственный интеллект и интеграция в индустрию криптоактивов: от глубинного обучения до больших моделей

AI x Crypto: от нуля до вершины

Недавнее развитие отрасли ИИ рассматривается как четвертая промышленная революция. Появление больших моделей значительно повысило эффективность различных отраслей, по оценкам, примерно на 20% в США. Генерализующая способность, привносимая большими моделями, считается новой парадигмой проектирования программного обеспечения, способной поддерживать более широкий спектр входных и выходных модальностей. Технологии глубокого обучения принесли четвертой волне процветание в отрасли ИИ, и этот тренд также распространился на криптовалютную отрасль.

В этом отчете будет рассмотрена история развития AI-индустрии, классификация технологий и влияние технологий глубокого обучения на отрасль. Будет проведен глубокий анализ текущего состояния и тенденций развития цепочки поставок в области глубокого обучения, включая GPU, облачные вычисления, источники данных и устройства на краю сети. В сущности будет исследована связь между криптовалютой и AI-индустрией, а также будет осуществлен обзор структуры AI-цепочки поставок, связанной с криптовалютой.

! Новичок в науке丨AI x Crypto: от нуля до пика

История развития AI-индустрии

AI-индустрия начала развиваться с 50-х годов 20 века. Для реализации видения искусственного интеллекта академическая и индустриальная сферы в разные эпохи и в разных предметных областях разработали множество направлений для достижения искусственного интеллекта.

Современные технологии искусственного интеллекта в основном используют термин "машинное обучение", который подразумевает, что машины должны многократно итеративно улучшать производительность системы на основе данных в рамках выполнения задач. Основные шаги включают в себя передачу данных в алгоритм, обучение модели на этих данных, тестирование и развертывание модели, а затем использование модели для выполнения автоматизированных прогнозных задач.

В настоящее время в машинном обучении существует три основных направления: соединительная теория, символическая теория и бихевиоризм, которые имитируют человеческую нервную систему, мышление и поведение соответственно.

В настоящее время соединительный подход, представленный нейронными сетями, преобладает (, также известный как глубокое обучение ). Основная причина заключается в том, что такая архитектура имеет один входной слой и один выходной слой, но множество скрытых слоев. Когда количество слоев и нейронов ( параметров ) становится достаточно большим, появляется возможность подгонки под сложные универсальные задачи. Вводя данные, можно постоянно настраивать параметры нейронов, и после многократного прохождения данных этот нейрон достигнет оптимального состояния ( параметров ), что и стало причиной появления слова "глубокий" — достаточно количество слоев и нейронов.

Например, это можно просто понять как построение функции, которая при входном значении X=2 дает Y=3; при X=3 дает Y=5. Если вы хотите, чтобы эта функция соответствовала всем значениям X, то нужно постоянно добавлять степень этой функции и ее параметры. Например, можно построить функцию, удовлетворяющую этому условию, как Y = 2X - 1. Но если есть данные X=2, Y=11, то необходимо реконструировать функцию, подходящую для этих трех точек данных. Используя GPU для брутфорс-атаки, обнаруживается, что Y = X² - 3X + 5 более подходящая, но не обязательно должна полностью совпадать с данными, достаточно соблюдать баланс и получать примерно похожий вывод. Здесь X², X и X0 представляют разные нейроны, а 1, -3, 5 являются их параметрами.

В этот момент, если мы введем большое количество данных в нейронную сеть, мы можем увеличить количество нейронов и итеративно настраивать параметры для подгонки новых данных. Таким образом, мы сможем подогнать все данные.

На основе технологий глубокого обучения, основанных на нейронных сетях, произошло несколько итераций и эволюций технологий, начиная с самых ранних нейронных сетей, перцептронов, RNN, CNN, GAN и заканчивая современными крупными моделями, такими как GPT, использующими технологию Transformer. Технология Transformer является всего лишь одним из направлений эволюции нейронных сетей, в ней добавлен преобразователь ( Transformer ), который используется для кодирования всех модальностей (, таких как аудио, видео, изображения и т. д., в соответствующие числовые значения для представления. Затем эти данные вводятся в нейронную сеть, что позволяет нейронной сети подстраиваться под любые типы данных, что и реализует мультимодальность.

Развитие ИИ прошло через три технологические волны. Первая волна пришлась на 60-е годы XX века, когда прошло десять лет после появления технологий ИИ. Эта волна была вызвана развитием символистских технологий, которые решили проблемы общего обработки естественного языка и взаимодействия человека с машиной. В то же время был создан экспертный система, это завершенная химическая экспертная система, обладающая очень большим объемом химических знаний, которая делает выводы на основе вопросов, чтобы генерировать ответы, аналогичные ответам химического эксперта. Эта химическая экспертная система может рассматриваться как сочетание химической базы знаний и системы вывода.

После экспертных систем в 1990-х годах Джудея Перл ) Judea Pearl ( предложил байесовские сети, которые также называются сетями веры. В то же время Брукс предложил поведенческую робототехнику, что ознаменовало рождение бихевиоризма.

В 1997 году IBM Deep Blue победил чемпиона мира по шахматам Гарри Каспарова со счетом 3,5:2,5. Эта победа считается вехой в развитии искусственного интеллекта, и технологии ИИ пережили вторую волну своего развития.

Третья волна технологий искусственного интеллекта произошла в 2006 году. Три главных деятеля глубокого обучения, Ян ЛеКун, Джеффри Хинтон и Ёсуа Бенжио, предложили концепцию глубокого обучения, алгоритма, основанного на архитектуре искусственных нейронных сетей, который обучает представления данных. Затем алгоритмы глубокого обучения постепенно развивались, от RNN и GAN до трансформеров и Stable Diffusion, эти два алгоритма совместно сформировали эту третью технологическую волну, и это также был расцвет коннекционизма.

Многие знаковые события также постепенно возникают в ходе изучения и эволюции технологий глубокого обучения, включая:

  • В 2011 году ИБМ Ватсон) победил человека и стал чемпионом в викторине « jeopardy(».

  • В 2014 году Goodfellow предложил GAN) генеративную соревновательную сеть, Generative Adversarial Network(, которая учится, заставляя две нейронные сети соперничать друг с другом, и способна генерировать фотографии, не отличимые от настоящих. В то же время Goodfellow написал книгу «Deep Learning», известную как «цветочная книга», которая является одной из важных вступительных книг в области глубокого обучения.

  • В 2015 году Хинтон и др. предложили алгоритм глубокого обучения в журнале «Природа», и это предложение метода глубокого обучения сразу вызвало огромный резонанс в академической среде и промышленности.

  • В 2015 году OpenAI была основана, несколько известных инвесторов объявили о совместном вложении 1 миллиарда долларов.

  • В 2016 году, основанный на технологиях глубокого обучения, AlphaGo провел матч по го с чемпионом мира и профессиональным девяти段ом Ли Сидо, выиграв со счетом 4:1.

  • В 2017 году компания по разработке робототехники создала гуманоидного робота по имени София, который стал первым в истории роботом, получившим статус полноценного гражданина, обладающим богатым диапазоном выражений лиц и способностью понимать человеческий язык.

  • В 2017 году Google опубликовал статью «Внимание — это всё, что вам нужно», в которой был представлен алгоритм Transformer, и начали появляться крупномасштабные языковые модели.

  • В 2018 году OpenAI выпустила GPT) Генеративный предобученный трансформер(, построенный на алгоритме Transformer, который был одним из самых больших языковых моделей того времени.

  • В 2018 году команда Google Deepmind выпустила AlphaGo на основе глубокого обучения, способную предсказывать структуру белков, что считается огромным прогрессом в области искусственного интеллекта.

  • В 2019 году OpenAI выпустила GPT-2, эта модель обладает 1,5 миллиарда параметров.

  • В 2020 году OpenAI разработала GPT-3, содержащую 175 миллиардов параметров, что в 100 раз больше, чем у предыдущей версии GPT-2. Эта модель была обучена на 570 ГБ текста и может достигать передовых результатов в различных задачах обработки естественного языка), таких как ответ на вопросы, перевод, написание статей(.

  • В 2021 году OpenAI выпустила GPT-4, эта модель имеет 1,76 триллиона параметров, что в 10 раз больше, чем у GPT-3.

  • В январе 2023 года было выпущено приложение ChatGPT на основе модели GPT-4, в марте ChatGPT достиг ста миллионов пользователей, став приложением, которое быстрее всего достигло ста миллионов пользователей в истории.

! [Новичок в популярной науке丨AI x Crypto: от нуля до пика])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(

Цепочка поставок глубокого обучения

В настоящее время большие языковые модели используют методы глубокого обучения на основе нейронных сетей. Большие модели, возглавляемые GPT, породили волну интереса к искусственному интеллекту, и на этот рынок хлынуло множество игроков. Мы также обнаружили, что рынок испытывает огромный спрос на данные и вычислительную мощность. Поэтому в этой части отчета мы в основном исследуем цепочку产业深度学习算法, в AI-индустрии, доминируемой алгоритмами глубокого обучения, как составляются ее верхние и нижние уровни, а также каково текущее состояние и соотношение спроса и предложения на этих уровнях, и каковы перспективы их развития.

Прежде всего, нам необходимо прояснить, что при обучении больших моделей LLM на основе технологии Transformer, возглавляемых GPT), всего существует три этапа.

Перед обучением, поскольку он основан на Transformer, преобразователь должен преобразовать текстовые входные данные в числовые значения, этот процесс называется "Токенизация", после чего эти числовые значения называются токенами. В соответствии с общим правилом, одно английское слово или символ можно грубо считать одним токеном, в то время как каждый китайский иероглиф можно грубо считать двумя токенами. Это также основная единица, используемая для оценки GPT.

Первый шаг, предварительное обучение. Путем предоставления входному слою достаточно большого количества пар данных, аналогично примерам, приведенным в первой части отчета (X,Y), для поиска лучших параметров для каждого нейрона модели. В это время требуется большое количество данных, и этот процесс также является самым затратным по вычислительным ресурсам, поскольку необходимо многократно итеративно пробовать различные параметры нейронов. После завершения обучения одной партии пар данных обычно используется та же партия данных для второго обучения с целью итерации параметров.

Шаг второй, донастройка. Донастройка — это предоставление небольшого, но очень качественного объема данных для обучения, такие изменения позволят повысить качество вывода модели, поскольку предварительное обучение требует большого объема данных, но многие данные могут содержать ошибки или быть низкого качества. Шаг донастройки может улучшить качество модели за счет высококачественных данных.

Шаг третий, обучение с подкреплением. Сначала будет создана совершенно новая модель, которую мы называем "моделью вознаграждения". Цель этой модели очень проста: ранжировать результаты вывода, поэтому реализация этой модели будет довольно простой, поскольку бизнес-сценарий довольно узкий. Затем с помощью этой модели мы определим, является ли вывод нашей большой модели качественным, таким образом, мы можем использовать модель вознаграждения для автоматической итерации параметров большой модели. ( Однако иногда также необходимо участие человека для оценки качества вывода модели ).

Короче говоря, в процессе обучения больших моделей требования к объему данных для предварительного обучения очень высоки, также требуется максимальная вычислительная мощность GPU, в то время как для тонкой настройки необходимы более качественные данные для улучшения параметров. Укрепляющее обучение может использовать модель вознаграждения для многократной итерации параметров для получения более качественных результатов.

Во время обучения, чем больше параметров, тем выше потолок его обобщающей способности. Например, в нашем примере с функцией Y = aX + b, на самом деле есть два нейрона X и X0, и поэтому, как бы ни изменялись параметры, количество данных, которые они могут аппроксимировать, крайне ограничено, потому что по своей сути это все еще прямая линия. Если нейронов больше, то можно итерировать больше параметров, что позволяет аппроксимировать больше данных. Вот почему большие модели творят чудеса, и именно поэтому их называют большими моделями, по своей сути это огромное количество нейронов и параметров, огромное количество данных, а также требуется огромное количество вычислительных мощностей.

Таким образом, на производительность больших моделей в основном влияют три аспекта: количество параметров, объем и качество данных, а также вычислительная мощность. Мы предполагаем, что количество параметров равно p, объем данных равен n(, вычисляемому по количеству токенов). Таким образом, мы можем рассчитать необходимую вычислительную мощность с помощью общепринятого эмпирического правила, что позволит нам приблизительно оценить, сколько вычислительной мощности нам потребуется и время обучения.

Мощность вычислений обычно измеряется в Flops, что представляет собой одну операцию с плавающей запятой. Операции с плавающей запятой - это общее название для сложения, вычитания, умножения и деления нецелых чисел, таких как 2.5 + 3.557. Плавающая запятая означает возможность наличия десятичной точки, а FP16 означает поддержку десятичной точности, FP32 - более распространенная точность. Согласно эмпирическим правилам, предобучение ( Pre-training ) обычно требует многократного обучения ( больших моделей, что примерно требует 6np Flops, где 6 называется постоянной в индустрии. А вывод ) Inference - это процесс, когда мы вводим данные и ждем выхода от большой модели (, который делится на две части: ввод n токенов и вывод n токенов, тогда всего потребуется примерно 2np Flops.

На ранних стадиях использовались процессоры (CPU) для обучения и предоставления вычислительной мощности, но затем постепенно начали использовать графические процессоры (GPU) в качестве замены, такие как некоторые высокопроизводительные графические чипы и т. д. Поскольку процессоры (CPU) существуют как универсальные вычисления, графические процессоры (GPU) могут использоваться как специализированные вычисления, значительно превышая процессоры (CPU) по эффективности энергопотребления. Графические процессоры (GPU) выполняют операции с плавающей запятой в основном через модуль, называемый Tensor Core.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 7
  • Поделиться
комментарий
0/400
MEVHunterZhangvip
· 07-11 22:51
бык的干就完了
Посмотреть ОригиналОтветить0
PaperHandsCriminalvip
· 07-11 21:32
Настоящая инновация впереди
Посмотреть ОригиналОтветить0
MindsetExpandervip
· 07-11 06:08
Будущее уже наступило
Посмотреть ОригиналОтветить0
TommyTeacher1vip
· 07-09 14:25
Технологии приносят настоящую силу
Посмотреть ОригиналОтветить0
MidsommarWalletvip
· 07-09 14:25
Наверное, уже видели вершину?
Посмотреть ОригиналОтветить0
DefiPlaybookvip
· 07-09 14:23
Будущее обещает инновационное расширение возможностей
Посмотреть ОригиналОтветить0
BugBountyHuntervip
· 07-09 14:21
Путь технологий обещает быть увлекательным
Посмотреть ОригиналОтветить0
  • Закрепить