Штучний інтелект та інтеграція з криптоактивами: від глибини навчання до великих моделей

2025-07-09 13:55:19

AI x Crypto: від нуля до вершини

Розвиток AI-індустрії в останні часи вважається четвертою промисловою революцією. Поява великих моделей значно підвищила ефективність різних галузей, за оцінками, підвищивши робочу ефективність у США приблизно на 20%. Генералізаційна здатність, яку приносять великі моделі, вважається новою парадигмою проектування програмного забезпечення, яка може підтримувати ширший спектр вхідних та вихідних модальностей. Технології глибокого навчання принесли четвертий бум в AI-індустрію, і цей тренд також поширився на індустрію криптовалют.

Цей звіт розгляне історію розвитку індустрії штучного інтелекту, класифікацію технологій, а також вплив технологій глибокого навчання на індустрію. Глибоко проаналізуємо актуальний стан та тенденції розвитку таких складових, як GPU, хмарні обчислення, джерела даних, пристрої на краю мережі тощо в ланцюгу постачання галузі. По суті, розглянемо зв'язок між криптовалютою та індустрією штучного інтелекту, а також систематизуємо структуру AI-ланцюга постачання, пов'язаного з криптовалютою.

Історія розвитку індустрії штучного інтелекту

Індустрія штучного інтелекту почала свій розвиток з 50-х років XX століття. Для досягнення бачення штучного інтелекту академічна та промислова сфери в різні епохи та з різних дисциплін розробили безліч напрямів для реалізації штучного інтелекту.

Сучасні технології штучного інтелекту в основному використовують термін "машинне навчання", ідея цієї технології полягає в тому, щоб дати змогу машинам покращувати продуктивність системи шляхом повторних ітерацій у завданні на основі даних. Основні етапи полягають у тому, щоб передати дані алгоритму, використовувати ці дані для навчання моделі, тестувати та впроваджувати модель, використовувати модель для виконання автоматизованих прогнозних завдань.

Наразі в машинному навчанні існує три основні школи: коннекціонізм, символізм і біхевіоризм, які імітують людську нервову систему, мислення та поведінку.

Наразі нейронні мережі, які є прикладом коннекціонізму, мають перевагу (, також відомого як глибоке навчання ). Основна причина полягає в тому, що така архітектура має один вхідний шар, один вихідний шар, але кілька прихованих шарів. Як тільки кількість шарів та нейронів (, а також параметрів ) стає достатньо великою, з'являється достатньо можливостей для підгонки складних загальних завдань. Завдяки введенню даних, можна постійно налаштовувати параметри нейронів, врешті-решт, проходячи через багато даних, цей нейрон досягне оптимального стану ( параметрів ), що також є походженням слова "глибокий" – достатня кількість шарів і нейронів.

Наприклад, можна просто зрозуміти як створення функції, яка при введенні X=2 має Y=3; при X=3 має Y=5. Якщо ви хочете, щоб ця функція відповідала всім X, тоді потрібно постійно додавати ступінь цієї функції та її параметри, наприклад, можна побудувати функцію, яка задовольняє цим умовам, як Y = 2X -1. Але якщо є дані X=2, Y=11, то потрібно перебудувати функцію, яка підходить для цих трьох точок даних. Використовуючи GPU для брутфорсу, виявили, що Y = X2 -3X +5 є досить підходящим, але не потрібно, щоб вона повністю збігалася з даними, лише дотримуватись балансу та приблизно схожого виходу. Тут X2, X та X0 представляють різні нейрони, а 1, -3, 5 - це їх параметри.

У цей час, якщо ми введемо в нейронну мережу велику кількість даних, ми можемо збільшити кількість нейронів та ітераційні параметри для адаптації до нових даних. Таким чином, ми зможемо адаптуватися до всіх даних.

Глибоке навчання на основі нейронних мереж також має кілька технічних ітерацій та еволюцій, від найраніших нейронних мереж, мереж з прямим зв'язком, RNN, CNN, GAN до сучасних великих моделей, таких як GPT, які використовують технологію Transformer. Технологія Transformer є лише одним з напрямків еволюції нейронних мереж, яка додає перетворювач ( Transformer ), щоб кодувати дані з усіх модальностей (, таких як аудіо, відео, зображення тощо, у відповідні числові значення для представлення. Потім ці дані вводяться в нейронну мережу, завдяки чому нейронна мережа може підлаштовуватися під будь-який тип даних, що означає реалізацію мультимодальності.

Розвиток штучного інтелекту пройшов три технологічні хвилі. Перша хвиля відбулася в 60-х роках XX століття, через десять років після виникнення технології штучного інтелекту. Ця хвиля була викликана розвитком символічних технологій, які вирішили проблеми загальної обробки природної мови та людсько-машинного діалогу. У той же час з'явилися експертні системи, зокрема, завершена хімічна експертна система, яка має дуже глибокі знання з хімії і здатна робити висновки на основі запитань, щоб генерувати відповіді, подібні до відповідей хімічного експерта. Цю хімічну експертну систему можна вважати поєднанням хімічної бази знань та системи висновків.

Після експертних систем у 90-х роках ХХ століття Джудеа Перл ) Judea Pearl ( запропонував байесівські мережі, які також відомі як мережі віри. У той же період Брукс запропонував поведінкову робототехніку, що ознаменувало народження біхевіоризму.

1997 року IBM Deep Blue з рахунком 3.5:2.5 переміг чемпіона світу з шахів Гарі Каспарова )Kasparov(, ця перемога вважається віхою в історії штучного інтелекту, технології AI вступили в другу фазу розвитку.

Третя хвиля технологій штучного інтелекту відбулася в 2006 році. Три велетні глибокого навчання Ян Лекун, Джеффрі Хінтон і Йошуа Бенджіо запропонували концепцію глибокого навчання, алгоритму, що використовує штучні нейронні мережі для навчання представлення даних. Після цього алгоритми глибокого навчання поступово еволюціонували, від RNN, GAN до Transformer та Stable Diffusion, ці два алгоритми спільно сформували цю третю технологічну хвилю, а це також період розквіту коннекціонізму.

Багато знакових подій також супроводжувалися дослідженнями та еволюцією технологій глибокого навчання, включаючи:

У 2011 році IBM Watson) виграв у змаганні «Jeopardy(», перемігши людей і отримавши титул чемпіона.
У 2014 році Goodfellow запропонував GAN) генеративну змагальну мережу, Generative Adversarial Network(, яка навчається шляхом змагання двох нейронних мереж, здатна генерувати фальшиві фотографії, які виглядають реалістично. Одночасно Goodfellow написав книгу "Deep Learning", яку називають "квітковою книгою", вона є однією з важливих вступних книг у сфері глибокого навчання.
У 2015 році Хінтон та інші запропонували алгоритм глибокого навчання в журналі «Nature», що викликало величезний резонанс у науковому світі та промисловості.
У 2015 році OpenAI був заснований, кілька відомих інвесторів оголосили про спільне інвестування 1 мільярда доларів.
У 2016 році AlphaGo, заснований на технології глибокого навчання, провів битву людини проти машини з чемпіоном світу з го, професійним дев'ятим даном Лі Седолем, вигравши з загальним рахунком 4:1.
У 2017 році компанія, що займається робототехнікою, розробила гуманоїдного робота на ім'я Софія, якого назвали першим роботом в історії, що отримав статус повноправного громадянина, вона має багатий набір виразів обличчя та здатність розуміти людську мову.
У 2017 році Google опублікував статтю "Увага - це все, що вам потрібно", в якій був представлений алгоритм Transformer, і почали з'являтися масштабні мовні моделі.
У 2018 році OpenAI випустила GPT) Генеративний попередньо навчений трансформер(, побудований на основі алгоритму Transformer, який на той час був однією з найбільших мовних моделей.
У 2018 році команда Google DeepMind випустила AlphaGo на основі глибокого навчання, здатну передбачати структуру білків, що вважається величезним прогресом у галузі штучного інтелекту.
У 2019 році OpenAI випустила GPT-2, яка має 1,5 мільярда параметрів.
У 2020 році OpenAI розробила GPT-3, який має 175 мільярдів параметрів, що в 100 разів більше, ніж у попередньої версії GPT-2. Ця модель була навчена на 570 ГБ тексту та може досягати передових результатів у багатьох завданнях обробки природної мови, таких як відповіді на запитання, переклад, написання статей.
У 2021 році OpenAI випустила GPT-4, ця модель має 1,76 трильйона параметрів, що в 10 разів більше, ніж у GPT-3.
У січні 2023 року був запущений додаток ChatGPT на базі моделі GPT-4, у березні ChatGPT досягнув ста мільйонів користувачів, ставши додатком, який найшвидше досягнув ста мільйонів користувачів в історії.

! [Newcomer Science Popular丨AI x Crypto: від нуля до піку])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(

Ланцюг промисловості глибокого навчання

В даний час великі мовні моделі використовують методи глибокого навчання, засновані на нейронних мережах. Моделі великого масштабу, очолювані GPT, викликали хвилю інтересу до штучного інтелекту, в результаті чого багато гравців увійшли в цю сферу. Ми також виявили, що ринок має величезний попит на дані та обчислювальну потужність. Тому в цій частині звіту ми в основному досліджуємо промисловий ланцюг алгоритмів глибокого навчання, як складається їх вертикальна і горизонтальна структура в AI-індустрії, де домінують алгоритми глибокого навчання, а також яка ситуація та відносини попиту і пропозиції в даний час і як вони розвиватимуться в майбутньому.

По-перше, нам потрібно чітко усвідомити, що під час навчання великих моделей LLMs на основі технології Transformer, зокрема GPT), є три етапи.

Перед навчанням, оскільки це базується на Transformer, конвертеру потрібно перетворити текстовий вхід у числові значення, цей процес називається "Tokenization", після чого ці числові значення називаються Token. За загальним правилом, одне англійське слово або символ можна приблизно вважати одним Token, а кожен китайський ієрогліф можна грубо вважати двома Token. Це також є основною одиницею, що використовується для оцінки GPT.

Перший крок, попереднє навчання. Через надання достатньої кількості пар даних на вхідному шарі, подібно до прикладів з першої частини звіту (X,Y), необхідно знайти оптимальні параметри для кожного нейрона в цій моделі. На цьому етапі потрібно багато даних, і цей процес є найбільш витратним з точки зору обчислювальних потужностей, оскільки нейрони повторно ітеруються, намагаючись різні параметри. Після завершення навчання на одній партії пар даних зазвичай використовують ту ж саму партію даних для повторного навчання з метою ітерації параметрів.

Другий крок, доопрацювання. Доопрацювання полягає в використанні невеликої, але дуже якісної вибірки даних для навчання, такі зміни дозволять моделі отримувати вихідні результати вищої якості, оскільки попереднє навчання вимагає великої кількості даних, але багато з цих даних можуть містити помилки або бути низької якості. Крок доопрацювання може підвищити якість моделі за рахунок використання якісних даних.

Третій крок, посилене навчання. Спочатку буде створено абсолютно нову модель, яку ми називаємо "модель нагороди". Мета цієї моделі дуже проста: впорядкувати результати виходу. Тому реалізувати цю модель буде досить просто, оскільки бізнес-сцена досить вертикальна. Потім за допомогою цієї моделі ми будемо визначати, чи є вихід великої моделі високоякісним, таким чином ми зможемо використовувати модель нагороди для автоматичної ітерації параметрів великої моделі. ( Але іноді також потрібна людська участь для оцінки якості виходу моделі ).

Коротко кажучи, під час навчання великих моделей, попереднє навчання має дуже високі вимоги до обсягу даних, а також вимагає найбільших обчислювальних потужностей GPU, в той час як доопрацювання вимагає більш якісних даних для покращення параметрів; навчання з підкріпленням може повторно ітеративно змінювати параметри за допомогою моделі винагороди для досягнення більш якісних результатів.

У процесі навчання, чим більше параметрів, тим вища межа його узагальнюючої здатності. Наприклад, у випадку з функцією Y = aX + b, насправді є два нейрони X та X0. Отже, як би не змінювалися параметри, кількість даних, які можна апроксимувати, є вкрай обмеженою, оскільки його сутність залишається прямою лінією. Якщо нейронів більше, то можна ітеративно змінювати більше параметрів, отже, можна апроксимувати більше даних. Це і є причиною, чому великі моделі показують чудеса, і саме тому їх називають великими моделями: суть полягає в великій кількості нейронів та параметрів, а також у великій кількості даних, одночасно вимагаючи величезних обчислювальних потужностей.

Отже, вплив на результати великих моделей визначається трьома аспектами: кількістю параметрів, обсягом та якістю даних, а також обчислювальною потужністю. Ми припускаємо, що кількість параметрів дорівнює p, обсяг даних - n(, обчислений за кількістю токенів ), тоді ми можемо за допомогою загального емпіричного правила обчислити необхідну обчислювальну потужність, таким чином ми можемо приблизно оцінити, яку обчислювальну потужність нам потрібно придбати та час тренування.

Обчислювальна потужність зазвичай вимірюється у Flops, що представляє собою одну операцію з плаваючою комою. Операції з плаваючою комою є загальним терміном для додавання, віднімання, множення та ділення нецілих чисел, таких як 2.5 + 3.557. Плаваюча кома означає можливість мати десяткові дроби, в той час як FP16 представляє собою точність, що підтримує дробові числа, а FP32 є більш загальноприйнятою точністю. Згідно з практичними правилами, попереднє навчання (Pre-traning) один раз ( зазвичай передбачає багаторазове навчання ) великих моделей, приблизно потрібно 6np Flops, 6 називається галузевою константою. А інференс (Inference - це процес, коли ми вводимо дані і чекаємо виходу великої моделі ), який складається з двох частин: введення n токенів, вихід n токенів, отже, в цілому потрібно приблизно 2np Flops.

На початку використовувалися процесори CPU для навчання та забезпечення обчислювальної потужності, але згодом почали поступово замінювати їх графічними процесорами GPU, такими як деякі високопродуктивні графічні чіпи тощо. Оскільки процесори CPU є універсальними засобами обчислення, графічні процесори GPU можуть використовуватися як спеціалізовані засоби обчислення, при цьому їх ефективність у споживанні енергії значно перевищує ефективність процесорів CPU. Графічні процесори виконують операції з плаваючою комою в основному через модуль, що називається Tensor Core.

GPT-2.15%

Переглянути оригінал

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

12 лайків