Post Thumbnail

Подробное визуальное объяснение MicroGPT - 200-строчного скрипта Андрея Карпати, который с нуля без библиотек, на чистом Python обучает и запускает GPT.

На примере генерации имен автор интерактивно разбирает каждый компонент: токенизацию, softmax, cross-entropy loss, обратное распространение, эмбеддинги, multi-head self-attention с каузальной маской, residual-связи и RMSNorm, а также обучение через Adam и инференс с temperature sampling.

Между этим игрушечным примером и ChatGPT нет концептуальной разницы - только масштаб

Похожее

Post Thumbnail

Домашний HAL

Автор считает, что пора собирать себе домашнего HAL’а на новых локальных моделях...