14.01.2026
Серия статей, в которой рассказывается о написании Feste - полноценного трансформера в стиле GPT-2. А также о реализации каждого основного компонента - от тензорных операций до многоголового внимания, - чтобы развеять мифы о том, как работает современная языковая модель. Первый шаг - важнейшее преобразование человеческого языка в данные, которые может использовать модель: токенизация.