
Автор до сих пор чувствует какую-то магию в больших языковых моделях (LLM). В принципе, он в общих чертах понимает, как они работают, и знает, что никакого волшебства там нет. Но разрыв между его знаниями, которые уже устарели, и тем, что происходит в области сейчас, кажется просто огромным. Всё меняется так быстро, что он полгода назад решил немного подтянуть основы и разобраться с тем, что считает одним из главных кирпичиков LLM - механизмом внимания в нейросетях.
Будем учиться вместе с автором