В статье автор создает приложение на Go для прогноза погоды с использованием LLM, работающей полностью локально на устройстве.
Да да, вместо облачных API, автор использует новую открытую модель Gemma 4 от Google DeepMind и Go-пакет Yzma, который обёртывает llama.cpp для запуска инференса модели в памяти. Приложение загружает квантизированную версию модели (E2B или E4B), формирует промпт с использованием нативных управляющих токенов Gemma 4 для вызова инструментов, получает от модели запрос на вызов функции get_weather, выполняет реальные API-запросы к OpenStreetMap и National Weather Service, а затем возвращает результат модели для генерации финального прогноза.
Всё работает без интернет-зависимости от внешних LLM-провайдеров, но требует достаточной вычислительной мощности. На CPU полный раунд трип может занимать до 1.5 минут, на GPU - около 10 секунд.
В любом случае, Gemma 4 выглядит многообещающе
23.04.2026