Post Thumbnail

В статье автор опписывает подход к парсингу CSV-файлов с использованием SIMD-инструкций, вдохновленный методологией из проекта simdjson. Это знатное байтоебство

Автор объясняет, как обрабатывать данные блоками по 64 байта, выполняя три ключевых этапа: классификацию структурных символов (запятых, кавычек, символов новой строки) с помощью векторных таблиц поиска, фильтрацию ложных разделителей внутри quoted-полей через вычисление префиксного XOR для битовой маски кавычек, и сбор границ полей и строк с использованием битовых операций и подсчета лидирующих нулей

Все примеры на Rust

Похожее