Post Thumbnail

Есть список чего-угодно, по-питоновски. В нём надо найти элементы, которые похожи друг на друга. В роли списка могут быть названия файлов, имена людей, элементы справочников, перечень ИТ-систем и т.д. и т.п. Такая задача удивительно часто встречается в жизни.

Под неточными дубликатами мы понимаем такие две текстовые строчки, которые бы человек посчитал практически одинаковыми, за исключением технических/случайных разниц. Например, ошибки, опечатки и т.п. Конечно, метрика "неточных дубликатов" непрерывная, но рассматривается именно в таком ключе.

Похожее

Post Thumbnail

Gleam

Erlang жив. Новый язык программирования с очень милым сайтом. Gleam построен ...

Post Thumbnail

Триллион

Статья из блога Discord про то, как они обрабатывают и индексируют триллион сооб...

Post Thumbnail

TypeSpec

Что делать, когда ручек и OpenAPI спеки еще нет, а уже нужно пилить реализацию? ...

Post Thumbnail

Open Sauce

Телеграм каналов не бывает много. Еще один мой проект - канал Open Sauce. Там б...