Post Thumbnail

Есть список чего-угодно, по-питоновски. В нём надо найти элементы, которые похожи друг на друга. В роли списка могут быть названия файлов, имена людей, элементы справочников, перечень ИТ-систем и т.д. и т.п. Такая задача удивительно часто встречается в жизни.

Под неточными дубликатами мы понимаем такие две текстовые строчки, которые бы человек посчитал практически одинаковыми, за исключением технических/случайных разниц. Например, ошибки, опечатки и т.п. Конечно, метрика "неточных дубликатов" непрерывная, но рассматривается именно в таком ключе.

Похожее

Post Thumbnail

Делай просто

При разработке программных систем делайте самое простое, что только может сработ...

Post Thumbnail

Perfect Dark

Файлообменная сеть самураев Cети вроде eDonkey2000 (она же eDonkey или eD2k), G...

Post Thumbnail

Gleam

Erlang жив. Новый язык программирования с очень милым сайтом. Gleam построен ...