Аннотация:В работе представлено сравнение концептуально разных архитектур нейросетей применительно к задаче поиска изображений с помощью обучения метрики: сверточные сети, трансформеры, полносвязные сети. Для тестирования использовались наборы данных CUB-200 (2011), Stanford Online Product, In-Shop.
В качестве функции потерь использовался классический Triplet Loss. В результате экспериментов было установлено, что наилучшие результаты показывают сети, основанные на архитектуре трансформера. При этом с точки зрения баланса точности и скорости работы лучшие результаты показал Swin Transformer.