Projekt: Evolving Deep Architectures: A New Blend of CNNs and Transformers Without Pre-Training Dependencies

informatyka
Modelowanie w wizji komputerowej powoli odchodzi od sieci neuronowych o splocie konwolucyjnym (CNN) na rzecz transformatorów wizyjnych ze względu na wysoką wydajność mechanizmów samoobserwacji w wychwytywaniu globalnych zależności w danych. Chociaż okazało się, że transformatory wizji przewyższają CNN pod względem wydajności i wymagają mniejszej mocy obliczeniowej, ich potrzeba wstępnego szkolenia na dużych zbiorach danych może stać się uciążliwa. Korzystanie ze wstępnie wytrenowanych modeli ma krytyczne ograniczenia, w tym ograniczoną elastyczność w dostosowywaniu struktur sieci i niedopasowanie domen źródłowych i docelowych. Aby temu zaradzić, zaproponowano nową architekturę z mieszanką CNN i transformatorów. W tym projekcie zaproponowano architekturę modyfikującą transformatę SegFormer z dwoma modułami konwolucyjnymi, osiągając dokładność pikseli na poziomie 0,6956 w MS COCO.
Finlandia
Manu Kiiskila
Manu Kiiskilä
Wiek: 20 lat