PERFORMANCE EVALUATION FOR FACE MASK DETECTION BASED ON MULT MODIFICATION OF YOLOV8 ARCHITECTURE
This work aims to engineer a robust system capable of real-time detection, accurately discerning individuals who are either adhering to or neglecting face mask mandates, across a diverse range of scenarios encompassing images, videos, and live camera streams. This study improved the architecture of...
Saved in:
Published in: | Informatyka, automatyka, pomiary w gospodarce i ochronie środowiska Vol. 14; no. 2; pp. 89 - 95 |
---|---|
Main Authors: | , |
Format: | Journal Article |
Language: | English |
Published: |
Lublin University of Technology
30-06-2024
|
Subjects: | |
Online Access: | Get full text |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Summary: | This work aims to engineer a robust system capable of real-time detection, accurately discerning individuals who are either adhering to or neglecting face mask mandates, across a diverse range of scenarios encompassing images, videos, and live camera streams. This study improved the architecture of YOLOv8n for face mask detection by building a new two-modification version of YOLOv8n model to improve feature extraction and prediction network for YOLOv8n. In proposed YOLOv8n-v1, the integration of a residual Network backbone into the YOLOv8n architecture by replacing the first two layers of YOLOv8n with ResNet_Stem and ResNet_Block modules to improve the model’s ability for feature extraction and replace Spatial Pyramid Pooling Fast (SPPF) module with Spatial Pyramid Pooling-Cross Stage Partial (SPPCSP) modules which combine SPP and CSP to create a network that is both effective and efficient. The proposed YOLOv8n-v2 is built by integration Ghostconv and ResNet_Downsampling modules into the proposed YOLOv8n-v1 backbone. All models have been tested and evaluated on two datasets. The first one is MJFR dataset, which contains 23,621 images, and collected by the authors of this paper from four distinct datasets, all of which were used for facemask detection purposes. The second one is MSFM object detection dataset has been collected from groups of videos in real life and images based on the curriculum learning technology. The model’s performance is assessed by using the following metrics: mean average precision (mAP50), mAP50-95, recall (R) and precision (P). It has been concluded that both versions of proposed YOLOv8n outperform the original model in terms of accuracy for both datasets. Finally, the system was successfully implemented in one of the medical clinics affiliated with a medical complex, where the results of its application showed high efficiency in various aspects of work, and it effectively contributed to improving the public health and safety.
Praca ta ma na celu opracowanie solidnego systemu zdolnego do wykrywania w czasie rzeczywistym, dokładnie rozróżniającego osoby, które przestrzegają lub zaniedbują wymogi dotyczące noszenia masek na twarzy, w różnych scenariuszach obejmujących obrazy, filmy i streaming z kamer na żywo. Niniejsze badanie ulepszyło architekturę YOLOv8n do wykrywania masek na twarzy poprzez zbudowanie nowej, dwumodyfikacyjnej wersji modelu YOLOv8n w celu poprawy ekstrakcji cech i sieci predykcyjnej dla YOLOv8n. W proponowanej wersji YOLOv8n-v1, integracja szkieletu sieci rezydualnej z architekturą YOLOv8n poprzez zastąpienie pierwszych dwóch warstw YOLOv8n modułami ResNet_Stem i ResNet_Block w celu poprawy zdolności modelu do ekstrakcji cech i zastąpienia modułu Spatial Pyramid Pooling Fast (SPPF) modułami Spatial Pyramid Pooling-Cross Stage Partial (SPPCSP), które łączą SPP i CSP w celu stworzenia sieci, która jest zarówno skuteczna, jak i wydajna. Proponowany YOLOv8n-v2 został zbudowany poprzez integrację modułów Ghostconv i ResNet_Downsampling z proponowanym szkieletem YOLOv8n-v1. Wszystkie modele zostały przetestowane i ocenione na dwóch zestawach danych. Pierwszym z nich jest zbiór danych MJFR, który zawiera 23 621 obrazów i został zebrany przez autorów niniejszego artykułu z czterech różnych zbiorów danych, z których wszystkie zostały wykorzystane do wykrywania masek na twarzy. Drugi to zbiór danych wykrywania obiektów MSFM, który został zebrany z grup filmów wideo w prawdziwym życiu i obrazów opartych na technologii uczenia się programu nauczania. Wydajność modelu została oceniona za pomocą następujących wskaźników: mean average precision (mAP50), mAP50-95, recall (R) and precision (P). Stwierdzono, że obie wersje proponowanego YOLOv8n przewyższają oryginalny model pod względem dokładności dla obu zestawów danych. Wreszcie, system został z powodzeniem wdrożony w jednej z klinik medycznych powiązanych z kompleksem medycznym, gdzie wyniki jego zastosowania wykazały wysoką wydajność w różnych aspektach pracy i skutecznie przyczyniły się do poprawy zdrowia i bezpieczeństwa publicznego. |
---|---|
ISSN: | 2083-0157 2391-6761 |
DOI: | 10.35784/iapgos.6056 |