AUSGANGSLAGE
Fortschritte in der KI, insbesondere im Bereich der Deep-Learning-Algorithmen, sowie die Zunahme an verfügbaren Bild- und Videodaten haben es ermöglicht, visuelle Daten automatisch und effizient zu analysieren. Das Ziel von Computer Vision ist es, Maschinen und Computern zu ermöglichen, Bilder und Videos zu "verstehen" und bedeutungsvolle Informationen daraus zu extrahieren, ähnlich wie es Menschen tun. In Branchen wie der Industrie, dem Gesundheitswesen, der Automobilbranche und im Handel besteht ein wachsender Bedarf an automatisierten Systemen zur Bilderkennung und Analyse, um Prozesse zu optimieren, Sicherheit zu gewährleisten und menschliche Fehler zu minimieren. Gleichzeitig schaffen hochauflösende Sensoren und Kameras die technologische Grundlage, um detaillierte und genaue Daten zu erfassen, die für die Modellierung und Analyse durch Computer Vision benötigt werden.
LÖSUNGSANSATZ
Der YOLO (You Only Look Once)-Model ist ein leistungsstarker Ansatz zur Objekterkennung in Computer Vision. Er wurde erstmals im Jahr 2015 vorgestellt und hat sich seither zu einer der populärsten Methoden für die Echtzeit-Objekterkennung entwickelt.
- YOLO11: Die aktuellste Version der Modellreihe verfügt insgesamt über 25 Modelle für verschiedene Computer Vision Aufgaben und erweisen sich als schneller und effizienter als die Vorgängerversion.
- Funktionsweise: Grob gesagt führ das Yolo modell eine Objekterkennung durch, indem es ein Bild in ein festgelegtes Raster aufteilt und jede Zelle für die Vorhersage von Bounding Boxen sowie deren Klassenzugehörigkeit verantwortlich macht. Es verarbeitet das gesamte Bild in einem einzigen Durchlauf, wodurch es in der Lage ist, Objekte schnell und effizient zu erkennen, ohne separate Regionen analysieren zu müssen.
POTENZIAL & ANWENDUNGSBEREICHE
YOLO11 ist auf Schnelligkeit, Genauigkeit und Benutzerfreundlichkeit ausgelegt und eignet sich daher hervorragend für eine Vielzahl von Aufgaben in den Bereichen Objekterkennung und -verfolgung, Instance Segmentation, Bildklassifizierung und Pose Estimation.
- Objekterkennung: Erkennung unterschiedlicher Objekte in Echtzeit auf Bildern und Videos.
- Instance Segmentation: Ermöglicht, zwischen sich überlappenden Objekten zu unterscheiden und präzise Umrisse ihrer Formen zu liefern.
- Bildklassifizierung: Extraktion relevanter Merkmale auf Bildern oder Videos für die Zuordnung in eine oder mehrere vordefinierte Kategorien.
- Pose Estimation: YOLO11 führt eine Posenschätzung durch, indem es Schlüsselpunkte auf einem Objekt erkennt und vorhersagt, wie z. B. Gelenke in einem menschlichen Körper. Die Schlüsselpunkte werden miteinander verbunden, um die Skelettstruktur zu bilden, die die Pose darstellt.
Mögliche Anwendungsbereiche liegen in der Überwachung von Objekten, der Objekterkennung zur Navigation und Vermeidung von Kollisionen, Unterstützung bei medizinischen Diagnosen durch Erkennung von Anomalien oder im Einzelhandel zur Analyse des Kundenverhaltens.