Verfolgung von Verkehrsobjekten aus verschiedenen Kameraperspektiven
Diese Arbeit findet unter Anderem in diesen Projekten Anwendung.
Übersicht:
In einer zunehmend automatisierten und kontrollierten Welt, in der die Verkehrsdichte besonders in städtischen Gebieten kontinuierlich wächst und die damit verbundene Dichte von relevanten situationsbeschreibenden Informationen stetig steigt, wird es für den Menschen zunehmend schwieriger, ohne Hilfe derartige Situationseinschätzungen durchzuführen.
In der Doktorarbeit ”Analyse des Straßenverkehrs mit verteilten opto-elektronischen Sensoren“ von Adrian Schischmanow wurde ein Gesamtkonzept vorgestellt, welches eine zentrale Erfassung des gesamten Straßenverkehrs und damit auch die gezielte Führung beispielsweise über die Kontrolle von Lichtsignalanlagen ermöglicht. Neben der Organisation, Speicherung und Weiterleitung spielt die Erfassung der verkehrsrelevanten Daten eine entscheidende Rolle.
Die Erfassung dieser Daten setzt neben sich neben der Aufnahme wiederum aus mehreren Schritten zusammen:
Wie gezeigt wird, spielt die Kamerakalibrierung vor allem für die Datenfusion eine entscheidende Rolle.
In dieser Arbeit sollen Lösungsansätze für die einzelnen Schritte angeboten und in entsprechenden Programmen umgesetzt werden.
In dem Bereich Kamerakalibrierung steht neben der Bestimmung der Inneren Orientierung der verwendeten Sensoren die Bestimmung der Äußeren Orientierung im Vordergrund. So werden für die Anwendung in der Verkehrsbeobachtung Verfahren benötigt, die flexibel und ohne großen Aufwand einsetzbar sind und des weiteren keine Vorkenntnisse erwarten.
Dazu werden zwei Verfahren vorgestellt:
- DLT - Direkte Lineare Transformation
- RansacLDP - Location Determination Problem
|
Abbildung 1: Ransac - Location Determination Problem |
Neben der Vorstellung der Verfahren und der mathematischen Grundlagen werden die umgesetzten Verfahren auf ihre Genauigkeit und damit Verwendbarkeit geprüft.
Die Objekterkennung im Kontext dieser Arbeit beschäftigt sich mit der Extraktion von Objektinformationen aus Bilddaten. In dieser Arbeit geht es primär um Verkehrsobjekte, welche in den aufgenommenen Videosequenzen abgebildet wurden. Hierbei wird jedoch nur ansatzweise auf mögliche Verfahren eingegangen. Diese sind zum Beispiel das Differenzbildverfahren und die Hintergrund-Vordergrung-Analyse.
|
Abbildung 2: Differenzbild zwei aufeinanderfolgender Bilder einer Videosequenz |
Es wird verstärkt auf die Probleme und die Grenzen, die sich mit der Objekterkennung und der jeweilig verwendeten Verfahren ergeben, eingegangen, da diese einen entscheidenden Einfluss auf das Design des Objektverfolgungsalgorithmus haben. Das Ergebnis eines Objekterkennungsalgorithmus sind räumlich und zeitlich referenzierte Objektinformationen wie Position, Form, Farbe und Größe für jedes abgebildete Objekt.
Die Objektverfolgung, im folgenden auch Tracking genannt, stellt das Kernstück der Erfassung verkehrsrelevanter Daten dar. Diese erfolgt aus einer Einzelbildauswertung. Dies bedeutet, dass für jedes einzelne Bild eines Sensors Objektinformationen abgeleitet werden. Ein Zusammenhang der Objektinformationen innerhalb der Bildsequenz ist damit jedoch noch nicht hergestellt. Ein Objektverfolgungsverfahren, im Folgenden auch Tracking genannt, hat zur Aufgabe, diesen Zusammenhang räumlich und auch zeitlich herzustellen.
|
Abbildung 3: Prinzip der Objektverfolgung |
Dabei besteht das Ziel darin, eine Beschreibung des Gesamtzustandes der dargestellten Szene über einen gewissen Zeitraum zu liefern. Der Gesamtzustand setzt sich hierbei aus den Zuständen der einzelnen Verkehrsobjekte zusammen. In dieser Arbeit werden die Anforderungen und eine beispielhafte Umsetzung eines solchen Algorithmus vorgestellt.
|
Abbildung 4: Verwendeter Algorithmus Kalman-Filter |
|
Abbildung 5: Ergebnisse des Tracking für Realdaten |
Bei dem Umsetzung und Gestaltung des Tracking-Algorithmus ist auf die potentiellen Fehler der Objekterkennung einzugehen. Typische Fehler sind zum Beispiel:
- Pseudo-Objekte durch Bildrauschen
- Segmentierte Objekte
- Geclusterte Objekte durch Überdeckungen
- Fehlende Objekterkennung durch Überdeckungen durch Gebäude
Für nicht-überlappende Sensorbereiche muss das selbe Objekt, welches in mehreren Sensoren erfasst wurde, im Gesamtbild auch als ein Objekt erkannt werden. Somit müssen hier, ähnlich dem Tracking für Einzelbilder eines Sensors, Objektzugehörigkeiten über mehrere Sensoren hin hergestellt werden. Für überlappenden Sensorbereiche müssen redundante bezüglich eines Objektes Daten zu einer vereinheitlichten Information vereinigt werden. Dieser Gesamtprozess der Vereinheitlichung und der Datenzusammenführung wird in dieser Arbeit mit dem Begriff Datenfusion beschrieben und behandelt. Diese Datenfusion kann auf verschiedenen Ebenen stattfinden:
- Datenebene
- Objektebene
- Informationsebene
In dem entsprechenden Kapitel werden die Grundsätze der Fusion auf den verschiedenen Ebenen beschrieben.
|
Abbildung 6: Datenfusion auf Objektebene |
Der verwendete Tracking-Ansatz basierend auf dem Kalman-Filter bietet bei idealen Objektdaten auch ideale Tracking-Ergebnisse. Probleme ergeben sich vor allem bei stark verrauschen Objektdaten, bei Objekten mit starken Geschwindigkeits- und Beschleunigungsänderungen und bei sehr geringen Aufnahmefrequenzen. So ist für eine zuverlässige Verfolgung vor allem bei höheren Geschwindigkeiten eine Frequenz von mindestens 5 Hz angebracht. Bei dem gewählten Fusionsansatz ist es nicht erforderlich, dass die Objektinformationen beider Sensoren zum selben Zeitpunkt vorliegen. Hier ist es im Gegenteil sogar förderlich, wenn die Sensoren abwechselnd Daten liefern. So kann die Aufnahmefrequenz künstlich erhöht werden.
Die Auswertungen der umgesetzten Algorithmen zeigt, dass die Beherrschung der Problematik durchaus möglich ist. Für ideale Daten erhält man in allen Fällen sehr zufriedenstellende Ergebnisse. In der Realität sind ideale Daten jedoch nicht vorhanden. Die Probleme, die sich bei der Objektverfolgung ergeben, sind vor allem auf die Qualität der Objektdaten zurückzuführen, die sich aus der Objekterkennung ergeben. Klassische Probleme, wie Segmentierung, Clusterung oder Bildrauschen, lassen sich jedoch bis zu einem gewissen Grad lösen.