1einleitung.tex 3.8 KB

123456789101112131415161718192021222324252627282930313233343536
  1. In den vergangenen Jahren hat sich im Forschungsgebiet der Computer Vision viel getan.
  2. Im Groben geht es dabei darum, verschiedene Aufgaben, welche bis heute noch nur von Menschen erledigt werden können,
  3. auf Computer zu übertragen. Zum Beispiel das Fahren eines Autos kann vermutlich schon bald vollständig von einem Computer übernommen werden.
  4. Um diese Aufgaben erledigen zu können, müssen die Computer lernen zu sehen und müssen dabei genau wissen, was sie sehen.
  5. In dem Bereich des maschinellen Lernens gibt es verschiedene Ansätze, um einen Computer für solche Aufgaben zu trainieren.
  6. Zum Beispiel können Deep Convolutional Neuronal Networks für die Klassifizierung von Bildern in verschiedene Kategorien
  7. und zur Detektion von Objekten in Bildern verwendet werden~\cite{sermanet_overfeat:_2013,NIPS2012_4824}.
  8. Bei der Detektion von Objekten in Bildern geht es darum, verschiedene Kategorien von Objekten auf Bildern zu erkennen und zu unterscheiden.
  9. So muss ein autonomes Auto beispielsweise andere Autos, Fußgänger und Radfahrer erkennen können und darf diese dabei nicht miteinander verwechseln.
  10. Um einen Computer darauf zu trainieren, wird eine spezielle Trainingsmethode namens Supervised Learning verwendet.
  11. Dabei wird das Training wie das Lernen mit einem Lehrer gestaltet: Dem Computer wird eine Frage gestellt, woraufhin der Computer eine Antwort errechnet.
  12. Dann wird dem Computer die korrekte Antwort auf die Frage gegeben, so dass er anhand der Differenz zwischen der korrekten Antwort und der errechneten Antwort
  13. seine Parameter so anpassen kann, dass beim nächsten Mal eine bessere Antwort errechnet werden kann.
  14. Um damit ein gutes Ergebnis zu erzielen, wird ein möglichst großer Datensatz an Trainingsbildern benötigt.
  15. Bei der Detektion von Objekten in Bildern muss für die Bilder in dem zum Training verwendeten Datensatz bekannt sein, wo sich auf welchem Bild welches Objekt befindet.
  16. Für einige häufiger verwendete Kategorien von Objekten, gibt es bereits große Datensätze, die für das Training eines Computers verwendet werden können.
  17. Zum Beispiel enthält der Datensatz Microsoft Common Objects in Context (Microsoft COCO) bis zu 91 verschiedene Objektklassen des Alltags wie Fahrzeuge,
  18. Tiere und Essbares~\cite{fleet_microsoft_2014}. Weitere bekannte Datensätze sind Pascal Visual Object Classes (Pascal VOC)~\cite{everingham_pascal_2010}
  19. und ImageNet~\cite{jia_deng_imagenet:_2009}.
  20. Wenn es aber darum geht, Objekte aus spezielleren Kategorien zu erkennen, reichen diese Datensätze nicht aus.
  21. In diesem Fall müssen die Datensätze erst noch erstellt werden, das heißt, es muss eine große Menge an Bilder von Hand annotiert werden.
  22. In dieser Arbeit wird eine GUI, welche die Erstellung solcher Datensätze unterstützt, entworfen und implementiert.
  23. Die Arbeit entstand im Kontext eines Projektes, bei dem Pakete in einer Sortierstation mit Hilfe von Überwachungskameras live von einem Computer verfolgt wurden.
  24. Für diesen Zweck mussten die Trainingsbilder per Hand annotiert werden, da es keinen so großen Datensatz gab, der ausreichte um alle Arten von Paketen zu erkennen.
  25. Die GUI ist daher optimiert für die Annotation von Bildsequenzen, wie sie von Überwachungskameras erzeugt werden.
  26. Sie bietet aber auch komfortable Features zur Annotation von Bildern ohne zeitlichen Zusammenhang an.
  27. Im folgenden Abschnitt wird das Annotieren von Bildsequenzen genauer erklärt und Unterschiede zwischen Bildsequenzen und einzelnen Bildern werden genannt.
  28. In Abschnitt \ref{ch:guifunktionen} und \ref{ch:implementierung} wird die in dieser Arbeit entworfene GUI vorgestellt und es werden Kernpunkte der Implementierung erläutert.
  29. In Abschnitt \ref{ch:ergebnis} werden die Ergebnisse einer Untersuchung zum Vergleich der GUI mit dem oben erwähnten internen Werkzeug analysiert.
  30. In Abschnitt \ref{ch:schluss} befindet sich eine kurze Zusammenfassung der Ergebnisse.