2annotation.tex 9.2 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145
  1. Wie oben bereits erwähnt, ist die Annotation von Bildern ein notwendiger Prozess, um einem Computer beizubringen, Objekte automatisch zu erkennen.
  2. Je nachdem welche Aufgabe der Computer später übernehmen soll, müssen dabei verschiedene Objekte annotiert werden.
  3. Wenn der Computer zum Beispiel lernen soll, Menschen und Tiere zu erkennen, dann würde es nichts bringen Autos zu annotieren.
  4. Die verschiedenen Objektkategorien, deren Objekte annotiert werden sollen, werden Klassen genannt.
  5. In diesem Beispiel würden die Klassen \glq Mensch\grq{ } und \glq Tier\grq{ } ausreichen. Je nach Anwendungsfall
  6. könnte es aber auch sinnvoll sein diese Klassen noch weiter aufzuteilen.
  7. In der GUI, welche in dieser Arbeit vorgestellt wird, im nachfolgenden Text nur noch GUI genannt,
  8. geht es jedoch nicht nur um die Annotation von Objekten auf Bildern, sondern auch um die Annotation von Bildsequenzen.
  9. Eine Bildsequenz ist eine geordnete Abfolge von Bildern, die von verschiedenen Kameras aufgenommen wurden.
  10. Dabei sind die Bilder zunächst nach der Kamera und dann nach dem Aufnahmenzeitpunkt geordnet.
  11. Diese besondere Ordnung der Bilder erleichtert den Prozess des Annotierens,
  12. da sich die Objekte in den verschiedenen Bildern einer Kamera immer nur ein Stück in eine Richtung bewegen.
  13. Es ist für den Nutzer der GUI daher leicht, dieselben Objekte auf den Bildern wiederzuerkennen.
  14. Außerdem ändern sich die Objekte nur selten in ihrer Form, weshalb die Umrisse eines Objektes oft von einem Bild zum nächsten kopiert werden können.
  15. Beispiel:
  16. Es sind zwei Kameras A und B vorhanden, welche alle 2 Sekunden ein Bild machen. Die Objekte, die von den Kameras erfasst werden,
  17. bewegen sich zunächst durch das Sichtfeld von Kamera A und dann durch das Sichtfeld von Kamera B.
  18. Eine Bildsequenz dieser beiden Kameras enthält nun zuerst alle Bilder von Kamera A, in zeitlich sortierter Reihenfolge,
  19. und dann alle Bilder von Kamera B, welche im gleichen Zeitfenster aufgenommen wurden.
  20. Der Nutzer kann nun das erste Bild von Kamera A annotieren.
  21. Dann kann der Nutzer jedes annotierte Objekt kopieren und auf dem nächsten Bild leicht verschoben oder gedreht wieder einfügen.
  22. Bei der Annotierung von einzelnen Bildern reichen bei der Objekterkennung als Trainingsdaten die Daten aus,
  23. wo sich auf welchem Bild ein Objekt einer bestimmten Klasse befindet.
  24. Bei einer Sequenz von Bildern spielen jedoch auch andere Daten eine Rolle. Zum Beispiel ist es sinnvoll zu wissen,
  25. bei welchen Objekten auf unterschiedlichen Bildern es sich um dasselbe Objekt handelt,
  26. welches zu einem anderen Zeitpunkt oder aus einer anderen Blickrichtung aufgenommen wurde.
  27. Daher bekommt in der GUI jedes Objekt eine eindeutige ID, an welcher man das Objekt auf verschiedenen Bildern wiedererkennen kann.
  28. Jeder Objekt-ID wird dann eine Objektklasse zugeordnet. So ist sichergestellt, dass dasselbe Objekt nicht auf unterschiedlichen Bildern
  29. unterschiedlichen Klassen zugeordnet werden kann.
  30. Es kann sogar vorkommen, dass dasselbe Objekt an mehreren unterschiedlichen Stellen im gleichen Bild vorkommt.
  31. Das passiert genau dann, wenn die Sicht auf das Objekt durch einen Gegenstand versperrt wird und das Objekt nur teilweise sichtbar ist (siehe Abbildung \ref{fig:zerteiltesobjekt}).
  32. \graphicsfigure{bilder/zerteiltesobjekt}{Mehrfaches Vorkommen desselben Objektes auf einem Bild}{fig:zerteiltesobjekt}{0.33\textwidth}
  33. Außerdem gibt es bei einer Bildsequenz für eine Kamera oft Bereiche, in denen sich kein Objekt befinden kann.
  34. Solche Bereiche können in der GUI mit Masken festgelegt werden.
  35. Um die Annotation zu speichern, können verschiedene Formate benutzt werden. Dabei ist es sinnvoll sich für ein Format zu entscheiden,
  36. welches möglichst viele andere Personen auch benutzen, da dann möglichst viele von den annotierten Bildern profitieren können.
  37. Im folgenden Abschnitt wird das von der GUI verwendete Format zum Speichern von Annotationen
  38. und die unterstützten Formate für das Erstellen neuer annotierter Bildsequenzen erklärt.
  39. \section{Annotationsformat}\label{sec:annotationsformat}
  40. Damit möglichst viele Forscher die von der GUI erstellten Annotationen verwenden können,
  41. wird zur Speicherung der Annotationen ein Format verwendet, welches sich sehr stark an dem Format des PascalVOC 2007 Datensatzes orientiert~\cite{pascal-voc-2007}.
  42. Es werden lediglich zusätzliche Informationen wie zum Beispiel Kamera und Objekt-ID gespeichert.
  43. Zu jeder annotierten Bildsequenz gehören dabei die vier Ordner \glq Annotations\grq, \glq SourceImages\grq, \glq SourceMasks\grq{ } und \glq JPEGImages\grq.
  44. Im Ordner \glq Annotations\grq{ } wird für jedes Bild eine XML Datei erstellt,
  45. welche alle annotierten Objekte auf dem Bild enthält. Zusätzlich werden hier auch Informationen zu dem zugehörigen Bild
  46. wie zum Beispiel Größe und Aufnahmezeitpunkt gespeichert.
  47. Der Inhalt einer XML Datei könnte für ein Bild mit nur einem Objekt zum Beispiel wie folgt aussehen:
  48. \lstset{language=XML}
  49. \begin{lstlisting}
  50. <?xml version="1.0" encoding="utf-8"?>
  51. <annotation>
  52. <folder>VOC2007</folder>
  53. <filename>0001.jpg</filename>
  54. <source>
  55. <database>The VOC2007 Database</database>
  56. <annotation>PASCAL VOC 2007</annotation>
  57. <image>0001.jpg</image>
  58. </source>
  59. <camera_id>Scan E 01</camera_id>
  60. <size>
  61. <width>1920</width>
  62. <height>1080</height>
  63. <depth>32</depth>
  64. </size>
  65. <segmented>0</segmented>
  66. <timestamp>2017-02-07 21:07:47.275</timestamp>
  67. <object>
  68. <name>packingbox</name>
  69. <id>1</id>
  70. <pose>Unspecified</pose>
  71. <truncated>0</truncated>
  72. <difficult>0</difficult>
  73. <bndbox>
  74. <xmin>100</xmin>
  75. <ymin>100</ymin>
  76. <xmax>150</xmax>
  77. <ymax>150</ymax>
  78. </bndbox>
  79. <polygon>
  80. <point>
  81. <x>100</x>
  82. <y>100</y>
  83. </point>
  84. <point>
  85. <x>150</x>
  86. <y>100</y>
  87. </point>
  88. <point>
  89. <x>150</x>
  90. <y>100</y>
  91. </point>
  92. </polygon>
  93. </object>
  94. </annotation>
  95. \end{lstlisting}
  96. Dabei wird der Name der Kamera in dem camera\_id Tag (im Beispiel Zeile 10) angegeben. Der Zeitpunkt, zudem das Bild aufgenommen wurde,
  97. wird durch timestamp (im Beispiel Zeile 17) angegeben. Die Objekt-ID, an der die Objekte auf unterschiedlichen Bildern wiedererkannt werden,
  98. wird im id Tag (im Beispiel Zeile 20) angegeben. Der Objektumriss wird im polygon Tag (im Beispiel Zeile 30-43) als Liste von Punkten angegeben,
  99. welche in Pixelkoordinaten angegeben werden. Falls das Objekt mehrmals auf dem Bild zu sehen ist,
  100. werden die Polygone als Liste hintereinander abgespeichert.
  101. Im Ordner \glq SourceImages\grq{ } werden die originalen Bilder der Sequenz gespeichert.
  102. Sie werden von der GUI benötigt, da der Nutzer auf diesen Bildern die Objekte annotiert.
  103. Im Ordner \glq SourceMasks\grq{ } wird für jede Kamera eine Maske gespeichert.
  104. Eine Maske ist ein schwarz-weiß Bild mit gleicher Größe wie das zugehörige originale Bild.
  105. Weiße Flächen in der Maske bedeuten, dass innerhalb dieser Fläche im originalen Bild ein Objekt vorkommen darf.
  106. Schwarze Flächen bedeuten, dass sich an diesen Stellen im originalen Bild kein Objekt befinden kann.
  107. \begin{figure}[H]
  108. \centering
  109. \subfigure[Source Image]{\includegraphics[width=0.25\textwidth]{bilder/bild_von_kamera.jpg}}
  110. \subfigure[Source Mask]{\includegraphics[width=0.25\textwidth]{bilder/maske_von_kamera.jpg}}
  111. \subfigure[JPEG Image]{\includegraphics[width=0.25\textwidth]{bilder/ergebnis.jpg}}
  112. \caption{Beispiel für eine Kameramaske}
  113. \end{figure}
  114. Im Ordner \glq JPEGImages\grq{ } werden die Bilder gespeichert, welche man erhält, wenn man die Masken auf die originalen Bilder anwendet.
  115. Dabei werden die schwarzen Flächen der Maske auf das originale Bild übertragen.
  116. Die Bilder werden von der GUI generiert, sobald die Maske einer Kamera durch den Nutzer verändert wird.
  117. Die Bilder in diesem Ordner werden später für das Training verwendet, da hier keine Objekte außerhalb der Maske mehr vorkommen.
  118. \section{Format neuer Annotationen}\label{sec:formatNeuerAnnotationen}
  119. Wie oben bereits erwähnt, entstand diese GUI im Kontext einer Arbeit,
  120. bei der es darum ging ein neuronales Netzwerk darauf zu trainieren,
  121. automatisch Pakete durch Überwachungskameras zu verfolgen.
  122. Die GUI hat daher eine Funktion, die es dem Nutzer erlaubt eine Bildsequenz, wie sie von den Überwachungskameras erzeugt wird zu importieren.
  123. Damit die GUI eine solche Sequenz öffnen kann, müssen die Bilder in folgendem Format vorliegen:
  124. \begin{enumerate}
  125. \item Alle Bilder befinden sich in einem Ordner
  126. \item Die Bilder sind aufsteigend nummeriert und im JPG Format gespeichert.
  127. \item Es existiert eine CSV Datei mit Informationen über Aufnahmezeitpunkt und verwendeter Kamera für jedes Bild im Ordner.
  128. \end{enumerate}
  129. Falls die Bilder im obigen Format vorliegen, kann die GUI daraus automatisch eine annotierte Bildsequenz im Format aus Abschnitt \ref{sec:annotationsformat} generieren.
  130. Natürlich soll die GUI auch für andere Zwecke verwendet werden können.
  131. Sobald in dem Ordner keine CSV Datei gefunden wird, wird der Ordner von der GUI rekursiv nach Bildern durchsucht.
  132. Dabei werden die Namen der Unterordner als Kameranamen und das Datum der Dateierstellung als Aufnahmezeitpunkt übernommen.