Details

Autor: Christian Petersohn
Titel: Temporal Video Segmentation
Typ: Dissertation
Fachgebiet: Informationstechnik
Auflage: 1
Sprache: Englisch
Erscheinungsdatum: September 2010
Lieferstatus: Lieferbar
Umfang: 292 Seiten
Bindung: Hardcover
Preis: 59,00 EUR
ISBN: 9783938860397
Umschlag: (vorn)
Inhaltsverzeichnis: (pdf)


Bestellung

Abstrakt in Englisch

The presence and availability of video and multimedia data has steadily grown over the past years. Enabled by advances in storage and transmission capabilities, the huge amount of media content now triggers the need for technologies for video and multimedia content management. Simple and effective access to the content is needed. The objective of this thesis is to present steps toward simple and effective video access and browsing, to work towards technologies that can simplify annotation, automatic analysis, or video editing. This is done by developing methods and algorithms for the extraction of structural units in video on different hierarchical levels. The first problem examined is the extraction of video shots. This is a fundamental task because shots are an important structural unit in video and most algorithms and techniques for further structuring, analysis, search and retrieval build upon the knowledge of shot boundaries. Extracting video shots is equivalent to detecting the shot boundaries in a video. The characteristics of the four different types of shot transitions are investigated, i.e. cut, fade, dissolve, and wipe, and a system of novel algorithms is presented with each algorithm specifically tailored to detect one of the shot transition types. The algorithms are designed to offer high detection rates with low computational complexity. They proved their performance in the TRECVID shot boundary detection task. The current version had the best overall detection results of the 18 shot detection systems that were evaluated on the official test set. The system is approximately twenty times faster than real time. It was one of the fastest in the contest.

While visually simple shots with little variance in content may well be regarded as basic units of video, there also exist visually complex shots with significant object or camera motion and a large variance in visual content. Such visually complex shots cannot sufficiently be represented by a single key-frame. A richer and adaptive representation is needed. This second problem is investigated and as a result a new level in the hierarchy of temporal video segments, named sub-shots, is proposed. Sub-shots are parts of shots. They are limited to small variations in semantic and visual content and are therefore suited as basic units for search and retrieval and for key-frame extraction. Three different algorithms for the automatic extraction of sub-shots are presented and evaluated. They are based on on clustering and motion analysis outperformed the simple thresholding algorithm.

The third problem addressed is the extraction of scenes. While shots and subshots are low-level units of video, humans will perceive the story or narrative of a video in terms of higher semantic units. Talking about the content of a video is usually based on entire scenes, not on single shots. Various types of known approaches to scene detection are investigated. A set of low-level visual features is evaluated based on their suitability for scene detection. Additionally, important aspects of film grammar regarding the composition of scenes are detailed.
One important point regarding film grammar is that the types of shot transitions used by film editors in video are not randomly chosen. Cuts, fades, dissolves, and wipes are devices used to structure video and to provide local hints for the global structuring. An approach is presented suggesting improvements to known scene detection algorithms in two ways: First, to appropriately choose representative frames used for scene detection based on the position of detected gradual shot transitions; and second, to interpret gradual shot transitions as film grammar cues that have a separating or merging effect upon shots in their temporal proximity. A discussion is presented indicating how different thresholding mechanisms influence scene detection quality and experimental results are presented comparing different segmentation algorithms. As a last point approaches to multi-modal scene detection are discussed and a framework is presented that could be used for further research on this topic.

Abstrakt in Deutsch

Die Verfügbarkeit von Video und multimedialen Daten ist in den vergangenen Jahren immer weiter gestiegen. Durch Fortschritte bei der Entwicklung von Speicher und Übertragungsmöglichkeiten existiert eine solche Menge an Mediendaten, dass auch die Technologien zu ihrer Verwaltung immer wichtiger werden. Ein einfacher und effektiver Zugriff auf die Inhalte ist notwendig. Das Ziel dieser Dissertation ist es, Schritte in Richtung eines einfachen und effektiven Zugriffs auf Videoinhalte aufzuzeigen. Außerdem werden Technologien entwickelt, die Vereinfachungen bei Annotation, automatischer Analyse oder auch beim Videoschnitt ermöglichen. Dies geschieht durch die Entwicklung von Methoden und Algorithmen zur automatischen Extraktion von zeitlichen Einheiten auf unterschiedlichen hierarchischen Ebenen in einem Video.

Das erste in dieser Arbeit behandelte Themenfeld ist die Extraktion von Videoshots. Dies ist eine grundlegende und wichtige Aufgabe, da Shots die Basiseinheiten in einem Video sind und die meisten Algorithmen und Methoden zur Strukturerkennung, Analyse und Suche in Videos auf Shotinformationen aufbauen. Extraktion von Videoshots bedeutet, die Übergänge zwischen Shots zu finden. Die Charakteristika von vier verschiedenen Shotübergangstypen werden untersucht. Das sind harter Schnitt, Ein-/Ausblendung, Überblendung und Wischblende. Es wird ein System neuer Algorithmen präsentiert mit jeweils einem spezialisierten Algorithmus für jeden Shotübergangstyp. Die Algorithmen sind auf hohe Erkennungsqualität bei gleichzeitig niedriger Rechenkomplexität ausgelegt. Sie haben ihre Leistungfähigkeit beim internationalen TRECVID-Wettbewerb für Shoterkennungssysteme bewiesen. Die aktuelle Version erreichte, bezogen auf alle Shotübergänge, die beste Erkennungsleistung auf dem offiziellen Testset. Gleichzeitig ist das Verfahren etwa zwanzigmal schneller als Echtzeit und damit eines der schnellsten im Feld.

Während visuell einfache Shots, also Shots mit nur kleinen Änderungen des Bildinhalts, Basiseinheiten in einem Video sind, gibt es auch visuell komplexe Shots mit umfangreicher Objekt- oder Kamerabewegung und starker Änderung des Bildinhalts. Diese visuell komplexen Shots können nicht hinreichend durch ein einzelnes Keyframe repräsentiert werden. Eine umfassendere und adaptive Repräsentation wird benötigt. Dies ist das zweite behandelte Themenfeld. Als Lösung wird in dieser Arbeit die Segmentierung von Shots auf einer neuen Hierarchiestufe der zeitlichen Videosegmente, in sogenannte Subshots, vorgeschlagen. Subshots sind Teile von Shots. Sie sind begrenzt auf nur kleine Änderungen im semantischen und visuellen Inhalt und sind daher geeignet, als Basiseinheiten bei der Vidoesuche oder für die Keyframeextraktion verwendet zu werden. Drei verschiedene Algorithmen für die automatische Extraktion von Subshots werden präsentiert und evaluiert. Sie basieren auf der Analyse von visuellem Inhalt bzw. Bewegung. Der Clusteralgorithmus und der Bewegungsanalysealgorithmus zur Subshoterkennung liefern dabei bessere Ergebnisse als der Schwellwertalgorithmus.

Das dritte behandelte Themenfeld ist die Erkennung von Szenen in einem Video. Während Shots und Subshots kleine einfache Videoeinheiten sind, basiert die menschliche Wahrnehmung des Videoinhalts eher auf größeren semantischen Einheiten. Wird beispielsweise über einen Film erzählt, so erfolgt das normalerweise mit Hilfe von Szenen. Verschiedene Typen bekannter Szenenerkennungsverfahren werden analysiert.Mehrere Videomerkmale werden bezüglich ihrer Tauglichkeit für die Szenenerkennung evaluiert. Zusätzlich werden wichtige Aspekte der Filmgrammatik bei der Komposition von Szenen beschrieben. Ein wichtiger Punkt, bezogen auf Filmgrammatik, ist, dass der Typ eines Shotübergangs beim Filmschnitt nicht willkürlich gewählt wird. Harte Schnitte, Ein-, Aus-, Über- und Wischblenden sind Bausteine für die Strukturierung eines Videos und liefern lokal Hinweise auf die globale Szenenstruktur. Es wird ein Verfahren entwickelt und präsentiert, das Verbesserungen zu bekannten Szenenerkennungsverfahren auf zweierlei Weise erreicht:

Erstens werden geeignete Bilder für die Analyse in Szenenerkennungsverfahren unter Beachtung der Lage der graduellen Shotübergänge ausgewählt. Zweitens werden graduelle Shotübergänge als filmgrammatische Hinweise interpretiert, die sowohl trennende als auch vereinende Wirkung auf die zeitlich benachbarten Shots haben können. Es wird untersucht, wie verschiedene Schwellwertverfahren die Qualität der Szenenerkennung beeinflussen. Messergebnisse für den Vergleich mehrerer Segmentierungsverfahren werden präsentiert. Schließlich werden noch Ansätze zur multimodalen Szenenerkennung diskutiert und ein entsprechendes Rahmenwerk vorgestellt, das für weitere Untersuchungen in diesem Themenfeld genutzt werden kann.