Details
| Autor: | Simon Maria Friedrich |
| Titel: | On Interactions of Deep Neural Network Acceleration and Memory Subsystem |
| Typ: | Dissertation |
| Fachgebiet: | Informationstechnik |
| Reihe: | Mobile Nachrichtenübertragung, Nr.: 108 |
| Auflage: | 1 |
| Sprache: | Englisch |
| Erscheinungsdatum: | 27.11.2025 |
| Lieferstatus: | lieferbar |
| Umfang: | 166 Seiten |
| Bindung: | Soft |
| Preis: | 69,00 EUR |
| ISBN: | 9783959470858 |
| Umschlag: | (vorn) |
| Inhaltsverzeichnis: | (pdf) |
Abstrakt in Englisch
Artificial intelligence has rapidly advanced over the past decade. Following breakthroughs in image classification, neural networks have been applied to a wide range of tasks, expanding their impact across various domains. The increasing adoption of Deep Neural Networks (DNNs) is driven by their improved accuracy and growing capabilities. However, this surge in model development has only been possible through significant advancements in hardware systems. Dedicated accelerators are now widely used for training and executing neural networks, extending the design space beyond traditional Central Processing Unit (CPU) and Graphics Processing Unit (GPU) clusters. These accelerators are gaining popularity due to their specialized architectures, which are optimized for neural network workloads. This evolution enables the training and execution of larger models on increasingly extensive datasets. Despite these advancements, dedicated DNN accelerators, like all compute cores, remain constrained by the memory wall issue. This challenge arises as computing performance continues to outpace the growth of memory bandwidth and interconnect speeds, making the memory subsystem a critical performance bottleneck. Several strategies exist to mitigate the memory wall. This thesis extends these approaches by analyzing the interactions between DNN acceleration and the memory subsystem. Firstly, it introduces novel contributions that leverage DNNs themselves to enhance the memory interconnect efficiency. Additionally, it presents a dedicated hardware architecture designed to enable memory-efficient Dilated Convolution (DCONV) processing. In embedded systems, high-performance cores typically rely on fast and predictable on-chip memory. To improve conflict handling and reduce execution time, offline arbitration can be combined with memory access prediction, a technique known as Access Interval Prediction (AIP). This thesis introduces neural network-based AIP units to enhance prediction accuracy. By further leveraging model compression techniques, the system’s compute cost can be reduced while maintaining performance improvements in configurations with multiple masters and shared memory. However, memory sharing is generally not feasible for compute cores specifically designed for DNN execution. Since these systems also face limited effective memory bandwidth, we introduce a novel memory mapping and address generation scheme. This approach eliminates redundant operations for DCONV, resulting in a net performance increase even in memory-bound systems with constrained bandwidth. Additionally, by implementing data-reuse register stages within the compute core, energy efficiency can be further improved. Our results demonstrate that the negative impact of the memory wall can be mitigated by aligning the compute and memory systems for specific operations such as DCONV. This optimization enhances the deployment of DCONV operations in embedded systems, making applications such as semantic segmentation feasible on mobile devices.
Abstrakt in Deutsch
Die Entwicklung der künstlichen Intelligenz hat sich im letzten Jahrzehnt rasant beschleunigt. Nach herausragenden Fortschritten in der Klassifizierung von Bildern wurden neuronale Netzwerke auf eine Vielzahl von Aufgaben angewendet. Folglich kommen sie in unterschiedlichen Bereichen nun zum Einsatz. Aufgrund von Verbesserungen in der Genauigkeit und wachsenden Fähigkeiten werden vor allem zunehmend tiefe neuronale Netze (engl. Deep Neural Networks, DNNs) eingesetzt. Diese Entwicklung an Modellen wäre jedoch ohne bedeutende Fortschritte in den zugehörigen Hardwaresystemen nicht möglich gewesen. Neben traditionellen zentralen Recheneinheiten und Grafikprozessoren werden heute weitgehend dedizierte Beschleuniger für das Training und die Ausführung von neuronalen Netzwerken eingesetzt. Vor allem aufgrund ihrer spezialisierten Architekturen, die für die Verarbeitung von neuronalen Netzwerken optimiert sind, gewinnen diese Beschleuniger an Popularität. Diese Entwicklung ermöglicht es, größere Modelle auf zunehmend umfangreicheren Datensätzen zu trainieren and auszuführen. Trotz dieser Fortschritte wird die Leistungsfähigkeit dedizierter DNN-Beschleuniger, wie alle anderen Rechensysteme, durch das Problem der sogenannten Speicherwand (engl. memory wall) eingeschränkt. Die Herausforderung hierbei ist, dass die Rechenleistung schneller als die Bandbreite des Speichers und der Geschwindigkeit der Speicherinterkonnektivität wächst, wodurch das Speichersystem zu einem entscheidenden Engpass des Gesamtsystems wird. Es gibt verschiedene Strategien, um die memory wall zu überwinden. Durch die Analyse der Interaktionen zwischen DNN-Beschleunigung und dem Speichersystem werden diese Strategien innerhalb dieser Arbeit erweitert. Zunächst wird eine Methode ausgearbeitet, die DNNs selbst nutzen, um die Effizienz der Speicherinterkonnektivität zu verbessern. Zusätzlich wird eine dedizierte Hardwarearchitektur vorgestellt, die ein speichereffizientes Ausführen von gedehnten Faltungen (engl. Dilated Convolution, DCONV) ermöglicht. In eingebetteten Systemen setzen Hochleistungs-Rechenkerne in der Regel auf schnelle und vorhersehbare Speichermodule, welche auf dem Chip integriert sind. Um Konflikte besser zu lösen und die Ausführungszeit zu reduzieren, kann eine offline Arbitrierung mit Speicherzugriffsvorhersage kombiniert werden, eine Technik, die als Zugriffsintervallvorhersage (engl. Access Interval Prediction, AIP) bekannt ist. Zur Verbesserung der Vorhersagegenauigkeit stellt diese Arbeit AIP-Einheiten auf Basis neuronaler Netzwerke vor. Durch die Nutzung von Techniken zur Komprimierung von DNNs können die Rechenkosten des Systems gesenkt werden, während weiterhin die Verbesserung der Leistungsfähigkeit in Systemenkonfigurationen mit mehreren Mastern und gemeinsamem Speicher aufrechterhalten wird. Das Teilen eines gemeinsamen Speichers ist jedoch in der Regel nicht praktikabel für Rechenkerne, die speziell für die Ausführung von DNNs entwickelt wurden. Da diese Systeme ebenfalls mit begrenzter effektiver Speicherbandbreite konfrontiert sind, wird ein neuartiges Speicherabbildungs- und Adressgenerierungsschema vorgestellt. Dieser Ansatz eliminiert redundante Operationen während der Berechung von DCONVs und führt zu einer effektiven Steigerung der Leistungsfähigkeit, selbst in Systemen, bei denen die Speicherbandbreite der limitierende Faktor ist. Zur weiteren Steigerung der Energieeffizienz können mit zusätzlichen Registerstufen Daten zwischen den Rechenmodulen wiederverwendet werden. Die Ergebnisse dieser Arbeit zeigen, dass die negativen Auswirkungen der memory wall durch die gegenseitige Abstimmung des Rechen- und Speichersystems für bestimmte Operationen wie DCONVs abgeschwächt werden können. Diese Optimierung verbessert den Einsatz von DCONV-Operationen in eingebetteten Systemen und ermöglicht Anwendungen wie die semantische Segmentierung auf mobilen Geräten.

