Maschinelles Lernen in der Radiologie: Degenerative Wirbelsäulenerkrankungen

Eine KI-gestützte Analyse von MRT-Bildern zur Unterstützung der Diagnose und Schweregrad-Einstufung

Sprachen: PythonTools: PyTorch, Scikit-Learn, TIMM, AlbumentationsKeywords: Radiologie, Orthopädie, Computer Vision, Convolutional Neural Network, Neuronales Netz, KI, t-SNE

Die Motivation: Wirbelsäulenerkrankungen und MRT-Diagnostik

Rückenschmerzen gehören zu den größten Volkskrankheiten weltweit. Laut der WHO waren 2020 rund 619 Millionen Menschen davon betroffen – Tendenz steigend. Häufige Ursache sind degenerative Veränderungen der Lendenwirbelsäule, etwa Bandscheibenverschleiß oder Spinalkanalstenosen. Radiologen nutzen zur Diagnose vor allem die Magnetresonanztomographie (MRT), die eine detaillierte Beurteilung der Wirbelkörper, Bandscheiben und Nerven ermöglicht.

Doch diese Befundung ist zeitintensiv und komplex. Genau hier setzt Künstliche Intelligenz (KI) an: Kann ein Modell lernen, radiologische Befunde zuverlässig zu unterstützen oder sogar vorzubereiten? Mit dieser Frage beschäftigte sich die RSNA 2024 Challenge, an der ich teilgenommen habe.

Die Aufgabe: Multilabel-Klassifikation degenerativer Wirbelsäulenerkrankungen

Die Challenge wurde von der Radiological Society of North America (RSNA) gemeinsam mit der American Society of Neuroradiology (ASNR) ausgerichtet. Ziel war es, ein Modell zu entwickeln, das MRT-Aufnahmen der Lendenwirbelsäule analysiert und fünf degenerative Veränderungen erkennt und einstuft:

  1. Neural Foraminal Narrowing (links/rechts)
  2. Subarticular Stenosis (links/rechts)
  3. Spinal Canal Stenosis

Für jedes Wirbel-Level (L1/L2 bis L5/S1) lagen Bewertungen der Ausprägung (Normal/Mild, Moderate, Severe) vor. Damit ergab sich ein anspruchsvolles Multiclass-Multilabel-Problem.

Besondere Schwierigkeit: Die starke Class Imbalance – die meisten Befunde waren "Mild", während "Severe"-Fälle eher selten vorkamen. Dies spiegelte sich in der Bewertung wieder:

  • Normal/Mild: Gewichtung 1
  • Moderate: Gewichtung 2
  • Severe: Gewichtung 4

Die Bewertung erfolgte über den sample weighted log loss, der schwere Fälle stärker gewichtet.

MRI Daten der verschiedenen Pathologien

Der Ground Truth-Datensatz stammt aus acht Standorten auf fünf Kontinenten. Diese multi-institutionelle, expertengestützte Datenbasis soll die standardisierte Klassifikation degenerationer lumbaler Wirbelsäulenerkrankungen verbessern.

MRI der Lendenwirbelsäule mit markierten Pathologien
MRT-Aufnahmen der Lendenwirbelsäule mit deutlich erkennbaren Deformierungen

Insgesamt ergibt das 25000 Bilder mit den oben beschriebenen Labels zu Erkrankung, Position und Schweregrad. Außerdem gab es noch X und Y Koordinaten wo genau die Erkrankung im jeweiligen Bild zu sehen ist, und eine Beschreibung mit welcher MRT Sequenz die Aufnahme stattgefunden hat.

Und genau das ist ein wichtiger Punkt: Je nach anatomischer Ansicht sind die Deformierungen überhaupt erst erkennbar.

  1. Neural Foraminal Narrowing: Diese Verengung gibt es bei den Foramina intervertebralia, also die seitliche Öffnung zwischen den Wirbelkörpern durch die die Nerven aus dem Rückenmark austreten. Hier ist es wichtig die sagittale Ansicht (also von der Seite) zu wählen um dies korrekt beurteilen zu können
  2. Subarticular Stenosis: Hier benötigt man einen axialen Blick der eine Verengung in dem Bereich zwischen Spinalkanal und dem o.g Foramen intervertebrale zeigt.
  3. Spinal Canal Stenosis: Wie der Name sagt ist hier der Spinalkanal (dort wo sich das Rückenmark befindet) verengt und man schaut sich eine sagittalen Ansicht an um den gesamten Kanal von der Seite beurteilen zu können.

Für das weitere Vorgehen ist es also wichtig, die Klassifizierung in die entsprechenden Ansichten aufzuteilen. Doch bevor wir ein sehr detailliertes und aufwendiges Konzept umsetzen, soll erst mal eine einfacher Ansatz als Ausgangslage betrachtet werden:

Bewährtes CNN als Baseline

Als ersten Schritt soll ein etabliertes Convolutional Neural Network (EdgeNext) trainiert werden mit dem direkten Output aller Pathologien. Der Vorteil ist die schnelle Umsetzung und passable Ergebnisse, aber die Unterscheidung von Mild zu Severe war kaum möglich.

Bei Class Imbalance Problemen ist es meiner Erfahrung nach sinnvoll das Training mit der Loss Funktion besser zu steuern. Der Focal Loss ist hierfür bestens geeignet, da falsch klassifizierte (schwierige) Fälle exponentiell stärker gewichtet werden. Damit war das Ungleichgewicht der Klassen auszugleichen und es verbesserte sich die Erkennung seltener Fälle spürbar.

Hinweis: Bei allen Trainings wurden immer 70% der Daten für das Training und 30% der Daten für die Validierung aufgeteilt.

Das Ergebnis ist in der Abbildung unten zu sehen. In den 5 Trainingsepochen kann die Performance (F1 und Accuracy) auf dem Validierungssatz auf ca. F1 = 0.57 und Acc = 0.62 gesteigert werden - das neuronale Netz lernt also, aber die Werte liegen noch deutlich unter einem brauchbaren Classifier.

Trainingsverlauf
Trainingsprozess des Baseline CNNs mit Loss, Accuracy und F1

Feature Extraction + klassische ML-Methoden

Oft kann es sinnvoll sein, Feature Vektoren aus Bildern zu extrahieren und mit klassischeren ML Methoden zu untersuchen. Damit lässt sich ermitteln ob die Features und damit die zugrunde liegenden Daten überhaupt sinnvoll sind. Als zweiten Ansatz dient also ein ResNet, dessen "Backbone" einen Vector der Länge 512 liefert. Auf diesem kann dann z.B. ein Random Forest, SVM oder Linear Classifier trainiert werden. Das Ergebnis war allerdings ernüchternd – die Modelle lieferten schlechte Resultate was auch bei einem Blick auf den t-SNE Plot sichtbar wurde (Die Funktionsweise von t-SNE habe ich schon etwas detaillierter hier erklärt). In diesem Fall wurden die Feature Vektoren mit den Labels als Farbkodierung genutzt:

T-SNE plot der extrahierten Features
t-SNE Plot der extrahierten Features. Die Farbkodierung entspricht den Labels. Man erkennt, dass keine klare Unterscheidung möglich ist.

Die Erkenntnis ist eindeutig: Der t-SNE Plot sieht aus wie Konfetti und obwohl es erkennbare Gruppierungen gibt, haben diese nichts mit den Labels zutun. Für so komplexe Bildinformationen reichen einfache Feature-Vektoren nicht aus und wir brauchen einen Ansatz der mehr ins Detail geht.

Eine KI am Beispiel Mensch: Object Detection + Level-spezifische Klassifikation

Wenn der Radiologe MRT Bilder untersucht würde es auch nicht ausreichen einfach das Bild im Gesamten anzuschauen. Erst müssen die richtigen Stelle anatomisch lokalisiert werden, dann werden dort mit einer vergrößerten Ansicht die oben genannten Deformierungen klassifiziert. Also ist mein dritter Ansatz eine Kombination aus Objekterkennung (Wo befinden sie die Wirbelkörper?) mittels RetinaNet (Stufe 1) und spezialisierten CNN-Klassifikatoren pro Segment (Stufe 2).

Das Retinanet ist zwar bereits einige Jahre alt aber die Performance kann immer noch mit den neusten YOLO Modellen mithalten. In unserem Anwendungsfall besteht die Herausforderung darin, dass die Wirbel auf unterschiedlichen Höhen visuell sehr ähnlich sind. Dadurch wird die Unterscheidung weniger durch eindeutige Merkmale als vielmehr durch feine Details und präzise Lokalisation bestimmt. Das verwendete "Feature Pyramid Network" bietet eine mehrskalige Analyse und komplette Abdeckung des Bildes womit auch kleine Strukturen erfasst werden können.

Die erste Idee war jede Bandscheibe einzeln zu erkennen also L1/L2, L2/L3, usw. Allerdings war die Erkennung nicht ganz so zuverlässig wie für unseren Ansatz nötig. Deshalb habe ich die Objekterkennung vereinfacht: Es gibt nur noch die beiden Klassen L5/S1 (das ist die unterste Bandscheibe) und Other. Meist ist L5/S1 am einfachsten zu erkennen, da darunter direkt das Sacrum (Steißbein) beginnt.

MRT Aufnahme mit markierten Bandscheiben
MRT Aufnahme mit markierten Bandscheiben. Es gibt die Klassen "L5/S1" und "Other".

Nun gibt es mit dieser Objekterkennung erst mal keine klare Zuweisung wo sich jede Bandscheibe befindet allerdings kann das auf andere Art und Weise bestimmt werden: Teil des Projektes war die Implementierung einer DicomDataset Klasse. Dicom ist das Standard Datenformat für MRT Aufnahmen und beinhaltet neben den Bilddaten auch Informationen zum Aufnahmemodus und Lokalisation der Schicht. Letzteres kann benutzt werden um jeden einzelnen Pixel exakt im 3D Raum zu verorten. Also ist es auch möglich aus der oben beschriebenen Objekterkennung die Levels der Wirbelsäule zu bestimmen.

Der Gesamtprozess sieht dann wie folgt aus:

  • Für alle Patienten werden DicomDataset-Objekte erstellt
  • Alle sagittalen Scans werden geladen
  • Jede einzelne Schicht (Slice) wird mit dem Wirbeldetektor verarbeitet
  • Die Bounding Boxen werden in Z Richtung sortiert (cranial, Richtung Kopf) und ausgehend vom erkannten L5/S1 können L4/L5, L3/L4, usw. zugeordnet werden
  • Für jedes Segment (Level) L:
    • Extrahiere alle Patches aus den Bounding-Boxen auf Level L (die Boxen werden erweitert, um den Spinalkanal und die Foramina einzuschließen)
    • Verwende eine zufällige Schicht, auf der alle Level sichtbar sind, um die axialen Slices auf Level L zu extrahieren; diese werden zusätzlich zentriert zugeschnitten (Center Crop)

Für jeden Patienten bestehen die Daten aus separaten Datensätzen für jedes einzelne Level:

{
  "L1/L2": {
    "sagittalPatches": [...],
    "axialSlices": [...]
  },
  "L2/L3": {
    "sagittalPatches": [...],
    "axialSlices": [...]
  },
  "L3/L4": {
    ...
  }
}

Stufe 2 beinhaltet dann den Classifier (Krankheit und Schwere). Dieser bekommt ein Sample wie im Bild unten zu sehen, also Detailaufnahme der relevanten Bereiche. Im Training hat sich ein eine Verbesserungen der Metriken ergeben: Accuracy = 0,64 und F1=0,6.

Datensample aus axialen und sagittalen Schnitten innerhalb eines Levels
Datensample aus axialen und sagittalen Schnitten innerhalb eines Levels (hier: L2/L3)

Der Vorteil ist, dass jedes Modell nur noch Pathologie x Severity bestimmen muss, und nicht zusätzlich noch die Lokalisation. Auch wenn die Pipeline im Training sehr gute Ergebnisse lieferte - auf dem Hidden Test Set auf Kaggle war der Gewinn nur ~0.2 (gewichteter Log Loss) gegenüber dem einfachen CNN. Dies ist ein gutes Beispiel dafür, dass komplexere Modelle zwar besser generalisieren können und bessere Performance liefern aber der Aufwand sehr schnell um ein Vielfaches steigt.

Die Trainingsdaten der Objekterkennung wurden von Hand erstellt und das das Prozessieren der Bilder dauert auch deutlich länger. Ein Bild wird erst vom Retinanet in die Unterbereiche aufgetetilt und dann wird jeder Patch nochmal einzel klassifiziert. Das muss für alle Bilder in einem Scan gemacht werden, um ein Gesamtergebnis zu erhalten.

Insgesamt ergibt sich damit lediglich eine Platzierung unter den Top 60%.

Data Augmentation – ein entscheidender Faktor

Ein zentrales Element meiner Arbeit war die gezielte Datenaugmentation, um die starke Varianz klinischer Bilddaten realistisch abzubilden. Wie in der Beschreibung der Challenge angedeutet, unterscheiden sich Aufnahmen oft erheblich – bedingt durch verschiedene Scanner, Protokolle, Patientenbewegungen oder Artefakte. Ziel war es daher nicht nur, mehr Daten zu erzeugen, sondern vor allem klinisch plausible Variationen zu simulieren.

Hierfür habe ich Albumentations eingesetzt und mehrere Strategien kombiniert, die gezielt unterschiedliche reale Störungen nachbilden:

  • Helligkeits- und Kontrastvariation: simuliert Unterschiede zwischen Scannern und Aufnahmeprotokollen
  • Unschärfe (Motion Blur, Gaussian Blur): bildet Bewegungsartefakte oder reduzierte Bildqualität ab
  • Rauschen: entspricht realem Sensor- und z.T. auch Rekonstruktionsrauschen in MRT/CT-Daten
  • Geometrische Verzerrungen (Elastic / Optical Distortion): simulieren anatomische Variationen sowie bildgebungsbedingte Verzerrungen
  • Shift / Scale / Rotate: reflektiert unterschiedliche Patientenlagerungen und Schnittebenen
  • Coarse Dropout: zwingt das Modell, robust gegenüber partiell fehlender Information zu werden (z. B. durch Artefakte)

Wichtig war dabei die kontrollierte Anwendung: Jede Augmentation wurde nur mit einer moderaten Wahrscheinlichkeit angewendet, um die anatomische Struktur nicht zu verfälschen. Es ist vor allem wichtig, dass augmentierte Daten weiterhin plausibel bleiben und keine unrealistischen Pathologien erzeugen.

Technisch habe ich die Augmentation parallelisiert, d.h. sagittale Patches und axiale Slices wurden unabhängig transformiert und anschließend zu einem gemeinsamen 3D-ähnlichen Eingabetensor kombiniert.

Dieser Ansatz führte zu deutlich robusterem Modellverhalten und besserer Generalisierung auf unbekannte klinische Daten – wichtig, um KI-Systeme näher an den realen Einsatz im medizinischen Alltag zu bringen.

Learnings – XAI, Domain Shift, 3D

Die Challenge hat für mich gezeigt: Transfer Learning und bewährte Architekturen liefern eine starke Basis. Die größte Herausforderung liegt nicht im Modelltraining, sondern in der Datenaufbereitung. In der klinischen Praxis liegen Daten meist als unstrukturierte DICOM-Sätze vor. Bevor KI-Modelle sinnvoll eingesetzt werden können, müssen diese Daten standardisiert, normalisiert und segmentiert werden. Object Detection und Segment-spezifische Klassifikation können prinzipiell Vorteile bringen – aber nur, wenn die Generalisierung auf echte klinische Daten gelingt.

Was ich mit etwas mehr Zeit gerne noch eingebaut hätte: Neben der Performance ist es im klinischen Umfeld mindestens genauso wichtig zu verstehen warum eine KI zu einer Entscheidung kommt. XAI Methoden wie SHAP oder TCAV können deutlich machen welche Bildbereiche wichtig sind und welche Unterscheidungen der Algorithmus intern macht.

Um diese Arbeit weiter zu verbessern gibt es mehrere Ansatzspunkte: Das gewählte zweistufige Vorgehen (Detection → Klassifikation) bringt eine große Schwäche mit sich: Fehler in der Objekterkennung wirken sich direkt auf die Klassifikation aus. Wird ein Level nicht korrekt lokalisiert, kann auch der beste Classifier keine korrekte Vorhersage treffen. Eine mögliche Verbesserung wäre ein stärker integriertes Modell, z. B. ein End-to-End-Ansatz oder ein Netzwerk mit Attention-Mechanismen, das Lokalisation und Klassifikation gemeinsam lernt.

Das Modell hat immer nur auf 2D Daten gelernt, 3D Zusammenhänge blieben außen vor. Mit einem 3D Ansatz wie z.B. 3D SWIN-UNETR können diese Features extrahiert und genutzt werden. Das beinhaltet vor allem schwierige Pathologien, und das womöglich sogar mit einem End-To-End Ansatz.

Die Qualität der Objekterkennung ist stark von den manuell erstellten Bounding-Boxen abhängig. Da ich selbst zwar einige Grundlagen aber natürlich keinerlei Erfahrung als Radiologe habe, sind Inkonsistenzen oder Ungenauigkeiten fast garantiert. Mehr annotierte Daten oder präzisere Labels hätten hier vermutlich einen deutlichen Einfluss gehabt. Außerdem wäre es ggf. besser gewesen statt Objekterkennung eine Feature Erkennung zu nutzen die dafür gedacht ist wiederkehrende Muster zu detektieren.

Insgesamt zeigt sich: Der größte Hebel liegt nicht nur in komplexeren Modellen, sondern in einer besseren Nutzung des medizinischen Kontexts, hochwertigeren Daten und einer engeren Verzahnung der einzelnen Pipeline-Schritte.

Der Fakt, dass der Unterschied von Training zum Hidden Test Set relativ groß war, deutet außerdem darauf hin, dass der Domain Shift einen großen Einfluss hat und die Augmentation nicht ausreicht um das zu simulieren. Hier wäre eine Idee, die Pipline zu erweitern und MRT spezifische Störungen zu simulieren (Unterabtastung, Artefakte durch Implantate, etc.)

Fazit

Die RSNA 2024 Challenge war für mich eine spannende Möglichkeit, meine Expertise in medizinischer Bildgebung, Datenvorverarbeitung und Deep Learning einzusetzen. Meine Modelle zeigten, dass KI radiologische Diagnosen bei degenerativen Wirbelsäulenerkrankungen unterstützen kann – gleichzeitig wurde klar, dass die klinische Realität (unterschiedliche Scanner, Datenqualität, Patientenkollektive) die größte Hürde bleibt.

Für zukünftige Projekte heißt das: Eine erfolgreiche KI-Lösung in der Radiologie muss nicht nur State-of-the-Art Modelle nutzen, sondern vor allem eine stabile Datenpipeline vom DICOM-Import bis zur klinischen Integration sicherstellen.

Interesse an ähnlichen Projekten?

Kontaktieren Sie mich gerne für ein individuelles Gespräch!

Jetzt Kontakt aufnehmen

Danke fürs Lesen dieses Projektberichts. Bei weiteren Fragen stehe ich Ihnen gerne zur Verfügung:

E-Mail schreiben oder nutzen Sie mein Kontaktformular.