Von Python/Pandas zu Rust/C++: So reduzierten wir unsere Simulation um 99,9%

Ein kleines ML-Labor steht vor einer klassischen Herausforderung: Die Simulation von Marktdaten ist rechenintensiv und langsam. Doch statt stundenlanger Wartezeiten auf Ergebnisse stand das Team vor einem noch größeren Problem: Jedes Experiment dauerte Tage. Mit einem radikalen Technologiewechsel von Python und Pandas zu Rust und C++ gelang es, die Latenz von 140 Millisekunden pro Fenster auf nur noch 1 bis 5 Millisekunden zu reduzieren – auf günstiger Hardware. Noch beeindruckender: Auf einem hochgetakteten AMD-Prozessor sank die Zeit sogar auf 4 bis 40 Mikrosekunden. Dieser Bericht zeigt, wie das Team durch gezielte Optimierung nicht nur Zeit, sondern auch neue Möglichkeiten für Experimente gewann.

Warum Simulationen so rechenintensiv sind

Das Team entwickelt und testet Alpha-Modelle für eine Handvoll Partner. Der kritischste Teil des Prozesses ist die Simulation, die sicherstellt, dass keine Look-ahead-Bias entsteht. Diese Simulation ist besonders ressourcenfressend, da sie für jeden Datenpunkt Hunderte von Features berechnet und anschließend Inferenzmodelle ausführt. Auf einem Standard-Arbeitsplatz dauerte ein einzelner Lauf mit 1-Minuten- oder 5-Minuten-Balken über Jahre hinweg historische Daten 6 bis 20 Stunden. Pro Fenster betrug die Berechnungszeit 900 bis 1300 Millisekunden – viel zu langsam, um Hypothesen effizient zu testen.

Der erste Schritt: Von Pandas zu NumPy

Der naheliegendste Ansatz war, die rechenintensive Pandas-Logik durch NumPy zu ersetzen. Das Ergebnis war ein signifikanter Geschwindigkeitsgewinn: Die Berechnungszeit pro Fenster sank auf rund 140 Millisekunden. Damit konnten erstmals grundlegende Experimente in akzeptabler Zeit durchgeführt werden. Dennoch blieb die Performance unbefriedigend, da die Rekomputation von gleitenden Fenstern und die Speicherallokation weiterhin Engpässe darstellten.

Die Sprache als fundamentale Begrenzung erkennen

Ein Kollege, der seit Jahren mit Rust arbeitet, hatte stets betont, dass Python und Pandas für solche Aufgaben ungeeignet seien. Die Diskussionen mündeten schließlich in einer einfachen Erkenntnis: Unabhängig von der Hardware begrenzt der Python Global Interpreter Lock (GIL) und die generelle Overhead-Architektur die Performance. Selbst mit zusätzlichen CPU-Ressourcen war kein signifikanter Geschwindigkeitszuwachs mehr möglich. Ein Wechsel der Programmiersprache war unvermeidbar.

Der radikale Wechsel zu Rust und C++

Der nächste Schritt war kein kleiner Schritt, sondern eine vollständige Neuentwicklung. Jedes Feature wurde in Rust neu implementiert, wobei besonderer Wert auf eine O(1)-inkrementelle Zustandsverwaltung pro Tick gelegt wurde. Dadurch entfiel die Notwendigkeit, gleitende Fenster ständig neu zu berechnen. Anschließend wurde das Modell in eine C++-Engine übersetzt, die für die Ziel-CPU vorkompiliert und über FFI (Foreign Function Interface) eingebunden wurde.

Die Ergebnisse waren verblüffend:

Günstige Cloud-VM (vCPU): 1 bis 5 Millisekunden pro Fenster
Hochgetakteter AMD-Prozessor: 4 bis 40 Mikrosekunden pro Fenster

Simulationen, die zuvor Stunden in Anspruch nahmen, liefen nun in wenigen Minuten. Auch lästige Speicherlecks gehörten der Vergangenheit an.

Unerwartete Vorteile: Neue Experimentiermöglichkeiten

Die Geschwindigkeit war nicht das einzige überraschende Ergebnis. Durch die drastische Reduzierung der Latenz konnten neue Arten von Simulationen durchgeführt werden, die zuvor undenkbar waren. Besonders inspiriert von der Arbeit von Michael Levin zu bioelektrischen Mustern und kollektivem Verhalten, testet das Team nun Ideen, die weit über den Finanzbereich hinausgehen. In Python wären solche Experimente schlicht unmöglich gewesen; in Rust sind sie nur noch durch die verfügbare Infrastruktur begrenzt.

Transparenz und Reproduzierbarkeit

Um Vertrauen in die Ergebnisse zu schaffen, stellt das Team Rohsignale auf einer öffentlichen Plattform zur Verfügung. Jeder generierte Signalwert wird mit einem Mikrosekunden-Timestamp in einem unveränderlichen S3-Bucket gespeichert. Dadurch lässt sich sicherstellen, dass keine Look-ahead-Bias vorliegt: Der Zeitpunkt der Signalgenerierung ist stets später als der Balkenzeitpunkt. Die Demo-Plattform zeigt zudem die tatsächliche Inferenz-Latenz an – ohne künstliche Beschleunigung.

Wo die Optimierung endet

Es ist wichtig zu betonen: Die erreichte Performance bezieht sich ausschließlich auf die reine Rechenleistung. Echte Datenfeed-Latenzen, fehlende Colocation oder Kernel-Bypass-Techniken spielen hier keine Rolle. Dieses Setup ist für High-Frequency-Trading oder Market-Making nicht optimiert – es zeigt lediglich, was mit effizienter Software möglich ist.

Eine offene Frage an die Branche

Für alle, die im Bereich HFT oder Market-Making arbeiten: Ist eine solche Optimierung unter realen Bedingungen nutzbar? Die einzige bisher identifizierte Anwendung liegt im Bereich der adversen Selektion für Market-Maker – etwa durch vorausschauende Anpassung von Quotes bei microstructurebedingten Bewegungen. Doch das Team ist sich unsicher, ob dieser Ansatz in der Praxis funktioniert. Feedback von erfahrenen Praktikern wäre wertvoll.

Warum dieser Bericht kein Werbetext ist

Das Labor verkauft keine Software an Endkunden. Die Veröffentlichung dieses Berichts dient einzig dem Zweck, eine ehrliche technische Diskussion anzuregen – eine Diskussion, die die Community schätzt und in der schlechte Engineering-Lösungen rigoros hinterfragt werden. Genau das ist der Grund für diese Veröffentlichung.

Fazit: Rust lohnt sich – aber nicht für jeden

Rust ist zweifellos eine leistungsstarke Sprache, die in vielen Bereichen deutliche Vorteile bietet. Doch der Wechsel zu Rust erfordert Zeit, Fachwissen und die Bereitschaft, alte Denkmuster zu durchbrechen. Für Teams, deren Performance durch die Grenzen von Python oder ähnlichen Sprachen begrenzt wird, kann dieser Schritt jedoch den Unterschied zwischen stundenlangen Wartezeiten und nahezu Echtzeit-Experimenten ausmachen. Die Frage ist nicht mehr, ob Rust lohnt – sondern wann der richtige Zeitpunkt für den Umstieg ist.

KI-Zusammenfassung

Python ve Pandas’tan Rust ve C++’ya geçişle piyasa simülasyonu performansı 140ms’den 1-5 mikrosaniyeye düştü. Küçük bir ML laboratuvarının performans krizine bulduğu çözüm ve getirdiği fırsatlar.