Ratgeber Mac Studio mit M1 Ultra - Volle Workstation-Performance?

Mac Studio mit M1 Ultra - Volle Workstation-Performance?

Spielt Apples M1 Ultra Prozessor wirklich in einer Liga mit AMD / Intel / Nvidia Workstations? Wir wagen uns an eine realistische Einschätzung...

// 10:04 Mi, 23. Mär 2022von

Mit dem Erscheinen des neuen Mac Studio Desktops präsentierte Apple auch ein weiteres mal spektakuläre Vergleiche zum neuen M1 Ultra Prozessor, die unter anderem suggerierten, dass Apple nun mit seinem Spitzenmodell in einer Liga mit AMD / Intel / Nvidia Workstations spielt. Wir wagen uns an eine realistische Einschätzung.




Ungeschlagene Effizienz

Zuerst darf und muss man vor Apples Stromverbrauch den Hut ziehen: Die Effizienz der neuen Systeme bleibt einzigartig. Vergleichbare Leistung ließe sich mit PC-Komponenten zwar mit großem Aufwand vielleicht noch ebenso kompakt verpacken, dann jedoch keinesfalls derart leise betreiben. Dies erreicht Apple jedoch nicht mit Magie, sondern mit dem (sehr kostspieligen) Zugriff auf die aktuell kleinsten Strukturen der Halbleiter-Massenfertigung von TSMC (5nm). Erst in diesem Spätherbst werden AMD und Nvidia ebenfalls konkurrierende CPUs und GPUs in dieser Strukturbreite auf den Markt bringen, wobei zu erwarten ist, dass damit der Effizienz-Vorsprung gegenüber Apples M1-Architektur deutlich schrumpfen wird.



Mac Studio mit M1 Ultra - Volle Workstation-Performance? : effizienz m1


Auch heute lassen sich bereits günstigere PC-basierte Systeme zusammenstellen, die selbst einen Mac Studio im Maximalausbau noch deutlich überflügeln. Doch bei solchen Aussagen kommt es stark auf das Anwendungsszenario an. Apple selbst hat in sehr speziell ausgewählten Benchmarks zum Vergleich eine RTX 3090 sowie einen AMD Threadripper herangezogen, der angeblich auf Augenhöhe agiert. Je nach Benchmark kamen diverse Internetmedien jedoch auch zu ganz anderen Ergebnissen. An einem Beispiel wollen wir kurz erklären, warum die Varianz der Tests so groß ausfällt:




Vorteil?: Unified Memory - Zero-Copy-Speicherzugriff

Als einer der größten Vorteile für die Videobearbeitung (und übrigens auch für Machine Learning) gilt der sogenannte Zero-Copy-Speicherzugriff der M1 Unified Memory Architektur zwischen CPU, GPU und anderen SOC-Komponenten. Hierbei übergibt beispielsweise die CPU der GPU statt der Daten nur einen sogenannten Zeiger auf die Daten. Da CPU und GPU Zugriff auf denselben Speicher haben, müssen diese Daten zur Weiterverarbeitung nicht mehr vom CPU-Speicher in den GPU-Speicher transferiert werden.



Wenn dieser Zero-Copy-Speicherzugriff im Code der Applikation genutzt wird (wofür in der Regel ein geänderter Code-Ablauf erforderlich ist), kann der M1 hiermit signifikante Performance-Steigerungen erzielen. Leider ist nicht einmal bekannt, ob schon Final Cut Pro diese Funktionen rege nutzt. Die großen Machine Learning Anwendungen könnten ebenfalls stark davon profitieren, nutzten diesen Vorteil aktuell jedenfalls noch nicht.



Ein echter Vergleich zwischen PC- und M1-Architektur kann deswegen niemals fair ausfallen, weil man keine identische Codebasis zum Vergleich heranziehen kann. Entweder ist der Code für ein hin- und herschieben von Speicherblöcken zwischen CPU und GPU am PC optimiert oder er macht explizit Gebrauch von dem Unified Memory Modell des Mac. Bei ersterem könnte die CPU noch parallel für andere Aufgaben genutzt werden, weil die GPU mit ihrem eigenen Speicher autark (z.B. die Effekt-Threads für die Videobearbeitung ab-) arbeiten kann.



Bei Unified Memory spart man sich zwar den eigentlichen Kopiervorgang, dafür können sich CPU und GPU bei RAM-Zugriffen behindern und die Bandbreite des Speichers muss sorgfältig(er) geteilt werden. Wer für beide Architekturen optimiert, hat am Ende sehr unterschiedlichen Code. Je nach Effekt-Algorithmus kann die eine oder andere Architektur von Vorteil sein.



Grob darf man wohl annehmen: Wenn mehrere Effekte verkettet werden und diese "in einem Rutsch" auf der GPU berechnet werden können, spielt der Aufwand des Kopiervorgangs nur eine untergeordnete Rolle. Unified Memory kann dagegen seine Vorteile vor allem dort ausspielen, wo viele Kopiervorgänge relativ unaufwändigen Berechnungen gegenüberstehen. In Resolve würden wir dies bei gestackten Nodes mit einfacher Farbkorrektur erwarten. Weil eben hier wenig Rechenaufwand bei häufiger Pixelschubserei von Node zu Node anfällt. Bei einer sehr rechenintensiven temporalen Noise Reduction sehen wir dagegen weniger Vorteile für Zero-Copy Speicherzugriffe. In praktischen Benchmarks spiegelt sich unsere Erwartung jedoch nicht unbedingt wieder, was viele Gründe haben kann, die wir ohne Einblick in den Code jedoch nicht erklären können. Doch dazu schreiben wir ein andermal noch einmal mehr.






Ähnliche Artikel //
Umfrage
  • Was hältst du von den neuen Bild/Video-KIs?





    Ergebnis ansehen
slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash