AMD Phenom II und Intel Core i7 im Test

Aus LinuxUser 04/2009

AMD Phenom II und Intel Core i7 im Test

© Emir Simsek, Fotolia

Kerniges Duell

AMD schickt den Phenom II X4 ins Rennen um die leistungsfähigste Vierkern-CPU, Intel hält mit dem neuen Core i7 dagegen.

Es geht nicht nur um mehr MHz: Sowohl Intel als auch AMD bieten mit ihren aktuellsten Prozessoren einige Neuerungen: AMD steigt mit dem Phenom II auf den 45-Nanometer-Fertigungsprozess um. Intel fertigt schon seit längerem in dieser Strukturgröße, offeriert aber jetzt “neue” Prozessorfeatures – die AMD wiederum teilweise seit Jahren in seine Chips integriert.

Phenom II

Die entscheidende Verbesserung beim in Dresden gefertigten Phenom II stellt die Strukturverkleinerung von 65 auf 45 Nanometer dar. Das erlaubt AMD nicht nur, mit der Taktrate hochzugehen: Die kleineren Transistoren, 758 Millionen an der Zahl, ermöglichen es auch, satte 6 MByte gemeinsamen Level-3-Cache zu integrieren, statt 2 MByte wie im Vorgänger. Dadurch bleibt die Größe des Chips mit fast gleich. Sie schrumpft nur wenig von 285 auf 258 Quadratmillimeter, sodass AMD nur wenig mehr Chips pro Silizium-Scheibe (“Wafer”) unterbringt. Das hält die Produktionskosten weitgehend gleich.

Die uns zum Test vorliegende Phenom II X4 940 Black Edition taktet offiziell mit 3 GHz – und verbraucht dabei erstaunlich wenig Strom. Und das, obwohl AMD den Prozessor mit 125 Watt TDP spezifiziert, was nahezu gleichauf zu den 130 Watt des Core i7 liegt. Der Vierkern der “Deneb”-Generation ist architektonisch weitgehend identisch mit dem im letzten Heft getesteten 65-Nanometer-Phenom-X4 mit 2.6 GHz ( “Agena”).

Jeder der vier Kerne der K10-Generation verfügt über 512 KByte L2-Cache. Alles sitzt auf einem einzigen Chip, und DDR2-Speicher lässt sich mittels des integrierten Speichercontrollers (siehe Kasten “Integrierter Speichercontroller”) über zwei maximal 1066 MHz schnelle Kanäle anbinden. Das hat im Vergleich zum Core i7 den großen Vorteil zur Folge, dass man den Phenom II einfach in vorhandene Motherboards mit AM2+-Sockel einsetzen kann. Der Core i7 dagegen benötigt nicht nur ein neues Motherboard, sondern meist auch neuen Arbeitsspeicher, da er exklusiv mit dem deutlich teureren DDR3-RAM funktioniert.

Mit dem Rest des Systems kommuniziert der Phenom über einen 16 Bit breiten Hypertransport-3.0-Link mit 1,8 GHz Taktung, was einen leichten Rückschritt zu den 2 GHz der Vorgängergeneration darstellt. Dennoch lassen sich über den Bus in jede Richtung 7,2 GByte pro Sekunde schieben – das sollte für die meisten Zwecke locker ausreichen. In Sachen reine CPU-Leistung hat das insbesondere bei Ein-Chip-Systemen wie dem Phenom keine Einschränkungen zur Folge, da der Prozessor nicht über Hypertransport auf den Speicher eines anderen Chips zugreifen muss. Wie schon bei dem von uns im letzten Heft getesteten Phenom hat natürlich auch der Phenom II den TLB-Bug nicht mehr: Den hat AMD seit dem B3-Stepping des Phenom (xx50-Modelle) beseitigt.

Integrierter Speichercontroller

In der traditionellen Variante ist der Speicher an der Northbridge des Chipsatzes angeschlossen. Dieser spricht wiederum die CPU über den Frontside-Bus an. Integrierte Speichercontroller hingegen koppeln den Speicher direkt an die CPU an, was Vorteile und Nachteile nach sich zieht. Auf der Haben-Seite stehen eine deutlich bessere Latenz beim Speicherzugriff und die weitgehende Entlastung des Systembusses, der dadurch voll für wichtigere Dinge wie Grafik, I/O oder Inter-Chip-Kommunikation parat steht. Zu den Minuspunkten zählt, dass neue RAM-Typen dann auch eine Revision der CPU erfordern.

Zudem handelt man sich bei Systemen mit mehreren Chips Probleme ein, da jeder Baustein über eigenen Speicher verfügt. Zugriffe auf den Speicher einer anderen CPU erfolgen relativ langsam, da sie über den langsameren Prozessorbus (QPI oder Hypertransport) laufen. Hier erweist sich als schlachtentscheidend, in welchem Speicherbereich die Daten liegen und wo an welchem Chip dieser angebunden ist.

Deshalb funktionieren Systeme mit integrierten Speichercontrollern in der Regel nach dem Numa-Konzept [1], das Speicher als unterschiedlich schnell bewertet und entsprechend alloziert. In den von uns getesteten Systemen kommen allerdings ohnehin nur einzelne Chips zum Einsatz, Numa-Systeme gibt es bei AMD nur mit Opteron- und bei Intel nur mit Xeon-CPUs. Die Xeon-Systeme auf i7-Basis mit dem Codenamen “Gainestown” stellt Intel allerdings erst gegen Ende des ersten Quartals 2009 vor.

Stromsparen a la AMD

Nicht nur dank der Strukturverkleinerung spart AMDs neue CPU Strom: Der Chiphersteller aus Sunnyvale spendiert seinen 45-Nanometer-CPUs auch ein Feature namens “Smart Fetch”. Es bewirkt, dass der Prozessor einzelne Kerne bei Nichtbenutzung komplett schlafen legt, um Strom zu sparen. Die Inhalte der L1- und L2-Caches lagert er dabei in den gemeinsamen L3-Cache aus, so dass die noch aktiven Kerne darauf zugreifen können, ohne ihren schlafenden Kollegen zu wecken. So konnte AMD die TDP von 140 Watt (Phenom X4 9950) trotz deutlich gesteigertem Takt auf jetzt 125 Watt senken. Unser AMD-Testsystem kommt den auch mit einem deutlich kleineren, sehr simplen Heatpipe-losen Kühlkörper aus (Abbildung 1). Intel dagegen schickte uns ein Testsystem mit einem riesigen Heatpipe-Monstrum (Abbildung 2). Selbst bei hoher CPU-Last wird der Phenom-2-Kühler noch nicht einmal handwarm.

Abbildung 1: phenom2-motherboard.jpg

Abbildung 1: phenom2-motherboard.jpg

Abbildung 2: core_i7_motherboard.png

Abbildung 2: core_i7_motherboard.png

Da AMD uns die “Black Edition” zum Test zur Verfügung stellte, konnten wir – wie auch bei Intels Topmodell – frei am Takt drehen. Testweise übertakten wir den Phenom II auf 3,2 GHz, was er selbst bei voller Auslastung aller Kerne problemlos auch mit dem kleinen Kühlkörper bewältigte. Dennoch sollte man immer bedenken, dass die Hersteller zum Testen oft handverlesene Exemplare ihrer Hardware schicken – Phenom II aus dem freien Handel lassen sich vielleicht nicht so gut übertakten.

AM3, Opteron und SSE5

Der Phenom II läuft zwar in Motherboards mit dem als Übergangslösung gedachten AM2+-Sockel, ist aber offiziell für den neuen AM3-Sockel gedacht, der (wie beim Intel-Pendant) auf DDR3 setzt. Im Gegensatz zu Intels i7-Generation gilt DDR3 hier allerdings nicht als Pflicht, AM3 unterstützt auch DDR2. Motherboards mit AM3-Sockel und passende Phenom II dafür kommen allerdings erst in diesen Tagen auf den Markt, weswegen wir noch in einem AM2+-Motherboard testeten.

Auch AM3-kompatible Phenom II sind abwärtskompatibel mit AM2+-Motherboards, dies muss der Motherboard-Hersteller allerdings explizit mit einem entsprechenden BIOS unterstützen. Umgekehrt passen AM2+-Phenoms aber nicht in AM3-Motherboards: Für einen zukunftssicheren Kauf empfiehlt es sich also, nach einem AM3-Phenom-II Ausschau zu halten.

Die Server- und Workstation-Version des Phenom II, der 45-Nanometer-Opteron der “Shanghai”-Klasse, liegt schon seit November 2008 im Handel. Genau wie der Phenom II funktioniert er in bisherigen Socket-F-Motherboards und in den kommenden Socket F+-Boards, die Hypertransport in Version 3 unterstützen.

Mikroarchitektonische Änderungen bietet der Phenom II nicht. Die Einführung von SSE4a im ersten Phenom, die im Endeffekt nur aus zwei neuen eigenen Befehle zusätzlich zu vier ausgewählten des Intel-SSE4-Befehlssatzes besteht, war schon etwas mager. AMD schläft jedoch nicht und plant in der (allerdings erst für 2011 angekündigten) “Bulldozer”-Chipgeneration mit SSE5 den größten Wurf seit AMD64: 170 neue Befehle ermöglichen zahlreiche sinnvoller und nützliche Erweiterungen [2] insbesondere für High-Performance-Computing, Encryption und Multimedia.

Statt wie Intel mit jeder Generation ein paar neue Befehle hinzuzufügen (frühe Core 2 und Core 1-Xeons: SSE3, späte Core 2: SSE4.1, Core i7: SSE4.2) plant AMD also ein großes Befehlssatz-Update. Wie kompatibel zu Intels Erweiterungen es ausfällt, ist allerdings noch nicht bekannt. Bei mangelnder Verträglichkeit von SSE 5 mit der Intel-Welt läuft AMD Gefahr, dass wie bei 3Dnow kaum eine Software die Befehlssatzerweiterung unterstützt: Viele kommerzielle Anbieter arbeiten am liebsten mit Compilern aus dem Hause Intel.

Preis

Zum Zeitpunkt der Drucklegung ist der von uns getestete AM2+-Phenom-II X4 940 Black Edition der einzige 3-GHz-Phenom, für AM3 gibt es aktuell maximal einen Dreikern-Phenom-II X3 720 Black Edition mit 2,8 GHz und 95 Watt TDP für 145 US-Dollar. Dies sollte sich allerdings in den nächsten Wochen ändern, denn AM3 löst sukzessive AM2+ ab. Unser Phenom II X4 940 kostet 225 US-Dollar; für den AM2+-Sockel hat AMD auch noch einen Phenom II X4 920 mit 2,8 GHz für 195 US-Dollar im Programm. Bei den genannten Preise handelt es sich um OEM-Listenpreise für 10?000er-Stückzahlen, der Straßenpreis wird deutlich höher liegen.

Intel Core i7

Zu den größten Neuerungen von Intels “Nehalem”-Prozessorgeneration zählt ein in den Chip integrierter Speichercontroller, wie ihn AMD schon seit Einführung der K8-Generation des Athlon-FX und Opteron im Jahre 2003 hat. Den inzwischen 13 Jahre alten Frontside-Bus ersetzt Intel infolgedessen ebenfalls: Quickpath, auch als QPI oder ausgeschrieben Quickpath Interconnect bezeichnet, ist Intels Version von AMDs Hypertransport-Interface. Das jahrelang als CSI durch die Gerüchteküche und Intel-Präsentationsfolien geisternde Busprotokoll transferiert je nach Anzahl der QPI-Lanes und Prozessortakt in jede Richtung 12 bis 16 GByte pro Sekunde.

Beim uns vorliegenden “Bloomfield”-Topmodell Core i7 965XE mit 3,2 GHz Taktrate und 16 QPI-Links bedeutet das einen Durchsatz von 12,8 GByte/s. Auf den ersten Blick keine große Verbesserung: Auch beim Vorgänger, dem “Yorkfield”-Quadcore Core 2 Quad der 45-Nanometer-“Penryn”-Generation, war der Frontsidebus mit 1,6 GHz bereits 12,5 GByte/s schnell. Doch da nun dank des integrierten Speichercontrollers der größte Teil des Datenverkehrs wegfällt, steht die Bandbreite voll für Grafik, I/O und Inter-Chip-Kommunikation zur Verfügung. Außerdem konnte der alte Frontsidebus nur entweder lesen oder schreiben, nicht beides gleichzeitig.

Software-Verbesserungen

Intel spendiert mit SSE4.2 dem i7 eine Befehlssatzerweiterung um 7 Befehle. Bis die Compiler und Programme diese unterstützen, dürfte allerdings noch einige Zeit vergehen. Einen Vorgeschmack bietet schon jetzt der sehr leistungsfähige freie H.264-Encoder x264, der bereits Assembler-optimierte SSE4.2-Routinen nutzt. Auch Hyperthreading, Intels Version des einst für den Alpha-Chip erfundenen simultanen Multithreading, feiert mit dem i7 ein Comeback auf dem Desktop. Statt vier realer Kerne sieht das Betriebssystem nun also acht virtuelle. Die Technik, die brachliegende Chip-Ressourcen zur Abarbeitung anderer Threads nutzt, führte Intel mit dem 3-GHz-Pentium-4 ein, in allen Desktop- und Server-Chips seit Vorstellung der Core-Generation war sie nicht enthalten. Intel behauptete auf Nachfrage damals, die Chips arbeiteten so effizient, dass Hyperthreading nichts brächte.

Intel behebt mit dem i7 ein Manko der Vorgängergeneration: Sie konnte im 64-Bit-Modus nicht die Macro-Op-Fusion nutzen, eine Technik, die mehrere x86-Befehle zu einer internen Operation zusammenfasst, um so den Code effizienter abzuarbeiten. Auch der so genannte Loop-Stream-Detector, der kurze Schleifen erkennt und diese ohne erneutes Einlesen des Codes und Rückgriff auf die Sprungvorhersage abarbeitet, wurde im i7 verbessert. Er fasst nun bis zu 28 Befehle und setzt weiter hinten in der Befehlspipeline an, sodass sich Intel nun auch das erneute Decodieren der x86-Befehle in RISC-ops spart.

Chip-Aufbau

Der aus 731 Millionen Transistoren bestehende Core i7 ist Intels erster echter Quadcore-Chip. Zuvor integrierte der Hersteller zwei Dualcores in einem Gehäuse, während AMD sich brüstete, mit dem Phenom den ersten “echten” x64-Quadcore zu haben. In Sachen Stromverbrauch und Leistung bringt die Ein-Chip-Lösung keinen Vorteil, zieht aber durch die Integration von vier Kernen auf dem 263 Quadratmillimeter großen Chip einige Änderungen nach sich: Eine dreistufige Cache-Architektur löst die bisherigen 6 MByte gemeinsamen Level-2-Cache pro Doppelkern ab. Der i7 hat folglich 256 KByte L2-Cache für jeden Kern, sowie einen 8 MByte großen integrierten L3-Cache, auf den alle vier Kerne zugreifen dürfen.

Intel spezifiziert die uns vorliegende Top-Version des i7 mit 130 Watt TDP. Hier unterscheidet sich der i7 nicht vom Topmodells der Vorgängergeneration, dem genauso schnell getakteten “Yorkfield”-Penryn. Intel hat sowohl bereits bekannte als auch neue Techniken zum Stromsparen integriert – so kann der i7 nun auch ganze Kerne komplett abschalten.

Turbo Boost

Der Core i7 führt eine neue Technik namens “Turbo Boost” ein, auch “Dynamic Speed Technology” genannt. Hierbei misst das System die CPU-Auslastung und übertaktet sich selbst entsprechend in 133-MHz-Schritten, sogenannten “Speed Bins”. Läuft also ein nicht parallelisiertes Programm nur auf einem Kern und lässt die anderen drei Kerne Däumchen drehen, hebt Turbo Boost die Taktrate entsprechend an. Das funktioniert auch noch bei zwei ausgelasteten Kernen, und selbst bei Volllast aller vier Cores kann man gelegentlich noch eine Steigerung von einem Speed-Bin beobachten.

Die Entscheidung zum Übertakten macht die CPU immer vom Maximalverbrauch und der Temperatur des gesamten Chips abhängig, sodass sie die TDP nicht überschreitet. Das BIOS einiger Motherboards schaltet Turbo Boost standardmäßig ab, das uns vorliegende Intel-Board dagegen aktiviert es im Ursprungszustand. Obwohl Intel für einen stabilen Turbo-Boost-Betrieb garantiert, deaktivierten wir das Feature für unsere Tests: Wir wollten die Intel- und AMD-CPUs mit der spezifizierten Taktrate und unter Einsatz aller Energiesparmaßnahmen vergleichen.

Wir machen dennoch einen Testlauf mit aktiviertem Turbo-Modus und maßen denn auch klare Zugewinne (siehe Tabelle “Mehrleistung im 64-Bit- und Intel-Turbo-Modus”). Je nach Test gab es Geschwindigkeitssteigerungen von 1 bis 11 Prozent, der Schnitt lag bei rund 6 Prozent. Der Stromverbrauch steigt allerdings ebenfalls deutlich an: Je nach Auslastung brauchte der Rechner 10 bis 20 Watt mehr, wenn alle Kerne Überstunden machten. Außerdem gilt es hier den selben Effekt zu berücksichtigen wie bei AMD: Hersteller schicken zum Testen oft handverlesene Exemplare; bei frei im Handel erhältlichen Chips bringt der Turbo eventuell weniger. Zudem scheint das Feature etwas flatterhaft zu sein: So maßen wir bei einem “kalten” Boot deutlich bessere Werte als bei einem schon einige Stunden laufenden System.

Speicherbestückung

Während die Core-2-Vorgängergeneration noch mit unterschiedlichen RAM-Typen funktionierte, verlangt der i7 nun ausschließlich DDR3 mit 800 oder 1066 MHz, also PC3-6400 oder PC3-8500. Der Core i7 verfügt über drei Speicherkanäle, die bei 1066 MHz theoretisch insgesamt 25,6 GByte pro Sekunde liefern können.

Unser Test-Board des Typs Intel DX58S0 bietet vier Sockel, wovon es zwei für einen Speicherkanal zusammenfasst. Intel erlaubt die Bestückung mit zwei oder drei Speichermodulen (respektive vier bei Nutzung des “doppelten” Speicherkanals). Bei der Verwendung aller drei Speicherkanäle fällt dank Interleaving der theoretische Speicherdurchsatz höher aus.

Optionale Mehrfachbestückung mit Interleaving gab es bei vielerlei CPU-Typen schon in der Vergangenheit, doch fast immer war in konkreten Benchmarks kaum ein Unterschied zu messen. Brächte es wirklich einen deutlichen Zugewinn, würden die Hersteller es verpflichtend machen – wie es in der Vergangenheit ja auch schon oft genug der Fall war.

Neuer Chipsatz, neuer Sockel

Aufgrund der zahlreichen Änderungen braucht der Core i7 einen neuen Sockel, insbesondere, da nun deutlich mehr Pins für die drei Speicherkanäle anfallen. Der LGA1366-Sockel des i7 hat nun fast doppelt so viele Kontakte wie der Vorgänger LGA775.

Auch ein neuer Chipsatz steht dem i7 der X58-IOH zur Seite (I/O Hub – “Northbridge” ist als Bezeichung wegen des Fehlens des Speichercontrollers nicht mehr sinnvoll). Er bindet einerseits den PCI-Express-Bus an und andererseits, über eine 2 GByte/s schnelle PCI-Express-x4-Verbindung, die Southbridge mit den restlichen I/O-Schnittstellen (Ethernet, SATA, USB etc.). Der X58 bietet 40 PCI-Express-Lanes im 2.0-Standard, von denen sich 36 wie üblich relativ flexibel in beliebiger Bandbreite auf beliebig viele Slots verteilen lassen. Theoretisch kann der X58 per QPI mit zwei CPUs gleichzeitig reden, was allerdings nur für zukünftige Multi-Chip-Xeons interessant ist. Somit liegt der zweite QPI-Link in Core-i7-Systemen brach. Genau wie bei Hypertransport müssen bei QPI die einzelnen Chips übrigens nicht mehr wie zuvor über den Chipsatz miteinander reden: Als Alternative stellt eine direkte QPI-Verbindung zwischen den Chips einen Ringschluss zum X58 her, was die Latenz der Inter-Chip-Kommunikation deutlich verbessert. Da nun öfter langsame Zugriffe auf “fremden”, an einem anderen Chip angebundenen Speicher nötig anfallen, ist das aber auch dringend notwendig.

Preis

Intel veranschlagt für den Core i7 965 Extreme Edition 3,2 GHz einen OEM-Listenpreis von 999 US-Dollar. Daneben offeriert der Hersteller auch die Modelle Core i7 940 (2,93 GHz, 562 Dollar) und 920 (2,67 GHz, 284 Dollar). Sie erlauben allerdings nicht wie die Extreme Edition das Deaktivieren der allen momentanen i7-Modellen gemeinsamen 130-Watt-Grenze. Im zweiten Quartal 2009 will Intel dem Vernehmen nach einen Core i7 975 als neues Flaggschiff vorstellen, dabei den Takt allerdings nur geringfügig auf 3,33 GHz anheben. Das neue D0-Stepping soll dazu führen, dass der Chip auch weiterhin nicht mehr als maximal 130 Watt verbraucht.

Unsere Benchmark-Suite

Als Benchmark-Suite für den Vergleich der beiden CPUs haben wir eine Mischung aus freier single- und multi-threaded-Software zusammengestellt, die die CPU richtig fordert. Bei allen Programmen handelt es sich um in der Praxis genutzte Software, auf synthetische Benchmarks haben wir verzichtet. Wir testen alles, bei dem der durchschnittliche User heutzutage noch auf den Rechner warten muss: Kompilier-Leistung, Audio- und Video-Encoding, Archivierung und Raytracing (siehe Tabelle “Benchmark-Ergebnisse”).

Beim Kompilieren testen wir mit Compilebench 0.6 [3], beim Audio-Encoding in MP3 mit Lame und in OGG mit Oggenc – beide Audio-Encoder laufen nur als einzelner Thread. Beim Video-Encoding haben wir uns für x264 entschieden, da das Multithreading von Ffmpeg noch in den Kinderschuhen steckt. Das Ffmpeg-mt-Projekt [4], ein Ergebnis des Google Summer of Codes, hat noch nicht den Reifegrad erreicht, den es für eine Integrierung in den Ffmpeg-trunk benötigt.

Der H.264-Encoder x264 entstammt dem VideoLAN-Projekt. Er besticht nicht nur durch hervorragendes Multithreading über beliebig viele CPU-Kerne, sondern nutzt über zahllose hoch optimierte Assembler-Routinen alles an Befehlssatz-Erweiterungen, was AMD und Intel nur eben bieten. Das beschleunigt den Encoder gegenüber einer probeweise ohne diese Routinen kompilierten Version um den Faktor 4,8 (Intel) beziehungsweise 4,1 (AMD). Da x264 rein Integer-basiert arbeitet, bringen nicht alle CPU-Erweiterungen auch Nutzen, doch unterstützt die Software sowohl das SSE4.2 des Core i7 als auch AMDs SSE4a.

In Sachen Archivierung testeten wir gleich drei Programme: Bzip2, 7zip und Rar kamen zum Eindampfen von Dateien zum Einsatz. Raytracing testen wir mit der multiprozessorfähigen Alpha-Version von Povray 3.7 sowie mit dem als Blender-Plugin beliebten Yafray (ebenfalls multithreaded).

Als Testmedien verwenden wir eine komplette CD als WAV sowie einen 100-MByte-Clip des Blender-Films “Big Buck Bunny” in 1080p-Auflösung. Für das Yafray-Raytracing kam eine recht komplexe, von uns modifizierte Blender-Szene aus “Elephants Dream” zum Einsatz. Unser Kompressions-Testfile enthielt sowohl Plaintext als auch viele wiederkehrende Binärsequenzen, um verschiedene Kompressionsansätze zu nutzen.

Leistungsgesellschaft

Intel hält in unserer Test-Suite weiterhin die Leistungskrone, in einigen Tests kann der Chip-Gigant allerdings nur einen kleinen Vorteil herausarbeiten. So schlägt der Core i7 den Phenom II beim OGG- und MP3-Encoding sowie insbesondere beim Kompilieren im 64-Bit-Modus nur ganz knapp. Auch beim Bzip2-Komprimieren beträgt Intels Vorsprung nur etwa 14 Prozent.

Brillieren kann der Core i7 hingegen beim H.264-Encoding, bei den sonstigen Kompressionstests und beim Raytracen: Hier bringt er sowohl im 32- als auch im 64-Bit-Modus durchschnittlich etwa 50 Prozent mehr Leistung. Insbesondere im Yafray-Test spielt Intels CPU ihr Können voll aus und ist satte 70 Prozent schneller als der Phenom II. Über die gesamte Testsuite gerechnet, beträgt Intels durchschnittlicher Vorsprung 38 Prozent im 32-Bit-Modus und knapp 32 Prozent im 64-Bit-Modus (siehe Tabelle “Intels Leistungvorsprung”).

Benchmark-Ergebnisse

  Kompilieren (Files/s) Encoding (Faktor / Frames/s)     Kompression (MByte/s)     Raytracing (Pixel/s)
  Compilebench OGG MP3 x264 Bzip2 7zip Rar Povray Yafray LNMbench-Wert*
Core i7 3,2 GHz 32 Bit 834,0 27,5 18,9 15,7 5,8 5,9 7,5 4077 3452 7824
Core i7 3,2 Ghz 64 Bit 714,8 39,1 17,1 17,0 6,7 7,4 7,0 4535 5178 8587
Core i7 Turbo 64 Bit 723,5 43,8 19,1 17,4 7,5 7,6 7,4 4723 5389 9032
Phenom II 3 GHz 32 Bit 667,2 22,7 14,8 10,0 5 4,6 5,0 2768 2025 5691
Phenom II 3 GHz 64 Bit 698,2 36,8 16,1 11,0 5,9 5,2 4,9 3143 3002 6648
größer = besser, * addierte egalisierte Durchschnittswerte pro Disziplin * 100

Intels Leistungvorsprung

  Kompilieren Encoding     Kompression     Raytracing
  Compilebench OGG Lame-MP3 x264-HD-Video Bzip2 7zip Rar Povray Yafray Durchschnitt
32 Bit 25,0% 21,1% 27,7% 57,0% 14,9% 28,2% 50,3% 47,3% 70,4% 38,0%
64 Bit 2,4% 6,2% 6,2% 54,5% 13,5% 42,9% 43,3% 44,3% 72,5% 31,8%

Was bringt 64 Bit?

Um herauszufinden, ob und wieviel schneller der 64-Bit-Modus arbeitet, testeten wir beide CPUs unter identischen Bedingungen in beiden Modi. Eine Umstellung auf 64 Bit bringt per se normalerweise eigentlich nur zwei Änderungen: Man kann nun 64-Bit-Ganzzahlen in einem Rutsch verrechnen und mehr Speicher adressieren. Ersteres ist allerdings weitergehend irrelevant, da real existierende Software nur sehr selten mit entsprechend großen Ganzzahlen rechnet. Hinzu kommt, dass Integer-Werte – je nach Deklaration im Code – nun 8 statt 4 Byte brauchen. Dadurch nehmen das Datenvolumen, der Speicherverbrauch und der Datenverkehr zu, sodass je nach Programm sogar eine Verlangsamung eintreten kann. Fließkommazahlen, bei denen 64 Bit Präzision wegen Rundungsfehlern doch sehr oft wichtig ist, wurden schon zu 32-Bit-Zeiten intern sogar mit weit mehr als 64 Bit Präzision gerechnet – hier ändert sich also nichts.

Uns interessierte nun, was der 64-Bit-Betrieb in der Praxis bringt – und die Ergebnisse in unserer Test-Suite waren durchaus überraschend (siehe Tabelle “Mehrleistung im 64-Bit- und Intel-Turbo-Modus”): Yafray-Raytracing lief im 64-Bit-Betrieb satte 50 Prozent schneller, OGG-Encoding legte auf dem Core i7 um 42, auf dem Phenom II gar um 62 Prozent zu. Aber auch in den meisten anderen Tests ließen sich klare Zugewinne messen. 7zip und Bzip2 legten um etwa 17 Prozent zu, Povray um rund 12 Prozent und das H.264-Encoding im Schnitt um etwa 9 Prozent. Das MP3-Encoding mit Lame und das Kompilieren wurden im 64-Bit-Betrieb langsamer – aber nur auf dem Core i7, auf dem Phenom II dagegen legte LAME im gleichen Maße zu. Nur beim 7zip-Komprimieren holte die Intel-CPU merklich mehr aus dem 64-Bit-Modus heraus als AMDs Gegenstück; beim Packen mit Rar wurden beide einen Hauch langsamer.

Im Durchschnitt gewann in unseren Tests der Phenom II im 64-Bit-Betrieb gut 19 Prozent an Geschwindigkeit hinzu, beim Core i7 waren es knapp 14 Prozent. Es lohnt sich also nicht nur wegen des größeren adressierbaren Speichers, die 64-Bit-Versionen der jeweiligen Distributionen zu nutzen.

Mehrleistung im 64-Bit- und Intel-Turbo-Modus

  Kompilieren Encoding     Kompression     Raytracing
  Compilebench OGG Lame-MP3 x264-HD-Video Bzip2 7zip Rar Povray Yafray Durchschnitt
Core i7 (3,2 GHz) -14,3% 42,1% -9,1% 8,3% 16,5% 25,8% -6,7% 11,2% 50,0% 13,8%
Phenom II (2,93 GHz) 1,2% 62,0% 9,2% 10,0% 17,9% 12,9% -2,1% 13,5% 48,2% 19,2%
Core i7 Turbo (64 Bit) 1,2% 12,0% 11,4% 2,4% 11,5% 2,6% 5,8% 4,1% 4,1% 6,1%
Alle Werte im Vergleich zum gleichen Benchmark im 32-Bit-Modus / ohne Turbo-Mode.

Thread-Skalierung

Um zu sehen, wie die beiden Kontrahenten mit steigender Thread-Zahl klarkommen und was Intels Hyperthreading bringt, erhöhten wir bei unserem x264-Benchmark die Thread-Anzahl schrittweise (Abbildung 3). Obwohl Intels Core i7 sich hier als der Gesamtsieger positionierte, zeigte sich, dass auch AMD sehr gut mit der Anzahl der Threads skaliert – selbst ohne Hyperthreading.

Der x264-Encoder ermittelt über /proc/cpuinfo die Anzahl der Kerne im System und verwendet in der Standard-Einstellung --threads auto oder --threads 0 um die Hälfte mehr Threads, als Cores vorhanden sind. Das saturiert den vierkernigen Phenom II aber noch nicht: Erst durch das manuelles Verdoppeln der Thread-Anzahl auf 12 konnten wir AMDs Prozessor zusätzliche 11,7 Prozent an Leistung entlocken.

Interessant ist, dass die Leistungskurve des Core i7 einen deutlichen Knick aufweist, während der Phenom II wie erwartet skaliert: Linear bis vier Threads, danach graduell abflachend. Intel flacht bei vier und fünf Threads schon stark ab, zieht danach allerdings wieder richtig an. Für diesen Knick zeichnet wahrscheinlich die von Intel integrierte Thread-Affinität verantwortlich. Sie aktiviert das Hyperthreading (und damit acht “Kerne”) erst dann, wenn auch genügend zu tun ist, sodass ein echter Arbeiter-Thread nicht auf einer virtuellen CPU läuft. Das Hyperthreading bringt messbare Zugewinne: So kann der Core i7 einen Skalierungsfaktor von 4,5 im Vergleich zum Abarbeiten eines einzelnen Threads für sich verbuchen, während der Phenom II bei dem für vier Kerne immer noch äußerst guten Faktor von 3,9 sein Limit erreicht.

Intels Turbo-Modus testen wir ebenfalls, aber die Zugewinne fielen zumindest in diesem Test nur sehr marginal aus. Der leichte Zugewinn ist über den gesamten Testlauf zu beobachten; wir können nicht bestätigen, dass der Prozessor bei wenig Threads höher übertaktet als bei vielen.

Abbildung 3: Dank Hyperthreading und Core-i7-Optimierungen kann Intel sogar bei gleichem Takt in x264 davonziehen, der Phenom II skaliert dennoch erstaunlich gut mit der Anzahl der Threads.

Abbildung 3: Dank Hyperthreading und Core-i7-Optimierungen kann Intel sogar bei gleichem Takt in x264 davonziehen, der Phenom II skaliert dennoch erstaunlich gut mit der Anzahl der Threads.

Stromverbrauch

Um den Stromverbrauch der sonstigen Komponenten wie etwa der Grafikkarte (das Intel-Testsystem bot keine Onboard-Grafik) auszuschließen, betrachten wir primär die Differenz des Verbrauchs unter starker CPU-Last und im Leerlauf. Unser Fazit: AMDs Phenom II arbeitet stromsparender als Intels Core i7.

Obwohl wir in diesem Test den Phenom II auf 3,2 GHz übertakteten, um möglichst identische Bedingungen zu schaffen, verbrauchte er immer noch weniger Strom. Die neuen Features der Intel-CPU, wie etwa der integrierte Speichercontroller, kosten zusätzliche Energie – eine Tatsache, die AMD schon seit Jahren bei Verbrauchsvergleichen mit Intel betont. Wir maßen im Core-i7-System bei identischen Aufgaben bis zu 29 Watt Mehrverbrauch gegenüber dem Phenom-2-System – beide mit wo möglich identischen Systemkomponenten. Bei aktiviertem Turbo-Modus schluckte der i7 sogar bis zu 49 Watt mehr als der übertaktete Phenom II.

Auch in unserem Threading-Test maßen wir den Verbrauch mit steigender Thread-Anzahl (Abbildung 4), der allerdings beim Core i7 vorteilhafter ausfällt: Der Phenom II erreichte hier den höchsten Verbrauchswert in allen unseren Tests.

Der Mehrverbrauch bei Vollast gegenüber dem Leerlauf lag für den Phenom II bei bis zu 91 Watt, beim Core i7 waren es 94 Watt. Im Schnitt braucht AMDs CPU rund 12 Watt weniger als der Konkurrent. Intels Turbo-Modus kitzelt bei 108 Watt Unterschied zwischen Leerlauf und Volllast nur ein Quäntchen an Mehrleistung heraus.

Abbildung 4: Der Phenom II verbraucht selbst übertaktet auf 3,2 GHz am wenigsten. Intels Core i7 schluckt im Turbo-Modus deutlich mehr Strom, bringt aber nicht viel mehr Leistung.

Abbildung 4: Der Phenom II verbraucht selbst übertaktet auf 3,2 GHz am wenigsten. Intels Core i7 schluckt im Turbo-Modus deutlich mehr Strom, bringt aber nicht viel mehr Leistung.

Fazit

Intels Core i7 gebührt zwar eindeutig die Gesamt-Leistungskrone, aber AMD kann mit dem Phenom II einiges an Boden gutmachen. Die durch mehr Takt und größeren Cache erzielten, deutlichen Leistungzugewinne des AMD-Prozessors im Vergleich zum Vorgängermodell kontert Intel mit seiner neuen, effizienteren i7-Architektur.

Berücksichtigt man Stromverbrauch und Preis, kann AMD jedoch klar punkten: Der Phenom II 940 Black Edition funktioniert nicht nur in bestehenden Systemen, er kostet auch weniger als ein Viertel des Core i7 965. Auch neue Systeme mit DDR2-RAM und AM2+-Motherboard sind deutlich billiger zu haben als LGA1366-Boards mit DDR3-RAM.

In Sachen Taktskalierung sieht es ebenfalls gut für AMD aus: Während Intel schon ziemlich am Taktratenlimit zu operieren scheint (was daran ersichtlich ist, dass der maximale Takt derselbe bleibt wie bei der Vorgängergeneration), bietet der 45-Nanometer-Phenom noch Spielraum nach oben. So übertaktete AMD auf der CES in Las Vegas unlängst einen Phenom II auf rekordverdächtige 6,5 GHz – allerdings mittels flüssigem Stickstoff und Helium [5].

Glossar

TDP

Thermal Design Power. Dieser von Intel eingeführte Wert die maximale Verlustleistung an Hitze an, die das Kühlsystem abführen können muss.

TLB-Bug

Bei frühen Phenoms konnte der Translation-Lookaside-Buffer, eine Technik zur schnelleren Adressierung virtuellen Speichers, unter gewissen Bedingungen zum Absturz des Prozessors führen. Deshalb musste man den TLB für missionskritische Anwendungen deaktivieren, was eine Geschwindigkeitseinbuße von rund 10% nach sich zog. AMD hat jedoch einen Patch für den Linux-Kernel veröffentlicht, der den Fehler bei nur leichten Performanceverlusten umgeht.

Infos

[1] Numa-Systemarchitektur: http://de.wikipedia.org/wiki/Non-Uniform_Memory_Access

[2] AMDs SSE5-Erweiterungen: http://developer.amd.com/cpu/SSE5/

[3] Compilebench: http://oss.oracle.com/~mason/compilebench/

[4] Ffmpeg multithreaded: http://gitorious.org/projects/ffmpeg/repos/ffmpeg-mt

[5] Phenom II mit 6,5-GHz: http://budurl.com/OnHelium

LinuxUser 04/2009 KAUFEN
EINZELNE AUSGABE
ABONNEMENTS
TABLET & SMARTPHONE APPS
E-Mail Benachrichtigung
Benachrichtige mich zu:

Hinweis: Dieser Artikel ist älter als ein Jahr, enthaltene Informationen sind möglicherweise veraltet.

0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben