Abstract:
Es sind Ausführungsformen von Systemen, Verfahren und Vorrichtungen für heterogene Berechnung beschrieben. In manchen Ausführungsformen versendet ein Hardware-heterogener Planer Anweisungen zur Ausführung auf einem oder mehreren einer Vielzahl von heterogenen Verarbeitungselementen, wobei die Anweisungen einem Codefragment entsprechen, das durch das eine oder die mehreren der Vielzahl von heterogenen Verarbeitungselementen zu verarbeiten ist, wobei die Anweisungen native Anweisungen an zumindest einer des einen oder der mehreren der Vielzahl von heterogenen Verarbeitungselementen sind.
Abstract:
Ein Prozessor enthält eine Decodiereinheit, um einen Befehl zu decodieren, der einen ersten gepackten Quelldatenoperanden angibt, der wenigstens vier Datenelemente enthält, einen zweiten gepackten Quelldatenoperanden angibt, der wenigstens vier Datenelemente enthält, und einen oder mehrere Zielspeicherorte angibt. Die Ausführungseinheit speichert in Reaktion auf den Befehl wenigstens einen Ergebnismaskenoperanden an dem (den) Zielspeicherort(en). Der wenigstens eine Ergebnismaskenoperand enthält für jedes entsprechende Datenelement in einem des ersten und des zweiten gepackten Quelldatenoperanden an derselben relativen Position ein anderes Maskenelement. Jedes Maskenelement gibt an, ob das entsprechende Datenelement in dem einen der gepackten Quelldatenoperanden gleich irgendeinem der Datenelemente in dem anderen der gepackten Quelldatenoperanden ist.
Abstract:
Ein Prozessor eines Aspekts enthält eine Decodiereinheit zum Decodieren einer Matrix-Multiplikationsinstruktion. Die Matrix-Multiplikationsinstruktion soll einen ersten Speicherort einer ersten Quellenmatrix angeben, soll einen zweiten Speicherort einer zweiten Quellenmatrix angeben, und soll einen dritten Speicherort angeben, wo eine Ergebnis-Matrix gespeichert werden soll. Der Prozessor enthält außerdem eine Ausführungseinheit, die mit der Decodiereinheit gekoppelt ist. Die Ausführungseinheit dient dazu, als Reaktion auf die Matrix-Multiplikationsinstruktion einen Abschnitt der ersten und zweiten Quellenmatrizes vor einer Unterbrechung zu multiplizieren und einen Vollendungsfortschrittsindikator als Reaktion auf die Unterbrechung zu speichern. Der Vollendungsfortschrittsindikator dient zu, einen Betrag des Fortschritts beim Multiplizieren der ersten und zweiten Quellenmatrizes und des Speicherns entsprechender Ergebnisdaten an dem dritten Speicherort, das vor der Unterbrechung vollendet sein soll, anzugeben.
Abstract:
In accordance with the present description, provided are hierarchical and parallel partition networks which include a plurality of parallel partition packet networks for interconnecting components on one or more integrated circuit dies. In one embodiment, each parallel partition packet network is independent of the other parallel partition packet networks and has a unit level switch at a unit hierarchical level. In another aspect, each parallel partition packet network has a unit-to-unit level switch at a unit-to-unit hierarchical level. Other aspects are described herein.