Abstract:
Ein Prozessor enthält einen Prozessorkern und einen Mikro-Op-Cache, der kommunikativ mit dem Prozessorkern gekoppelt ist. Der Mikro-Op-Cache beinhaltet ein Mikro-Op-Tag-Array, wobei die Tag-Array-Einträge in dem Mikro-Op-Tag-Array gemäß dem Satz und Weg des satzassoziativen Caches indiziert werden, und ein Mikro-Op-Daten-Array zum Speichern mehrerer Mikro-Ops. Die Daten-Array-Einträge in dem Mikro-Op-Daten-Array werden gemäß der Banknummer einer Vielzahl von Cachebanken und einem Satz innerhalb einer Cachebank der Vielzahl von Cachebanken indiziert.
Abstract:
In one embodiment, the present invention includes an instruction decoder that can receive an incoming instruction and a path select signal and decode the incoming instruction into a first instruction code or a second instruction code responsive to the path select signal. The two different instruction codes, both representing the same incoming instruction may be used by an execution unit to perform an operation optimized for different data lengths. Other embodiments are described and claimed.
Abstract:
A technique to enable efficient instruction fusion within a computer system. In one embodiment, a processor logic delays the processing of a second instruction for a threshold amount of time if a first instruction within an instruction queue is fusible with the second instruction.
Abstract:
Un procesador que comprende: un descodificador (140, 314) para descodificar una instrucción para configurar una línea de memoria caché para indicar todo ceros; una unidad de ejecución (162), acoplada al descodificador y en respuesta a la descodificación de la instrucción, para emitir una orden de escritura para iniciar una escritura de ceros de tamaño de línea de memoria caché en una dirección de memoria; una memoria caché coherente (3904), acoplada a la unidad de ejecución, para recibir la orden de escritura, para determinar si hay un acierto en la memoria caché coherente en respuesta a la orden de escritura, para determinar si un estado de protocolo de coherencia de memoria caché (4065) de la línea de memoria caché (4070) acertada es un estado modificado o un estado exclusivo, para configurar una línea de memoria caché para indicar todo ceros cuando el estado de protocolo de coherencia de memoria caché es el estado modificado o el estado exclusivo, y para emitir la orden de escritura hacia una interconexión (3920) cuando hay una recepción de respuesta a fallo a la orden de escritura; el procesador comprende además la interconexión, en donde la interconexión, en respuesta a la recepción de la orden de escritura, está configurada para emitir un sondeo a cada una de una pluralidad de otras memorias caché coherentes para las que se ha de determinar si hay un acierto, en donde la interconexión, o la unidad de ejecución en respuesta a un mensaje desde la interconexión, está configurada para hacer que una línea de memoria caché en una de las memorias caché coherentes indique todo ceros cuando la orden de escritura y el sondeo no hicieron que se realizara la escritura de ceros de tamaño de línea de memoria caché.
Abstract:
Ausführungsformen einer Erfindung einer Prozessorarchitektur werden offenbart. In einer Ausführungsform enthält ein Prozessor einen Decoder, eine Ausführungseinheit, einen kohärenten Cache und eine Zwischenverbindung. Der Decoder dient dazu, einen Befehl zu decodieren, um eine Cachezeile nullzustellen. Die Ausführungseinheit dient dazu, ein Schreibkommando auszustellen, um einen cachezeilengroßen Schreibvorgang von Nullen zu initiieren. Der kohärente Cache dient dazu, das Schreibkommando zu empfangen, um zu ermitteln, ob es einen Hit im kohärenten Cache gibt und ob ein Cachekohärenzprotokollzustand der getroffenen Cachezeile ein modifizierter Zustand oder ein exklusiver Zustand ist, um eine Cachezeile zu konfigurieren, nur Nullen anzuzeigen und um das Schreibkommando hin zur Zwischenverbindung auszustellen. Die Zwischenverbindung dient dazu, in Antwort auf Empfang des Schreibkommandos einen Snoop an jeden mehrerer anderer kohärenter Caches auszustellen, für die ermittelt werden muss, ob es einen Hit gibt.
Abstract:
Ein System und ein Verfahren zum Stromcache-Speicherabruf umfassen ein Anwenden eines Stromcache zum Vorhersagen einer Folge von Befehlen und Daten über mehrere Verzweigungen hinweg. Ähnlich wie bei einem herkömmlichen Computercache speichert und liefert der Stromcache Daten oder Befehle schneller als sie von langsameren Datenspeichermedien wie etwa einem Befehlscache geliefert werden. Der hierin beschriebene Stromcache bietet die Möglichkeit, Befehle und Datenanforderungen über mehrere Verzweigungen pro Zyklus hinweg und insbesondere über mehrere genommene Verzweigungen pro Zyklus hinweg vorherzusagen. Dieser Stromcache erhöht die Befehlslieferbandbreite und reduziert gleichzeitig den Gesamtenergieverbrauch durch Einsparen von Zyklen der Verzweigungsprädiktorstrukturen.
Abstract:
A technique to enable efficient instruction fusion within a computer system is disclosed. In one embodiment, a processor includes multiple cores, each including a first-level cache, a fetch circuit to fetch instructions, an instruction buffer (IBUF) to store instructions, a decode circuit to decode instructions, an execution circuit to execute decoded instructions, and an instruction fusion circuit to fuse a first instruction and a second instruction to form a fused instruction to be processed by the execution circuit as a single instruction, the instruction fusion occurring when both the first and second instructions have been stored in the IBUF prior to issuance to the decode circuit, and wherein the first instruction was the last instruction to be stored in the IBUF prior to the second instruction being stored in the IBUF, such that the first and second instructions are stored adjacently in the IBUF.
Abstract:
A technique to enable efficient instruction fusion within a computer system is disclosed. In one embodiment, a processor includes multiple cores, each including a first-level cache, a fetch circuit to fetch instructions, an instruction buffer (IBUF) to store instructions, a decode circuit to decode instructions, an execution circuit to execute decoded instructions, and an instruction fusion circuit to fuse a first instruction and a second instruction to form a fused instruction to be processed by the execution circuit as a single instruction, the instruction fusion occurring when both the first and second instructions have been stored in the IBUF prior to issuance to the decode circuit, and wherein the first instruction was the last instruction to be stored in the IBUF prior to the second instruction being stored in the IBUF, such that the first and second instructions are stored adjacently in the IBUF.