Abstract:
In einer Ausführungsform umfasst ein Verfahren Folgendes: Empfangen einer Nachricht von einem Prozessor in einem Stammbaustein einer Beschleunigervorrichtung mit mehreren Bausteinen, wobei die Nachricht eine Registerschreibanforderung in ein Register eines ersten entfernten Bausteins der mehreren entfernten Bausteine umfasst; Decodieren einer Systemadresse der Nachricht in einer Endpunktsteuereinheit des Stammbausteins, um einen Zielbaustein für die Nachricht zumindest teilweise auf der Basis einer Basisadressenregisterdecodierung der Systemadresse zu identifizieren; und in Reaktion auf das Identifizieren des ersten entfernten Bausteins als Zielbaustein Aktualisieren eines ersten Abschnitts eines Adressenversatzfeldes der Systemadresse auf einen vorbestimmten Wert und Leiten der Nachricht zum ersten entfernten Baustein, der mit dem Stammbaustein über eine Seitenbandverschaltung gekoppelt ist. Andere Ausführungsformen sind beschrieben und beansprucht.
Abstract:
A processor may operate at a first frequency level for a first time interval. The processor automatically may transition to a sleep state from the first frequency level after the first time interval. Then the processor automatically transitions from the sleep state to the first frequency level after a second time interval. As a result the processor may operate at a reduced power consumption and higher performance.
Abstract:
Hierin beschrieben sind mehrere Ausführungsformen, die verbessertes Datencachen in Kombination mit adaptiver und dynamischer Komprimierung bereitstellen, um die Speichereffizienz zu erhöhen und die Übertragungsbandbreite der Daten während der Ein- und Ausgabe aus einer GPU verringern. Die hierin beschriebenen Techniken können die Notwendigkeit des Zugriffs auf Speicher außerhalb des Chips verhindern, was zu verbesserter Leistung und verringerter Energie für die GPU-Operationen führt. Eine Ausführungsform sieht eine Grafikverarbeitungsvorrichtung vor, die eine Shader-Engine; einen oder mehrere Cachespeicher; Cachesteuerlogik zur Steuerung von mindestens einem des einen oder der mehreren Cachespeicher; und eine Codec-Einheit, die mit dem einen oder den mehreren Cachespeichern verbunden ist, umfasst, wobei die Codec-Einheit konfigurierbar ist, nach dem Speichern auf oder der Auslagerung von dem einen oder den mehreren Cachespeichern eine verlustfreie Komprimierung von Oberflächendaten mit reinem Lesezugriff auszuführen.
Abstract:
Offenbart wird eine Einrichtung zum Erleichtern von Speicherbarrieren. Die Einrichtung umfasst eine Zwischenverbindung, einen Vorrichtungsspeicher, eine Vielzahl von Verarbeitungsressourcen, die mit dem Vorrichtungsspeicher gekoppelt sind, um eine Vielzahl von Ausführungs-Threads als Speicherdatenerzeuger und Speicherdatenverbraucher an einen Vorrichtungsspeicher und einen Systemspeicher auszuführen, und Fence-Hardware zum Generieren von Fence-Operationen zum Durchsetzen einer Datenordnung bei Speicheroperationen, die an den Vorrichtungsspeicher und einen Systemspeicher ausgegeben werden, der über die Zwischenverbindung gekoppelt ist.
Abstract:
In vielen Fällen können Prozessoren eine Frequenz so häufig ändern, dass dies beträchtliche Leistungs- und Stromverbrauchsverluste zur Folge hat. Diese Leistungs- und Stromverbrauchsverluste können durch ein Ändern der Frequenz unter Verwendung einer Zusammendrucktechnik anstelle einer Phasenregelschleifen-Technik abgeschwächt werden. Die Zusammendrucktechnik beinhaltet einfach beseitigte Taktimpulse, um die Frequenz zu verringern. Dies kann schneller vorgenommen werden, was in einigen Fällen einen geringeren Aufwand zur Folge hat.
Abstract:
En un ejemplo, un aparato comprende una pluralidad de unidades de ejecución y un primer archivo de registro general (GRF) acoplado comunicativamente a la pluralidad de unidades de ejecución, donde el primer GRF es compartido por la pluralidad de unidades de ejecución. También se describen y reivindican otras realizaciones. (Traducción automática con Google Translate, sin valor legal)
Abstract:
Una realización proporciona un procesador paralelo que comprende una matriz de procesamiento dentro del procesador paralelo, la matriz de procesamiento incluye múltiples bloques de cómputo, cada bloque de cómputo incluye múltiples grupos de procesamiento configurados para operación en paralelo, en donde cada uno de los múltiples bloques de cómputo es reemplazable de forma independiente. En una realización, se puede generar una sugerencia de prioridad para el código fuente durante la compilación para permitir que una unidad de cálculo determine un punto eficiente para la prioridad. (Traducción automática con Google Translate, sin valor legal)
Abstract:
Verfahren und Vorrichtungen für einen Beschleuniger-Controller-Hub (ACH). Der ACH kann eine eigenständige Komponente sein oder auf einem Die oder auf einem Package in einem Beschleuniger, z. B. einer GPU, integriert sein. Der ACH kann eine Host-Device-Link- (HDL-) Schnittstelle, eine oder mehrere Peripheral Component Interconnect Express- (PCIe-) Schnittstellen, eine oder mehrere High-Performance-Beschleuniger-Link- (HPAL-) Schnittstellen und einen Router umfassen, der wirksam mit jeder der HDL-Schnittstelle, der einen oder den mehreren PCIe-Schnittstellen und der einen oder den mehreren HPAL-Schnittstellen gekoppelt ist. Die HDL-Schnittstelle ist ausgebildet, über einen HDL-Link mit einer Host-CPU gekoppelt zu werden, und die eine oder die mehreren HPAL-Schnittstellen sind ausgebildet, mit einer oder mehreren HP ALs gekoppelt zu werden, die für den Zugriff auf High-Performance-Beschleuniger-Fabrics (HPAFs) wie beispielsweise NVlink-Fabrics und CCIX- (Cache Coherent Interconnect for Beschleunigers-) Fabrics verwendet werden. Plattformen umfassend ACHs oder Beschleuniger mit integrierten ACHs unterstützen RDMA-Übertragungen unter Verwendung von RDMA-Semantik, um Übertragungen zwischen Beschleuniger-Speicher auf Initiatoren und Zielen ohne CPU-Beteiligung zu ermöglichen.