Abstract:
Se describe un mecanismo para facilitar la sincronización y las barreras para el aprendizaje automático en máquinas autónomas. Un método de las realizaciones, como se describe en este documento, incluye la detección de grupos de hilos relacionados con el aprendizaje automático asociados a uno o más dispositivos de procesamiento. El método puede incluir además la facilitación de la sincronización de barreras de los grupos de hilos en múltiples matrices, de modo que cada hilo de un grupo se programe en un conjunto de elementos de cómputo asociados a las múltiples matrices, donde cada matriz representa un dispositivo de procesamiento de uno o más dispositivos de procesamiento, incluyendo dicho dispositivo un procesador gráfico. (Traducción automática con Google Translate, sin valor legal)
Abstract:
Embodiments of techniques and systems for execution of code with multiple page tables are described. In embodiments, a heterogenous system utilizing multiple processors may use multiple page tables to selectively execute appropriate ones of different versions of executable code. The system may be configured to support use of function pointers to virtual memory addresses. In embodiments, a virtual memory address may be mapped, such as during a code fetch, in embodiments, when a processor seeks to perform a code fetch using the function pointer, a page table associated with the processor may be used to translate the virtual memory address to a physical memory address where code executable by the processor may be found. Usage of multiple page tables may allow the system to support function pointers while utilizing only one virtual memory address for each function that is pointed to. Other embodiments may be described and claimed.
Abstract:
Una realización proporciona una unidad de procesamiento de gráficos de propósito general que comprende una unidad de punto flotante de precisión dinámica que incluye una unidad de control que tiene lógica de hardware de seguimiento de precisión para rastrear un número disponible de bits de precisión para datos computados en relación con una precisión objetivo, en donde la precisión dinámica la unidad de punto flotante incluye lógica computacional para generar datos con múltiples precisiones. (Traducción automática con Google Translate, sin valor legal)
Abstract:
Die hierin beschriebenen Ausführungsformen stellen bereit, dass eine Anweisung und die zugeordnete Logik GPGPU-Programmcode ermöglichen, auf Spezial-Hardwarelogik zuzugreifen, um Skalarproduktoperationen zu beschleunigen. Eine Ausführungsform stellt eine Grafikverarbeitungseinheit bereit, die eine Abrufeinheit zum Abrufen einer Anweisung zur Ausführung und eine Entschlüsselungseinheit zum Entschlüsseln der Anweisung in eine entschlüsselte Anweisung umfasst. Die entschlüsselte Anweisung ist ein Matrixanweisung, um die Grafikprozessoreinheit zu veranlassen, eine parallele Skalarproduktoperation durchzuführen. Die GPGPU umfasst auch eine systolische Skalarprodukteinheit zum Ausführen der entschlüsselten Anweisung in einer oder mehreren SIMD-Spuren unter Verwendung mehrerer systolischer Schichten, wobei zum Ausführen der entschlüsselten Anweisung ein auf einer ersten systolischen Schicht berechnetes Skalarprodukt an eine zweite systolische Schicht ausgegeben werden soll, wobei jede systolische Schicht einen oder mehrere Sätze von miteinander verbundenen Multiplizierern und Addierern umfasst, wobei jeder Satz von Multiplizierern und Addierern dazu dient, ein Skalarprodukt zu erzeugen.
Abstract:
Embodiments of techniques and systems for execution of code with multiple page tables are described. In embodiments, a heterogenous system utilizing multiple processors may use multiple page tables to selectively execute appropriate ones of different versions of executable code. The system may be configured to support use of function pointers to virtual memory addresses. In embodiments, a virtual memory address may be mapped, such as during a code fetch, in embodiments, when a processor seeks to perform a code fetch using the function pointer, a page table associated with the processor may be used to translate the virtual memory address to a physical memory address where code executable by the processor may be found. Usage of multiple page tables may allow the system to support function pointers while utilizing only one virtual memory address for each function that is pointed to. Other embodiments may be described and claimed.
Abstract:
Se describe un mecanismo para facilitar el intercambio de datos y la expansión de compresión de modelos en máquinas autónomas. Un método de realizaciones, como se describe en el presente documento, incluye detectar un primer procesador que procesa información relacionada con una red neuronal en un primer dispositivo informático, donde el primer procesador comprende un primer procesador de gráficos y el primer dispositivo informático comprende una primera máquina autónoma. El método incluye además facilitar que el primer procesador almacene una o más partes de la información en una biblioteca en una base de datos, donde una o más partes son accesibles para un segundo procesador de un dispositivo informático. (Traducción automática con Google Translate, sin valor legal)
Abstract:
Se describe un procesador de gráficos y un método para realizar una operación de multiplicación y acumulación de matrices multidimensionales de precisión mixta. (Traducción automática con Google Translate, sin valor legal)