Abstract:
Una realización proporciona una unidad de procesamiento de gráficos de propósito general que comprende una unidad de punto flotante de precisión dinámica que incluye una unidad de control que tiene lógica de hardware de seguimiento de precisión para rastrear un número disponible de bits de precisión para datos computados en relación con una precisión objetivo, en donde la precisión dinámica la unidad de punto flotante incluye lógica computacional para generar datos con múltiples precisiones. (Traducción automática con Google Translate, sin valor legal)
Abstract:
Una unidad de procesamiento de gráficos de propósito general (214), que incluye: un multiprocesador de transmisión continua (234, 1400) que tiene una arquitectura de tipo "una sola instrucción, múltiples subprocesos", SIMT, que incluye múltiples subprocesos de hardware, donde el multiprocesador de transmisión continua (234, 1400) comprende: múltiples conjuntos de unidades de cálculo (1411-1418), presentando cada unidad de cálculo (1411-1418) una unidad lógica de coma flotante (1411B - 1418B) configurada para realizar operaciones de coma flotante y una unidad lógica de números enteros (1411A - 1418A) configurada para realizar operaciones de números enteros; y una memoria (270, 272) acoplada a los múltiples conjuntos de unidades de cálculo, caracterizada por que en una unidad de cálculo, la unidad lógica de números enteros está habilitada para ejecutar un subproceso de una primera instrucción, mientras que la unidad lógica de coma flotante está habilitada para ejecutar un subproceso de una segunda instrucción, siendo la segunda instrucción diferente de la primera instrucción y ejecutándose el subproceso de la primera instrucción simultáneamente con el subproceso de la segunda instrucción.
Abstract:
Un acelerador (446) en un módulo multichip, comprendiendo el acelerador: una pila de memorias que incluye múltiples chips de memoria; y una unidad de procesamiento de gráficos, GPU (410-413), acoplada con la pila de memorias mediante uno o más controladores de memoria, incluyendo la GPU una pluralidad de multiprocesadores (234) con una arquitectura de instrucción única para múltiples hilos, SIMT, los multiprocesadores para ejecutar al menos una única instrucción, la al menos una única instrucción para acelerar un subprograma algebraico lineal asociado con una estructura de aprendizaje automático; la al menos una única instrucción para hacer que al menos una porción de la GPU lleve a cabo una operación de coma flotante en entrada con precisiones diferentes; en donde al menos una porción de la pluralidad de multiprocesadores es para ejecutar un hilo de la al menos una única instrucción, incluyendo la porción de la pluralidad de multiprocesadores una unidad de coma flotante para llevar a cabo, como una operación doble de precisión FP16/FP32 mixta, una primera operación del hilo a una primera precisión y una segunda operación del hilo con una segunda precisión; y en donde la primera operación es una operación con dos o más entradas de coma flotante de 16 bits y la segunda operación es una operación con dos o más entradas de coma flotante de 32 bits.