Hardwareimplementierte Punkt-zu-Punkt-Kommunikationsprimitive zum Maschinenlernen

    公开(公告)号:DE102018110719A1

    公开(公告)日:2018-11-08

    申请号:DE102018110719

    申请日:2018-05-04

    Applicant: INTEL CORP

    Abstract: Eine Ausführungsform stellt ein System bereit, um Daten für ein verteiltes Training eines neuronalen Netzwerks zu berechnen und zu verteilen, wobei das System einen ersten Speicher zum Speichern eines ersten Satzes von Anweisungen, der ein Maschinenlern-Framework aufweist; eine Fabric-Schnittstelle, um die Übertragung und den Empfang von Daten zu ermöglichen, die dem Satz trainierbarer Maschinenlernparameter zugeordnet sind; einen ersten Satz von Universalprozessorkernen zum Ausführen des ersten Satzes von Anweisungen, wobei der erste Satz von Anweisungen einen Trainingsarbeitsablauf zur Berechnung von Gradienten für die trainierbaren Maschinenlernparameter bereitstellt und mit einem zweiten Satz von Anweisungen kommuniziert, wobei der zweite Satz von Anweisungen die Übertragung und den Empfang der Gradienten über die Fabric-Schnittstelle ermöglicht; und einen Grafikprozessor zum Ausführen von Rechenoperationen, die dem Trainingsarbeitsablauf zugeordnet sind, um die Gradienten für die trainierbaren Maschinenlernparameter zu generieren, aufweist.

    Dynamisches Genauigkeitsmanagement für Deep-Learning-Ganzzahlprimitive

    公开(公告)号:DE102018110687A1

    公开(公告)日:2018-11-08

    申请号:DE102018110687

    申请日:2018-05-04

    Applicant: INTEL CORP

    Abstract: Eine Ausführungsform stellt eine Grafikverarbeitungseinheit zum Ausführen von Berechnungen bereit, die einem neuronalen Netzwerk zugeordnet sind, wobei die Grafikverarbeitungseinheit eine Recheneinheit, die eine Hardware-Logikeinheit mit dynamischer Genauigkeitsfestkommalogik aufweist; eine Decodiereinheit zum Decodieren einer Anweisung zur Ausführung durch die Recheneinheit, wobei die Anweisung bewirkt, dass die Recheneinheit eine arithmetische Matrixoperation an einem Satz von dynamischen Festkommatensoren ausführt; und einen dynamischen Genauigkeitsmanager zum dynamischen Einstellen der Genauigkeit einer Rechenoperation umfasst, die von der Recheneinheit während der arithmetischen Matrixoperation ausgeführt wird, wobei der dynamische Genauigkeitsmanager die Genauigkeit der Rechenoperation einstellt, um einen arithmetischen Überlauf zu verhindern.

    Technologien für automatische Prozessorkern-Zuordnungsverwaltung und -Kommunikation unterVerwendung direkter Datenplatzierung in private Zwischenspeicher

    公开(公告)号:DE112016004367T5

    公开(公告)日:2018-06-14

    申请号:DE112016004367

    申请日:2016-08-24

    Applicant: INTEL CORP

    Abstract: Technologien zur Kommunikation mit direkter Datenplatzierung weisen eine Reihe von Rechnerknoten in Kommunikation über ein Netzwerk auf. Jeder Rechnerknoten weist einen Vielkernprozessor mit einer integrierten Hostmatrixschnittstelle (HFI, Host Matrix Interface) auf, welche eine Zuordnungstabelle (AT, Association Table) unterhält. In Reaktion auf das Empfangen einer Mitteilung von einer entfernt gelegenen Vorrichtung bestimmt die HFI, ob die AT einen Eintrag aufweist, der einen oder mehrere Parameter der Mitteilung dem Destinationsprozessorkern zuordnet. Falls dies so ist, veranlasst die HFI einen Datentransferagenten (DTA, Data Transfer Agent) des Destinationskerns, die Mitteilungsdaten zu empfangen. Der DTA kann die Mitteilungsdaten in einen privaten Zwischenspeicher des Destinationskerns platzieren. Mitteilungsparameter können eine Destinationsprozessidentifikation oder andere Netzwerkadresse und einen virtuellen Speicheradressenbereich aufweisen. Der HFI kann die AT automatisch auf der Grundlage von Kommunikationsoperationen aktualisieren, die durch die Software erzeugt werden, die durch die Prozessorkerne ausgeführt wird. Es werden andere Ausführungsformen beschrieben und beansprucht.

    TECHNOLOGIES FOR PROXY-BASED MULTI-THREADED MESSAGE PASSING COMMUNICATION

    公开(公告)号:EP3191973A4

    公开(公告)日:2018-05-09

    申请号:EP15839957

    申请日:2015-08-06

    Applicant: INTEL CORP

    Abstract: Technologies for proxy-based multithreaded message passing include a number of computing nodes in communication over a network. Each computing node establishes a number of message passing interface (MPI) endpoints associated with threads executed within a host processes. The threads generate MPI operations that are forwarded to a number of proxy processes. Each proxy process performs the MPI operation using an instance of a system MPI library. The threads may communicate with the proxy processes using a shared-memory communication method. Each thread may be assigned to a particular proxy process. Each proxy process may be assigned dedicated networking resources. MPI operations may include sending or receiving a message, collective operations, and one-sided operations. Other embodiments are described and claimed.

Patent Agency Ranking