-
公开(公告)号:DE112020006045T5
公开(公告)日:2022-10-06
申请号:DE112020006045
申请日:2020-12-07
Applicant: IBM
Inventor: DAS SUBHRO , HUNT NATHAN , FULTON NATHANIEL RYAN , HOANG TRONG NGHIA
Abstract: Ein Verfahren zum Trainieren von Steuerungs-Software zum Bestärken von Sicherheitseinschränkungen mithilfe von visuellen Eingaben enthält ein Durchführen eines Vorlagenabgleichs für jedes Objekt in einem Bild eines Aktionsraums eines Agenten für bestärkendes Lernen (RL) mithilfe einer visuellen Vorlage für jedes Objekt, wobei jedes Objekt in dem Aktionsraum des RL-Agenten erkannt wird, ein Zuordnen jedes erkannten Objekts zu einem Satz von planaren Koordinaten für jedes Objekt in dem Aktionsraum des RL-Agenten, ein Ermitteln eines Satzes von sicheren Aktionen für den RL-Agenten durch Anwenden einer Sicherheitsspezifikation für den Aktionsraum des RL-Agenten auf den Satz von Variablen für Koordinaten für jedes Objekt in dem Aktionsraum des RL-Agenten, ein Ausgeben des Satzes von sicheren Aktionen an den RL-Agenten für einen aktuellen Zustand einer RL-Prozedur, und ein Verhindern, dass der RL-Agent eine Aktion ausführt, die unsicher ist, bevor der RL-Agent eine Aktion durchführt.