分布式机器学习任务的资源管理方法及装置

    公开(公告)号:CN112463389A

    公开(公告)日:2021-03-09

    申请号:CN202011435550.8

    申请日:2020-12-10

    Abstract: 本发明涉及机器学习任务领域,具体涉及一种分布式机器学习任务的资源管理方法及装置。该方法及装置为用户提交机器学习任务,该任务包括两方面的信息,一是数据集大小,二是容器数量;预测模型根据数据集大小和容器数量计算内存的分配大小,同时选择相应的缓存模式;根据缓存模式的选择把内存分配分成两种情况,当内存足够时,选用最优性能模型;当内存不足时,选用最优资源利用率模型。本发明主要是分析分布式机器学习的特性以及计算框架的资源管理情况,根据这些分析构建内存预测和缓存模式选择的模型,并不需要额外的应用画像,直接对新的机器学习任务分配内存和选择缓存模式。

    分布式机器学习任务的资源管理方法及装置

    公开(公告)号:CN112463389B

    公开(公告)日:2024-06-18

    申请号:CN202011435550.8

    申请日:2020-12-10

    Abstract: 本发明涉及机器学习任务领域,具体涉及一种分布式机器学习任务的资源管理方法及装置。该方法及装置为用户提交机器学习任务,该任务包括两方面的信息,一是数据集大小,二是容器数量;预测模型根据数据集大小和容器数量计算内存的分配大小,同时选择相应的缓存模式;根据缓存模式的选择把内存分配分成两种情况,当内存足够时,选用最优性能模型;当内存不足时,选用最优资源利用率模型。本发明主要是分析分布式机器学习的特性以及计算框架的资源管理情况,根据这些分析构建内存预测和缓存模式选择的模型,并不需要额外的应用画像,直接对新的机器学习任务分配内存和选择缓存模式。

    资源管理方法、装置、设备及存储介质

    公开(公告)号:CN117785457A

    公开(公告)日:2024-03-29

    申请号:CN202311798418.7

    申请日:2023-12-25

    Abstract: 本发明公开了一种资源管理方法、装置、设备及存储介质,其中方法包括:当主机已部署离线业务时,若接收到部署在线业务的指令,则降低离线业务的资源分配,并为在线业务的每个微服务在当前时间段配置过量资源;基于预先训练好的预测模型预测每个微服务下一预设时间段的预测请求频率,并根据预测请求频率对每个微服务在下一预设时间段的资源进行预分配;间隔预设周期采集每个微服务的实时尾部延迟,并获取每个微服务在离线分析阶段生成的尾部延迟目标;根据实时尾部延迟和尾部延迟目标调整微服务和离线业务的资源分配。本发明能够有效应对主机上多个在线和多个离线业务混部的情景,并保证在线业务端到端的响应时延,同时提高资源利用率。

Patent Agency Ranking