读导师论文的笔记
Online Scheduling of Heterogeneous Distributed Machine Learning Jobs总结
主题:分布式机器学习任务中的在线调度问题
问题: 考虑到需求弹性,在资源有限的情况下,如何确定分配给每个作业的worker和ps的数量、类型以及运行时间,从而最大限度地利用资源,最小化平均加权完成时间?
方法(解决步骤):
1、先将平均加权完成时间最小化问题表述为一个时间索引的数学程序(3.3系统建模)
建模中遇到的问题(非传统约束):非传统约束包括类型约束和非传统约束(集合类型和自然语言描述)约束。以下变量不适合线性约束,又无法被现有方法处理。
类型约束:每个作业使用一种类型的处理器,即每个作业只能使用一种处理器来保证资源效率。
非传统约束:描述了作业、处理器之间的关系,如约束条件(2d)中描述了$q_j、y_{jhm}和s_{jhp}$之间的关系,这种关系难以用线性约束描述。
其他约束:还包括至少为每个机器学习作业分配一个处理器来维护其全局参数的约束,以及为每个作业分配足够数量的工人和时间段来完成数据集的训练的约束。
如何优化 ...
第一篇博文
耗时两天,把博客搭好,然后美化了一下!试一下,这是第一篇博文!