在线推理服务:推荐/广告/搜索核心服务、 CV/NLP/Speech 等算法服务
负载特性:
• 延迟、效果并重
• NUMA 绑定,异构设备支持; • 波峰波谷规律明显
离线训练:PS-Worker 架构(推广搜亿级用户和 item 特征)
基础介绍:
PS 存储模型参数;Worker 计算更新 梯度;
负载特性:
- PS 要求 Gang 性,需要保证高优资 源,对稳定性要求较高,单个异常需 要进行 failover
- Worker 容忍部分异常,慢 worker会导致 staleness
… …
更多内容见报告。