Parameter Server研究之ps-lite源码分析与开发

文章也同时在简书更新

引言

Parameter Server (PS) [1] 是一种目前主流的分布式机器学习范式。其中,李沐 提出的第三代PS [2] 影响力甚大,可以在Github找到其core-sources:ps-lite
基于上述ps-liteMXNet [3] 应运而生,发展为目前最“热门”的Deep Learning 软件库之一。
注意:本文将主要着眼于ps-lite

ps-lite安装

如果你只是想使用ps-lite,而不是做二次开发。根据官方文档进行下载及编译即可。

切入根目录下tests
执行> ./local.sh [serverNumber] [workerNumber] [chooceTestApp],例如:

1
> ./local.sh 2 2 ./test_kv_app

上述命令可以执行测试example。

ps-lite源码开发的准备工作

ps-lite项目基于cmake和makefile,你可以直接通过shell的make命令进行编译,也可以利用cmake来实现跨平台和使用IDE开发。这里我们将使用CLion来帮助源码的分析与开发。

下载CLion

可以直接下载CLion。也可以使用Toobox App来管理你的JetBrains大礼包。另外,如果你是学生,教育优惠不可错过!

导入ps-lite工程

选择openimport source都可以,CLion默认使用CMake来配置C工程。
首次导入源码后,CMakeList会运行一次,不出意外,会出现如下报错:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
································································
/Applications/CLion.app/Contents/bin/cmake/bin/cmake -DCMAKE_BUILD_TYPE=Debug -G "CodeBlocks - Unix Makefiles" /Users/qihuazhou/Desktop/ps-lite-clion
-- Could NOT find ZMQ (missing: ZMQ_LIBRARY ZMQ_INCLUDE_DIR)
CMake Error at /Applications/CLion.app/Contents/bin/cmake/share/cmake-3.10/Modules/FindPackageHandleStandardArgs.cmake:137 (message):
Could NOT find Protobuf (missing: Protobuf_LIBRARIES Protobuf_INCLUDE_DIR)
Call Stack (most recent call first):
/Applications/CLion.app/Contents/bin/cmake/share/cmake-3.10/Modules/FindPackageHandleStandardArgs.cmake:378 (_FPHSA_FAILURE_MESSAGE)
/Applications/CLion.app/Contents/bin/cmake/share/cmake-3.10/Modules/FindProtobuf.cmake:543 (FIND_PACKAGE_HANDLE_STANDARD_ARGS)
cmake/ProtoBuf.cmake:4 (find_package)
CMakeLists.txt:22 (include)
-- Configuring incomplete, errors occurred!
································································

这里需要注意,直接run工程根目录下的makefile文件(右键点击run即可),是可以使用make命令自动去下载依赖,并编译的。
只不过上述make操作只是编译工程(编译完也可以运行tests下的example),并不能帮助CLion分析项目各文件的依赖关系(例如函数跳转等)。
为了能够方便地进行源码开发,必须搞定CMakeList的问题。

其实方法很简单,手动安装protobuf即可。
Mac命令如下:brew install protobuf
Ubuntu命令如下:sudo apt-get install libprotobuf-dev protobuf-compiler
安装完protobuf后,再次刷新CLion中的CMakeList,即可正确解析,只会各源文件中的依赖关系也正确得到分析,可以函数跳转了!

ps-lite源码开发流程

之后,在CLion中分析及修改代码;然后运行使用makefile来编译;最后通过terminal运行测试程序;当然你也可以打断点Debug

保存后续更新中

后续,笔者会更新一些ps-lite的源码分析和开发技巧。
未完待续。

Reference

[1] A. Smola et al. “An architecture for parallel topic models.” In VLDB. 2010.
[2] M. Li et al. “Scaling distributed machine learning with the parameter server.” In OSDI. 2014.
[3] T. Chen et al. “MXNet: A Flexible and Efficient Machine Learning Library for Heterogeneous Distributed Systems.” In NIPS. 2016.

周鶏🐣(Kimiko) wechat
拿起手机扫一扫,欢迎关注我的个人微信公众号:「洛斯里克的大书库」。
坚持原创技术分享,您的支持将鼓励我继续创作!