很高兴能够来访问周鶏🐣(Kimiko)的博客。
这里是正式的主站,另外在https://kimihe.github.io/上也存有一份副本,但可能响应比较慢。
博客文章可能比较多,你可以通过点击页面左侧的分类按钮,来快速定位你感兴趣的内容。
希望我的博客能够对大家有所帮助,感谢阅读!
ロスリックの大書庫
很高兴能够来访问周鶏🐣(Kimiko)的博客。
这里是正式的主站,另外在https://kimihe.github.io/上也存有一份副本,但可能响应比较慢。
博客文章可能比较多,你可以通过点击页面左侧的分类按钮,来快速定位你感兴趣的内容。
希望我的博客能够对大家有所帮助,感谢阅读!
文章也同时在简书更新
Parameter Server (PS) [1] 是一种目前主流的分布式机器学习范式。其中,李沐 提出的第三代PS [2] 影响力甚大,可以在Github找到其core-sources:ps-lite。
基于上述ps-lite,MXNet [3] 应运而生,发展为目前最“热门”的Deep Learning 软件库之一。
注意:本文将主要着眼于ps-lite。
文章也同时在简书更新
Parameter Server (PS) [1] 是一种目前主流的分布式机器学习范式。其中,李沐 提出的第三代PS [2] 影响力甚大,可以在Github找到其simulation:ps-lite。
基于上述ps-lite,MXNet [3] 应运而生,发展为目前最“热门”的Deep Learning 软件库之一。
注意:本文将主要着眼于MXNet。
文章也同时在简书更新
“Apache Spark™ is a fast and general engine for large-scale data processing.”
Spark是一种高性能分布式计算框架。它基于RDD使用内存来加速迭代过程。相比于前辈Hadoop,Spark有着更好的性能表现,尤其针对Machine Learning此类典型的应用,提升更为显著。
作为入门指南的第四篇,本文将抛砖引玉介绍Spark源码开发。
前文:
文章也同时在简书更新
“Apache Spark™ is a fast and general engine for large-scale data processing.”
Spark是一种高性能分布式计算框架。它基于RDD使用内存来加速迭代过程。相比于前辈Hadoop,Spark有着更好的性能表现,尤其针对Machine Learning此类典型的应用,提升更为显著。
作为入门指南的第三篇,本文将集中介绍如何使用IntelliJ IDEA进行开发。
前文:
文章也同时在简书更新
“Apache Spark™ is a fast and general engine for large-scale data processing.”
Spark是一种高性能分布式计算框架。它基于RDD使用内存来加速迭代过程。相比于前辈Hadoop,Spark有着更好的性能表现,尤其针对Machine Learning此类典型的应用,提升更为显著。
作为入门指南的第二篇,本文将集中介绍如何使用IntelliJ IDEA进行开发。
前文:《Spark入门指南 I - 使用IntelliJ IDEA开发》。
文章也同时在简书更新
“Apache Spark™ is a fast and general engine for large-scale data processing.”
Spark是一种高性能分布式计算框架。它基于RDD使用内存来加速迭代过程。相比于前辈Hadoop,Spark有着更好的性能表现,尤其针对Machine Learning此类典型的应用,提升更为显著。
本文将集中介绍如何快速配置Spark。
近期忙于科研及论文,博客未能及时更新,望大家见谅。
预定于12月底,现阶段工作截止后,笔者会一鼓作气补充完关于分布式框架Spark的研究。
笔者今后的研究方向为分布式系统与并行计算,对于此领域进行会有更多博客的撰写,敬请各位期待!
文章也同时在简书更新
HiBench是intel为评估各大数据框架而设计的测试集,它可以用来测试hadoop集群对于常见计算任务的性能。从普通的排序,字符串统计到机器学习,数据库操作,图像处理和搜索引擎,都能够涵盖。本文是HiBench中hadoopbench的快速配置指南。更加具体的使用说明可以参考官方wiki。
文章也同时在简书更新
笔者目前已经开启了博士预科,方向偏系统工程,涉及到分布式架构的设计与改进。Apache基于Google的MapReduce体系开发的hadoop是业界最常用的分布式框架。本文将把笔者在前期调研过程中,搭建hadoop真分布集群的实践做一个总结,形成一个“最速搭建攻略”。