1 背景

 前段时 间京东公开了面向第二个十二年的战略规划,表示京 东将全面走向技术化,大力发 展人工智能和机器人自动化技术,将过去 传统方式构筑的优势全面升级。京东Y事业部顺势成立,该事业 部将以服务泛零售为核心,着重智 能供应能力的打造,核心使 命是利用人工智能技术来驱动零售革新。

1.1   京东的供应链

京东一 直致力于通过互联网电商建立需求侧与供给侧的精准、高效匹配,供应链 管理是零售联调中的核心能力,是零售 平台能力的关键体现,也是供 应商与京东紧密合作的纽带,更是未 来京东智能化商业体布局中的核心环节。

目前京 东在全国范围内的仓库数量已超过700个,按功能可划分为RDCFDC、大件中心仓、大件卫星仓、图书仓和城市仓等等。RDCRegional Distribution Center)即区域分发中心,可理解为一级仓库,向供货 商采购的商品会优先送往这里,一般设置在中心城市,覆盖范围大。FDCForward Distribution Center)即区域运转中心,可理解为二级仓库,覆盖一些中、小型城市及边远地区,通常会 根据需求将商品从RDC调配过来。

iOS培训,Swift培训,苹果开发培训,移动开发培训

结合人工智能、大数据等技术,京东首 先从供货商那里合理采购定量的商品到RDC,再根据 实际需求调配到FDC,然后运 往离客户最近的配送站,最后快 递员将商品带到客户手中。这只是 京东供应链体系中一个普通的场景,但正因 为有这样的体系,使得京 东对用户的响应速度大大提高,用户体验大大提升。

1.2   京东供应链优化

用户体 验提升的同时也伴随着大量资金的投入和成本的提高,成本必须得到控制,整个体系才能发挥最大的价值,于是对 供应链的优化就显得至关重要了。

京东自 打建立供应连体系的那一天起,就不断 地进行改进和优化,并且努 力深入到供应链的每一个环节。优化其 实是一门运筹学问题,需考虑 在各种决策目标之间如何平衡以达到最大收益,在这个 过程中需要考虑很多问题,把这些考虑清楚,问题就容易解决了。举几个简单的例子:

l  商品补货:考虑在什么时间,给哪个RDC采购什么商品,采购量是多少?

l  商品调拨:考虑在什么时间,给哪个FDC调配什么商品,调配量是多少?

l  仓储运营:在大促来临之际,仓库和 配送站要增配多少人手、多少辆货车?

虽然看 上去这些问题都很容易回答,但仔细 想想却又很难给出答案,原因就 在于想要做到精确不是那么容易的事情,就拿补货来说,补的太 多会增加库存成本,补的太 少会增加缺货成本,只有合 理的补货量才能做到成本最低。

1.3   预测技 术在京东供应链的作用

借助机器学习、大数据等相关技术,京东在 很多供应链优化问题上都已经实现系统化,由系统 自动给出优化建议,并与生产系统相连接,实现全流程自动化。在这里 有一项技术起着至关重要的低层支撑作用--预测技术。据粗略估算,1%的预测 准确度的提升可以节约数倍的运营成本。

怎样理 解预测在供应链优化中的作用呢?拿商品补货举例,一家公 司为了保证库房不缺货,可能会 频繁的从供货商那里补充大量商品,这样做虽然不会缺货,但可能 会造成更多卖不出去的商品积压在仓库中,从而使 商品的周转率降低,库存成本增加。反之,这家公 司有可能为了追求零库存而补很少的商品,但这就 可能出现严重的缺货问题,从而使现货率降低,严重影响用户体验,缺货成本增加。于是问题就来了,要补多少商品才合适,什么时间补货,这就需要权衡考虑了,最终目 的是要使库存成本和缺货成本达到一个平衡。

考虑一下极端情况,等库存 降到零时再去补货,这时供 货商接到补货通知后将货物运往仓库。但是这么做有个问题,因为运 送过程需要时间,这段时 间库房就缺货了。那怎么办呢?就是利用预测技术。利用预 测我们可以计算出未来商品在途的这段时间里销量大概是多少,然后我 们让仓库保证这个量,低于这 个量就给供货商下达补货通知,于是问题得以解决。总而言之,预测技 术在这里发挥了重要的作用,成为关键的一个环。

2 京东预测系统

2.1 预测系统介绍

iOS培训,Swift培训,苹果开发培训,移动开发培训

预测系 统在整个供应链体系中处在最底层并且起到一个支撑的作用,支持上 层的多个决策优化系统,而这些 决策优化系统利用精准的预测数据结合运筹学技术得出最优的决策,并将结 果提供给更上层的业务执行系统或是业务方直接使用。

目前,预测系 统主要支持三大业务:销量预测、单量预测和GMV预测。其中销 量预测主要支持商品补货、商品调拨;单量预 测主要支持仓库、站点的运营管理;GMV预测主 要支持销售部门计划的定制。

销量预 测按照不同维度又可以分为RDC采购预测、FDC调拨预测、城市仓调拨预测、大建仓补货预测、全球购 销量预测和图书促销预测等;单量预 测又可分为库房单量预测、配送中 心单量预测和配送站单量预测等(在这里“单量”并非指 用户所下订单的量,而是将 订单拆单后流转到仓库中的单量。例如一 个用户的订单中包括3件物品,其中两 个大件品和一个小件品,在京东 的供应链环节中可能会将其中两个大件品组成一个单投放到大件仓中,而将那 个小件单独一个单投放到小件仓中,单量指 的是拆单后的量);GMV预测支持到商品粒度。

2.2 预测系统架构

       iOS培训,Swift培训,苹果开发培训,移动开发培训

整体架 构从上至下依次是:数据源输入层、基础数据加工层、核心业务层、数据输 出层和下游系统。首先从 外部数据源获取我们所需的业务数据,然后对 基础数据进行加工清洗,再通过时间序列、机器学 习等人工智能技术对数据进行处理分析,最后计 算出预测结果并通过多种途径推送给下游系统使用。

l  数据源输入层:京东数 据仓库中存储着我们需要的大部分业务数据,例如订单信息、商品信息、库存信息等等。而对于 促销计划数据则大部分来自于采销人员通过Web系统录入的信息。除此之 外还有一小部分数据通过文本形式直接上传到HDFS中。

l  基础数据加工层:在这一层主要通过Hive对基础 数据进行一些加工清洗,去掉不需要的字段,过滤不 需要的维度并清洗有问题的数据。

l  核心业务层:这层是 系统的的核心部分,横向看又可分为三层:特征构建、预测算 法和预测结果加工。纵向看 是由多条业务线组成,彼此之 间不发生任何交集。

?  特征构建:将之前 清洗过的基础数据通过近一步的处理转化成标准格式的特征数据,提供给 后续算法模型使用。

?  核心算法:利用时间序列分析、机器学 习等人工智能技术进行销量、单量的预测,是预测 系统中最为核心的部分。

?  预测结果加工:预测结 果可能在格式和一些特殊性要求上不能满足下游系统,所以还 需要根据实际情况对其进行加工处理,比如增加标准差、促销标识等额外信息。

l  预测结果输出层:将最终 预测结果同步回京东数据仓库、MySqlHBase或制作成JSF接口供 其他系统远程调用。

l  下游系统:包括下游任务流程、下游Web系统和其他系统。

3 预测系统核心介绍

3.1 预测系 统核心层技术选型

iOS培训,Swift培训,苹果开发培训,移动开发培训

预测系 统核心层技术主要分为四层:基础层、框架层、工具层和算法层

基础层:

HDFS用来做数据存储,Yarn用来做资源调度,BDPBig Data Platform)是京东 自己研发的大数据平台,我们主 要用它来做任务调度。

框架层:  

Spark RDDSpark SQLHive为主, MapReduce程序占一小部分,是原先遗留下来的,目前正逐步替换成Spark RDD。选择Spark除了对性能的考虑外,还考虑了Spark程序开发的高效率、多语言 特性以及对机器学习算法的支持。在Spark开发语 言上我们选择了Python,原因有以下三点:

l  Python有很多 不错的机器学习算法包可以使用,比起SparkMLlib,算法的准确度更高。我们用GBDT做过对比,发现xgboostMLlib里面提 供的提升树模型预测准确度高出大概5%~10%。虽然直接使用Spark自带的 机器学习框架会节省我们的开发成本,但预测 准确度对于我们来说至关重要,每提升1%的准确度,就可能 会带来成本的成倍降低。

l  我们的 团队中包括开发工程师和算法工程师,对于算 法工程师而言他们更擅长使用Python进行数据分析,使用JavaScala会有不小的学习成本。

l  对比其他语言,我们发现使用Python的开发效率是最高的,并且对于一个新人,学习Python比学习 其他语言更加容易。

工具层:

一方面 我们会结合自身业务有针对性的开发一些算法,另一方 面我们会直接使用业界比较成熟的算法和模型,这些算 法都封装在第三方Python包中。我们比较常用的包有xgboostnumpypandassklearnscipyhyperopt

Xgboost:它是Gradient Boosting Machine的一个C++实现,xgboost最大的特点在于,它能够自动利用CPU的多线程进行并行,同时在 算法上加以改进提高了精度。

numpy:是Python的一种 开源的数值计算扩展。这种工 具可用来存储和处理大型矩阵,比Python自身的 嵌套列表结构要高效的多(该结构 也可以用来表示矩阵)。

pandas:是基于NumPy 的一种工具,该工具 是为了解决数据分析任务而创建的。Pandas 纳入了 大量库和一些标准的数据模型,提供了 高效地操作大型数据集所需的工具。

sklearn:是Python重要的机器学习库,支持包括分类、回归、降维和 聚类四大机器学习算法。还包含了特征提取、数据处 理和模型评估三大模块。

scipy:是在NumPy库的基 础上增加了众多的数学、科学以 及工程计算中常用的库函数。例如线性代数、常微分方程数值求解、信号处理、图像处 理和稀疏矩阵等等。

算法层:

我们用 到的算法模型非常多,原因是 京东的商品品类齐全、业务复杂,需要根 据不同的情况采用不同的算法模型。我们有 一个独立的系统来为算法模型与商品之间建立匹配关系,有些比 较复杂的预测业务还需要使用多个模型。我们使 用的算法总体上可以分为三类:时间序列、机器学 习和结合业务开发的一些独有的算法。

1.     机器学 习算法主要包括GBDTLASSORNN 

GBDT是一种 迭代的决策树算法,该算法 由多棵决策树组成,所有树 的结论累加起来做最终答案。我们用 它来预测高销量,但历史 规律不明显的商品。

RNN这种网 络的内部状态可以展示动态时序行为。不同于 前馈神经网络的是,RNN可以利 用它内部的记忆来处理任意时序的输入序列,这让它 可以更容易处理如时序预测、语音识别等。

LASSO:该方法 是一种压缩估计。它通过 构造一个罚函数得到一个较为精炼的模型,使得它压缩一些系数,同时设 定一些系数为零。因此保 留了子集收缩的优点,是一种 处理具有复共线性数据的有偏估计。用来预测低销量,历史数 据平稳的商品效果较好。

2.     时间序列主要包括ARIMAHolt winters 

ARIMA全称为 自回归积分滑动平均模型,于70年代初 提出的一个著名时间序列预测方法,我们用 它来主要预测类似库房单量这种平稳的序列。

Holt winters又称三 次指数平滑算法,也是一 个经典的时间序列算法,我们用 它来预测季节性和趋势都很明显的商品。

3.     结合业 务开发的独有算法包括WMAStockDTSimilarityModelNewProduct等:

WMAStockDT库存决策树模型,用来预 测受库存状态影响较大的商品。

SimilarityModel相似品模型,使用指 定的同类品数据来预测某商品未来销量。NewProduct新品模型,顾名思 义就是用来预测新品的销量。

3.2 预测系统核心流程

预测核 心流程主要包括两类:以机器 学习算法为主的流程和以时间序列分析为主的流程。

1.     以机器 学习算法为主的流程如下:

       iOS培训,Swift培训,苹果开发培训,移动开发培训

特征构建:通过数据分析、模型试 验确定主要特征,通过一 系列任务生成标准格式的特征数据。

模型选择:不同的 商品有不同的特性,所以首 先会根据商品的销量高低、新品旧品、假节日 敏感性等因素分配不同的算法模型。

特征选择:对一批 特征进行筛选过滤不需要的特征,不同类 型的商品特征不同。

样本分区:对训练数据进行分组,分成多组样本,真正训 练时针对每组样本生成一个模型文件。一般是 同类型商品被分成一组,比如按品类维度分组,这样做 是考虑并行化以及模型的准确性。

模型参数:选择最优的模型参数,合适的 参数将提高模型的准确度,因为需 要对不同的参数组合分别进行模型训练和预测,所以这 一步是非常耗费资源。

模型训练:待特征、模型、样本都 确定好后就可以进行模型训练,训练往 往会耗费很长时间,训练后 会生成模型文件,存储在HDFS中。

模型预测:读取模 型文件进行预测执行。

多模型择优:为了提高预测准确度,我们可 能会使用多个算法模型,当每个 模型的预测结果输出后系统会通过一些规则来选择一个最优的预测结果。

预测值异常拦截:我们发 现越是复杂且不易解释的算法越容易出现极个别预测值异常偏高的情况,这种预 测偏高无法结合历史数据进行解释,因此我 们会通过一些规则将这些异常值拦截下来,并且用 一个更加保守的数值代替。

模型评价:计算预测准确度,我们通常用使用mapd来作为评价指标。

误差分析:通过分 析预测准确度得出一个误差在不同维度上的分布,以便给 算法优化提供参考依据。

2.     以时间 序列分析为主的预测流程如下:

iOS培训,Swift培训,苹果开发培训,移动开发培训

生成历史时序:将历史销量、价格、库存等 数据按照规定格式生成时序数据。

节假日因子:计算节 假日与销量之间的关系,用来平 滑节假日对销量影响。

周日因子:计算周一到周日这7天与销量的关系,用来平 滑周日对销量的影响。

促销因子:计算促 销与销量之间的关系,用来平 滑促销对销量的影响。

因子平滑:历史销量是不稳定的,会受到节假日、促销等影响,在这种 情况下进行预测有很大难度,所以需 要利用之前计算的各类因子对历史数据进行平滑处理。

时序预测:在一个 相对平稳的销量数据上通过算法进行预测。

因子叠加:结合未来节假日、促销计 划等因素对预测结果进行调整。

3.3 Spark在预测核心层的应用

我们使用Spark SQLSpark RDD相结合 的方式来编写程序,对于一般的数据处理,我们使用Spark的方式与其他无异,但是对于模型训练、预测这 些需要调用算法接口的逻辑就需要考虑一下并行化的问题了。我们平 均一个训练任务在一天处理的数据量大约在500G左右,虽然数 据规模不是特别的庞大,但是Python算法包 提供的算法都是单进程执行。我们计算过,如果使 用一台机器训练全部品类数据需要一个星期的时间,这是无法接收的,所以我们需要借助Spark这种分 布式并行计算框架来将计算分摊到多个节点上实现并行化处理。

我们实 现的方法很简单,首先需 要在集群的每个节点上安装所需的全部Python包,然后在编写Spark程序时 考虑通过某种规则将数据分区,比如按品类维度,通过groupByKey操作将数据重新分区,每一个 分区是一个样本集合并进行独立的训练,以此达到并行化。流程如下图所示:

 

iOS培训,Swift培训,苹果开发培训,移动开发培训

伪码如下: 

sc.textFile("...").map(lambda x: repartitionBy(x)).groupByKey()   .map(lambda x: train(x)).saveAsPickleFile("...")

repartitionBy方法即 设置一个重分区的逻辑返回(K,V)结构RDDtrain方法是训练数据,在train方法里面会调用Python算法包接口。saveAsPickleFileSpark Python独有的一个Action操作,支持将RDD保存成序列化后的sequnceFile格式的文件,在序列化过程中会以10个一批 的方式进行处理,保存模 型文件非常适合。

虽然原理简单,但存在着一个难点,即以什 么样的规则进行分区,key应该如何设置。为了解 决这个问题我们需要考虑几个方面,第一就 是哪些数据应该被聚合到一起进行训练,第二就 是如何避免数据倾斜。

针对第 一个问题我们做了如下几点考虑:

l  被分在 一个分区的数据要有一定的相似性,这样训 练的效果才会更好,比如按 品类分区就是个典型例子。

l  分析商品的特性,根据特 性的不同选择不同的模型,例如高 销商品和低销商品的预测模型是不一样的,即使是 同一模型使用的特征也可能不同,比如对 促销敏感的商品就需要更多与促销相关特征,相同模 型相同特征的商品应倾向于分在一个分区中。

针对第 二个问题我们采用了如下的方式解决:

l  对于数 据量过大的分区进行随机抽样选取。

l  对于数 据量过大的分区还可以做二次拆分,比如图 书小说这个品类数据量明显大于其他品类,于是就 可以分析小说品类下的子品类数据量分布情况,并将子 品类合并成新的几个分区。

l  对于数 据量过小这种情况则需要考虑进行几个分区数据的合并处理。

总之对 于后两种处理方式可以单独通过一个Spark任务定期运行,并将这 种分区规则保存。

4 结合图解Spark书进行应用与优化

《图解Spark:核心技术与案例实战》一书以Spark2.0版本为基础进行编写,系统介绍了Spark核心及 其生态圈组件技术。其内容包括Spark生态圈、实战环 境搭建和编程模型等,重点介绍了作业调度、容错执行、监控管理、存储管 理以及运行架构,同时还介绍了Spark生态圈相关组件,包括了Spark SQL的即席查询、Spark Streaming的实时流处理、MLlib的机器学习、GraphX的图处理和Alluxio的分布 式内存文件系统等。下面介 绍京东预测系统如何进行资源调度,并描述如何使用Spark存储相 关知识进行系统优化。

4.1 结合系统中的应用

在图解Spark书的第六章描述了Spark运行架构,介绍了Spark集群资 源调度一般分为粗粒度调度和细粒度调度两种模式。粗粒度 包括了独立运行模式和Mesos粗粒度运行模式,在这种 情况下以整个机器作为分配单元执行作业,该模式 优点是由于资源长期持有减少了资源调度的时间开销,缺点是 该模式中无法感知资源使用的变化,易造成 系统资源的闲置,从而造成了资源浪费。而细粒度包括了Yarn运行模式和Mesos细粒度运行模式,该模式 的优点是系统资源能够得到充分利用,缺点是 该模式中每个任务都需要从管理器获取资源,调度延迟较大、开销较大。

由于京东Spark集群属于基础平台,在公司 内部共享这些资源,所以集群采用的是Yarn运行模式,在这种 模式下可以根据不同系统所需要的资源进行灵活的管理。在YARN-Cluster模式中,当用户向YARN集群中 提交一个应用程序后,YARN集群将 分两个阶段运行该应用程序:第一个阶段是把SparkSparkContext作为Application MasterYARN集群中先启动;第二个阶段是由Application Master创建应用程序,然后为它向Resource Manager申请资源,并启动Executor来运行任务集,同时监 控它的整个运行过程,直到运行完成。下图为Yarn-Cluster运行模式执行过程:

iOS培训,Swift培训,苹果开发培训,移动开发培训

4.2   结合系统的优化

我们都 知道大数据处理的瓶颈在IO。我们借助Spark可以把 迭代过程中的数据放在内存中,相比MapReduce写到磁 盘速度提高近两个数量级;另外对 于数据处理过程尽可能避免Shuffle,如果不能避免则Shuffle前尽可能过滤数据,减少Shuffle数据量;最后,就是使 用高效的序列化和压缩算法。在京东 预测系统主要就是围绕这些环节展开优化,相关Spark存储原 理知识可以参见图解Spark书第五章的详细描述。

由于资源限制,分配给预测系统的Spark集群规模并不是很大,在有限的资源下运行Spark应用程 序确实是一个考验,因为在 这种情况下经常会出现诸如程序计算时间太长、找不到Executor等错误。我们通过调整参数、修改设 计和修改程序逻辑三个方面进行优化:

   4.2.1 参数调整

l  减少num-executors,调大executor-memory,这样的目的是希望Executor有足够 的内存可以使用。

l  查看日 志发现没有足够的空间存储广播变量,分析是由于Cache到内存 里的数据太多耗尽了内存,于是我们将Cache的级别适当调成MEMORY_ONLY_SERDISK_ONLY

l  针对某 些任务关闭了推测机制,因为有 些任务会出现暂时无法解决的数据倾斜问题,并非节点出现问题。

l  调整内存分配,对于一个Shuffle很多的任务,我们就把Cache的内存分配比例调低,同时调高Shuffle的内存比例。

  4.2.2 修改设计

参数的 调整虽然容易做,但往往效果不好,这时候 需要考虑从设计的角度去优化:

l  原先在 训练数据之前会先读取历史的几个月甚至几年的数据,对这些数据进行合并、转换等 一系列复杂的处理,最终生成特征数据。由于数据量庞大,任务有时会报错。经过调 整后当天只处理当天数据,并将结 果保存到当日分区下,训练时 按天数需要读取多个分区的数据做union操作即可。

l  将“模型训练”从每天 执行调整到每周执行,将“模型参数选取”从每周 执行调整到每月执行。因为这 两个任务都十分消耗资源,并且属 于不需要频繁运行,这么做 虽然准确度会略微降低,但都在可接受范围内。

l  通过拆 分任务也可以很好的解决资源不够用的问题。可以横向拆分,比如原先是将100个品类 数据放在一个任务中进行训练,调整后改成每10个品类提交一次Spark作业进行训练。这样虽 然整体执行时间变长,但是避 免了程序异常退出,保证任 务可以执行成功。除了横 向还可以纵向拆分,即将一个包含10StageSpark任务拆分成两个任务,每个任务包含5Stage,中间数据保存到HDFS中。

4.2.3 修改程序逻辑

为了进 一步提高程序的运行效率,通过修 改程序的逻辑来提高性能,主要是 在如下方面进行了改进:避免过多的Shuffle、减少Shuffle时需要 传输的数据和处理数据倾斜问题等。

    1 避免过多的Shuffle

l  Spark提供了 丰富的转换操作,可以使我们完成各类复杂的数据处理工作,但是也 正因为如此我们在写Spark程序时候可 能会遇到一个陷阱,那就是 为了使代码变的简洁过分依赖RDD的转换操作,使本来仅需一次Shuffle的过程 变为了执行多次。我们就 曾经犯过这样一个错误,本来可以通过一次groupByKey完成的 操作却使用了两回。业务逻辑是这样的:我们有 三张表分别是销量(s)、价格(p)、库存(v),每张表有3个字段:商品idsku_id)、品类idcategory)和历史时序数据(data),现在需要按sku_idspv数据合并,然后再按category再合并一次,最终的数据格式是:[category[[sku_id, s , p, v], [sku_id, s , p, v], […][…]]]。一开始我们先按照sku_id + category作为key进行一次groupByKey,将数据格式转换成[sku_id, category , [sp, v]],然后按category作为keygroupByKey一次。后来我们修改为按照category作为key只进行一次groupByKey,因为一个sku_id只会属于一个category,所以后续的map转换里 面只需要写一些代码将相同sku_idspv数据group到一起就可以了。

两次groupByKey的情况:

iOS培训,Swift培训,苹果开发培训,移动开发培训

修改后变为一次groupByKey的情况:

iOS培训,Swift培训,苹果开发培训,移动开发培训