写于京东赛(JData)

  • 时间:
  • 浏览:1

以此类推,以另4个 月为周期向前滚动。

感觉在数据比赛中,最最关键的还是特性。有很久模型都须要稍微弱某些,甚至是单模型,也都须要优于xgboost某些提升模型。比如今年的IJCAI中的阿里妈妈算法大赛,夺冠的解决方案要是我单模型的·····膜拜一下大神。

在某些块儿还差的很远。否则,京东赛分数不高的愿因也是很久特性选的太弱,缺乏多。否则有有几只思路吧:

1. 皮尔森相关系数的应用,都须要看看特性和target之间的相关程度。太弱的很久都须要直接选择选择离开。

2. 选择 某些强相关性的特性,通过某些个运算啊什么的构造某些新的特性。

3. 结合业务场景,构造某些业务中常用的某些个指标。

4. 对于某些特殊日期的关注。比如电商销售额预测,双十一双十二的数据肯定是异于平常的,此时都须要对他进行单独的预测,很久和平时的进行加权,等(这很久是数据预解决阶段的工作)

5. 构建了一系列的特性,人太好不须所有的都这麼 重要,都须要对特性进行选择 ,打上去冗余特性。比如说,都须要用xgboost土办法很久GBDT某些有feature_importances土办法(很久score某些)的,对训练完的模型的特性根据评分的不同进行排序,以此选择 某些较好的特性。

对于我过去接触过的机器学习问题报告 ,训练集要是我原始数据,测试集要是我新数据。我在原始数据和新数据中,千年古墓相同维的特性,区别要是我原始数据有标签,而新数据这麼 标签。用有标签的数据学习出另4个 模型,再应用到具有相同特性维的这麼 标签的数据上,预测得到结果。

但对于时序数据来说,就不一样了。

通过时间滑窗,人为的构造target,让模型进行学习。也要是我对于历史数据,再人为设置历史窗口和未来窗口。如可么做呢?具体示意图如下:



(图片来源为这里,这篇讲的也挺好的,对我理解时间序列起了很大帮助)

只要有1-6月的历史数据,要预测7月份的销售量

也要是我说,在构建特性的很久,我须要所有的历史数据构建预测特性。有很久,也会有待预测时间段的某些特性,比如在天池的O2O赛中(不过这也是另4个 leakage,在实际工程中,是不不得到某些数据的)。将历史数据的预测特性,和新数据的某些预测特性结合起来,得到全部的所须要的特性,否则放在去模型后边,得到预测结果。

按我的理解,时间滑窗大概增加了样本量,否则通过对不共同间段的采样,都须要得到更充足的特性。

对于新数据,我的输入为(当前例子中)4,5,6月份的预测特性A打上去7月份的预测特性B,整体构成特性集合。输入到模型中,得到预测结果。

最后呢,我把所有提取到的特性,也要是我每个窗口的预测特性A+预测特性B作为训练集,所有的预测target作为训练集的target。用什么数据训练模型。

京东赛告一段落。作为另4个 菜菜鸟,人太好无缘前十,否则也是是否某些小感悟和某些对数据挖掘的认知。毕竟这是第一次接触比较接近实际工程中的数据,否则是时间序列相关的数据。

在做京东赛的很久,第一眼看得人数据集要是我懵的,感觉和房屋预测的咋某些一定会一样·········训练集也这麼 ,测试集也这麼 ,否则还有有几只表,咋往一块拼呢·········很久 看得人wepon在天池优惠券核销预测的代码后,才渐渐有了某些思路,在这里感谢wepon大神,代码在这里。

大致要是我什么了。算法之路,漫漫其修远兮,吾将上下而求索(拽一下·····)。

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_321502811/article/details/150878146

1,2,3月份提取预测特性A,4月份提取预测特性B,并提取预测target,也要是我销售量

有了特性,这麼 们的target如可么找?

这里一群人 就要从历史数据中构建target.

另4个 比较常用的土办法要是我滑窗。

还另4个 比较重要的每段要是我,负样本的建立。在这里的数据,所有买过的都是否正样本,否则还须要负样本。我这里要是我某些人造了个负样本。按照1:1的比例,对所有数据,随机进行1-2天的前后移动,否则把什么数据里的错误数据删去(错误数据:在某些时间里有过购买行为的为错误的数据)。由此得到负样本。

2,3,4月份提取预测特性A,5月份提取预测特性B,并提取预测的target。

(一群人 之间的连接是按列连接,不须按行连接。也要是我说,不管是哪段时间窗口,我提取到的特性维度一定会一样的,不同的时间窗口,大概要是我增加了我的训练实例(instance))

时间序列预测的核心思想是:用过去时间里的数据预测未来时间里的Target。