认识预测

出自于《礼记·中庸》：“凡事豫则立，不豫则废。言前定则不跲(jiá，绊倒)，事前定则不困，行前定则不疚，道前定则不穷。”豫，亦作“ 预 ”。

写作跟说话做这个动作前，需要定义好框架、多深度思考再加上平常的持续训练，“读书破万卷，下笔如有神”，先要多读多看多记，才能思如泉涌，快速的表达

《零秒思考》中描述的观点：
“随着不断尝试用语言表达自己脑海中的意象和感觉，渐渐就会对此有所适应并逐步成型。”
工作中解决问题，建议这样说：”为了能让双方都到得一个满意的结果，我们会对交付期和费用充分地确认来推进合作。”
“对于转化成语言的犹豫心理也会渐渐消失，写起来也就会更容易了。在不知觉中会变得可以轻松言谈书写，可以在不伤害对方情绪的情况下表达自我。”

本文关键词：预见、预测、机器学习预测

预测的含义

4G网络的到来让人们沟通方式从语音变成图像，从听的见->看得见, 通信速度由64Kb/s(65536字符)上升到1.65Mb/s(1280x*720y*24fps*102(h.264压缩比)*8b)，速度提升了25倍，单位时间交互的信息量指数级上升，未来人类所有的沟通需求（听觉视觉触觉嗅觉以及饥饿饱腹感）将随时随地可以得到满足，突破时空约束。

古代需要看节气或者观天象，告知们有未卜先知的能力，还得有识别庐山真面目的眼力，有了些技能，也能成为一名穿越时空的大玩家，像魔镜一样能看得到未来世界。
随着互联网和移动互联网的发展，通过屏幕可以浏览新闻、购物，信息量非常大，已经需要测量和大的算力才能进行预测。

预测是指人们利用已经掌握的知识和手段，预先推知和判断事物未来发展状况的一种活动
中文“预测”的含义在“英语”情境下则有两种含义：evaluate & forecast

evaluate，“估算”，是从因变量Y发现自变量X，即Y=f(X)，“估算”则是“归因”的逆操作——需要从已知的X来推导未知的Y，即X–>Y; 比如大中小城市推导，比如格子衫、发量少、戴眼镜、男性、程序员这几个特征是高度关联的，知道“格子衫”和“发量少”就能推断出此人职业很可能是“程序员”；
forecast，“预测”，基于“时间序列”来预估未来的数据，比如股票走势、业务发展趋势、交易量预估等等；

传统的预测

通过历史规率，比如小时候在家里的墙壁上写上“元月一日下雪”，在小时候看来每一年到这个时候都会下雪，这叫线性趋势回归法。这种方法在小时候可灵了，但到了长大了发现这个现象消失了，原因形成降雪的原理是雪只会在很冷的温度及温带气旋的影响下才会出现，而雪实际就是水的凝华经过气流下落形成的；最近由于全球气候变暖，导致下雪量降低，所以如今对下雪的预测没有小时候有规律了，从而需要科学的方法进行预测，比如天气预报。

科学的预测

用科学的方法来做预测，有理可循，有据可依。“预”就是预先、事先准备，“测”就是通过数学算法进行度量、推测，从而得到较准确的结果。科学的预测离不开数据，数据离不开预测方法

目前的预测方法大致分为如下类：

定性预测法
主要依赖于人的主观判断。当可供参考的历史数据很少时，采用定性预测方法最合适。

时间序列预测法
运用历史数据对未来进行预测，它尤其适用于每年基本模式变化不大的场景。

因果关系预测法
假定需求预测与某些因素相关，因果关系预测法可以找到这些因素与需求的关联性，通过预测这些外界因素的变化来预测未来。

仿真法模拟模型允许预测人员对预测的条件作一定程度的假设。

科学的预测需经历确定需求—获取数据—分析数据—建立模型—预测未来—支持决策。

不可预测

《三体》

刘慈欣小说《三体》中的三体问题原来就是一个科学难题，三颗恒星的光和热在其行星上孕育了一种高级智慧文明——三体文明。由于三颗恒星运行轨道不稳定，无法计算，三体行星上便出现了两种纪年方法：恒纪元和乱纪元。

当行星围绕着三颗恒星中的某一颗恒星运行时，温度适宜，这便是恒纪元，只有在恒纪元，三体人才能繁衍生息，发展文明；

当行星同时受到三颗恒星的引力作用时，温度可能极冷也可能极热，这便是乱纪元，乱纪元时候，三体智慧生命只能进入休眠状态以保存自己，即便如此，乱纪元也已经让他们的文明百余次毁灭于大火或冰冻中。如果乱纪元的到来能预测准确，则可以减免损害。

在距离地球4光年之外的半人马座上，有一个由三颗恒星和一颗行星所组成的恒星系统。这三颗恒星的质量以及彼此之间的距离基本相等，在互相的引力作用下，它们的运行轨迹几乎不可预测。

《薛定谔的猫》

人（先知）的意念就能预见另外一个人和物的行为以及即将要发生的事情，这种打破了时空限制就可以改变另外一个物体的状态，我想到了薛定谔的猫

一只猫关在装有少量镭和氰化物的密闭容器里。镭的衰变存在几率，如果镭发生衰变，会触发机关打碎装有氰化物的瓶子，猫就会死；如果镭不发生衰变，猫就存活。

根据量子力学理论，由于放射性的镭处于衰变和没有衰变两种状态的叠加，猫就理应处于死猫和活猫的叠加状态。这只既死又活的猫就是所谓的“薛定谔猫”。

“薛定谔的猫”这个思想实验通俗易懂，描述了微观领域中，粒子违反逻辑的行为。但是是不可能存在即死又活的猫，则必须在打开箱子后才知道结果。真像是人类的好奇害死了猫吗?(好奇害死猫真实典故不是出自这里)。甚至，还可以说，就是观测者的意志，决定了猫的死活，决定了结果。

科学的尽头可能最终是玄学，好奇害死猫、打哈欠是有人在想你、心灵感应等现象在特定的环境中可能是真的

我们国家现在研发“墨子号”实现1200km量子通信，安全码率为1.1kbit/s，是相同长度光纤码率的20倍。量子密钥分发使得通话双方保密，量子态的测量会引起波函数塌缩，窃听方式必然会留下具有明显量子测量特征的痕迹，系统一旦检测到会中止双方通信从而达到保密性。
量子：Quantum，一份不可分割的单位能量
量子纠缠，就是一对具有“纠缠态”的微观粒子，它俩处于一个正旋一个逆旋的对称状态。当你观测到其中一个粒子为左旋时，另一个就一定是右旋。

预测方法论

明确问题。
数据选择。
特征工程。将已发现的模式或规律作为基础，进行重构。
模型训练。特征集按一定的比例分割为训练集和测试集。
模型评估。在于及时发现模型的问题
决策。参数优化、调整建模特征

明确问题

从确定预测主题开始，依次进行数据收集、数据分析、分析规律、建立模型、评估效果，发布模型。

1）解决类别问题，分类（Classification）算法
输入变量后输出相应的结果，如类别数据，如垃圾邮件或者非垃圾邮件。

2）解决数值问题，回归( Regression）算法
预测某任意连续变量，如预测即将到来的季度销售量。

3）解决无标签问题，聚类（ Clustering）算法
没有相关的任何输出数据，直接从数据中学习特征，如从分子对接。

数据处理

在16年的一项调查中发现，数据科学家的工作中，有80%的时间都在获取、清洗和组织数据。构造机器学习流水线的时间不到20%。详情如下：

收集预测主题相关数据，周期数据
主要完成步骤：数据导入、格式化，分箱法（为了提高建模效率）

数据分析

对数据关联分析、相关分析、聚类分析、A\B测试、因果分析等

关联分析

针对特定的预测问题，只拥有数据还不够，想要从纷繁复杂的数据关系中挖掘可用于预测的规律或模式，就需要运用恰当的分析方法。

关联：某种事物发生时其他事物也会发生的联系叫做关联。
关联分析（关联挖掘）：在交易数据、关系数据或其他信息载体中挖掘对象集合间的规律或模式的过程。例如购物篮分析。

序列模式挖掘：考虑了事务间的先后顺序。比如：顾客买完床之后，可能过段时间就会买床单。这种挖掘频繁出现的有序事务或序列的过程就是序列模式挖掘。
案例——啤酒与尿布。说，美国一家连锁店发现很多男性会在周四购买尿布和啤酒，这两种看似不相干的商品之间显现出强相关性，于是商家可以将啤酒货架放在尿布货架旁边以增加收益。

聚类分析

对数据分群，它以相似性为基础，想同类中的样本比不同类中的样本更具相似性。
了解多种距离度量方式。

K-Means 算法：随机初始分组，调包KMeans()
系统聚类方法：初始时每个样本单独看成一类

K-Means算法
系统聚类算法
常用的距离公式

欧氏距离
明氏距离
切比雪夫距离
马氏距离
兰氏距离
余弦距离

因果分析

基于事物发展变化的因果关系进行预测的方法，基于可靠的因果关系来做预测，不仅业务侧能够得到合理的解释和验证，技术实现上也能取得更加可靠的结果。

如果变量A的改变能直接影响变更B，则A与B存在因果关系，A是B的原因，B是A的结果

因果之梯
人工智能领域的权威专家朱迪亚·珀尔（也是被称为贝叶斯网络之父）在其《为什么》一书中认为，我们对因果关系的思考会经历三个阶段：思考关联关系，思考干预结果，对事实的反思。三者中，越高的阶段依赖于越低阶段。这个结构被称为因果之梯

如下图所示：

跟墨菲定律区别？刚要洗澡就停水了

潜在的结果模型

因果之梯：关联（出门看见乌云密布，今天的活动会取消吗）- -相关关系、干预（服用了阿司匹林，我的头痛会怎么样）–外在干预来控制结果、反事实（如果你没有杀死他，他还会活着吗）–想象。

因果推断的方法-指从数据中挖掘出因果关系的手段。

潜在结果模型：通过关注行为X的发生是否会导致Y的结果。

因果网络模型：多变量间因果关系研究的重要的形式化方法。

时序因果推断：是基于时间序列对因果关系进行推断的方法，属于潜在结果模型，它需要对反事实数据进行估计，从而做出因果推断。

另一种方法是进行时间序列分析，并试图预测在没有干预的情况下的销售情况。贝叶斯网络预测

特征工程

特征工程（Feature Engineering）是将原始数据转化成更好的表达问题本质的特征的过程，使得将这些特征运用到模型中能提高预测精度。简单讲就是将训练集的特征应用到算法中

有这么一句话在业界广泛流传：对于一个机器学习问题，数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已

选择特征

发现对预测结果有明显影响作用的特征，比如：趋势、季节、周期、随机噪声等特征

趋势特征(Trend)，比如持续的增长或者降低，这种趋势可能是线性也可能是非线性的(比如S型曲线)；
季节特征(Seasonal)，通常是一年时间内的周期波动(可能季度、月度或者周等不同时间颗粒度)，季节变化通常是因为受到人们活动的周期性的影响而出现的。比如：
①人行为上的周期性，e.g.一天的作息、一年4季的购衣需求、不同年龄阶段的行为模式等；
②周期性的社会活动，e.g.节假日、定期行业集会等；
③商业业务的周期性，e.g.唯品会的早10晚8上新、公众号通常在上班前或者下班后发布消息等；
周期特征(Cycle)，不同于季节变化，发展周期的时间跨度更长(通常是两年以上)，而且和事物的生命周期有关(比如产品的生命周期等)；
随机噪声(Reminder，或Residual)，不能归于以上3类的部分被称为不规则剩余(Irregular Remainder)，可以看做是时间序列数据中的随机成分；

选择算法

时间序列分析

时间序列就是按照时间顺序取得的一系列观测值，其本质特征是相邻观察值得依赖性。使用时间序列方法进行预测就是通过编制和分析时间序列，根据时间序列所反映出来的发展过程、方向和趋势，进行类推或延伸，借以预测下一段时间或以后若干年可能达到的水平。

时间序列预测常见方法：

回归模型，对于历史数据进行拟合(可能是线性也可能是非线性)，线性的情况意味着长期的变化趋势基本一致(平稳增长或者平稳下降)，非线性的情况则说明变化的速度不稳定(比如生长曲线)；
ARIMA模型，差分自回归移动平均模型(Autoregressive integrated moving average)，ARIMA由自回归模型、移动平均模型和差分法结合而来；更多参考
Holt Winters’方法，也被称之为季节分解法，将原始时间序列分为level(基线)、trend(变化趋势)、season(季节性波动)3部分；
移动平均法(Moving Average)，通常用于时间序列比较平稳的情况(stationary)；
指数平滑法(Exponential Smoothing)，对于参与预测的时间周期进行加权，可以看做是加权版的移动平均法；

若平稳序列的偏相关函数是截尾的，而自相关函数是拖尾的，可断定序列适合AR模型；
若平稳序列的偏相关函数是拖尾的，而自相关函数是截尾的，则可断定序列适合MA模型；
若平稳序列的偏相关函数和自相关函数均是拖尾的，则序列适合ARMA模型。对序列的平稳性进行识别，分析趋势及其季节性变化规律。一般来讲，经济运行的时间序列都不是平稳序列

ARIMA模型

也称为Box-Jenkins方法，美国学者Box和英国学者Jenkins于20世纪70年代提出的，也称为传统时间序列建模方法，也称为ARIMA模型，线性模型，可以对平稳随机序列和非平稳随机序列进行描述。

门限自回归模型

门限自回归（TAR），1980年H.Tong（汤家豪）提出，该模型能有效描述极限点、极限环、跳跃性、相依性、谐波等复杂现象的非线性时序动态系统，对于非线性、非稳定的时间序列预测，效果较好。

GARCH模型族

1982年，恩格尔提出ARCH模型，即自回归条件异方差模型，后博勒斯莱文发展成为GARCH模型，即广义的自回归条件异方差模型。

线性ARCH 模型
ARCH 模型是特别用来建立条件方差模型并对其进行预测的。

GARCH 模型
广义自回归条件异方差模型，与ARMA模型相类似的结构。

EGARCH 模型
1991年，Nelson提出，即指数GARCH模型。可以更好地判断波动源的持续性，不受平稳性条件的限制。

PowerARCH 模型
1993年，Ding、Granger、Engle提出，将多种ARCH模型和GARCH模型作为其特例，灵活性很强。

向量自回归模型

1980年，Sims最早提出向量自回归模型，简记为VAR，它是目前处理多个相关时序指标分析与预测最容易操作的模型之一。

VAR 模型的基本原理
就是非结构化的多方程模型，核心思想是不考虑经济理论而直接考虑经济变量时间序列之间的关系，避开了结构建模方法中需要对系统中每个内生变量关于所有内生变量滞后值函数建模的问题，通常用来预测相关时间序列系统和研究随机扰动对变量系统的动态影响。

卡尔曼滤波

是一个以最小均方误差为准则的最佳线性估计方法。1960年，美籍匈牙利数学家卡尔曼将状态空间分析方法引入到滤波理论中，对状态和噪声进行了完美的统一描述，得到时域上的递推滤波算法，即卡尔曼滤波，相应的公式被称为卡尔曼滤波器。

卡尔曼滤波是根据上一状态的估计值和当前状态项的观测值推出当前状态的估计值滤波方法，这里的滤波其实是指通过一种算法排除可能的随机干扰以提高检测精度的方法或手段。

循环神经网络

循环神经网络（RNN）是一种非常强大的对序列数据进行建模和预测的神经网络，并且是深度学习领域中非常重要的模型。非常擅长处理时序数据，它可以将神经元某时刻的输出再次作为神经元的输入，由于网络结构中的参数是共享的，这也大大提高了训练的性能，同时使模型可以应用到不同长度的猫数据中。

长短期记忆网络

LSTM 模型的基本原理：输入门、遗忘门、输出门
长短期记忆网络（LSTM）能够让信息长期保存，成功的解决了循环神经网络的缺陷问题（梯度消失和梯度爆炸）。
LSTM 包含一个结构可以用来判断信息的价值，一次来选择遗忘或者记忆，它可以保存一些长期记忆并聚焦一些短期记忆，从而能够有效的根据场景的变化重新学习相关信息，在解决长序依赖问题方面，有着非常重要的价值。

通过模拟鸟群觅食过程中的迁徙和群聚行为而提出的一种基于群体智能的全局随机搜索算法。

回归分析

门限自回归- TAR

适应于周期性波动性，非线性/非稳定性的时序预测

多元回归是指有两个或以上自变量的回归分析，如果处理的是线性问题，则是多元线性回归。
其中用的比较多的是同质学习器。同质学习器按照个体学习器之间是否存在依赖关系可以分为两类：
- 第一个是个体学习器之间存在强依赖关系，一系列个体学习器基本都需要串行生成，代表算法是boosting系列算法；
- 第二个是个体学习器之间不存在强依赖关系，一系列个体学习器可以并行生成，代表算法是bagging和随机森林（Random Forest）系列算法。

复杂回归分析

现实世界中遇到的多数问题甚至出现高纬度、小样本、非线性的复杂的回归问题，这就需要建立针对复杂回归问题的分析体系。

梯度提升回归树（GBRT）

梯度提升回归树是通过合并多个决策树来构建一个更为强大的模型。虽然名字中含有”回归”，但是这个模型既可以用于回归也可以用于分类。与随机森林的方法不同,梯度提升采用连续的方式构造树,每颗树都试图纠正前一棵树的错误.默认情况下,梯度提升回归树中没有随机化,而是用到了强预剪枝。梯度提升树通常使用深度很小(1到5之间)的树,这样模型占用的内存更少,预测速度也更快.

Boosting 方法简介
Boosting（提升）是一种提高任意给定学习算法准确度的方法，它的思想起源于Valiant提出的PAC学习模型。
弱可学习定理：如果一个概念是弱可学习的，则其是强可学习的。

AdaBoost 算法
是一种迭代算法。最基本的性质是它能在学习过程中不断减少训练误差，模型是由基本分类器组成的加法模型，而损失函数是指数函数。

提升回归树算法
提升树（Boosting Tree）算法实际上是指采用加法模型（即以决策树为基函数的线性组合）与前向分步算法的Boosting方法。

梯度提升
该算法是最速下降法的近似方法，其关键是利用损失函数的负梯度产生回归问题提升树算法中残差的近似值，并拟合一棵回归树。

深度神经网络

1987年，Lapedes和Farber首先应用神经网络进行预测。开创了神经网络预测的先河。使用神经网络预测的基本思路为通过收集数据训练网络，使用神经网络算法建立数学模型，并根据模型进行预测。与传统的预测方法相比，神经网络预测不需要预先确定样本数据的数学模型，仅通过学习样本数据即可以进行相当精确的预测，因此具有很多优越性。

2016年，李世石和AlphaGo机器人围棋比赛。

人工神经网络（ANN），是由大量类似于生物神经元的处理单元相互连接而组成的非线性复杂网络系统。起源于生物体的神经系统。
常见的激活函数：Hardlim函数（硬极限函数）、Hardlims函数（对称硬极限函数）、Purelin函数（线性函数）、Sigmoid函数（对称S形函数）、Tanh函数（双曲正切S形函数）、ReLU函数（修正线性单元）。

单层感知机模型，只有一个输入层和一个输出层，没有隐含层。

浅层神经网络
1986年，Rinehart等提出BP神经网络，是一种按误差反向传播算法训练的多层感知机网络。由一个输入层、至少一个隐含层、一个输出层组成。
BP算法的基本思想是，学习过程由信号的正向传播与误差的反向传播两个过程组成。

深层次拟合问题
一般将隐含层次超过3层的神经网络叫做深度神经网络。
随着神经网络层次的加深，理论上神经网络的表达抽象能力也越强。
有时会发生梯度消失或梯度爆炸现象，使用不同的激活函数尝试。

深度神经网络（DNN）

支持向量机回归

用于解决回归问题的支持向量机算法。
支持向量机最初是用来解决模式识别问题的，也可以很好地应用于回归问题，其思路与模式识别十分相似。
常见的核函数：多项式核函数、Gauss径向基核函数、Sigmoid核函数。

LS-SVMR算法：最小二乘支持向量机回归

7.4 高斯过程回归 GPR
有着严格的统计学系理论基础，对处理高维数、小样本、非线性等复杂问题具有很好的适应性，且泛化能力强。

模型训练

直到这一步才用到我们上面说的算法进行训练。现在很多算法都能够封装成黑盒供人使用。但是真正考验水平的是调整这些算法的（超）参数，使得结果变得更加优良。这需要我们对算法的原理有深入的理解。理解越深入，就越能发现问题的症结，提出良好的调优方案。

一个函数或一套规则，抑或是一个库

算法选择。反复尝试的过程。常见的有线性回归、决策树、时间序列、神经网络、随机森林、支持向量机、卡尔曼滤波、高斯回归、小波分析等。

算法	训练方式	描述
线性回归	监督学习	解决回归问题，由2个或者多个变量之间存在“线性关系”，通过历史数据预测未来走势
逻辑回归	监督学习	解决二分类问题，用来表示某件事情发生的可能性
线性判别分析	监督学习	有两个以上的类，则线性判别分析
决策树	监督学习	if-then-else 规则的有监督学习算法，有ID3、C4.5、CART算法
朴素贝叶斯	监督学习	由两种类型的概率组成，可以直接根据您的训练数据计算
K邻近	监督学习	搜索K个最相似的样例(邻居)
学习向量量化	监督学习	是一种人工神经网络算法
支持向量机	监督学习	给定一组训练示例，每个示例标记为属于两个类别中的一个或另一个
随机森林	监督学习	一种由决策树构成的集成算法
AdaBoost	监督学习	许多弱分类器中创建一个强分类器
高斯混合模型	非监督学习	可用于无监督学习中的聚类的数据，其方式与k-means几乎相同，与k-means不同，高斯混合模型考虑方差，并返回数据点属于K个群集中每个群集的概率。
限制波尔兹曼机	非监督学习	是一种可通过输入数据集学习概率分布的随机生成神经网络，RBM包含两个层，可见层（visible layer）和隐藏层
K-means聚类	非监督学习	解决聚类问题的一种经典算法，找出使平方误差函数值最小的 k 个划分
最大期望算法	非监督学习	简称EM算法是一种启发式的迭代算法，用于实现用样本对含有隐变量的模型的参数做极大似然估计
神经网络	非监督学习	神经网络（neural network，缩写NN）,神经网络主要由：输入层，隐藏层，输出层构成
卡尔曼滤波	应用非常广泛	卡尔曼滤波（Kalman filtering）是一种利用线性系统状态方程，通过系统输入输出观测数据，对系统状态进行最优估计的算法，利用卡尔曼增益来修正状态预测值，使其逼近真实值。应用也越来越普遍，如在无人机、机器人等领域均得到了广泛应用。
小波分析	非监督学习	小波直接把傅里叶变换的基给换了——将无限长的三角函数基换成了有限长的会衰减的小波基。这样不仅能够获取频率，还可以定位到时间了~
傅里叶变换	非监督学习	把整个时域过程分解成无数个等长的小过程，每个小过程近似平稳，再傅里叶变换，就知道在哪个时间点上出现了什么频率了。”这就是短时傅里叶变换

评估效果

A\B测试-辛普森悖论

一种方法是使用A/B 测试，通过创建控制组合测试组来度量增益或损失。
辛普森悖论是一个统计学中的名词，大概意思是为了探究两种变量的相关性，某个条件下的两组数据，在分别讨论时都会满足某种性质，可是一旦合并起来进行考虑，却可能导致相反的结论。
避开分析陷阱，分析的数据可能存在局限性，要去多干成功率高的事，你的整体成功率就会变大

篮球	乔丹	詹姆斯
二分球	12192/24537 = 49.7%	12424/24654 = 50.4%
三分球	581/1778 = 32.7%	1860/5409 = 34.4%
总计	12773/26315 = 48.5%	14284/30063 = 47.5%

辛普森悖论：收集的数据可能存在局限性，而潜在的新维度可能会改变已有的结论。例如白血病治疗案例。
为了避免辛普森悖论的出现，就需要斟酌个别分组的权重，以一定的系数去消除以分组资料基数差异所造成的影响
总结下来一句话：如果你多去干成功率高的事，那你整体的成功率就会变大。

预测值和真实值的接近程度。

针对概率性预测（本质是分类问题）的评估方法
针对数值预测的评估方法

参数优化

在使用选定算法进行建模时设定或得到的参数很可能不是最优或接近最优的，这时需要对参数进行优化以得到更优的预测模型。

预测-方法论与探索