##故事
多元回归树建立在自举训练样本之上,每次在树中考虑**时,都会从预测变量总数中随机选择一个预测变量样本。
熵是衡量决策树中**不纯度的指标。它决定了决策树如何选择对数据进行分区。熵值范围从0到1。值0表示纯**,值1表示不纯**。在上面的决策树中,回想一下树在极端温度时停止**:
CART和C4.5支持数据特征为连续分布时的处理,主要通过使用二元切分来处理连续型变量,即求一个特定的值-**值:特征值大于**值就走左子树,或者就走右子树。这个**值的选取的原则是使得划分后的子树中的“混乱程度”降低,具体到C4.5和CART算法则有不同的定义方式。
B*tree:B+树节点满时就会**,而B*树节点满时会检查兄弟节点是否满(因为每个节点都有指向兄弟的指针),如果兄弟节点未满则向兄弟节点转移关键字,如果兄弟节点已满,则从当前节点和兄弟节点各拿出1/3的数据创建一个新的节点出来;
计算之前所有树预测结果与当前目标的残差与梯度通过每个样本的梯度,在每个树节点进行**的时候,使用某个合适的特征某个位置将样本划为两部分,令损失增益L(梯度)最小。对每个叶子节点,使用落在他们上的数据梯度的均值进行更新。在到达指定深度或样本不可再分后结束**。得到一颗树