处理连续值的决策树
traindata.txt为训练数据集,testdata.txt为测试数据集,数据有4个特征,一共有3个label。
采用ID3算法,即在每次需要分裂时,计算每个属性的增益率,然后选择增益率最大的属性进行分裂。 对于特征属性为连续值,可以如此使用ID3算法:先将D中元素按照特征属性排序,则每两个相邻元素的中间点可以看做潜在分裂点, 从第一个潜在分裂点开始,分裂D并计算两个集合的期望信息,具有最小期望信息的点称为这个属性的最佳分裂点,其信息期望作为此属性的信息期望。
生成决策树: decisiontree.py
绘制决策树: treePlotter.py