自动模型和过拟合

dgarrarddgarrard RapidMiner认证分析师职位:4贡献我
2019年6月编辑 帮助

我一直在尝试自动预测模型,我对它的概念和结果都很满意。

在Auto Model过程中,采样设置为80/20。这是否足以控制潜在的过拟合?我得到的性能范围从朴素贝叶斯的60%准确率到GBT的87%准确率。每个数据集只有不到1000行数据和20个属性。GBT正在种植大约20棵树。(我可能会使用100个数据集和每个数据集的专用模型进行操作)

标记:
sgenzer

答案

  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理

    你好@dgarrard-我认为它总是谨慎的警惕过拟合,无论它是使用自动模型或使用“正常”的RapidMiner方法。我们都知道,有些模型(如神经网络)容易过度拟合,应该谨慎使用,尤其是在小数据集上。

    我个人的观点是,80/20分割被广泛使用,一般来说,这是一个合理的分割比例,如果与交叉验证等方法一起使用,应该足以避免过度拟合(这是Auto Model的默认值)。

    最后,不管使用什么工具,我总是对结果持怀疑态度,直到我真正检查它们,看看我的“适合”如何看待未见过的数据。

    希望这对你有所帮助。


    斯科特

  • dgarrarddgarrard RapidMiner认证分析师职位:4贡献我

    谢谢你的快速回复,斯科特。我会试着在接下来的几周内完成一些测试,而我的Auto-Model试验仍然可用!

    大卫

    sgenzer
  • tkaisertkaiser 成员职位:8贡献我

    你好,这很有帮助,谢谢你。但我确实有一个后续问题…在结果视图中,自动模型显示的是测试集准确性还是训练集准确性?因为我在汽车模型中对4500行具有15个特征的数据运行GBT,获得了90%的“准确率”和84%的f-measure,但是当我将该模型应用于新的未见过的数据(实际上我故意从训练和交叉验证过程中保留)时,准确率下降到50%以下。所以我不确定我是否错误地运行了验证过程,或者可能没有理解CV的结果告诉我什么——因为我期望汽车模型产生一个反映模型未来表现的准确率。谢谢。

  • IngoRMIngoRM 管理员、版主、员工、RapidMiner认证分析师、RapidMiner认证专家、社区经理、RMResearcher、会员、大学教授职位:1751年RM创始人

    你好,

    抱歉耽搁了,我错过了这个。它当然显示了测试误差。如果你读了上面链接的我的正确验证作品,你会发现我们从一开始就不会关心训练错误;-)

    这种下降可能是由训练集和验证集之间数据分布的(显著)变化引起的。或者,我个人认为更有可能的情况是,由于数量很大,您可能没有在验证集上应用完全相同的数据准备。更多关于这在另一个线程在这里:

    https://community.m.turtlecreekpls.com/t5/RapidMiner-Auto-Model-Turbo-Prep/Is-auto-model-showing-test-or-train-error/m-p/50902/highlight/false#M117

    希望这能帮到你,

    Ingo

登录注册置评。