具有多个类的不平衡数据集中的平衡类

Liza123Liza123 成员职位:1新手
1月17日编辑 帮助
你好,

我是这个平台的新手,我正在努力平衡课程。
当我为我的二进制数据集创建一个模型时,我可以使用样本操作符或SMOTE上采样操作符来平衡我的类。
当我运行具有三个(或更多)类的模型时,样本或SMOTE上采样不会使我的类平衡。
当我有多门课的时候,你们有什么建议来平衡我的课吗?

提前谢谢你。

标记:

答案

  • MNNikiforosMNNikiforos 成员职位:6因素二世
    你好@Liza123

    当我试图用2个以上的类来平衡数据时,我也遇到了类似的问题。根据问题/数据集,我尝试了3种通常有效的方法。

    1. 将少数类定义为具有最少示例的类,并将所有其他类分解为一个类,从而使其成为一个两类问题。
    2. 在auto_detect_minority_class被激活的次数与类的数量相同的情况下使用SMOTE upsampling操作符,并且每次都使用新的数据集作为输入。最后,除了大多数类之外,将为每个类创建综合示例。
    3. 通过将balance_data参数设置为true来使用Sample操作符,然后定义每个类的样本大小。在这种情况下,您可以对大多数类进行欠采样。

    我通常使用2和3的组合,首先对大多数类进行欠采样,然后根据需要应用SMOTE。

    我希望你能找到适合你的东西!

    致以最亲切的问候
登录注册置评。