推论统计- R, Python或扩展

michaelglovenmichaelgloven RapidMiner注册分析师、会员职位:46大师
2019年9月编辑 帮助
作为合作伙伴,我希望使用RapidMiner集成相关的推断统计方法,如假设检验、置信区间、卡方等,作为客户端实现的一部分。我看到有一个付费扩展来完成这项工作,但是考虑到这些方法的简单性和管理付费订阅的不必要负担,以便仅在偶尔使用时集成这些方法,是否有一个免费的操作符库可用,或者我只需要利用R或Python并创建自己的操作符库?我们只需要一些偶尔使用的方法,我想知道除了R, Python或付费扩展是否还有其他选择?谢谢!
标记:

最佳答案

  • michaelglovenmichaelgloven RapidMiner注册分析师、会员职位:46大师
    解决方案接受
    我通常计算z检验统计量的方法是,在中心极限定理的约束下,用样本均值(或中位数)-零假设值(我正在测试的值)除以标准误差。对于SE,我通常使用样本标准差/样本的平方根。然后,我将这个结果与临界z值(单尾检验为1.65,显著性水平为5%)进行比较,看看我是否应该拒绝或接受这个假设。数学很简单,我只是在寻找一个简单的操作器来自动化工作,因为测试我们的数据和结果对于我们的特定用例是多么重要。我相信我可以使所有这些工作与您的建议以上。
    Tghadially

答案

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3362年RM数据科学家
    2019年9月编辑
    嗨,迈克尔,

    我刚刚(上周四)添加了一个名为“比较分布”的操作符到SMILE扩展。它提供ks检验,卡方检验,f检验和t检验。这已经有帮助了吗?

    BR,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
    sgenzer Tghadially yyhuang
  • michaelglovenmichaelgloven RapidMiner注册分析师、会员职位:46大师
    太棒了,你还是比我快了好几步。看起来这是可行的,我将查看文档。你能告诉我计算z检验统计量的正确方向吗?
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3362年RM数据科学家
    嗨,迈克尔,

    所以你的想法是从平均值中得到std开发者的数量?我想我们还没有找到。

    但是,在操作员工具箱中的Tukey测试是相当相似的,在我看来是更好的。它的定义是:

    对于每个选定的属性,计算Tukey Test的置信度。这个置信度被定义为当前值到中位数之间的距离,除以上下“Tukey测试边界”到中位数的距离。

    所以我们不用mean和std_dev而是取interquartile range和median。中位数对异常值比平均值更稳健,所以它和许多统计数据的人更喜欢它。

    你能看一下Tukey test吗?我们可能只是写相同的东西,但与mean和std_dev,如果这是你需要的。


    欢呼,

    马丁


    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
    Tghadially
  • CB123CB123 成员职位:2贡献我
    你好,我正试图使用比较分布算子来做T-tes,F-tes和Kolmogorov,但我找不到正在使用的显著性水平,我也不能改变它。
    先谢谢你
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3362年RM数据科学家
    嗨CB123,
    这里可能会出错,但运算符应该会返回统计量和这个统计量的p值。在我的记忆中,没有显著性水平。显著性水平不是只用于拒绝给定p值的假设吗?
    最好的
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
    yyhuang
  • yyhuangyyhuang 管理员,员工,RapidMiner认证分析师,RapidMiner认证专家,成员职位:363RM数据科学家
    @CB123

    在KS检验中,KS统计量,p值将返回Dr Martin上面提到的。你们在实践中通常使用的显著水平是什么?

    常见的alpha值(显著水平)0.05和0.01只是基于传统。

    当P值小于或等于显著性水平时,拒绝原假设。如果我们从统计检验中取P值并将其与共同显著性水平进行比较。例如,P值0.03112在alpha水平为0.05时具有统计学显著性,但在0.01水平上则不具有统计学显著性。

    键糟http://haifengl.github.io/api/java/smile/stat/hypothesis/KSTest.html

    希望能有所帮助。

    YY
    MartinLiebig
  • CB123CB123 成员职位:2贡献我
    非常感谢您的回答!
    我的问题是我试图自动化T检验和F检验的步骤,我需要的不仅仅是p值,比如统计量T和F,还有临界区域。
    有什么方法来计算列使用分布F和T像在excel?

    谢谢你!
登录注册置评。