推论统计- R, Python或扩展

michaelgloven · 2019年9月

作为合作伙伴，我希望使用RapidMiner集成相关的推断统计方法，如假设检验、置信区间、卡方等，作为客户端实现的一部分。我看到有一个付费扩展来完成这项工作，但是考虑到这些方法的简单性和管理付费订阅的不必要负担，以便仅在偶尔使用时集成这些方法，是否有一个免费的操作符库可用，或者我只需要利用R或Python并创建自己的操作符库?我们只需要一些偶尔使用的方法，我想知道除了R, Python或付费扩展是否还有其他选择?谢谢!

michaelgloven · 2019年9月

我通常计算z检验统计量的方法是，在中心极限定理的约束下，用样本均值(或中位数)-零假设值(我正在测试的值)除以标准误差。对于SE，我通常使用样本标准差/样本的平方根。然后，我将这个结果与临界z值(单尾检验为1.65，显著性水平为5%)进行比较，看看我是否应该拒绝或接受这个假设。数学很简单，我只是在寻找一个简单的操作器来自动化工作，因为测试我们的数据和结果对于我们的特定用例是多么重要。我相信我可以使所有这些工作与您的建议以上。

MartinLiebig · 2019年9月

嗨,迈克尔,

我刚刚(上周四)添加了一个名为“比较分布”的操作符到SMILE扩展。它提供ks检验，卡方检验，f检验和t检验。这已经有帮助了吗?

BR,

马丁

michaelgloven · 2019年9月

太棒了，你还是比我快了好几步。看起来这是可行的，我将查看文档。你能告诉我计算z检验统计量的正确方向吗?

MartinLiebig · 2019年9月

嗨,迈克尔,

所以你的想法是从平均值中得到std开发者的数量?我想我们还没有找到。

但是，在操作员工具箱中的Tukey测试是相当相似的，在我看来是更好的。它的定义是:

对于每个选定的属性，计算Tukey Test的置信度。这个置信度被定义为当前值到中位数之间的距离，除以上下“Tukey测试边界”到中位数的距离。

所以我们不用mean和std_dev而是取interquartile range和median。中位数对异常值比平均值更稳健，所以它和许多统计数据的人更喜欢它。

你能看一下Tukey test吗?我们可能只是写相同的东西，但与mean和std_dev，如果这是你需要的。

欢呼,

马丁

CB123 · 2020年10月

你好，我正试图使用比较分布算子来做T-tes,F-tes和Kolmogorov，但我找不到正在使用的显著性水平，我也不能改变它。
先谢谢你

MartinLiebig · 2020年10月

嗨CB123,

这里可能会出错，但运算符应该会返回统计量和这个统计量的p值。在我的记忆中，没有显著性水平。显著性水平不是只用于拒绝给定p值的假设吗?

最好的

马丁

yyhuang · 2020年10月

嗨@CB123，

在KS检验中，KS统计量，p值将返回Dr Martin上面提到的。你们在实践中通常使用的显著水平是什么?

常见的alpha值(显著水平)0.05和0.01只是基于传统。

当P值小于或等于显著性水平时，拒绝原假设。如果我们从统计检验中取P值并将其与共同显著性水平进行比较。例如，P值0.03112在alpha水平为0.05时具有统计学显著性，但在0.01水平上则不具有统计学显著性。

键糟http://haifengl.github.io/api/java/smile/stat/hypothesis/KSTest.html

希望能有所帮助。

YY

CB123 · 2020年10月

非常感谢您的回答!
我的问题是我试图自动化T检验和F检验的步骤，我需要的不仅仅是p值，比如统计量T和F，还有临界区域。
有什么方法来计算列使用分布F和T像在excel?

谢谢你！

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

推论统计- R, Python或扩展

最佳答案

答案