类别:机器学习
新的学习算法不包括在RapidMiner核心。
文件、发现和分析中的证据(EDDA)。这项工作由美国国家医学图书馆、美国国立卫生研究院批准。R00LM010943。PI Tanja Bekhuis。开发者Kevin Mitchell和Eugene Tseytlin。EDDA团队在GNU Affero通用公共许可证下提供的所有软件。
该扩展包括一组操作符,用于从分类和回归问题的训练集中选择信息。这些操作符用于实例选择(示例集选择)、实例构造(创建表示一组其他实例的新示例)、聚类、LVQ神经网络、降维等。这些算子可用于异常值消除和训练集压缩。
Keras扩展允许使用Keras,一个用于深度学习的高级Python库,利用Tensorflow, Microsoft Cognitive Toolkit (CNTK)或Theano作为计算后端。
生活方式营销允许基于原始交易和问卷调查/影响数据进行财务结果预测,与对照组/平均值进行比较。它自动生成所有关键字和值的行为和人口统计特征,包括RFM,并构建最具经济效益的(给定统计置信度)预测模型。在一台普通PC上分析数百万条观测数据需要几分钟到几个小时。免费版本在Windows上运行,限制为100K观测值。
这是一个基于MDL(最小描述长度)扩展实现的项目。MDL原理可以应用于获得数据集的更短的描述,使用它的规律来参考适当的压缩。因此,最好的描述被视为对数据集压缩最好的描述。MDL扩展目前包括一个用于实现KRIMP算法的运算符,该运算符可用于修剪一组频繁模式。
MonkeyLearn是一个人工智能平台,允许公司使用机器学习轻松分析文本。像Clearbit、Segment和Drift这样的客户正在使用MonkeyLearn将电子邮件、支持票、客户反馈和文档转化为可操作的数据。
WhiBo是一个设计和评估白盒的框架。基于组件的决策树算法及其组成部分。它旨在供数据挖掘从业者、研究人员和算法开发人员使用,但也用于决策树算法的教学。扩展的官方网页是www.whibo.fon.bg.ac.rs。
Word2Vec是一种流行的算法,基于:向量空间中单词表示的有效估计,Mikolov等人(2013)。在单个语料库上训练,算法将为每个单词生成一个多维向量。已知这些向量具有赛门铁克含义。常用的距离度量是余弦相似度。这个实现是基于word2vec端口的:https://github.com/allenai/Word2VecJava
