PDF文件的主题建模
大家好,
我想对这些文件做一个主题建模,找出相关的主题。预处理由操作符Tokenize、Transform Cases、Filter Stopwords、Filter Tokens by Length和Stem完成。为此,我找到了两个操作符:从文档中提取主题(LDA)和从数据中提取主题(LDA)。不幸的是,两者都不能正常工作。
从文档中提取主题(LDA)需要一个集合作为输入,我不知道如何得到它。
从数据中提取主题(LDA)需要一个文本属性,我又不知道如何得到它。
因此,我有两个问题:
1)是否有一个操作符可以用来读取多个PDF文件?
2)主题建模的最佳操作符是什么?我如何实现它?
我已经创建了下面的进程,它运行,但我只得到空值作为结果。有人能给我点建议吗?

非常感谢你的帮助
标记:
0
最佳答案
-
MartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3362年
RM数据科学家
你好,可能因为某些原因短信是空的?
BR,马丁
- RapidMin乐鱼平台进入er数据科学服务主管
德国多特蒙德0
答案
德国多特蒙德