PDF文件的主题建模

Karissa · 3月14日

大家好,

我想读几个PDF文件(商业报告)并分析它们。到目前为止，我使用操作符Read documents，因为我还没有找到更好的操作符。
我想对这些文件做一个主题建模，找出相关的主题。预处理由操作符Tokenize、Transform Cases、Filter Stopwords、Filter Tokens by Length和Stem完成。为此，我找到了两个操作符:从文档中提取主题(LDA)和从数据中提取主题(LDA)。不幸的是，两者都不能正常工作。
从文档中提取主题(LDA)需要一个集合作为输入，我不知道如何得到它。
从数据中提取主题(LDA)需要一个文本属性，我又不知道如何得到它。

因此，我有两个问题:
1)是否有一个操作符可以用来读取多个PDF文件?
2)主题建模的最佳操作符是什么?我如何实现它?

我已经创建了下面的进程，它运行，但我只得到空值作为结果。有人能给我点建议吗?

Image: https://us.v-cdn.net/6030995/uploads/editor/c8/v9lmn8rp8nrg.png

非常感谢你的帮助

MartinLiebig · 3月17日

你好,

可能因为某些原因短信是空的?

BR,

马丁

MartinLiebig · 3月15日

嘿,

我认为你应该使用循环文件，在你的文件上循环，然后在里面使用读取文档。您将收到的是一组文档，您可以根据需要对其进行处理。

欢呼,

马丁

Karissa · 3月16日

谢谢你！@MartinLiebig。循环文件操作符起作用了。

这个过程一直运行，但是所有的结果都是0 /null。这可能是什么原因呢?

Image: https://us.v-cdn.net/6030995/uploads/editor/h3/sugllyajr43o.png

非常感谢

Karissa · 3月17日

我已经改变了过程，现在我得到了一个结果。多谢。

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

PDF文件的主题建模

最佳答案

答案