PDF文件的主题建模

KarissaKarissa 成员职位:3.学我
大家好,

我想读几个PDF文件(商业报告)并分析它们。到目前为止,我使用操作符Read documents,因为我还没有找到更好的操作符。
我想对这些文件做一个主题建模,找出相关的主题。预处理由操作符Tokenize、Transform Cases、Filter Stopwords、Filter Tokens by Length和Stem完成。为此,我找到了两个操作符:从文档中提取主题(LDA)和从数据中提取主题(LDA)。不幸的是,两者都不能正常工作。
从文档中提取主题(LDA)需要一个集合作为输入,我不知道如何得到它。
从数据中提取主题(LDA)需要一个文本属性,我又不知道如何得到它。

因此,我有两个问题:
1)是否有一个操作符可以用来读取多个PDF文件?
2)主题建模的最佳操作符是什么?我如何实现它?

我已经创建了下面的进程,它运行,但我只得到空值作为结果。有人能给我点建议吗?

非常感谢你的帮助
标记:

最佳答案

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3362年RM数据科学家
    解决方案接受
    你好,
    可能因为某些原因短信是空的?

    BR,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德

答案

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3362年RM数据科学家
    嘿,
    我认为你应该使用循环文件,在你的文件上循环,然后在里面使用读取文档。您将收到的是一组文档,您可以根据需要对其进行处理。

    欢呼,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
    Karissa
  • KarissaKarissa 成员职位:3.学我
    谢谢你!@MartinLiebig。循环文件操作符起作用了。
    这个过程一直运行,但是所有的结果都是0 /null。这可能是什么原因呢?


    非常感谢

  • KarissaKarissa 成员职位:3.学我
    我已经改变了过程,现在我得到了一个结果。多谢。

登录注册置评。