使用pdf文件名作为属性
大家好
我想在RM中使用pdf文件做一些简单的文本挖掘,但我现在有点卡住了。
我使用循环文件和进程文档操作符创建了一个进程,用于读取几个pdf文件。
因为我有很多文件要分析,我也想比较,所以我想创建一个包含文件名的属性来跟踪所有内容。
我启用了宏,并尝试通过生成一个新属性来包含文件名。
这个问题生成的属性只包含我上传的最后一个文件的文件名,而不包含相应文档的名称。如何确保属性值是文档各自的文件名?
或者是否有一种方法可以将metadata_file作为属性包含?
我包括了我的进程和我想读的前5个文件。
我真的很感激每一个帮助,谢谢你已经提前!

我想在RM中使用pdf文件做一些简单的文本挖掘,但我现在有点卡住了。
我使用循环文件和进程文档操作符创建了一个进程,用于读取几个pdf文件。
因为我有很多文件要分析,我也想比较,所以我想创建一个包含文件名的属性来跟踪所有内容。
我启用了宏,并尝试通过生成一个新属性来包含文件名。
这个问题生成的属性只包含我上传的最后一个文件的文件名,而不包含相应文档的名称。如何确保属性值是文档各自的文件名?
或者是否有一种方法可以将metadata_file作为属性包含?
我包括了我的进程和我想读的前5个文件。
我真的很感激每一个帮助,谢谢你已经提前!
0
最佳答案
-
jwpfau 员工,成员职位:229
RM工程
答案
你就不能把多余的元数据属性扔掉吗
选择属性
类型排除属性
属性过滤类型:子集
Select子集:选择不需要的元数据字段
问候,
乔纳斯
谢谢你的回答!
我不确定您究竟是什么意思,因为元数据属性没有显示在选择属性操作符中。
有没有办法把元数据变成“真实的”数据?
问候
Veronika
非常感谢,现在它工作了!
问候
Veronika