阅读Excel表格与300+ url和获取页面信息
新手
在帮助
我想在我的Excel表中获得url的响应代码,响应消息,内容类型等信息。我使用-阅读Excel ->存储->处理异常(获取页面)->存储-作为我的流程链。由于某种原因,我只得到URL作为我的结果,而不是我想要的所有信息。希望有人能帮忙。
以下是守则:
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文
<过程扩展= " true " >
<列出关键= "注释" / >
<列出关键= " data_set_meta_data_information " >
< / >列表
< /操作符>
< /操作符>
<过程扩展= " true " >
< /操作符>
> < /过程
<过程扩展= " true " >
> < /过程
< /操作符>
< /操作符>
> < /过程
< /操作符>
> < /过程
0
最佳答案
-
yyhuang
管理员,员工,RapidMiner认证分析师,RapidMiner认证专家,成员职位:363
RM数据科学家
嗨@Naveen_Vimalan,
我用你的excel作为URL链接的输入,得到了325个结果和8个错误(见附件截图的错误消息)。错误主要来自包含regex的坏URL链接(为什么是regex?)
处理与循环和Get页附上供您参考。
欢呼,
YY6


答案
请阅读这篇关于网页操作员的有趣帖子
网络连接与Get页-运营商- RapidMiner社区
我附上了一个简单的过程来处理,请尝试一下,
最好的
你发布的流程是坏的。你能附加excel文件或过程文件(.rmp)吗?我已经建立了一些网络抓取和网络挖掘过程,以获得评论确实,yelp, G2等。附件是用于存储HTML网页的第一步。
HTH !
YY
我在下面附上了excel和。rmp文件。我还添加了一张我想用300多个url实现的结果的图片,而不是只有4个结果,如截图所示。
最好的问候,
纳文
一般来说,get page比“get pages”更有效。