阅读Excel表格与300+ url和获取页面信息

Naveen_VimalanNaveen_Vimalan 成员职位:3.新手
我想在我的Excel表中获得url的响应代码,响应消息,内容类型等信息。我使用-阅读Excel ->存储->处理异常(获取页面)->存储-作为我的流程链。由于某种原因,我只得到URL作为我的结果,而不是我想要的所有信息。希望有人能帮忙。

以下是守则:
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文
<过程扩展= " true " >
<列出关键= "注释" / >
<列出关键= " data_set_meta_data_information " >
< / >列表
< /操作符>
< /操作符>
<过程扩展= " true " >
< /操作符>
> < /过程
<过程扩展= " true " >
> < /过程
< /操作符>
< /操作符>
> < /过程
< /操作符>
> < /过程

最佳答案

答案

  • ceaperezceaperez 成员职位:424独角兽
    2021年4月编辑
    @Naveen_Vimalan

    请阅读这篇关于网页操作员的有趣帖子

    网络连接与Get页-运营商- RapidMiner社区

    我附上了一个简单的过程来处理,请尝试一下,

    最好的


  • yyhuangyyhuang 管理员,员工,RapidMiner认证分析师,RapidMiner认证专家,成员职位:363RM数据科学家
    2021年4月编辑
    @Naveen_Vimalan

    你发布的流程是坏的。你能附加excel文件或过程文件(.rmp)吗?我已经建立了一些网络抓取和网络挖掘过程,以获得评论确实,yelp, G2等。附件是用于存储HTML网页的第一步。

    HTH !
    YY

    见鬼
  • Naveen_VimalanNaveen_Vimalan 成员职位:3.新手
    @yyhuang
    我在下面附上了excel和。rmp文件。我还添加了一张我想用300多个url实现的结果的图片,而不是只有4个结果,如截图所示。

    最好的问候,
    纳文
  • yyhuangyyhuang 管理员,员工,RapidMiner认证分析师,RapidMiner认证专家,成员职位:363RM数据科学家
    您能导入我共享的流程吗?@Naveen_Vimalan

    一般来说,get page比“get pages”更有效。
  • Naveen_VimalanNaveen_Vimalan 成员职位:3.新手
    好的,谢谢你的回答,但是可以使用Operator Read Excel吗?或者在你发给我的过程中,我应该把Excel文件放在哪里?
登录注册置评。