阅读Excel表格与300+ url和获取页面信息

Naveen_Vimalan · 2021年4月

我想在我的Excel表中获得url的响应代码，响应消息，内容类型等信息。我使用-阅读Excel ->存储->处理异常(获取页面)->存储-作为我的流程链。由于某种原因，我只得到URL作为我的结果，而不是我想要的所有信息。希望有人能帮忙。

以下是守则:

> <上下文

<输入/ >

<输出/ >

<宏/ >

> < /上下文

<过程扩展= " true " >

<列出关键= "注释" / >

<列出关键= " data_set_meta_data_information " >

< / >列表

< /操作符>

<过程扩展= " true " >

< /操作符>

> < /过程

<过程扩展= " true " >

> < /过程

< /操作符>

> < /过程

< /操作符>

> < /过程

yyhuang · 2021年4月

嗨@Naveen_Vimalan，

我用你的excel作为URL链接的输入，得到了325个结果和8个错误(见附件截图的错误消息)。错误主要来自包含regex的坏URL链接(为什么是regex?)

处理与循环和Get页附上供您参考。

欢呼,
YY

ceaperez · 2021年4月

嗨@Naveen_Vimalan，

请阅读这篇关于网页操作员的有趣帖子

网络连接与Get页-运营商- RapidMiner社区

我附上了一个简单的过程来处理，请尝试一下，

最好的

yyhuang · 2021年4月

嗨@Naveen_Vimalan，

你发布的流程是坏的。你能附加excel文件或过程文件(.rmp)吗?我已经建立了一些网络抓取和网络挖掘过程，以获得评论确实，yelp, G2等。附件是用于存储HTML网页的第一步。

HTH !
YY

Naveen_Vimalan · 2021年4月

嗨@yyhuang，
我在下面附上了excel和。rmp文件。我还添加了一张我想用300多个url实现的结果的图片，而不是只有4个结果，如截图所示。

最好的问候,
纳文

yyhuang · 2021年4月

您能导入我共享的流程吗?@Naveen_Vimalan

一般来说，get page比“get pages”更有效。

Naveen_Vimalan · 2021年4月

好的，谢谢你的回答，但是可以使用Operator Read Excel吗?或者在你发给我的过程中，我应该把Excel文件放在哪里?

快速链接