从网页获取文本出现问题

User70525User70525 成员职位:2贡献我
你好,

我有一个Excel文件与330+链接到网页。我需要从所有的网页提取文本做集群任务。
我无法用通常的过程实现这一点:

获取页面>>数据到文档>>循环集合>提取内容>>文档到数据。

问题是,操作符只能提取(对于所有页面)与我们直接在浏览器中使用“查看页面源”获得的相同的内容。我得到的是一个空Text属性。

我只测试了一个链接(https://dre.pt/dre/detalhe/despacho/3219 - 2020 - 130112149)使用操作符Get Page。这是我在提取的文档中得到的:

< !DOCTYPE html >
< html >
< >头
< script type = ' text / javascript ' >窗口。OutSystemsApp = {basePath: '/dre/'};

<脚本type = " text / javascript”>
(function () {
函数appendMetaTagAttributes(metaTag,属性,值){
Var元素=文档。querySelector("meta[name=" + metaTag + "]");

If (elem) {
var attrContent = eem . getattribute(属性);
初步的。setAttribute(attribute), (attrContent) ?attrContent + ",": ") + values.join(","));
}
}

if (navigator && /OutSystemsApp/i.test(navigator. useragent)) {
//如果这个应用程序在本机shell上运行,我们想要禁用缩放
appendMetaTagAttributes("viewport", "content", ["user-scalable=no", "minimum-scale=1.0"]);
}
})(); > < /脚本