如何比较和匹配2个数据相似的excel ?

Jayanthan12Jayanthan12 成员职位:3.新手
我有两个优等生。两者都有公司名称和国家数据。但公司名称相似,并不相同。因此,使用国家数据(这是相同的),我必须匹配公司名称并在一个excel文件中显示最终匹配的数据。我还附上了两个excel中的数据示例。我用颜色标记了它们,这样它们就可以被理解为相似的公司名称(Cat INC = Cat LLP)。我创建了一个使用像replace这样的操作符的模型(有很多手工工作,比如输入可替换的值)。此外,实际数据文件由其中的1000行组成。因此,如果有人可以建议一个模型类型,可以比较和匹配2个文件之间的数据,这将是有帮助的。













答案

  • kaymankayman 成员职位:662独角兽
    您可以将此连接操作符与set - 1结合使用。首先你链接excel文件,这样你就得到了两个数据集,你给你的名字ID角色,内部连接这两个数据集,因为这些将是常见的,并使用减号操作符将它与原始集链接起来。然后,这将告诉您丢失了什么(或在这种情况下不同)。
    BalazsBarany
  • yyhuangyyhuang 管理员,员工,RapidMiner认证分析师,RapidMiner认证专家,成员职位:363RM数据科学家
    @Jayanthan12

    您是否安装了工具箱扩展来尝试新的“模糊匹配”操作符?它将使用流行的Levenshtein距离或任何其他变化距离度量来合并两个表,并进行模糊匹配。它将根据您的需要显示多个候选匹配项。
    您可以在模糊匹配之后应用过滤器,以确保县名完全相同。

    示例流程如下
    < ?xml version="1.0" encoding="UTF-8"?><进程版本="9.8.001">      <参数key="logverbosity" value="init"/> <参数key="random_seed" value="2001"/> <参数key="send_mail" value="never"/> <参数key="notification_email" value="(电子邮件保护)"/> <参数键="process_duration_for_mail" value="1"/> <参数键="encoding" value="SYSTEM"/> <操作符激活="true" class="utility:create_exampleset" compatibility="9.8.001" expanded="true" height="68" name="Create ExampleSet" width="90" x="45" y="85"> <参数键="generator_type" value="100"/> <参数键="number_of_examples" value="100"/> <参数键="use_stepsize" value="false"/> <列表键="function_descriptions"/> <参数键="SYSTEM"/> <进程键="encoding" value="SYSTEM"/> <操作符激活="true"> class="utility:create_exampleset" compatibility="9.8.001" height="68" name="Create ExampleSet" width="90" x="45" y="85"                           。"/>        使用Levenshtein比率或任何变量定义两个名称模糊匹配的相似性度量                   




    欢呼,
    YY
    BalazsBarany
  • Jayanthan12Jayanthan12 成员职位:3.新手
    我想澄清一下我的疑问。

    我有两个优等生。都有公司名称和国家名称。但公司名称相似,并不相同。我必须匹配公司名称(即使名称中的一个单词是匹配的,例如:猫公司猫LLP)并将最终匹配的数据显示在一个excel文件中,如下(3)所示。我还附上了两个excel(1&2)的数据示例。我用颜色标记了它们,这样它们就可以被理解为相似的公司名称(Cat INC = Cat LLP)。此外,实际数据文件由其中的1000行组成。因此,如果有人可以建议一个模型类型,可以比较和匹配2个文件之间的数据,这将是有帮助的。







  • yyhuangyyhuang 管理员,员工,RapidMiner认证分析师,RapidMiner认证专家,成员职位:363RM数据科学家
    模糊匹配和滤波可以用来模糊连接这两个输入表
    你可以从“读取Excel”中加载数据并尝试一下


    输出是这样的



    HTH !

    YY
登录注册置评。