中文文本挖掘问题- HanMiner

YoGVAYoGVA 成员职位:2新手
2019年12月编辑 帮助
大家好!

我是新来的,但我的情况是这样的。
我需要对大量的中文报告进行定性的内容分析。然而,快速矿工需要一个扩展来捕捉汉字-我发现一个名为汉矿工张贴的另一个成员。

我按照说明安装扩展通过Github;但扩展不显示在RapidMiner…

有解决这个问题的办法吗?或者另一个是用文本挖掘中文文档?

任何帮助将非常感激!
溜溜球
JEdward

最佳答案

  • jwpfaujwpfau 员工,成员职位:241RM工程
    5月25日编辑 解决方案接受
    你好,

    第三方HenMiner扩展没有选项来定义导入文件的编码,作为一个解决方案,你可以使用宏:

    <?xml version="1.0" encoding="UTF-8"?><进程版本="10.1.002">      <参数key="logverbosity" value="init"/> <参数key="random_seed" value="2001"/> <参数key="send_mail" value="never"/> <参数key="notification_email" value="" "/> <参数key="encoding" value="UTF-8"/>     https://us.v-cdn.net/6030995/uploads/editor/sf/nq6mm23abhpa.txt                                         

    问候,
    乔纳斯

答案

  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理
    @YoGVA很抱歉这里没有人插话。这仍然是个问题吗?

    斯科特
  • YoGVAYoGVA 成员职位:2新手
    你好,斯科特,

    是的,它是。

    我试图安装以下,但没有成功到目前为止。
    https:// github.com/joeyhaohao/rapidminer-Hanminer
    当我尝试安装扩展时,在步骤4中没有发生任何事情。

    我也在努力寻找其他选择,但这比我想象的要难……

    任何帮助都会很棒,干杯!
    溜溜球
  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理
    @YoGVA嗯,以前从没见过那个回购!

    我要抄送给我的好朋友兼同事@yyhuang谁会比我知道的更多。

    斯科特

    yyhuang
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3368年RM数据科学家
    @YoGVA
    这里是github版本的编译版本,你可以解压缩并复制到。rapidminer /扩展名。这是可行的,但是我还没有测试过操作符。

    最好的
    马丁

    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
    yyhuang BingleWu JEdward
  • yyhuangyyhuang 管理员,员工,RapidMiner认证分析师,RapidMiner认证专家,成员职位:363RM数据科学家
    2020年1月编辑
    感谢分享编译后的扩展。博士@mschmitz
    手动安装后,将解压缩的。jar文件插入到我的本地扩展名文件夹c:\ users \ y\。RapidMiner\extensions并重新启动,一切正常。嗨@YoGVA你可以按照这里的说明去做https://community.m.turtlecreekpls.com/discussion/31996/install-extensions-manually-for-rapidminer-studio


    六个新的操作符添加到新的扩展文件夹“文本矿工”

    对新闻数据进行快速测试似乎是合理的。





    < pre类= " CodeBlock " > <代码><?xml version="1.0" encoding="UTF-8"?><进程版本="9.5.001"> <参数key="logverbosity" value="init"/> <参数key="random_seed" value="2001"/> <参数key="send_mail" value="never"/> <参数key="notification_email" value="(电子邮件保护)" / > <参数键= " process_duration_for_mail " value = " 1 " / > <参数键=“编码”值= "系统" / > <过程扩展= " true " > <运营商激活= " true " class = "兼容性text_miner: read_text”=“1.0.000”扩大= " true "高度= " 68 " name =“阅读文本”宽度= " 90 " x = " 112 " y =“34”> <参数键=“编码”值= "系统" / > <参数键=“文本”值= " & # 10;这是默认的文本& # 10,每年到了这个时候,市场经济学家都会发布对未来的12个月的详细宏观预测。令我自己都讶异的是,我正在为进行这项困难尝试的第五个十年画上句号,到目前为止离完美的成功预测还差得很远。经济以及市场的重大动荡可不会整整齐齐地把自己挤进一个自然年。

    sgenzer JEdward
  • ruhailaruhaila 成员职位:48大师
    嗨。

    如果我应该提出一个新问题,我很抱歉。我的问题与最新版本的Hanminer v.1.0.3有关。我注意到READ TEXT操作符现在被命名为READ DOCUMENT。

    我的问题是,当我从文件导入使用此操作符,中国字符成为身份不明的符号。






    我尝试了几种方法:
    1.我尝试使用列出的不同编码,并在我的windows pc中安装了中文字符,但没有区别。





    2.我导入数据集作为示例集,并使用DATA TO DOCUMENTS操作符,如下所示。然而,我收到了一个错误。




    3.我尝试将DATA TO DOCUMENTS操作符连接到READ DOCUMENT操作符,但这会导致错误的输入/输出连接。



    也许,@yyhuang能帮你弄明白。非常感谢。

    谢谢你。

  • jwpfaujwpfau 员工,成员职位:241RM工程
    你好,

    你试过改变吗编码utf - 8 ?

    问候,
    乔纳斯
  • ruhailaruhaila 成员职位:48大师
    嗨,乔纳斯,

    是的,我看过了,但是还是没有。
  • ruhailaruhaila 成员职位:48大师
    谢谢你乔纳斯。这很有效。这里没有考虑到宏。:)
登录注册置评。