从Excel数据中删除带有“@”和表情符号的提及

Anna_May1Anna_May1 成员职位:14学我
2020年11月编辑 帮助
你好,RapidMiner社区,

我目前正在研究一个监督情绪分析。我在情感分析方面取得了成功,但我对它使用的数据并不满意。

作为数据准备的一部分,我想删除提及(即“@”后面的名称),并且我尝试了一些建议。我目前生成的流程和测试数据都上传到这里。

我正在使用“替换”操作符,但遗憾的是,按照这个过程,结果仍然包含一些提及。这些提及仍然存在,因为a)它们是一行中的第二个提及,或者b)它们提到的不是一行的开头。

你们有人对此有什么意见吗?

总的来说,我想要达到的目标是:
-删除任何以“@”开头的单词(不是整行)。
删除空行
删除重复的
-删除表情符号(现在,在这个过程中,我结束了问号而不是表情符号作为输出,所以我宁愿立即删除表情符号)

感谢任何建议!

安娜可能

答案

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3368年RM数据科学家
    @Anna_May1
    一个好!我需要在谷歌上搜索一下正确的正则表达式。附带的进程应该可以解决这个问题。

    最好的
    马丁
    <?xml version="1.0" encoding="UTF-8"?> <过程version = " 9.8.000”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文







    <过程扩展= " true " >







    <列出关键= "注释" / >




    <列出关键= " data_set_meta_data_information " >

    < / >列表



    < /操作符>













    <参数键=“replace_what”值= " [^ \ x00 - \ x7F] " / >
    替换所有非ascii字母
    < /操作符>













    @ /比;
    替换@<; /描述>
    < /操作符>






    > < /过程
    < /操作符>
    > < /过程



    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
    Anna_May1
  • Anna_May1Anna_May1 成员职位:14学我
    @mschmitz

    感谢您的快速回复:).我试过你的代码,它确实删除了表情符号,但没有删除任何提及。所以所有的提及仍然在那里,即使是那些在一行开始的,之前被删除的。

    你能解释一下为什么会这样吗?

    欢呼,

    安娜可能

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3368年RM数据科学家
    @Anna_May1
    对不起,是我的错。我以为你只想换掉@-symbol而不是带名字的@。附件是正确的

    最好的
    马丁


    <?xml version="1.0" encoding="UTF-8"?> <过程version = " 9.8.000”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文







    <过程扩展= " true " >







    <列出关键= "注释" / >




    <列出关键= " data_set_meta_data_information " >

    < / >列表



    < /操作符>













    <参数键=“replace_what”值= " [^ \ x00 - \ x7F] " / >
    替换所有非ascii字母
    < /操作符>













    @ (\ w +)“/比;
    替换@<; /描述>
    < /操作符>






    > < /过程
    < /操作符>
    > < /过程



    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
    Anna_May1
  • Anna_May1Anna_May1 成员职位:14学我
    @mschmitz

    再次感谢您的时间!我不知道为什么,但这仍然不适合我。您介意以另一种形式分享您的流程吗?

    欢呼,

    安娜可能
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3368年RM数据科学家
    @Anna_May1
    你说得对。xml有问题,让我们试试rmp。
    最好的
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
    Telcontar120
  • Nicole_SamsonNicole_Samson 成员职位:1新手
    嗨,我也在同样的问题上工作,我如何使用这个解决方案?它是一个宏还是别的什么?蒂雅
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3368年RM数据科学家
    你好,
    你可以下载这个进程并使用File-> load process将其加载到你的RapidMiner中。

    最好的
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
登录注册置评。