代码之家  ›  专栏  ›  技术社区  ›  Ali Hawk Rong

在Rapidminer中的excel文件中查找单词

  •  1
  • Ali Hawk Rong  · 技术社区  · 5 年前

    我有一个进程,它读取一个文本文件,并有一个操作符 从数据处理文档 接线员 标记化 操作人员

    它工作正常,但当我改变了电源 从数据处理文档 要读取Excel,输出为空。我认为我有错误和错误 阅读Excel 操作员无法连接到 从数据处理文档 必须直接读取Excel文件的每一列,然后连接到 .

    任何人都可以帮助我如何连接Excel文件 ?

    PS:我的目标是读取excel文件并在excel文件的列中显示重复超过3次的单词。

    示例文件是: enter image description here

    1 回复  |  直到 5 年前
        1
  •  2
  •   Christian König    5 年前

    由于您没有包括您的流程或输入数据,我可以简单地建议一个完全没有文档的替代方案吗?

    阅读Excel 总数的 过滤示例 :

    使用 将列提取为具有单个属性的示例集(例如。 总数的 这个 属性与 计数 功能和分组方式 (这将为您提供所需的每个单词的计数)并最终使用 过滤示例 仅保留计数为3或更多的单词。

    <?xml version="1.0" encoding="UTF-8"?><process version="9.0.003">
      <context>
        <input/>
        <output/>
        <macros/>
      </context>
      <operator activated="true" class="process" compatibility="9.0.003" expanded="true" name="Process">
        <process expanded="true">
          <operator activated="true" class="read_excel" compatibility="9.0.003" expanded="true" height="68" name="Read Excel" width="90" x="45" y="34">
            <parameter key="excel_file" value="D:\words.xlsx"/>
            <parameter key="imported_cell_range" value="A1:A100"/>
            <list key="annotations"/>
            <parameter key="date_format" value="MMM d, yyyy h:mm:ss a z"/>
            <list key="data_set_meta_data_information">
              <parameter key="0" value="words.true.polynominal.attribute"/>
            </list>
            <parameter key="read_not_matching_values_as_missings" value="false"/>
          </operator>
          <operator activated="true" class="aggregate" compatibility="9.0.003" expanded="true" height="82" name="Aggregate" width="90" x="179" y="34">
            <list key="aggregation_attributes">
              <parameter key="words" value="count"/>
            </list>
            <parameter key="group_by_attributes" value="words"/>
          </operator>
          <operator activated="true" class="filter_examples" compatibility="9.0.003" expanded="true" height="103" name="Filter Examples" width="90" x="313" y="34">
            <list key="filters_list">
              <parameter key="filters_entry_key" value="count(words).ge.3"/>
            </list>
          </operator>
          <connect from_op="Read Excel" from_port="output" to_op="Aggregate" to_port="example set input"/>
          <connect from_op="Aggregate" from_port="example set output" to_op="Filter Examples" to_port="example set input"/>
          <connect from_op="Filter Examples" from_port="example set output" to_port="result 1"/>
          <portSpacing port="source_input 1" spacing="0"/>
          <portSpacing port="sink_result 1" spacing="0"/>
          <portSpacing port="sink_result 2" spacing="0"/>
          <portSpacing port="sink_result 3" spacing="0"/>
        </process>
      </operator>
    </process>
    
    推荐文章