代码之家  ›  专栏  ›  技术社区  ›  Mislav

当rvest不识别Submit按钮时提交POST表单

  •  12
  • Mislav  · 技术社区  · 6 年前

    http://www1.biznet.hr/HgkWeb/do/extlogon

    我必须输入一个名为“OIB”的参数,然后单击“Trazi”提交表单。

    这是我的代码:

    library(httr)
    library(rvest)
    
    sess <- html_session("http://www1.biznet.hr/HgkWeb/do/extlogon")
    search_page <- sess %>%
      follow_link(1)
    form <- html_form(search_page)[[6]]
    fill_form <- set_values(form, 'clanica.cla_oib' = '94989605030')
    firma_i <- submit_form(search_page, fill_form, submit = 'submit')
    

    错误:未知的提交名称“submit”。可能值: clanica.astextdataumgasenjato,clanica.astextdr_id公司

    我不明白为什么rvest在这两个参数不包含submit name或type时将其识别为submit按钮。为什么rvest不将submit按钮Trazi识别为submit参数?简而言之,如何更改填写的表格以执行表格?

    1 回复  |  直到 6 年前
        1
  •  7
  •   GGamba    6 年前

    问题是有些输入没有 type 属性,和 rvest 不正确检查此项。

    为了说明这个问题:

    library(httr)
    library(rvest)
    #> Loading required package: xml2
    
    sess <- html_session("http://www1.biznet.hr/HgkWeb/do/extlogon")
    search_page <- sess %>%
      follow_link(1)
    #> Navigating to /HgkWeb/do/extlogon;jsessionid=88295900F3F932C85A25BB18F326BE28
    form <- html_form(search_page)[[6]]
    fill_form <- set_values(form, 'clanica.cla_oib' = '94989605030')
    

    有些领域没有 类型 属性:

    sapply(fill_form$fields, function(x) '['(x, 'type'))
    #> $clanica.limitSearchToActiveCompany.type
    #> [1] "radio"
    #> 
    #> $clanica.limitSearchToActiveCompany.type
    #> [1] "radio"
    #> 
    #> $joinBy.useInnerJoin.type
    #> [1] "checkbox"
    #> 
    #> $nazivTvrtke.type
    #> [1] "text"
    #> 
    #> $nazivZapocinjeSaPredanomVrijednoscu.type
    #> [1] "checkbox"
    #> 
    #> $clanica.cla_jmbp.type
    #> [1] "text"
    #> 
    #> $clanica.cla_mbs.type
    #> [1] "text"
    #> 
    #> $clanica.cla_oib.type
    #> [1] "text"
    #> 
    #> $asTextKomoraId.NA
    #> NULL
    #> 
    #> $clanica.asTextOpc_id.NA
    #> NULL
    #> 
    #> $clanica.cla_opcina.type
    #> [1] "hidden"
    #> 
    #> $clanica.asTextNas_id.NA
    #> NULL
    #> 
    #> $clanica.cla_naselje.type
    #> [1] "hidden"
    #> 
    #> $clanica.pos_id.NA
    #> NULL
    #> 
    #> $clanica.postaNaziv.type
    #> [1] "hidden"
    #> 
    #> $clanica.cla_ulica.type
    #> [1] "text"
    #> 
    #> $clanica.asTextDatumUpisaFrom.type
    #> [1] "text"
    #> 
    #> $clanica.asTextDatumUpisaTo.type
    #> [1] "text"
    #> 
    #> $clanica.asTextDatumGasenjaFrom.type
    #> [1] "text"
    #> 
    #> $clanica.asTextDatumGasenjaTo.type
    #> [1] "text"
    #> 
    #> $clanica.asTextUdr_id.NA
    #> NULL
    #> 
    #> $clanica.asTextVel_id.NA
    #> NULL
    #> 
    #> $nkd2007.type
    #> [1] "text"
    #> 
    #> $nkd2007PretrazivanjePoGlavnojDjelatnosti.type
    #> [1] "radio"
    #> 
    #> $nkd2007PretrazivanjePoGlavnojDjelatnosti.type
    #> [1] "radio"
    #> 
    #> $submit.type
    #> [1] "submit"
    #> 
    #> $org.apache.struts.taglib.html.CANCEL.type
    #> [1] "submit"
    #> 
    #> $orderBy.order1.NA
    #> NULL
    #> 
    #> $orderBy.order2.NA
    #> NULL
    #> 
    #> $limit.type
    #> [1] "text"
    #> 
    #> $searchForRowCount.type
    #> [1] "checkbox"
    #> 
    #> $joinBy.gfiGodina.NA
    #> NULL
    #> 
    #> $joinBy.gfiBrojZaposlenihFrom.type
    #> [1] "text"
    #> 
    #> $joinBy.gfiBrojZaposlenihTo.type
    #> [1] "text"
    #> 
    #> $joinBy.gfiUkupniPrihodFrom.type
    #> [1] "text"
    #> 
    #> $joinBy.gfiUkupniPrihodTo.type
    #> [1] "text"
    

    submit_request 尤其是 Filter() 在里面。


    here ,并在中建议修复 this PR

    公共关系中的修复基本上检查 类型

      # form.R, row 280
      is_submit <- function(x) 'type' %in% names(x) &&
                               tolower(x$type) %in% c("submit", "image", "button")
    

    快速修复 NULL 属性,随机类型:

    fill_form$fields <- lapply(fill_form$fields, function(x) {
      null_type = is.null(x$type)
      if (null_type) x$type = 'text'
      x
    })
    
    
    firma_i <- submit_form(search_page, fill_form, submit = 'submit')
    firma_i
    #> <session> http://www1.biznet.hr/HgkWeb/do/fullSearchPost
    #>   Status: 200
    #>   Type:   text/html;charset=UTF-8
    #>   Size:   4366
    

    于2018年8月27日由 reprex package