代码之家  ›  专栏  ›  技术社区  ›  Xhynk

用绝对URL替换所有相对URL

  •  4
  • Xhynk  · 技术社区  · 6 年前

    我看到了一些答案(比如 this one ),但我有一些更复杂的场景,我不知道如何解释。

    我基本上有完整的HTML文档。我需要更换 每一个 相对URL与绝对URL。

    潜在HTML中的元素如下所示,也可能是其他情况:

    <img src="/relative/url/img.jpg" />
    <form action="/">
    <form action="/contact-us/">
    <a href='/relative/url/'>Note the Single Quote</a>
    <img src="//example.com/protocol-relative-img.jpg" />
    

    预期输出为:

    // "//example.com/" is ideal, but "http(s)://example.com/" are acceptable
    
    <img src="//example.com/relative/url/img.jpg" />
    <form action="//example.com/">
    <form action="//example.com/contact-us/">
    <a href='//example.com/relative/url/'>Note the Single Quote</a>
    <img src="//example.com/protocol-relative-img.jpg" /> <!-- Unmodified -->
    

    我不想替换协议相关URL,因为它们已经作为绝对URL发挥作用。我已经想出了一些有效的代码,但我想知道我是否可以清理一下,因为 极其 重复的

    但我必须考虑单引号和双引号属性值 src , href action (我是否缺少任何可以具有相对URL的属性?)同时避免协议相关URL。

    以下是我目前掌握的情况:

    // Make URL replacement protocol relative to not break insecure/secure links
    $url = str_replace( array( 'http://', 'https://' ), '//', $url );
    
    // Temporarily Modify Protocol-Relative URLS
    $str = str_replace( 'src="//', 'src="::TEMP_REPLACE::', $str );
    $str = str_replace( "src='//", "src='::TEMP_REPLACE::", $str );
    $str = str_replace( 'href="//', 'href="::TEMP_REPLACE::', $str );
    $str = str_replace( "href='//", "href='::TEMP_REPLACE::", $str );
    $str = str_replace( 'action="//', 'action="::TEMP_REPLACE::', $str );
    $str = str_replace( "action='//", "action='::TEMP_REPLACE::", $str );
    
    // Replace all other Relative URLS
    $str = str_replace( 'src="/', 'src="'. $url .'/', $str );
    $str = str_replace( "src='/", "src='". $url ."/", $str );
    $str = str_replace( 'href="/', 'href="'. $url .'/', $str );
    $str = str_replace( "href='/", "href='". $url ."/", $str );
    $str = str_replace( 'action="/', 'action="'. $url .'/', $str );
    $str = str_replace( "action='/", "action='". $url ."/", $str );
    
    // Change Protocol Relative URLs back
    $str = str_replace( 'src="::TEMP_REPLACE::', 'src="//', $str );
    $str = str_replace( "src='::TEMP_REPLACE::", "src='//", $str );
    $str = str_replace( 'href="::TEMP_REPLACE::', 'href="//', $str );
    $str = str_replace( "href='::TEMP_REPLACE::", "href='//", $str );
    $str = str_replace( 'action="::TEMP_REPLACE::', 'action="//', $str );
    $str = str_replace( "action='::TEMP_REPLACE::", "action='//", $str );
    

    我是说,这很有效,但是 UuUught ,我想可能有更好的方法。

    2 回复  |  直到 6 年前
        1
  •  7
  •   mickmackusa    3 年前

    新答案

    如果您真正的html文档是有效的(并且有一个父/包含标记),那么最合适和可靠的技术将是使用适当的DOM解析器。

    下面是如何使用DOMDocument和Xpath优雅地定位和替换指定的标记属性:

    Demo )

    $domain = '//example.com';
    $tagsAndAttributes = [
        'img' => 'src',
        'form' => 'action',
        'a' => 'href'
    ];
    
    $dom = new DOMDocument; 
    $dom->loadHTML($html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);
    $xpath = new DOMXPath($dom);
    foreach ($tagsAndAttributes as $tag => $attr) {
        foreach ($xpath->query("//{$tag}[not(starts-with(@{$attr}, '//'))]") as $node) {
            $node->setAttribute($attr, $domain . $node->getAttribute($attr));
        }
    }
    echo $dom->saveHTML();
    

    代码2-带条件块的单个Xpath查询:( Demo )

    $domain = '//example.com';
    $targets = [
        "//img[not(starts-with(@src, '//'))]",
        "//form[not(starts-with(@action, '//'))]",
        "//a[not(starts-with(@href, '//'))]"
    ];
    
    $dom = new DOMDocument; 
    $dom->loadHTML($html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);
    $xpath = new DOMXPath($dom);
    foreach ($xpath->query(implode('|', $targets)) as $node) {
        if ($src = $node->getAttribute('src')) {
            $node->setAttribute('src', $domain . $src);
        } elseif ($action = $node->getAttribute('action')) {
            $node->setAttribute('action', $domain . $action);
        } else {
            $node->setAttribute('href', $domain . $node->getAttribute('href'));
        }
    }
    echo $dom->saveHTML();
    

    旧答案:(…regex没有“DOM感知”,容易受到意外破坏)

    如果我正确地理解了您,那么您心里有一个基本值,您只想将其应用于相对路径。

    Pattern Demo

    代码:( Demo )

    $html=<<<HTML
    <img src="/relative/url/img.jpg" />
    <form action="/">
    <a href='/relative/url/'>Note the Single Quote</a>
    <img src="//site.com/protocol-relative-img.jpg" />
    HTML;
    
    $base='https://example.com';
    
    echo preg_replace('~(?:src|action|href)=[\'"]\K/(?!/)[^\'"]*~',"$base$0",$html);
    

    输出:

    <img src="https://example.com/relative/url/img.jpg" />
    <form action="https://example.com/">
    <a href='https://example.com/relative/url/'>Note the Single Quote</a>
    <img src="//site.com/protocol-relative-img.jpg" />
    

    模式分解:

    ~                      #Pattern delimiter
    (?:src|action|href)    #Match: src or action or href
    =                      #Match equal sign
    [\'"]                  #Match single or double quote
    \K                     #Restart fullstring match (discard previously matched characters
    /                      #Match slash
    (?!/)                  #Negative lookahead (zero-length assertion): must not be a slash immediately after first matched slash
    [^\'"]*                #Match zero or more non-single/double quote characters
    ~                      #Pattern delimiter
    
        2
  •  6
  •   Xhynk    6 年前

    我认为 <base> 元素就是你要找的。。。

    https://developer.mozilla.org/en-US/docs/Web/HTML/Element/base

    这个 <基本(>); 是一个空元素,该元素位于 <head> . 使用 <base href="https://example.com/path/" /> 将告诉文档中的所有相关URL以供参考 https://example.com/path/ 而不是父URL