代码之家  ›  专栏  ›  技术社区  ›  Joe Van Dyk

如何将HTML转换为纺织品?

  •  11
  • Joe Van Dyk  · 技术社区  · 16 年前

    我正在抓取一个静态html站点,并将内容移动到一个数据库支持的CMS中。我想在CMS中使用纺织品。

    是否有一个工具把HTML转换成纺织品,这样我就可以把现有的站点刮出来,把HTML转换成纺织品,然后把这些数据插入数据库中?

    5 回复  |  直到 16 年前
        1
  •  1
  •   Saul Fautley    10 年前

    我知道这是个老问题,但前几天我发现自己试着这么做,却没有发现任何有用的东西,直到我发现 Pandoc . 它还可以转换大量的其他标记格式——这非常出色。

        2
  •  0
  •   user48841    16 年前

    这是一个 c# lib converting html 2 textile . 尽管是纺织品加上它们的附加物。不是纯纺织品。

        3
  •  0
  •   cmroanirgo    7 年前

    由于没有javascript实现,我写了一个: https://github.com/cmroanirgo/to-textile

    目前它有点原始,因为它是“降价”等价物的盲区,但应该能完成任务。

        4
  •  -1
  •   Simmant    10 年前

    试试这个简单的java代码,希望它对您有用

    import java.net.*;
    import java.io.*;
    
    class Crawle
    {
    
    public static void main(String ar[])throws Exception
    {
    
    
    URL url = new URL("https://www.google.co.in/#q=i+am+happy");
    InputStream io =  url.openStream();
    BufferedReader br = new BufferedReader(new InputStreamReader(io));
    FileOutputStream fio = new FileOutputStream("crawler/file.txt");
    PrintWriter pr = new PrintWriter(fio,true);
    String data = "";
    while((data=br.readLine())!=null)
    {
    pr.println(data);
    System.out.println(data);
    }
    
    }
    }
    }
    
        5
  •  -2
  •   Osama Al-Maadeed    16 年前

    这是一个简单的标记替换,没有什么好的regex不能修复的。

    我建议使用Perl、LWP::Simple和一些regex来完成整个过程(spidering、剥离设计和菜单、转换为tille,然后发布到数据库)

    推荐文章