我在尝试从网站HTML表中获取SOM数据时遇到了一些困难。我要检索的标签没有ID或类,所以如果你们能帮助我:
这是表格的外观(代码被剪切为不占用此文章中的大量空间)
以下内容:
<table class="table table-striped table-large1">
<thead>
<tr class="small">
<th>No</th>
<th>Date/Time</th>
<th colspan="7">Indexed pages /<br>
Processed / Skipped / Fetched /<br>
Change (Added / Removed)</th>
<th>Proc.time</th>
<th>Bandwidth</th>
<th>Broken links</th>
<th>Images</th>
<th>Videos</th>
<th>RSS</th>
<th>News</th>
</tr>
</thead>
<tbody><tr class="block1">
<td>1</td>
<td><a href="site/3845806/chlog/?log=8950501" title="View details">2018-06-20 01:13</a></td>
<td>944</td>
<td>969</td>
<td><i><strike>25</strike></i></td>
<td>920</td>
<td><i style="color:#900">â-2</i></td>
<td><i>-</i></td>
<td><i>-2</i></td>
<td>0:12:44s</td>
<td>28.82M</td>
<td>3</td>
<td>580</td>
<td>4</td>
<td>8</td>
<td>0</td>
</tr>
<tr class="block1">
<td>2</td>
<td><a href="site/3845806/chlog/?log=8934464" title="View details">2018-06-17 01:14</a></td>
<td>946</td>
<td>968</td>
<td><i><strike>22</strike></i></td>
<td>919</td>
<td></td>
<td><i>+2</i></td>
<td><i>-2</i></td>
<td>0:14:05s</td>
<td>28.89M</td>
<td>0</td>
<td>580</td>
<td>4</td>
<td>8</td>
<td>0</td>
</tr>
(........)
我要刮的是这两条线:
<td><a href="site/3845806/chlog/?log=8950501" title="View details">2018-06-20 01:13</a></td>
<td>944</td>
这些都在索引2中,如何获取所有这些值?