代码之家 › 专栏 › 技术社区 › Naveed

PHP中的正则表达式:如何在HTML中为表创建模式

preg-match-all php

Naveed · 技术社区 · 15 年前

我正在使用最新的PHP。我想解析HTML页面以获取数据。

HTML:

<table class="margin15" style="margin-left: 0pt; margin-right: 0pt;" width="100%" align="left" border="0" cellpadding="0" cellspacing="0">
TRs, TDs, Data
</table>

<table class="margin15" style="margin-left: 0pt; margin-right: 0pt;" width="100%" align="left" border="0" cellpadding="0" cellspacing="0">
TRs, TDs, Data
</table>

<table class="margin15" style="margin-left: 0pt; margin-right: 0pt;" width="100%" align="left" border="0" cellpadding="0" cellspacing="0">
TRs, TDs, Data
</table>

<table class="margin15" style="margin-left: 0pt; margin-right: 0pt;" width="100%" align="left" border="0" cellpadding="0" cellspacing="0">
TRs, TDs, Data
</table>

PHP代码:

<?php

$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.test.com/mypage.html');  
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$result = curl_exec($ch);


$pattern = '/<table class="margin15" style="margin-left: 0pt; margin-right: 0pt;" width="100%" align="left" border="1" cellpadding="0" cellspacing="0">[^~]</table>/';
preg_match_all($pattern, $result, $matches);
print_r($matches);

?>

我拿不到所有的桌子。当我使用简单 $pattern='/table/'; ,它给了我确切的结果。如何创建一个模式以在一个数组位置获取整个表?

4 回复 | 直到 15 年前

Yacoby 15 年前

使用regex解析HTML最多是一种痛苦,因为HTML不是常规的,我建议您使用 Simple HTML DOM .

Community CDub 8 年前

You can't parse [X]HTML with regex ,但您可以尝试:

$pattern = '#<table(?:.*?)>(.*?)</table>#';

如果有嵌套表,这将不起作用。

Community CDub 8 年前

请看一下 this answer . 它描述了在PHP中HTML解析器的用法,这是您想要做的。

AntonioCS 15 年前

或者只使用PHP提供的DOM类。我认为它可以和简单的HTML DOM做同样的事情,但是速度要快得多(不要误解我,我真的很喜欢简单的HTML DOM,但是对于有几十行的文件来说,它很慢)

推荐文章

Anoop Mayampilly Muraleedharan · 正则表达式,用于获取具有或不具有id属性的标记之间的字符串

7 年前

Omotayo · PHP用正则表达式匹配新行中的所有字符

7 年前

user1512593 · PHP正则表达式多个实例

7 年前

hifi01 · preg\u match\u all:更改字符串$match

7 年前

user5629061 · preg\u match\u所有项目名称和说明

8 年前

user1788736 · 如何使用preg_match all获取<source src='…'的值?

9 年前

user1788736 · 从字符串中删除所有#EXTM3U

9 年前

davidmarko · PHP::Cleaner preg_match_all结果

10 年前

TrooPhalce · 如何使用PHP preg_match_all来区分由内部HTML元素的属性标识的锚元素?

11 年前

eevaa · 使用preg_match_all查找每个单词

11 年前