代码之家 › 专栏 › 技术社区 › AI52487963

从分隔字段计算子字符串的出现次数

google-bigquery sql

AI52487963 · 技术社区 · 6 年前

我有一些数据看起来像:

Sequence, length
abc, 1
bat, 1
abc > abc, 2
abc > bat, 2
ced > ced > ced > fan, 4

我试图将各种字符串的频率视为此数据的一个新列。例如:

Sequence, length, count_of_ced
abc, 1, 0
bat, 1, 0
abc > abc, 2, 0
abc > bat, 2, 0
ced > ced > ced > fan, 4, 3

length - array_length(split(replace(Sequence, "ced", ""), " > " )) as count_of_ced

然而,该线的所有结果均为0。

这是正确的方法吗?我已经用“>”和“>”上的字符串拆分测试了这两种方法,但两种方法都得到了0。我翻阅了一些Google Bigquery文档,但没有找到预构建的子字符串\ u count()函数或任何东西。

2 回复 | 直到 6 年前

Gordon Linoff 6 年前

有一种行之有效的字符串长度方法:

select (length(replace(sequence, 'ced', 'ced+')) - length(sequence)) as num_ced

或者,您可以使用阵列:

select array_length(regexp_extract_all(sequence, 'ced'))

Mikhail Berlyant 6 年前

SELECT ARRAY_LENGTH(SPLIT(Sequence, 'ced')) - 1

您可以使用问题中的虚拟数据进行测试,如下所示

#standardSQL
WITH `project.dataset.table` AS (
  SELECT 'abc' Sequence, 1 length UNION ALL
  SELECT 'bat', 1 UNION ALL
  SELECT 'abc > abc', 2 UNION ALL
  SELECT 'abc > bat', 2 UNION ALL
  SELECT 'ced > ced > ced > fan', 4 
)
SELECT Sequence, length, 
  ARRAY_LENGTH(SPLIT(Sequence, 'ced')) - 1 AS count_of_ced
FROM `project.dataset.table`

结果是

Row Sequence                length  count_of_ced     
1   abc                     1       0    
2   bat                     1       0    
3   abc > abc               2       0    
4   abc > bat               2       0    
5   ced > ced > ced > fan   4       3

推荐文章

Hal · 如何在bigquery中从长数据创建列表?

2 年前

Danne Paredes · 如何:对于每个唯一id,对于每个唯一版本,获取最佳分数并将其组织到一个表中

2 年前

Justin · 从字符串中提取日期的大查询

2 年前

Evans Gunawan · 如何使用sql bigquery中的前一列值将数据重塑为新列?

2 年前

Fernando Gomes · 这是本月的第一周。一周从周一开始,周日结束

3 年前

Bill LaLonde · 此错误意味着什么:从位置0开始的行中缺少列索引8所需的列值

3 年前

vinay lokwani · 在大查询中的嵌套字段中插入用于输入数据的语句

3 年前

anat · 在BigQuery中的特定字符串后查找n个字符

3 年前

SaravanaKumar Prithiviraj · 如何在bigquery资源中检测权限删除

3 年前

Anil · 在Google Big\u查询中显示每月的第一天

6 年前