代码之家 › 专栏 › 技术社区 › Peter Mortensen icecrime

是否存在用于酶切的正则表达式?

bioinformatics perl regex

Peter Mortensen icecrime · 技术社区 · 15 年前

tryptic protein 序列?胰蛋白酶的切割规则是:在R或K之后,而不是在P之前。

例子:

VGTKCCTKPESERMPCTEDYLSLILNR 结果应该是这3个序列( peptide s) :

 VGTK
 CCTKPESER
 MPCTEDYLSLILNR

  my $seq = 'VGTRCCTKPESERMPCTEDYLSLILNR';
  my @peptides = split /someRegularExpression/, $seq;

我已经使用了这种方法(切割标记=,首先插入序列中,如果P紧跟在切割生成器之后,则再次删除):

  my $seq      = 'VGTRCCTKPESERMPCTEDYLSLILNR';
  $seq         =~ s/([RK])/$1=/g; #Main cut rule.
  $seq         =~ s/=P/P/g;       #The exception.
  my @peptides = split( /=/, $seq);

但这需要修改一个字符串,该字符串可能非常长,并且可能有数百万个序列。有没有一种方法可以将正则表达式与split一起使用?如果是,正则表达式是什么?

测试平台:Windows XP 64位。ActivePerl 64位。来自perl-v:v5.10.0,它是为MSWin32-x64多线程构建的。

4 回复 | 直到 15 年前

Gabriel Reid 15 年前

您确实需要结合使用积极的向后看和消极的向前看。正确的(Perl)语法如下所示:

my @peptides = split(/(?!P)(?<=[RK])/, $seq);

Gumbo 15 年前

look-around assertions 排除这种情况。像这样的方法应该会奏效:

split(/(?<=[RK](?!P))/, $seq)

Anon. 15 年前

您可以使用lookaheads和lookbehinds来匹配这些内容,同时仍然获得正确的位置。

/(?<=[RK])(?!P)/

应该

Peter Mortensen icecrime 15 年前

在Python中,可以使用 finditer

推荐文章

Alex Nesta · R熔化数据帧秩

7 年前

Gloom · 使用python在单个BLAST文件中查找最佳交互命中

7 年前

kkcheng · 使用递归的生成器对象

7 年前

F.Lira · SeqIO公司。解析python:features表期间过早结束

7 年前

Filip Najbr · 在python中,如何从某个角度“降低”图形

7 年前

Pramod · 使用JQ创建嵌套的Json对象

7 年前

user1993 · 在MATLAB中创建火山图时出错

7 年前

roblanf · 在直方图的y轴上绘制变量和

7 年前

Jin Tao · 如何对fasta文件中包含特定基序的完整序列进行Grep?

7 年前

DrJessop · 使用Try/Except和循环进行DNA基序计数-Python3

7 年前