後読みの正規表現をはじめて使った

05/14/2020

要するにやりたかったこと

text = '((A)この括弧(1回目))と((B)この括弧(2回目))は((C)別の括弧(3回目))'

1	text = '((A)この括弧(1回目))と((B)この括弧(2回目))は((C)別の括弧(3回目))'

っていう文字列を、こういう風に分解したい。

['((A)この括弧(1回目))', '((B)この括弧(2回目))', '((C)別の括弧(3回目))']

1	['((A)この括弧(1回目))', '((B)この括弧(2回目))', '((C)別の括弧(3回目))']

この正規表現を書く

re.findall(r'\(.+?(?<!A|B|C)(?<!\d回目)\)', text)

1	re.findall(r'\(.+?(?<!A\|B\|C)(?<!\d回目)\)', text)

例外の文字列を定義したい時に使う。例外の文字を定義するだけなら、^メタ文字で例外定義できる。

でも、２文字以上の文字列は後よみ（先読み）の例外定義が必要。

今回は ( ) の中に囲まれた文字列を獲得したいので、対象が文字列になる。

したがって、後読み（先読み）の正規表現が必要。

この記事かこの記事をみると良いと思う。

(?&lt;!A|B|C) と(?&lt;!\d回目)が<span style="color: #ff0000" class="text-color">後よみの否定</span>である。

1	(?<!A\|B\|C) と(?<!\d回目)が<span style="color: #ff0000" class="text-color">後よみの否定</span>である。

まず(?<!A|B|C)。この否定が存在しないと、A or B or C直後の ) で正規表現のマッチがはじめってしまう。

次に(?<!\d回目)。この否定が存在しないと、１つ目の ) で正規表現のマッチが終わってしまう。
※ 別解的に ) の出現回数を定義しても、解決できる。

いままで後読みと先読みを使ったことがなかった。

正規表現と後処理で、むりやりに解決していた。

でも、今回のように後読みと先読みでスッキリ解決?

まだ、コメントがありません