改行記号を残しながら、スクレイピングしたかったんや。

04/10/2020

この記事で書くこと

こうする

dom_soup = BeautifulSoup(etree.tostring(text_dom).decode('utf-8').replace('<br/>', '\n'), "html.parser")
_text = dom_soup.text

1 2	dom_soup = BeautifulSoup(etree.tostring(text_dom).decode('utf-8').replace('<br/>', '\n'), "html.parser") _text = dom_soup.text

テキスト獲得後の用途に依存することが大きいですけど、でも「ある」が回答。

自然言語処理では、「段落」が大きな意味を持ってることが多いです（もちろんそうでないことある）

例えば談話解析では、段落がひとつのトピックを形成してると考えるので、段落を１単位として考えることも多いです（深層学習より前の時代はそうだった。いまは知らない）

じゃあ、HTMLで段落ってどうやって表現されるかというと、よく見るパターンは以下の３パターンかな、と。

「モダンな」サイトだと<div>と<p>で「構造的に」コーディングされてることが多いですけど、古い時代のサイトは<br/>で段落を表現しちゃうこともあります。

これはぼくが無知だったこと。BeautifulsoupでHTML解析すると、<br>って「削除」になってしまうんですよね。

そして、これが標準仕様。

つまり、気が付かないうちに<br>が削除されてしまう。

じゃあ、どうすればいいか？という、こうする！

dom_soup = BeautifulSoup(etree.tostring(text_dom).decode('utf-8').replace('<br/>', '\n'), "html.parser")
_text = dom_soup.text

1 2	dom_soup = BeautifulSoup(etree.tostring(text_dom).decode('utf-8').replace('<br/>', '\n'), "html.parser") _text = dom_soup.text

Beautifulsoupに解析かける前に<br/>をすべて \n に置換してしまう。これなら削除されることもない。

雑だけど、「てっとり早いスクレイピング」にはこれで十分。

おしまい。