BeautifulSoup

Python 「Beautiful Soup」 で HTML / XML を解析 インストールと整形して表示

html, xmlファイルの要素を取得して加工して保存し直したり、グラフを作成するなどの単純作業を自動化し、業務効率を改善を狙える。

インストール

pip install beautifulsoup4

シンプルなサンプル, htmlの読み込みと整形して表示

from bs4 import BeautifulSoup

doc = ['<html><head><title>Test Page</title></head><body>',
       '<div class="main"><p>hello, world!!</p></div>',
       '<div class="sub"><p>sub text</p></div>',
       '</body></html>']
soup = BeautifulSoup(''.join(doc), "html.parser")
print (soup.prettify())

実行結果

<html>
 <head>
  <title>
   Test Page
  </title>
 </head>
 <body>
  <div class="main">
   <p>
    hello, world!!
   </p>
  </div>
  <div class="sub">
   <p>
    sub text
   </p>
  </div>
 </body>
</html>