html, xmlファイルの要素を取得して加工して保存し直したり、グラフを作成するなどの単純作業を自動化し、業務効率を改善を狙える。
インストール
pip install beautifulsoup4
シンプルなサンプル, htmlの読み込みと整形して表示
from bs4 import BeautifulSoup
doc = ['<html><head><title>Test Page</title></head><body>',
'<div class="main"><p>hello, world!!</p></div>',
'<div class="sub"><p>sub text</p></div>',
'</body></html>']
soup = BeautifulSoup(''.join(doc), "html.parser")
print (soup.prettify())
実行結果
<html>
<head>
<title>
Test Page
</title>
</head>
<body>
<div class="main">
<p>
hello, world!!
</p>
</div>
<div class="sub">
<p>
sub text
</p>
</div>
</body>
</html>