pythonでスクレイピング
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
[[今さらPython]]
Pythonでもやりたいよね。~
とりあえずハローワールドしてみよう。
* 簡易サンプルコード [#z14460f8]
#!/usr/bin/env python
from bs4 import BeautifulSoup
import urllib.request
url = 'https://www.kantei.go.jp/'
req = urllib.request.Request(url)
with urllib.request.urlopen(req) as res:
body = res.read()
soup = BeautifulSoup(body.decode('utf-8'), "html.pars...
print(soup.select("h1"))
print(soup.select("title"))
for x in soup.select("p"):
print(x)
採取したものはリストで来るみたいね。
* 実行結果 [#l9907960]
$ req.py
[]
[<title>首相官邸ホームページ</title>]
<p>当サイトではJavaScriptを使用しております。ご利用のブ...
<p class="top-lead">#を押すことにより、関連するものに絞...
:
(中略)
:
<p>首相が執務を行う首相官邸は、切り出したままの自然石、...
$
終了行:
[[今さらPython]]
Pythonでもやりたいよね。~
とりあえずハローワールドしてみよう。
* 簡易サンプルコード [#z14460f8]
#!/usr/bin/env python
from bs4 import BeautifulSoup
import urllib.request
url = 'https://www.kantei.go.jp/'
req = urllib.request.Request(url)
with urllib.request.urlopen(req) as res:
body = res.read()
soup = BeautifulSoup(body.decode('utf-8'), "html.pars...
print(soup.select("h1"))
print(soup.select("title"))
for x in soup.select("p"):
print(x)
採取したものはリストで来るみたいね。
* 実行結果 [#l9907960]
$ req.py
[]
[<title>首相官邸ホームページ</title>]
<p>当サイトではJavaScriptを使用しております。ご利用のブ...
<p class="top-lead">#を押すことにより、関連するものに絞...
:
(中略)
:
<p>首相が執務を行う首相官邸は、切り出したままの自然石、...
$
ページ名: