スクレイピング

スクレイピングで使用するlinuxコマンド

投稿日:

wget ファイルをダウンロードする

$ wget http://www.yahoo.co.jp/
オプション 意味
-P 保存先ディレクトリを指定する wget -P dataset

bzcat 「bzip2」コマンドで圧縮された圧縮ファイルの中身を確認する

$ bzcat 圧縮ファイル名

less テキスト・ファイルの内容を閲覧する

$ less ファイル名

操作

↑キー ↓キー 次行を閲覧する
qキー 閲覧を終了する

類似

$ cat ファイル名

catコマンドはファイルの中身を全て出力する。lessコマンドは上下キーで一行ずつ閲覧する。

-スクレイピング

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Python BeautifulSoupメモ

BeautifulSoupとは? Python pipでパッケージ管理されている。HTMLを容易に解析する機能提供する。 BeautifulSoup import宣言 from bs4 import …

no image

クローラーのUserAgent

Python Requests でのUserAgent指定方法 >>> url=”http://www.yahoo.co.jp/ >>> userAgent=”Mo …

no image

クローラー開発メモ

URLを巡回すると、同じドメインではまってしまう。 URLが期限切れだと、sedo.comというドメイン屋さんで永遠はまってしまう。 だから、 ①sedo.comを巡回無視リストに入れる ②同一ドメイ …

no image

Python3 RecursionError: maximum recursion depth exceeded

再起処理の自作URLクローラーを夜回したら、朝起きたら落ちていた。   File “/usr/lib/python3.5/threading.py”, line 224, in __init …

no image

Python requestsのエラー処理

requests.exceptions.SSLError: HTTPSConnectionPool URLをクロールしていると、こんなエラーが出た。 File “/home/ty/projects/o …