スクレイピング

スクレイピングで使用するlinuxコマンド

投稿日:

wget ファイルをダウンロードする

$ wget http://www.yahoo.co.jp/
オプション 意味
-P 保存先ディレクトリを指定する wget -P dataset

bzcat 「bzip2」コマンドで圧縮された圧縮ファイルの中身を確認する

$ bzcat 圧縮ファイル名

less テキスト・ファイルの内容を閲覧する

$ less ファイル名

操作

↑キー ↓キー 次行を閲覧する
qキー 閲覧を終了する

類似

$ cat ファイル名

catコマンドはファイルの中身を全て出力する。lessコマンドは上下キーで一行ずつ閲覧する。

-スクレイピング

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

PythonでWebサイトをクローリング・スクレイピングの実践

 各モジュールの公式ドキュメント モジュール バージョン ドキュメントURL 言語 Python 3 https://docs.python.jp/3/index.html 日本語 urllib ht …

no image

mecab

mecabとは? 自然言語処理ライブラリである。 形態素解析 与えられた文章を形態素という文章の最小単位に分解し、その最小単位の品詞や読みを判別すること。 公式ドキュメント MeCab: Yet An …

no image

クローラーのUserAgent

Python Requests でのUserAgent指定方法 >>> url=”http://www.yahoo.co.jp/ >>> userAgent=”Mo …

no image

Python3 RecursionError: maximum recursion depth exceeded

再起処理の自作URLクローラーを夜回したら、朝起きたら落ちていた。   File “/usr/lib/python3.5/threading.py”, line 224, in __init …

no image

lxml.etree.ParserError: Document is empty

lxml.etree.ParserError: Document is empty が出た。このとき。 response=requests.get(”https://discussions.apple …