スクレイピング

mecab

投稿日:

mecabとは?

自然言語処理ライブラリである。

形態素解析

与えられた文章を形態素という文章の最小単位に分解し、その最小単位の品詞や読みを判別すること。

公式ドキュメント

MeCab: Yet Another Part-of-Speech and Morphological Analyzer
http://taku910.github.io/mecab/

 

mecabのインストール

インストール

$ sudo apt install mecab
…
done!
update-alternatives: /var/lib/mecab/dic/debian (mecab-dictionary) を提供するために自動モードで /var/lib/mecab/dic/ipadic-utf8 を使います
libc-bin (2.23-0ubuntu9) のトリガを処理しています ...

バージョン確認

$ mecab -v
mecab of 0.996

PythonからMecabを使用する

mecab-python3をインストールする

(pydev1) $ pip install mecab-python3
Successfully installed mecab-python3-0.7

 

mecab-python3のAPI

<class ‘module’> MeCab

 

戻り値の型 プロパティ・メソッド名 引数 意味
MeCab.Tagger Tagger() taggerとはタグをつける人のことである。

<class ‘MeCab.Tagger’>

戻り値の型 プロパティ・メソッド名 引数 意味
str parse(str) str ? ?
 MeCab.Node parseToNode(str) str 形態素解析対象となる文章 strを形態素解析する

<class ‘MeCab.Node’>

戻り値の型 プロパティ・メソッド名 引数 意味
str surface 形態素の文字列
例)売却
str feature 品詞
例)名詞,サ変接続,*,*,*,*,売却,バイキャク,バイキャク
MeCab.Node next() 次のNodeを返却する

-スクレイピング

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Python requestsのエラー処理

requests.exceptions.SSLError: HTTPSConnectionPool URLをクロールしていると、こんなエラーが出た。 File “/home/ty/projects/o …

no image

PythonでWebサイトをクローリング・スクレイピングの実践

 各モジュールの公式ドキュメント モジュール バージョン ドキュメントURL 言語 Python 3 https://docs.python.jp/3/index.html 日本語 urllib ht …

no image

クローラーとスクレイピングの構成 

くローラーとスクレイピング(スクレイパー?)は分離しておく。 クローラーが最後まで終わってからスクレイピングではなく、クローラーからメッセージを送って、そのタイミングでスクレイピングを開始するようにす …

no image

Python BeautifulSoupメモ

BeautifulSoupとは? Python pipでパッケージ管理されている。HTMLを容易に解析する機能提供する。 BeautifulSoup import宣言 from bs4 import …

no image

クローラー開発メモ

URLを巡回すると、同じドメインではまってしまう。 URLが期限切れだと、sedo.comというドメイン屋さんで永遠はまってしまう。 だから、 ①sedo.comを巡回無視リストに入れる ②同一ドメイ …