スクレイピング

mecab

投稿日:

mecabとは?

自然言語処理ライブラリである。

形態素解析

与えられた文章を形態素という文章の最小単位に分解し、その最小単位の品詞や読みを判別すること。

公式ドキュメント

MeCab: Yet Another Part-of-Speech and Morphological Analyzer
http://taku910.github.io/mecab/

 

mecabのインストール

インストール

$ sudo apt install mecab
…
done!
update-alternatives: /var/lib/mecab/dic/debian (mecab-dictionary) を提供するために自動モードで /var/lib/mecab/dic/ipadic-utf8 を使います
libc-bin (2.23-0ubuntu9) のトリガを処理しています ...

バージョン確認

$ mecab -v
mecab of 0.996

PythonからMecabを使用する

mecab-python3をインストールする

(pydev1) $ pip install mecab-python3
Successfully installed mecab-python3-0.7

 

mecab-python3のAPI

<class ‘module’> MeCab

 

戻り値の型 プロパティ・メソッド名 引数 意味
MeCab.Tagger Tagger() taggerとはタグをつける人のことである。

<class ‘MeCab.Tagger’>

戻り値の型 プロパティ・メソッド名 引数 意味
str parse(str) str ? ?
 MeCab.Node parseToNode(str) str 形態素解析対象となる文章 strを形態素解析する

<class ‘MeCab.Node’>

戻り値の型 プロパティ・メソッド名 引数 意味
str surface 形態素の文字列
例)売却
str feature 品詞
例)名詞,サ変接続,*,*,*,*,売却,バイキャク,バイキャク
MeCab.Node next() 次のNodeを返却する

-スクレイピング

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

クローラー開発メモ

URLを巡回すると、同じドメインではまってしまう。 URLが期限切れだと、sedo.comというドメイン屋さんで永遠はまってしまう。 だから、 ①sedo.comを巡回無視リストに入れる ②同一ドメイ …

no image

Pythonでスクレイピング

スクレイピングに使えるPythonライブラリ lxml…C言語ライブラリのlibxml2とlibxsltをPythonに組み込んだもの Beautiful…Soup シンプルで分かりやすいAPI py …

no image

スクレイピングで使用するlinuxコマンド

wget ファイルをダウンロードする $ wget http://www.yahoo.co.jp/ オプション 意味 例 -P 保存先ディレクトリを指定する wget -P dataset bzcat …

no image

Python requestsのエラー処理

requests.exceptions.SSLError: HTTPSConnectionPool URLをクロールしていると、こんなエラーが出た。 File “/home/ty/projects/o …

no image

URLの構造

http://hoge.sample.com/category/diet?q=drink#ojousama スキーム scheme httpやhttpsのようにプロトコルを表す オーソリティ auth …