指定された URL の英単語数を数える
「海外メーカー製品は、ドキュメントを英語で読むのが大変」という会話を耳にしたので、実際に「海外メーカー = シスコのドキュメントの英単語数」を計測してみました。 「英語の勉強をしてみよう」と思い立つのですが、単語を覚えるにしても「とりあえず人気のありそうな単語帳を買って…」となっても、興味が無く・使わない単語は忘れてしまいます。 逆に言うと「テクニカルドキュメントによく出てくる単語」を重点的に勉強すれば効率が良いのでは… と思い立った、ということもあります。 当初は「指定 URL の単語数を数える」だけのサンプルスクリプトを作ったのですが、結局 word-counter として PyPi に登録しました。 とは言え、PyPi として登録するほど大したことはしていません……
インストール¶
事前に依存するライブラリをインストールしておきます。
1 |
|
word-counter をインストールします。
1 |
|
URL の単語数を数え、結果を一覧表示する¶
スクリプトを実行すると結果は JSON で返され、値の意味は以下の通りです。
項目 | 意味 |
---|---|
count |
単語の合計数 (重複しているものは含まない) |
count_duplicates |
単語の合計数 (重複しているものを含む) |
words |
単語の一覧と出現回数 |
特定の URL の単語を数えたい場合、以下のように実行します。 --klass
で数えたい単語が表示されている HTML のクラス名を指定します (--klass
を省略した場合のデフォルト値は entry-content
)。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 |
|
複数の URL を指定することも可能です。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
|