ホットなキーワードをwikipediaから引っ張り出してみる


インターネット上でどのようなキーワードが検索されているのか、を効率的に調べる方法はないか日々考えあぐねています。

「そもそもキーワードってなんだろう?」と改めて考えたんですが、それはやはり「固有名詞」なんじゃないかと思いました。
非常に当たり前なんですけどね。

で、じゃあ固有名詞が1番集まっているサイトは何だろうと考えると、結局のところwikipediaなのではないかと。
つまりwikipediaでそれぞれのページのPVを調べることができれば、どのようなワードが人気なのかわかろうというもの。

とはいえ、そんな都合の良い情報が提供されているはずはないよな、と思いつつもちょっと調べてみると、正に欲しいデータが提供されているんですよね。さすがwikipediaといったところ。

ここには2007年12月9日以降のすべての項目のPVのデータがあります。

1時間ごとに集計されていて、中身を見てみると英語や日本語など言語に限らず、すべての言語のページのPVが記載されているようです。

しかしながら、ファイルひとつあたりのサイズは大体100M前後で、解凍すると400Mもの大きさとなります。
さすがに情報としては巨大です。

この中から日本語だけの項目を抜き出し、さらにPV順に並べるとなると、Excelやエディタを駆使してなんとかするという方法ではさすがに厳しいですね。

ということで、日曜プログラマーである私が少ない知恵をなんとか絞って、python2でコードを書いてみました。
キーワードとPVを抜き出し、それをPVが多い順に並べるという内容。
私は趣味プログラマーとしてもレベルが低いので、なんとか動けばいいというレベルですが参考にコードを置いておきます。

このコードに引数としてwikipediaからダウンロードしてきたファイルを渡してあげれば、「export_xxxxx」という名前でファイルが作成されます。

試しに2016年5月20日9時のデータで実行すると下記のような結果が。

項目とPVが記載されています。
途中、上手く取れていない項目やノイズになっている項目がありますが、自分で参考にする情報としては十分でしょう。

また、今回はPVが2以下のものは切り捨てたんですが、それでも96000もの項目があります。

上位30項目を記載してみたのですが、割と知らない項目もあったり、ニュースで話題になっている人はちゃんと上位に上がってきていることがわかったり、想像していた以上に有用な情報が取れていそうです。
「5月20日」というページがランクインしているのも面白いですね。

貴重な週末の半日を消費してしまいましたが、チャレンジして良かったと思ってます。


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください