主にプログラミングに関して。Python, .NET Framework(C#), JavaScript, その他いくらか。
記事にあるサンプルやコードは要検証。使用に際しては責任を負いかねます

スポンサーサイト

                
tags:
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

Python: Wikipediaから情報を集めるために

                
tags: python
 Wikipediaは情報を集めるのになかなか便利だ。まあ情報の確度が保証されないので、公式な文章を書くときのソースとして使うことはできないけど。今回は文学に関するある情報をまとめたサイトを作りたかったので、クローラを使ってWikipediaから情報を集めた。

 ところで、通常に公開されているWikipediaのページから、クローラを使って情報を集めるのは禁止のようだ。そのかわりにMediaWiki ウェブサービス APIというのが公開されていて、そこからHTMLにフォーマットされていない情報を集めることができる。サンドボックスが用意されていて、APIを試すことができる。
参考:http://ja.wikipedia.org/wiki/特別:ApiSandbox#action=query&prop=revisions&format=xml&rvprop=content&rvlimit=10&titles=ノーベル文学賞

 Pythonのurllib2(もしくはurllib)を使う場合、以下のものをアドレスの基本的なひな形として使える。stringにWikipediaのページタイトルを入れればOK。
adress = "http://ja.wikipedia.org/w/api.php?"
query = "action=query&prop=revisions&format=xml&rvprop=content&rvlimit=1&titles=%s" %(urllib2.quote(string))
            

コメントの投稿

非公開コメント

プロフィール

hMatoba

Author:hMatoba
Github

最新記事
リンク
作ったものなど
月別アーカイブ
カテゴリ
タグリスト

検索フォーム
Amazon
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。