この募集は2017年12月14日に終了しました。

Pythonクローラー&スクレイピングの仕事

Pythonクローラー&スクレイピングに関する仕事・募集案件ページです。クラウドソーシングのランサーズで、Webシステム開発・プログラミングに関する最適な外注/発注先をお探しの方、副業案件・求人をお探しのフリーランスの方はまず会員登録がおすすめです。

見積もり募集の結果

募集期間

5日間

提案数

2件

当選人数

0 件

(募集人数1人)

見積もり募集の内容

依頼の目的・背景
おそらくランサーからすると30分くらいで終わる仕事かと思います

複数のホームページのテキストデータをscrapyを用いて入手するpython3のプログラミング
各ドメイン、URLを別ファイルで設定して各ホームページごとにxmlでデータを保管
allowed_domains = [] ⇒別ファイルからインプット
start_urls = [] ⇒別ファイルからインプット
基本的なコードのベースとなるものはとりあえず自作で準備していますので、それを改良して頂ければと思います。
添付している別ファイルは、
domains.txtとurls.txtに分けていますが、下記のようにURLとドメインをスペースなどで間をあけて1つのファイルに統合したファイルの読み込みにして頂きたいです。
https://www.sony.co.jp/ www.sony.co.jp
http://www.sharp.co.jp/ www.sharp.co.jp
http://pioneer.jp/ pioneer.jp

期待する出力ファイル
●●.xml
ファイルの中身は、下記の通り「各社ごとに」順番に出力
ソニーのホームページの全階層のテキストデータ
シャープのホームページの全階層のテキストデータ
パイオニアのホームページの全階層のテキストデータ
・・・

指定しているドメインの範囲で、リンク先の全階層になり、ポイントは各社ずつにテキストデータが出力されることです。
サンプルは3社ですが、将来的には数千社レベルのインプットにする予定です。

その他
私の環境はPython3、Windows、Spyder(Anaconda)を使用

サイトの種類
その他
作業範囲
ランサーに相談して決めたい
用意してあるもの
設定なし
参考URL
設定なし
希望開発言語
Python
フレームワーク
ランサーに相談して決めたい
開発の継続性
ランサーに相談して決めたい
補足説明
設定なし
期待する成果物はpythonのコードであり、クロールされた出力ファイルではありません。
hp.py
プロジェクトをキャンセルしました
添付ファイル
※ 締切後、添付ファイルはクライアントと当選したランサー以外は閲覧できません
  • hp2.zip

この仕事に似たWebシステム開発・プログラミングの他の仕事を探す

会員登録する (無料)