この募集は2017年12月14日に終了しました。

Pythonクローラー＆スクレイピングの仕事

Pythonクローラー＆スクレイピングに関する仕事・募集案件ページです。クラウドソーシングのランサーズで、Webシステム開発・プログラミングに関する最適な外注/発注先をお探しの方、副業案件・求人をお探しのフリーランスの方はまず会員登録がおすすめです。

Webシステム開発・プログラミングに関連した他の仕事を探す

ソフトウェア・業務システム開発 Excelマクロ作成・VBA開発ゲーム制作・開発サーバー・ネットワーク構築データベース設計・構築プロジェクトマネジメントその他 (システム開発) 株・FX・仮想通貨ツール開発スクレイピング・データ収集コード・バグ修正

見積もり募集の結果

募集期間

5日間

提案数

2件

当選人数

0 件

(募集人数1人)

この案件の内容を参考に募集する

案件に提案したい

見積もり募集の内容

依頼の目的・背景: おそらくランサーからすると30分くらいで終わる仕事かと思います

複数のホームページのテキストデータをscrapyを用いて入手するpython3のプログラミング
各ドメイン、URLを別ファイルで設定して各ホームページごとにxmlでデータを保管
allowed_domains = []　⇒別ファイルからインプット
start_urls = []　⇒別ファイルからインプット
基本的なコードのベースとなるものはとりあえず自作で準備していますので、それを改良して頂ければと思います。
添付している別ファイルは、
domains.txtとurls.txtに分けていますが、下記のようにURLとドメインをスペースなどで間をあけて１つのファイルに統合したファイルの読み込みにして頂きたいです。
https://www.sony.co.jp/ www.sony.co.jp
http://www.sharp.co.jp/ www.sharp.co.jp
http://pioneer.jp/ pioneer.jp

期待する出力ファイル
●●.xml
ファイルの中身は、下記の通り「各社ごとに」順番に出力
ソニーのホームページの全階層のテキストデータ
シャープのホームページの全階層のテキストデータ
パイオニアのホームページの全階層のテキストデータ
・・・

指定しているドメインの範囲で、リンク先の全階層になり、ポイントは各社ずつにテキストデータが出力されることです。
サンプルは３社ですが、将来的には数千社レベルのインプットにする予定です。

その他
私の環境はPython3、Windows、Spyder（Anaconda）を使用

サイトの種類: その他

作業範囲: ランサーに相談して決めたい

用意してあるもの

設定なし

参考URL: 設定なし

希望開発言語: Python

フレームワーク: ランサーに相談して決めたい

開発の継続性: ランサーに相談して決めたい

補足説明: 設定なし

: 期待する成果物はpythonのコードであり、クロールされた出力ファイルではありません。
hp.py
: プロジェクトをキャンセルしました

添付ファイル

Webシステム開発・プログラミングに関連した他の仕事を探す

見積もり募集の結果

見積もり募集の内容

この仕事に似たWebシステム開発・プログラミングの他の仕事を探す