Webシステム開発・プログラミングに関連した他の仕事を探す
見積もり募集の結果
見積もり募集の内容
-
依頼の目的・背景
-
おそらくランサーからすると30分くらいで終わる仕事かと思います
複数のホームページのテキストデータをscrapyを用いて入手するpython3のプログラミング
各ドメイン、URLを別ファイルで設定して各ホームページごとにxmlでデータを保管
allowed_domains = [] ⇒別ファイルからインプット
start_urls = [] ⇒別ファイルからインプット
基本的なコードのベースとなるものはとりあえず自作で準備していますので、それを改良して頂ければと思います。
添付している別ファイルは、
domains.txtとurls.txtに分けていますが、下記のようにURLとドメインをスペースなどで間をあけて1つのファイルに統合したファイルの読み込みにして頂きたいです。
https://www.sony.co.jp/ www.sony.co.jp
http://www.sharp.co.jp/ www.sharp.co.jp
http://pioneer.jp/ pioneer.jp
期待する出力ファイル
●●.xml
ファイルの中身は、下記の通り「各社ごとに」順番に出力
ソニーのホームページの全階層のテキストデータ
シャープのホームページの全階層のテキストデータ
パイオニアのホームページの全階層のテキストデータ
・・・
指定しているドメインの範囲で、リンク先の全階層になり、ポイントは各社ずつにテキストデータが出力されることです。
サンプルは3社ですが、将来的には数千社レベルのインプットにする予定です。
その他
私の環境はPython3、Windows、Spyder(Anaconda)を使用
-
サイトの種類
-
その他
-
作業範囲
-
ランサーに相談して決めたい
-
用意してあるもの
-
設定なし
-
参考URL
-
設定なし
-
希望開発言語
-
Python
-
フレームワーク
-
ランサーに相談して決めたい
-
開発の継続性
-
ランサーに相談して決めたい
-
補足説明
-
設定なし
-
期待する成果物はpythonのコードであり、クロールされた出力ファイルではありません。
hp.py
-
プロジェクトをキャンセルしました
- 添付ファイル
-
※ 締切後、添付ファイルはクライアントと当選したランサー以外は閲覧できません
この仕事に似たWebシステム開発・プログラミングの他の仕事を探す