Webシステム開発・プログラミングに関連した他の仕事を探す
見積もり募集の結果
見積もり募集の内容
- 依頼主の業種
- IT・通信・インターネット
-
提示した予算
-
50,000円 ~ 100,000円
-
依頼概要
-
【依頼概要】
サイトから日次データを安定的かつ低コストで高速にスクレイピングすることが必要となります。
希望としては前日分を取得は1週間程度でできるようになると幸いです。
前日分のデータは午前0時頃から順次サイト側に更新されるため、朝9時までに短時間(目標3時間以内)で、かつアクセス拒否を受けない方法でのスクレイピングが必須条件です。
1度で3時間以内の取得が厳しい場合は代替案が必要。
※午前5:00〜6:00はサイトのメンテナンス時間です。
要件
データ収集
・全国2000店舗以上、1日40万件超のデータを3時間以内に正確に取得すること。
・直近から順にデータ取得を行い、不足分はデータ取得リカバリーを行いたい。
安定稼働とアクセス制御
・プロキシ管理やGAS等を活用し、送信元IP制限を回避すること。
・分散処理で効率的かつ安定した高速収集を実現すること。
エラーハンドリング
・エラーや未更新データ発生時のリトライ・遅延制御を行うこと。
・エラー件数や未取得分をログに記録し、自動または容易に再取得可能とすること。
・エラーハンドリング全体を最適化すること。
拡張対応
・サイト構造変更時にもできる限り安価に対応いただけること(いくらで対応可能かも教えてください)。
・要件達成が難しい場合は柔軟にキャンセル対応いただけること。
・状況次第ではサーバーやDBの調整なども必要になること。
・フロント側で動作が遅いなど発生した場合はフロントの調整やDB構造の再検討など
・納品からしばらくの間は取得状況に問題ないか確認させてください。
実行環境
・OS:Ubuntu(メモリ4GB/ストレージ600GB)
・DB:MySQL
参考例: 以下のようなデータを取得します。
https://min-repo.com/2564229/?kishu=%E6%8A%BC%E5%BF%8D%EF%BC%81%E7%95%AA%E9%95%B74
全国分の全機種データを毎日3時間以内に取得し、自動でDBに格納する
不足分は再取得
取得対象は以下
台番
差枚
G数
出率
BB
RB
合成
BB率
RB率
店舗名
機種名
など
DBを見ながら必要なデータはご確認ください。
ポートフォリオや経歴のご紹介に加え、具体的なご提案お待ちしております。
要件を満たせなかった場合や著しい低品質などはキャンセルさせていただきますので、知見がない方のご提案は控えてください。
【サイトの種類】
独自システム
【依頼したい業務範囲】
要件定義
設計
開発
テスト
リリース・導入
運用・保守
【用意しているもの】
サーバー
【希望するスキル】
決まってない
【継続した開発が必要か】
継続的に開発を依頼したい
-
キャンセル理由:依頼内容を修正するため
求めるエンジニアからの提案がないため
-
再登録理由:その他
この仕事に似たWebシステム開発・プログラミングの他の仕事を探す