この募集は2019年01月31日に終了しました。

株深サイト pythonによるスクレイピング(クローリング)ツール作成の仕事

株深サイト pythonによるスクレイピング(クローリング)ツール作成に関する仕事・募集案件ページです。クラウドソーシングのランサーズで、Webシステム開発・プログラミングに関する最適な外注/発注先をお探しの方、副業案件・求人をお探しのフリーランスの方はまず会員登録がおすすめです。

見積もり募集の結果

募集期間

5日間

提案数

3件

当選人数

1 件

(募集人数1人)

実際の発注内容

依頼の予算
1 円 ~ 5,000
実際の支払い金額
4,000 円 ~ 5,000
製作期間
18
実際の受注者
moto4554
moto4554

本人確認

  • 希望時間単価 ---
  • 実績 2
  • 評価満足率 100 %
  • プロジェクト完了率 67%
  • 機密保持 -
  • 本人確認
  • 電話 -

スキル
CSS
Python
JavaScript
Oracle
HTML
COBOL
... もっと見る
発注者の声

見積もり募集の内容

依頼の目的・背景
はじめて利用させていただきます。
ITに詳しくないため、不十分な点あるかと思いますが以下ご確認いただけますでしょうか。

(依頼概要)
 株深サイト(https://kabutan.jp/stock/news?code=XXXX)のニュースタブの一覧及び詳細情報を取得し、
 銘柄コード(XXXX)ごとにファイル出力する。
 ※XXXXには上場企業の銘柄コード4桁が設定されます。
  取得したい銘柄コードをリスト化したテキストファイルを読込み、順にクローリングを行う。
 
(取得したい情報)
 <一覧画面>
 ①日付(YYYYMMDD)
 ②時間(hhmm)
 ③識別子(「材料」「開示情報」「決算」 等 )
 ④タイトル
 ⑤詳細画面のURL(絶対パス)

 <詳細画面>
 ⑥詳細情報全て(改行コードは特殊文字に置き換える)
  ※注1 一覧の識別子「開示情報」の場合、詳細画面はPDFのため詳細情報は取得しない
  ※注2 一覧の識別子「決算」または「修正」の場合、詳細画面には5つの表も含まれています。
      これらの情報も一覧に展開していただきたいです。

 1つのニュースを1行にして、上記①~⑥を可変長CSVファイルとして出力。

(クローリングする順番・範囲)
 ・直近から順に取得
 ・但し、指定した遡り日に達する、又は前回取得したニュースと同じニュースに達した時点で、クローリングを終了する。

(処理タイミング・頻度)
 ・1日に1回(夜間)

(出力ファイル仕様)
 ・銘柄コードごとにファイル作成(XXXX.csv)
 ・上記①~⑥を設定
 ・ニュースが更新された場合、追加されたニュースのみの差分ファイルではなく、全件ファイルを作成。
  ニュースが更新されていない場合は、タイムスタンプを変更しないようファイルを更新しない。

(その他機能)
 ・取得するニュースを識別子で選択できるようにする。
  例)「テク」や「市況」を除く など

(留意いただきたい事項・懸念事項)
 ・相手側のサーバーに負荷がかからないように配慮
 ・今後会員登録予定ですが、開発において影響があるかどうか
 ・再現性の確保
  誤って日に何度処理を行っても結果が変わらないことを担保

(ソース)
 ・pythonの勉強を始めたところなので、ソースの提供及び可能な限りコメントを記述いただけると大変助かります
サイトの種類
その他
作業範囲
ランサーに相談して決めたい
用意してあるもの
設定なし
参考URL
設定なし
希望開発言語
Python
フレームワーク
ランサーに相談して決めたい
開発の継続性
ランサーに相談して決めたい
補足説明
○環境
 ・Windows7 64bit
 ・virtualBoxでUbuntuの仮想マシンを構築
 ・phthon3,mongoDB,BeutifulSoup,pyquery,lxml,pandas等基本的なライブラリ
会員登録する (無料)