Webシステム開発・プログラミングに関連した他の仕事を探す
見積もり募集の結果
実際の発注内容
実際の支払い金額
4,000 円 ~
5,000 円
実際の受注者
発注者の声
見積もり募集の内容
-
依頼の目的・背景
-
はじめて利用させていただきます。
ITに詳しくないため、不十分な点あるかと思いますが以下ご確認いただけますでしょうか。
(依頼概要)
株深サイト(https://kabutan.jp/stock/news?code=XXXX)のニュースタブの一覧及び詳細情報を取得し、
銘柄コード(XXXX)ごとにファイル出力する。
※XXXXには上場企業の銘柄コード4桁が設定されます。
取得したい銘柄コードをリスト化したテキストファイルを読込み、順にクローリングを行う。
(取得したい情報)
<一覧画面>
①日付(YYYYMMDD)
②時間(hhmm)
③識別子(「材料」「開示情報」「決算」 等 )
④タイトル
⑤詳細画面のURL(絶対パス)
<詳細画面>
⑥詳細情報全て(改行コードは特殊文字に置き換える)
※注1 一覧の識別子「開示情報」の場合、詳細画面はPDFのため詳細情報は取得しない
※注2 一覧の識別子「決算」または「修正」の場合、詳細画面には5つの表も含まれています。
これらの情報も一覧に展開していただきたいです。
1つのニュースを1行にして、上記①~⑥を可変長CSVファイルとして出力。
(クローリングする順番・範囲)
・直近から順に取得
・但し、指定した遡り日に達する、又は前回取得したニュースと同じニュースに達した時点で、クローリングを終了する。
(処理タイミング・頻度)
・1日に1回(夜間)
(出力ファイル仕様)
・銘柄コードごとにファイル作成(XXXX.csv)
・上記①~⑥を設定
・ニュースが更新された場合、追加されたニュースのみの差分ファイルではなく、全件ファイルを作成。
ニュースが更新されていない場合は、タイムスタンプを変更しないようファイルを更新しない。
(その他機能)
・取得するニュースを識別子で選択できるようにする。
例)「テク」や「市況」を除く など
(留意いただきたい事項・懸念事項)
・相手側のサーバーに負荷がかからないように配慮
・今後会員登録予定ですが、開発において影響があるかどうか
・再現性の確保
誤って日に何度処理を行っても結果が変わらないことを担保
(ソース)
・pythonの勉強を始めたところなので、ソースの提供及び可能な限りコメントを記述いただけると大変助かります
-
サイトの種類
-
その他
-
作業範囲
-
ランサーに相談して決めたい
-
用意してあるもの
-
設定なし
-
参考URL
-
設定なし
-
希望開発言語
-
Python
-
フレームワーク
-
ランサーに相談して決めたい
-
開発の継続性
-
ランサーに相談して決めたい
-
補足説明
-
○環境
・Windows7 64bit
・virtualBoxでUbuntuの仮想マシンを構築
・phthon3,mongoDB,BeutifulSoup,pyquery,lxml,pandas等基本的なライブラリ