6月30日まで 新規会員登録とパッケージ出品で 2000円割引クーポンプレゼント! ※無くなり次第終了 ご利用方法
この募集は2020年01月13日に終了しました。

【Python】5ちゃんねる過去ログ情報をスクレイピング&パースの仕事 [IT・通信・インターネット]

【Python】5ちゃんねる過去ログ情報をスクレイピング&パースに関する仕事・募集案件ページです。クラウドソーシングのランサーズで、Webシステム開発・プログラミングに関する最適な外注/発注先をお探しの方、副業案件・求人をお探しのフリーランスの方はまず会員登録がおすすめです。

見積もり募集の結果

募集期間

7日間

提案数

2件

当選人数

0 件

(募集人数1人)

見積もり募集の内容

依頼主の業種
IT・通信・インターネット
依頼の目的・背景
5ちゃんねるの過去ログURLを整理、一覧化したいので
スクレイピング、パースを含む①②の作業をお願いします。

スクレイピングの対象のサイトは以下です
このサイトから情報を取得、整理するのが作業の大枠です。
https://www.logsoku.com/

【追記】
納品物はソースコードです。


①5chのurl情報収集プログラム
【入力】
検索キーワード
検索条件yamlファイル

【入力の補足】
yamlファイルでWEBサイト同様に検索条件を切替できるようにしてください

search:デフォルトorタイトルor全文
sort:デフォルトorスレッド作成順or書き込み更新順
order:デフォルトor新しい順or古い順
sr:デフォルトor1or5 or10or・・・・・
activate: デフォルトor現行・過去すべてor現行のみ or過去のみ

基本的に対象サイトの絞り込み条件と同じものを指定できるようにしていただければOKです。
パラメーターに指定できる値は、READMEにまとめておいてください。


【出力】

検索によって得られた情報を下記形式のjsonファイルにしてください。
対象は出力結果全件です
------------------------------------------------------------
{
"keywords": "吉野家 松屋",
"content": [
{
"threadname": ニュー速VIP,
"site": "sc",
"status":"現",
"title": "松屋:安定して70点 吉野家:90~50点と振り幅有り",
"count": "27",
"time": "2012/02/17(金) 05:52:57.32",
"momentum": "158",
"url": "http://viper.2ch.sc/test/read.cgi/news4vip/1578286047/"
},
{
"threadname": なんでも実況J,
"site": "sc",
"status":"現",
"title": "吉野家とか松屋とかの朝定食についてる鮭って骨抜いてある?",
"count": "27",
"time": "2012/02/17(金) 05:52:57.32",
"momentum": "158",
"url": "http://tomcat.2ch.sc/test/read.cgi/livejupiter/1578248125/"
},
:
:
:
]
}

------------------------------------------------------------


【出力の補足】
jsonファイル中のurlには注意してください
urlにはそのタイトルのオリジナルの5chページのURLを格納してください。
基本的にはタイトルをクリックしていただくと表示されるページなのですが、
かなり多くのページで

このスレッドを表示するにはこちらで閲覧できます => http://tomcat.2ch.sc/xxxx

といった形でリダイレクトが張られています
リダイレクト先の5chオリジナルの記事があるurlを格納するようにしてください


②別ツール用のファイル変換プログラム
- 入力
上記で作ったjsonファイル

- 出力
下記形式のcsvファイル
------------------------------------------------------------
id,title,count,url
------------------------------------------------------------
idは通番です。ナンバーを0からふってください


■必須スキル
- linux(linux上で動かします)
- python3(3.6でお願いします)
- beautifulsoup4(別ツールに組み込むため、scrapyは使用しないでください)

■予算
2500円
少額での依頼になります。






サイトの種類
その他
作業範囲
ランサーに相談して決めたい
用意してあるもの
設定なし
参考URL
https://www.logsoku.com/
希望開発言語
Python
フレームワーク
ランサーに相談して決めたい
開発の継続性
この開発の後も、継続的に依頼したいと思っております。
補足説明
納品は1月17日を希望(できればもっと早く)ですが、
伸ばすこともできますのでご相談ください。

現在様々なツールを開発しており、パーツを色々と準備しています。
人手が足りないため、今後も類似の案件を依頼する可能性がありますので
よろしくお願いします。(特にpython,javascript関係)
今回応募しておりました条件より高費用での見積もりしかございませんでしたので、依頼をキャンセルとさせていただきました。ご応募ありがとうございました。
添付ファイル
※ 締切後、添付ファイルはクライアントと当選したランサー以外は閲覧できません
  • 5log_1.jpg
  • 5log_2.jpg
  • 5log_3.jpg
  • 5log_4.jpg

この仕事に似たWebシステム開発・プログラミングの他の仕事を探す

会員登録する (無料)