PDFデータ→データベースへのインポート

  • データベース設計・構築の相談
  • 回答受付中
  • 回答数:5
  • 閲覧数:11177
  • お気に入りの相談に追加
    ログインすると「お気に入りの相談」リストに追加できます。
    「お気に入りの相談」に回答やコメントがあると、お知らせ通知が届きます。

株式会社クラウドライン (cloudline)

ログインすると、株式会社クラウドライン (cloudline)さんに「ありがとう」を伝えられます。
お世話になります。

弊社は運送会社でございます。
現在、日々の配送指示書がPDFで送られてきており、それらを手入力でスケジュール管理システムに入力し配車管理をしております。

今回のご相談はそのPDFデータを一括で取り込み、データベース化する事で業務効率を上げたいと考えております。

将来的なイメージは取り込んだ日々のデータをWeb上(PC スマホ)で確認し、配車管理までしたいと思っておりますが、まずはPDFデータからデータベースへの流れが可能かどうかをご相談出来ればと思っております。

文章では中々うまく表現が出来なくて申し訳ありません。
投稿日時:2014年12月20日 08:52:46

回答者コメント

はじめまして。progkenと申します。

PDFからテキストで記述された箇所を一括で抽出すること自体は可能です。

ただ、PDFから抽出したテキストから必要な情報の場所を特定し、正しく抜き出せるかは、
対象のPDFの文面の書式とそこから何を取り出すのかによります。

例えば、PDF上で表形式で情報が記述されている場合、

例1)
| 氏名 | 苗字 名前 |
 | 住所 | ○○県△△市××町 □□マンション▽▽ |
 | ・・・ | ・・・ |

からテキストを抽出すると、

氏名 苗字 名前
住所 ○○県△△市××町 □□マンション▽▽
・・・ ・・・

といった感じでテキストを抽出できます。
ここから氏名を抽出するのであれば、
氏名の後に続く文字列(住所の前まで)を抜き出すようにすれば取得可能です。

例2)
 | 項目1 | 項目2 | 項目3 | ・・・ |
| A | B | C | ・・・ |
| D | E F | | ・・・ |
* A-Fは何らかの文字列

からテキストを抽出すると、

項目1 項目2 項目3 ・・・
A B C ・・・
D E F ・・・

といった感じでテキストを抽出できます。
この場合、
1行目は項目1="A", 項目2="B", 項目3="C"とわかりますが、
2行目は文字列の区切れだけで判断すると、
項目1="D", 項目2="E", 項目3="F"と誤検出してしまう可能性があります。

以上は一例ですが、他にも対象の情報の特定が難しい書式はありますので、
実際に対象のPDFとデータベースに登録したい項目を確認しないと実現の可否は正確には判断できません。

ただ、実現の可能性は十分ありますので、
公開可能なPDFのサンプル(書式は同じで中身の値がダミーのものが望ましい)が用意できるのであれば、
サンプルのPDFを添付して、抽出したい項目を明記した依頼を出すのが、
より条件のよいランサーが見つかる可能性もありますので良いかと思います。

逆に、公開可能なPDFが用意できない(特定のランサー以外に見せたくない)場合は、
信頼できそうと感じたランサーがいらっしゃれば直接相談したり、
PDFを添付せずに依頼を出して、提案内容から信頼できそうと感じたランサーに直接相談、
その方だけにPDFを公開するのが良いのではないかと思います。

以上、ご参考になれば幸いです。
ログインすると、progken (progken)さんに「ありがとう」を伝えられます。
投稿日時:2014年12月20日 12:06:03

株式会社クラウドライン (cloudline)

ログインすると、株式会社クラウドライン (cloudline)さんに「ありがとう」を伝えられます。

投稿者コメント

progken様
ご回答ありがとうございます。

PDFについては各種情報が記載されておりますのでサンプルとしてUPする事が出来ません。

PDF→エクセルに変換した物は有るのですが、今回の参考になりますでしょうか?

なるようでしたらテキスト部分のみ差し支えないデータに書き換えて見ていただく事は可能かと思います。

今回はレイアウトは関係無く、それぞれの項目のデータ部分をデータベースにインポート出来ればと思っております。
インポートしたいデータはテキストのみです。

よろしくお願いします。
投稿日時:2014年12月20日 13:19:28

回答者コメント

ご返信ありがとうございます。

> PDF→エクセルに変換した物は有るのですが、今回の参考になりますでしょうか?

全くならないというと嘘になりますが、
エクセルを頂いても、

「エクセル→データベース」

が可能かどうかが分かるだけで、

「PDF→エクセル」

をcloudline様が作成したエクセルと同じ結果になるようにできるかは判断できません。
(cloudline様がどのような手順でエクセルを作成したのかわかりませんし、
その方法がプログラムから利用できない可能性もあります。)

そのためPDFからデータベースに登録できるかの判断はできないとなります。

>今回はレイアウトは関係無く、それぞれの項目のデータ部分をデータベースにインポート出来ればと>思っております。
>インポートしたいデータはテキストのみです。

PDF内に項目と値が何らかの書式で並んでいれば、それがレイアウトです。
レイアウトの知識がなくても、項目と値が判断できるのは人が高性能だからであって、
プログラムに認識させるにはPDFにどういうレイアウトでデータが書かれていて、
どの部分を取得すればよいのかは重要な要素となります。

以上、よろしくお願い致します。




ログインすると、progken (progken)さんに「ありがとう」を伝えられます。
投稿日時:2014年12月20日 14:38:46

回答者コメント

こんにちは。
実現可能性を確かめる方法が1つあります。
PDFを開いてCtrl+A、Ctrl+Cでコピーしたあと、メモ帳など適当なところに貼り付けたとき、どんなテキストが貼り付けられるかが参考になると思います。

この方法で得られるのはテキストですので、個人や組織の名前を伏せ字にしてここに投稿して頂けると思います。それでprogken様は判断がしやすくなるのではないでしょうか。
ログインすると、cum38898 (cum38898)さんに「ありがとう」を伝えられます。
投稿日時:2014年12月22日 10:18:27

cum38898 (cum38898)

今は忙しいです

回答者コメント

cum38898様

ご助言ありがとうございます。

ただ、PDFを開いてテキストコピペした結果と、
私の考えている方法でプログラムでPDFからテキストを抽出した結果では
書かれている文字は同じでも、文字列の間の空白の有無や改行の有無など、
情報を切り分ける上で大事な情報が違ってしまいます。

そのためやはり可能性が高い・低いは言えても確実なお答えはできません。

現状実物のPDFを公開するよい方法がないのであれば、
私としては十分に実現の可能性はあるので、
依頼を出し、提案してきたランサーから信頼できそうな方を選び、
守秘義務契約を結んだ上で、
きちんと情報を公開して実現可否の最終的な判断をしてもらう
のが良いのではないかと思います。
ログインすると、progken (progken)さんに「ありがとう」を伝えられます。
投稿日時:2014年12月22日 11:51:22

株式会社クラウドライン (cloudline)

ログインすると、株式会社クラウドライン (cloudline)さんに「ありがとう」を伝えられます。

投稿者コメント

cum38898様
アドバイスありがとうございます。

早速やってみました。
一枚のPDFを全選択でテキストで貼り付け、情報を*に置き換えました。
下記の中から一部分の情報のみをDBに出来ればと思っております。
分かりにくいですが、必要情報は上から

店舗名の次の*部分
ご注文番号の数字 この数字をユニークとしたいです。
お届けの時間と住所
回収回収有り の部分の日時
お支払方法
販売額

これ以外にもデータフィールドをいくつか必要になります。
よろしくお願いします。


品目
お弁当? ********************* ※詳細は付属の納品書をご確認ください。6 個
ドリンク? 緑茶(500ml ペットボトル)×6... ※詳細は付属の納品書をご確認ください。6 個
その他? 小分け用ビニール袋×6... ※詳細は付属の納品書をご確認ください。6 個
付属品? 箸、おしぼり、ごみ袋、納品書カタログ ? ?
配送伝票 2014年 12月 12日(金) 最終更新 2014/12/11 10:34



*******
ご注文
番号648084
お届け
********* 番号 ***-********- ***
ピックアップ
0 8 :30
〒***-**** **************************
製造元株式会社 ****************
注意
「********」の看板が目印です。
お届け
1 1 :0 0
〒***-**** 大阪府 北区 中之島1丁目3-20 大阪市役所
駐車場
会社
団体名******株式会社
ご担当
者名
*** ***男


***-****-****
*** *** 様
注意事項
※紙袋での納品をお願いします。
■お届け時間10分前にご連絡し、指定の時間まで待機。お客様指示以外での建物内立入禁止。
■当日ご担当者様以外の方へのお渡し厳禁です。
【容器回収について】
■到着次第ご連絡。お客様指示以外での建物内立入禁止。
回収回収あり 2014年 12月 12日(金) 13:00
配送会社株式会社 クラウドライン
備考
ドライバー******* ***-***-****
【製造元】 株式会社 *****...
**-****-*****
【緊急・相談時】*********
000-0000-0000
お支払方法一括請求(後日請求)
クレカ
端末用番号? 商品
販売額10,160 円受領印 ?
通し番号
投稿日時:2014年12月22日 11:54:45

回答者コメント

http://freesoft-100.com/pasokon/pdf_editor.html
上記のようなソフトで、データの部分を「***」で隠せば各種情報を隠蔽したPDFが作れると思いますよ(会社のロゴなどあれば、画像部分は差しかえが必要ですが)。

見積もりをコンペに出すとしても、サンプルがあればリスクの金額を積まずにすみますから
金額的には下げられるのではないでしょうか。
投稿日時:2014年12月27日 11:18:12
会員登録する (無料)