3月 092013
 

営業、プロモーション、市場調査など、検索で見つかった特定のウェブサイトの

多くのページから電話番号を抽出し、統一のフォーマットにしてデータ化したい方も大勢いらっしゃると思います。

しかし、たとえ、ひとつのサイトで1000以上のページが存在する場合、

一つ一つのページを次へをクリックして、電話番号だけを抽出することは難しいでしょうね。

私は下記の方法を用いて電話番号の抽出を実現しました。

ウェブサイトがレイアウトが決まっているため、ウェブページに電話番号の場所がほとんど決まっています。

例えば下記のウェブページの電話番号がテーブルの「代表問い合わせ先」という言葉の後ろのセルにあります。

プログラミングで実現する手順としては

1.ウェブページのソースコードから「代表問い合わせ先」という言葉のエリアを見つけます。

2.全角の数字を半角に変換します。(全角数字はプログラミングに数字ではなく、文字と同じ扱いになるため)

3.予め電話番号のパターンを見つけ出し、プログラミングの辞書に登録します。

基本なパターンは50前後種類があります。例えば

…-….-…(数字から始まり、-が付いているパターン)

(..)…-….(カッコから始まるパターン)

4.電話番号パターンの特徴に基づき、電話番号でない文字(本部(9時~19時))を削除します。

残りの部分は電話番号になります。

キーワード:顧客開拓 電話 番号 リスト作成