Pythonスクレイピングの基本と実践 データサイエンティストのためのWebデータ収集術

Pythonスクレイピングの基本と実践 データサイエンティストのためのWebデータ収集術

¥3,300+税

品種名
書籍
発売日
2018/12/17
ページ数
316
サイズ
B5変形判
著者
Seppe vanden Broucke 著/Bart Baesens 著/株式会社トップスタジオ 訳
ISBN
9784295005285

ネットからのデータ収集を自動化!

本書では、Pythonを使ったスクレイピングの基本と実践を解説。第1部で「HTTP/HTML/CSSの仕組み」「requestsやBeautiful Soupライブラリ活用の基本」を説明。第2部で「フォーム、ログイン、Cookieの操作」「JavaScriptサイトへの対処」「クローラーへの拡張」を解説。第3部で「ベストプラクティス」「規模の大きいサンプル」を示し、データサイエンス指向の使用法にも焦点を当てています。本当に興味深いプロジェクトは、情報という宝の山を探索することから始まります。本書を携えて探索の旅を進めていきましょう。

「読者アンケートに答える」「読者プレゼントに応募」の場合もこちらをご利用ください。

アンケートに答える

書籍の内容に関するお問い合わせはこちら。お答えできるのは本書に記載の内容に関することに限ります。

学校・法人一括購入に関するお問い合わせはこちらへ。

一括購入窓口

著者紹介

◎著者プロフィール
Seppe vanden Broucke (セッペ・バンデン・ブルーク)
ベルギーのルーヴェン・カトリック大学助教授。データプロセスサイエンス専攻。研究分野は、ビジネスデータのマイニングと分析、機械学習、プロセス管理、プロセスマイニングなど。著書に『Principles of Database Management』(Cambridge University Press、2018/9)、『Beginning Java Programming』(Wrox、2015/3)がある。

Bart Baesens (バート・バーセンス)
ベルギーのルーヴェン・カトリック大学教授、英国のサウサンプトン大学講師。ビッグデータとデータ分析を専攻。大規模データと分析、信用リスクモデリング、不正検出、マーケティング分析について幅広く研究している。著書に『Principles of Database Management』(Cambridge University Press、2018/9)、『Profit Driven Business Analytics』(Wiley、2017/10)などがある。

◎訳者プロフィール
株式会社トップスタジオ
1997年の会社設立以来20年以上にわたり、主にIT分野を中心に数多くの翻訳書籍を手掛ける。
書籍/雑誌/マニュアル/パンフレットの企画・翻訳・執筆・編集・組版・装丁のほか、ソフトウェアやヘルプのローカライズなど、幅広いコンテンツの制作に携わっている。
[トップスタジオWebサイト]topstudio.co.jp

目次

◇第1部 Webスクレイピングの基礎
■第1章 イントロダクション―スクレイピングの考え方、Pythonの準備

Webスクレイピングとは
準備

■第2章 HTTPでWebと対話してみよう―HTTPとrequestsライブラリの基本事項
Webによるネットワーク通信の仕組み
HTTP(HyperText Transfer Protocol)
PythonでHTTPを操作する:requestsライブラリ
クエリ文字列:パラメーター付きのURL

■第3章 Webのスープをかき回そう―HTML+CSSページからの情報収集の基本
HTML(HyperText Markup Language)
ブラウザーを開発用ツールとして使用する
CSS(Cascading Style Sheets)
Beautiful Soupライブラリ
Beautiful Soupの詳細

◇第2部 高度なWebスクレイピング
■第4章 POSTメソッドやクッキーなどへの対処法

フォームとPOSTリクエストの操作
HTTPリクエストメソッドのまとめ
ヘッダーの詳細
Cookieの処理
requestsのセッションを利用する
バイナリ、JSON、その他のコンテンツ形式

■第5章 JavaScriptへの対処法
JavaScriptとは何か
JavaScriptのスクレイピング
Seleniumによるスクレイピング
Seleniumの高度な使用法

■第6章 スクレイピングからクローリングへ―Webクローラー開発のポイント
Webクローリングとは
PythonによるWebクローリング
結果をデータベースに保存する

◇第3部 Webスクレイピングの実践入門
■第7章 管理と法律に関する問題

データサイエンスのプロセス
Webスクレイピングが効果的な領域
法務に関する問題

■第8章 有用なツールとベストプラクティス
スクレイピングに役立つその他のツール
ベストプラクティスとヒント

■第9章 データサイエンス指向の実践サンプル
―ファッションデータ/ニュース記事/商品レビューなどの収集と分析

Hacker Newsのスクレイピング
Hacker News APIの利用
名言のスクレイピング
書籍の情報をスクレイピングする
GitHubのスター数をスクレイピングする
住宅ローン金利の情報をスクレイピングする
IMDbの評価をスクレイピングしてビジュアル化する
IATAの航空情報をスクレイピングする
Webフォーラムの対話をスクレイピングして解析する
ファッションのデータセットを収集してクラスタリングする
Amazonのレビューをスクレイピングしてセンチメント分析を行う
ニュース記事のスクレイピングと分析
Wikipediaをスクレイピングしてグラフ化と分析を行う
役員のグラフをスクレイピングしてビジュアル化する
ディープラーニングによってCAPTCHAを突破する

関連書籍

好評発売中

スッキリわかるPython入門

なぜ?がわかるから初めてでも楽々身に付く

好評発売中

できる 仕事がはかどるPython自動処理 全部入り。

ダウンロード

本製品の読者さまを対象としたダウンロード情報はありません。

お詫びと訂正

誤記のためにご迷惑をおかけし、誠に申し訳ございません。

  • 0ページ 著者名のフリガナ表記の揺れを下記に統一
    • [誤]
      Bart Baesens(バート・バエセン)
    • [正]
      Bart Baesens(バート・バーセンス)
  • 59ページ ページ下から3つ目の箇条書き
    • [誤]
      ●カンマ(.)を使って
    • [正]
      ●カンマ(,)を使って

お問い合わせ

書籍の内容に関するお問い合わせはこちら。お答えできるのは本書に記載の内容に関することに限ります。

お問い合わせフォーム