Pythonスクレイピングの基本と実践 データサイエンティストのためのWebデータ収集術

Pythonスクレイピングの基本と実践 データサイエンティストのためのWebデータ収集術

¥3,300+税

品種名
書籍
発売日
2018/12/17
ページ数
316
サイズ
B5変形判
著者
Seppe vanden Broucke 著/Bart Baesens 著/株式会社トップスタジオ 訳
ISBN
9784295005285

ネットからのデータ収集を自動化!

本書では、Pythonを使ったスクレイピングの基本と実践を解説。第1部で「HTTP/HTML/CSSの仕組み」「requestsやBeautiful Soupライブラリ活用の基本」を説明。第2部で「フォーム、ログイン、Cookieの操作」「JavaScriptサイトへの対処」「クローラーへの拡張」を解説。第3部で「ベストプラクティス」「規模の大きいサンプル」を示し、データサイエンス指向の使用法にも焦点を当てています。本当に興味深いプロジェクトは、情報という宝の山を探索することから始まります。本書を携えて探索の旅を進めていきましょう。

「読者アンケートに答える」「読者プレゼントに応募」の場合もこちらをご利用ください。

アンケートに答える

書籍の内容に関するお問い合わせはこちら。お答えできるのは本書に記載の内容に関することに限ります。

学校・法人一括購入に関するお問い合わせはこちらへ。

一括購入窓口

著者紹介

◎著者プロフィール
Seppe vanden Broucke (セッペ・バンデン・ブルーク)
ベルギーのルーヴェン・カトリック大学助教授。データプロセスサイエンス専攻。研究分野は、ビジネスデータのマイニングと分析、機械学習、プロセス管理、プロセスマイニングなど。著書に『Principles of Database Management』(Cambridge University Press、2018/9)、『Beginning Java Programming』(Wrox、2015/3)がある。

Bart Baesens (バート・バーセンス)
ベルギーのルーヴェン・カトリック大学教授、英国のサウサンプトン大学講師。ビッグデータとデータ分析を専攻。大規模データと分析、信用リスクモデリング、不正検出、マーケティング分析について幅広く研究している。著書に『Principles of Database Management』(Cambridge University Press、2018/9)、『Profit Driven Business Analytics』(Wiley、2017/10)などがある。

◎訳者プロフィール
株式会社トップスタジオ
1997年の会社設立以来20年以上にわたり、主にIT分野を中心に数多くの翻訳書籍を手掛ける。
書籍/雑誌/マニュアル/パンフレットの企画・翻訳・執筆・編集・組版・装丁のほか、ソフトウェアやヘルプのローカライズなど、幅広いコンテンツの制作に携わっている。
[トップスタジオWebサイト]topstudio.co.jp

目次

◇第1部 Webスクレイピングの基礎
■第1章 イントロダクション―スクレイピングの考え方、Pythonの準備

Webスクレイピングとは
準備

■第2章 HTTPでWebと対話してみよう―HTTPとrequestsライブラリの基本事項
Webによるネットワーク通信の仕組み
HTTP(HyperText Transfer Protocol)
PythonでHTTPを操作する:requestsライブラリ
クエリ文字列:パラメーター付きのURL

■第3章 Webのスープをかき回そう―HTML+CSSページからの情報収集の基本
HTML(HyperText Markup Language)
ブラウザーを開発用ツールとして使用する
CSS(Cascading Style Sheets)
Beautiful Soupライブラリ
Beautiful Soupの詳細

◇第2部 高度なWebスクレイピング
■第4章 POSTメソッドやクッキーなどへの対処法

フォームとPOSTリクエストの操作
HTTPリクエストメソッドのまとめ
ヘッダーの詳細
Cookieの処理
requestsのセッションを利用する
バイナリ、JSON、その他のコンテンツ形式

■第5章 JavaScriptへの対処法
JavaScriptとは何か
JavaScriptのスクレイピング
Seleniumによるスクレイピング
Seleniumの高度な使用法

■第6章 スクレイピングからクローリングへ―Webクローラー開発のポイント
Webクローリングとは
PythonによるWebクローリング
結果をデータベースに保存する

◇第3部 Webスクレイピングの実践入門
■第7章 管理と法律に関する問題

データサイエンスのプロセス
Webスクレイピングが効果的な領域
法務に関する問題

■第8章 有用なツールとベストプラクティス
スクレイピングに役立つその他のツール
ベストプラクティスとヒント

■第9章 データサイエンス指向の実践サンプル
―ファッションデータ/ニュース記事/商品レビューなどの収集と分析

Hacker Newsのスクレイピング
Hacker News APIの利用
名言のスクレイピング
書籍の情報をスクレイピングする
GitHubのスター数をスクレイピングする
住宅ローン金利の情報をスクレイピングする
IMDbの評価をスクレイピングしてビジュアル化する
IATAの航空情報をスクレイピングする
Webフォーラムの対話をスクレイピングして解析する
ファッションのデータセットを収集してクラスタリングする
Amazonのレビューをスクレイピングしてセンチメント分析を行う
ニュース記事のスクレイピングと分析
Wikipediaをスクレイピングしてグラフ化と分析を行う
役員のグラフをスクレイピングしてビジュアル化する
ディープラーニングによってCAPTCHAを突破する

関連書籍

好評発売中

Python機械学習ライブラリ scikit-learn活用レシピ80+

Python機械学習のレシピ集80超!

好評発売中

Ethereum+Solidity入門 Web3.0を切り拓くブロックチェーンの思想と技術

進化するブロックチェーン「イーサリアム」

好評発売中

Pythonデータ分析/機械学習のための基本コーディング! Pandasライブラリ活用入門

ダウンロード

本製品の読者さまを対象としたダウンロード情報はありません。

お詫びと訂正

誤記のためにご迷惑をおかけし、誠に申し訳ございません。

  • 0ページ 著者名のフリガナ表記の揺れを下記に統一
    • [誤]
      Bart Baesens(バート・バエセン)
    • [正]
      Bart Baesens(バート・バーセンス)
  • 59ページ ページ下から3つ目の箇条書き
    • [誤]
      ●カンマ(.)を使って
    • [正]
      ●カンマ(,)を使って

お問い合わせ

書籍の内容に関するお問い合わせはこちら。お答えできるのは本書に記載の内容に関することに限ります。

お問い合わせフォーム