徹底攻略データサイエンティスト検定問題集[リテラシーレベル]対応
2,640円(本体 2,400円+税10%)
- 品種名
- 書籍
- 発売日
- 2022/4/21
- ページ数
- 320
- サイズ
- A5判
- 著者
- スキルアップAI株式会社 小縣 信也 著/スキルアップAI株式会社 斉藤 翔汰 著/スキルアップAI 株式会社 山田 弦太朗 著/一般社団法人データサイエンティスト協会 監修/株式会社ソキウス・ジャパン 編
- ISBN
- 9784295013815
最新スキルチェックリストver.4対応!
黒本で最先端の資格をいち早く取得しよう!2021年よりスタートしたデータサイエンティスト検定(通称DS検定)。その「リテラシーレベル」試験に対応した問題集です!データサイエンティスト検定リテラシーレベル試験は、「データサイエンス力」「データエンジニア力」「ビジネス力」の3つのチカラに関する知識が問われます。それぞれの分野に対応した問題と詳しい解説をしっかり網羅しているので、バランス良く学習できます。
- 電子版を買う
-
「読者アンケートに答える」「読者プレゼントに応募」の場合もこちらをご利用ください。
書籍の内容に関するお問い合わせはこちら。お答えできるのは本書に記載の内容に関することに限ります。
学校・法人一括購入に関するお問い合わせはこちらへ。
詳細
本書1冊で合格率がグングンアップ!
著者紹介
▼小縣 信也(おがた・しんや)
スキルアップAI講師。兵庫県出身。大阪市立大学工学部卒業後、建材メーカー、設備設計事務所に勤務。2010年、OpenFOAM勉強会forbeginner(現オープンCAE勉強会@関東)を立ち上げ3年間幹事を務める。建築環境に関する数値シミュレーション、電力量や温湿度などのセンサーデータに関する分析が専門。1級建築士、エネルギー管理士。2013年、国土交通省国土技術政策総合研究所 優秀技術者賞受賞。 2021年度データサイエンティスト協会DS検定(リテラシーレベル)第1回合格者。著書「徹底攻略ディープラーニングE資格エンジニア問題集」(インプレス)。
▼斉藤 翔汰(さいとう・しょうた)
スキルアップAI講師。横浜国立大学大学院 環境情報学府 情報メディア環境学専攻(現:情報環境専攻)修了。修士(情報学)。高専時代に画像認識に対して興味を持ったことがきっかけで、現在はDeep Learningや機械学習、進化計算などの人工知能分野におけるアルゴリズムの研究開発やコンサルティングに従事。2021年度データサイエンティスト協会DS検定(リテラシーレベル)第1回合格者。著書「徹底攻略ディープラーニングE資格エンジニア問題集」(インプレス)。
▼山田 弦太朗(やまだ・げんたろう)
スキルアップAI講師。東海大学大学院 工学研究科 建築土木工学専攻 修了。修士(工学)。修士課程では、コンピューテーションによる建築設計自動化技術を応用し、中世イスラーム建築の天井装飾のデザイン原理について研究。スキルアップAIでは講師としてPyTorch入門講座を担当するほか、教材作成・執筆等の業務に従事。2021年度データサイエンティスト協会DS検定(リテラシーレベル)第1回合格者。
目次
第1章 データサイエンス力 —数理統計—
第2章 データサイエンス力 —機械学習—
第3章 データエンジニアリング力 —知識—
第4章 データエンジニアリング力 —SQL—
第5章 ビジネス力 —プロジェクト推進—
第6章 ビジネス力 —法律・倫理—
第7章 モデルカリキュラム
第8章 総仕上げ問題
関連書籍
ダウンロード
本製品の読者さまを対象としたダウンロード情報はありません。
お詫びと訂正
誤記のためにご迷惑をおかけし、誠に申し訳ございません。
- 47ページ 解答14の11行目と17行目
- [誤]
|A—λE|= 0(ゼロの太字) - [正]
|A—λE|= 0(ゼロの普通書体) -
備考:
【 第3刷にて修正予定 】
- [誤]
- 47ページ 解答14
- [誤]
※解説文を下記に全差し替え。 - [正]
-
- 【 第3刷にて修正 】
- [誤]
- 48ページ 解答14の1行目と6行目(2か所) ※3刷修正後
- [誤]
ここで、cは任意の実数です。 - [正]
ここで、cは0以外の任意の実数です。 - 【 第5刷にて修正 】
- [誤]
- 49ページ 解答16「●系統抽出法」の【例】1行目
- [誤]
5,000人から50人の調査対象を選ぶときに、 - [正]
5,000人から500人の調査対象を選ぶときに、 - 【 第2刷にて修正 】
- [誤]
- 55ページ 「試験対策」の2行目
- [誤]
Q3+1.5×IQR、Q1-1.5×IQR を上下限とする - [正]
Q3+1.5×IQR、Q1-1.5×IQR 内の最大値・最小値を上下限とする - 【 第2刷にて修正 】
- [誤]
- 58ページ 【参考】の5行目
- [誤]
~の軸だけを対数メモリ - [正]
~の軸だけを対数目盛り - 【 第2刷にて修正 】
- [誤]
- 62ページ 問2の選択肢B
- [誤]
(xi-xmin)/xmax - [正]
(xi-xmin)/(xmax-xmin) -
備考:
【 第3刷にて修正予定 】
- [誤]
- 76ページ 問20
- [誤]
※問題文を下記に差し替え - [正]
-
- 【 第2刷にて修正 】
- [誤]
- 77ページ 問21の設問文
- [誤]
~標本誤差とは(イ)を表す量である。 - [正]
~標本誤差とは(イ)を表す量である。ここで、「標本の値(標本値)」は標本から算出される平均や分散などの値、「母集団の値(母集団値)」は母集団から算出される平均や分散の値を意味するものとする。 - 【 第6刷にて修正 】
- [誤]
- 83ページ 問34の選択肢C
- [誤]
(ア)合成槽 - [正]
(ア)合成層 - 【 第5刷にて修正 】
- [誤]
- 86ページ 解答2の11行目
- [誤]
Dは、0-1正規化と似た計算式であり、xの各要素からxの最大値を引き、それをxの最小値で割っています。しかし、これは誤った計算式です。 - [正]
Dは、xの各要素からxの最大値を引き、それをxの最小値で割っています。通常、このような変換を変数に施すことはありません。 -
備考:
【 第3刷にて修正予定 】
- [誤]
- 90ページ 解答6の下から2行目
- [誤]
クラス判定のしきい値をランダムに変化させながら - [正]
クラス判定のしきい値を0から1の範囲で変化させながら - 【 第2刷にて修正 】
- [誤]
- 100ページ 問14解説のグラフのキャプション
- [誤]
(左)データインク比が小さい例(良いグラフ)
(右)データインク比が大きい例(悪いグラフ) - [正]
(左)データインク比が大きい例(良いグラフ)
(右)データインク比が小さい例(悪いグラフ) -
備考:
【 第7刷で修正予定 】
- [誤]
- 108ページ 解答20
- [誤]
※解答文を下記に差し替え - [正]
-
- 【 第2刷にて修正 】
- [誤]
- 109ページ 問21の解説の8行目「標本誤差とは~」の段落の後に追加
- [誤]
※下記文章を追加。 - [正]
ここで、「標本値」は標本から算出される平均や分散などの値、「母集団値」は母集団から算出される平均や分散の値を意味するものとします。 - 【 第6刷にて修正 】
- [誤]
- 111ページ 解答24の9行目
- [誤]
ランダムフォレストは、ランダムに生成した複数の決定木を用いて、それぞれの学習結果を平均するアンサンブル学習であり、回帰の問題、分類の問題の両方に用いられます(C)。 - [正]
ランダムフォレストは、ランダムに生成した複数の決定木の出力をもとに最終的な予測結果を出力する、アンサンブル学習を行う手法の一つです。ランダムフォレストは、回帰問題・分類問題の両方に適用することができます。ランダムフォレストを回帰問題に適用する場合には、それぞれの決定木(これを回帰問題では特に回帰木と呼ぶ場合があります)の出力の平均値(あるいはそれ以外の何らかの代表値)を最終的な出力とします。一方、ランダムフォレストを分類問題に適用する場合には、それぞれの決定木(分類問題では特に分類木という場合があります)の出力の多数決をとり、その中で最多のクラスを最終的な出力とします(C)。 - 【 第5刷にて修正 】
- [誤]
- 117ページ 解答30の下から5行目
- [誤]
それぞれ異なる方式でデータ圧縮を行なっており、同一内容の画像であれば、ファイルサイズはPNGが最も大きく、GIFが最も小さくなります - [正]
データの圧縮方式や表現可能な色の種類に違いがあります。 - 【 第2刷にて修正 】
- [誤]
- 119ページ 解答32の下から7行目
- [誤]
バスケット分析においては、P(A)を支持度といい - [正]
バスケット分析においては、P(A∩B)を支持度といい - 【 第2刷にて修正 】
- [誤]
- 139ページ 解答4 【第一正規形だが第ニ正規形でない例】
- [誤]
社員ID - [正]
社員ID
 ̄ ̄ ̄ - 【 第4刷にて修正 】
- [誤]
- 140ページ 解答5の下から3行目
- [誤]
CyberduckやFileZilla(Mac用)が挙げられます。 - [正]
CyberduckやFileZilla(クロスプラットフォーム対応)が挙げられます。 - 【 第2刷にて修正 】
- [誤]
- 148ページ 問12の解説 3行目
- [誤]
2.送信者は、受信者公開鍵を用いて平文のハッシュ値(後述)を暗号化したデータを、受信者に送信する - [正]
2.送信者は、平文を受信者公開鍵で暗号化した暗号文と、平文のハッシュ値(後述)を暗号化したデータ(デジタル署名)を、受信者に送信する -
備考:
【 第7刷で修正予定 】
- [誤]
- 148ページ 問12の解説 5行目
- [誤]
3.受信者は、暗号文を受信者秘密鍵で復号し、電子署名を送信者公開鍵で復号する - [正]
3.受信者は、暗号文を受信者秘密鍵で復号した後ハッシュ化し、電子署名を送信者公開鍵で復号したデータ(ハッシュ値)と突合する -
備考:
【 第7刷で修正予定 】
- [誤]
- 149ページ 解答14の3行目
- [誤]
学習(Operations) - [正]
運用(Operations) - 【 第6刷にて修正 】
- [誤]
- 152ページ 冒頭の注意書き
- [誤]
本章のSQL文はすべてSQL:2016標準規格に準ずるものとする。 - [正]
本章のSQL文は特に記載のない限りSQL:2016標準規格に準ずるものとする。 - 【 第5刷にて修正 】
- [誤]
- 153ページ 問5
- [誤]
※問題文を下記に差し替え - [正]
-
- 【 第2刷にて修正 】
- [誤]
- 153ページ 問5の問題文の末尾に追加 ※2刷修正後
- [誤]
※下記を追加 - [正]
(なお、RDBMSは「MySQL」の使用を仮定している。) - 【 第5刷にて修正 】
- [誤]
- 154ページ 問7の設問文
- [誤]
次のSQLを用いて、「payment」というテーブルから「amount」というカラムを取得することを考える。なお、取得するデータはテキスト型に変換している。 - [正]
次のSQLを用いて、「payment」テーブルの中から「amount」というカラムと「payment_data」というカラムを取得したい。ただし、「amount」はinteger型、「payment_data」はtext型でそれぞれ取得しなければならないものとする。 - 【 第2刷にて修正 】
- [誤]
- 156ページ 問10のSQLコードの5行目
- [誤]
FROM data _b - [正]
FROM data_b - 【 第2刷にて修正 】
- [誤]
- 158ページ 問12の2行目
- [誤]
ただし、「order」テーブルと~ - [正]
ただし、「product_order」テーブルと~ - 【 第5刷にて修正 】
- [誤]
- 165ページ 解答5
- [誤]
※解答文を下記に差し替え - [正]
-
- 【 第2刷にて修正 】
- [誤]
- 173ページ 解答12のemployee(社員)テーブル
- [誤]
code name
0 Taro
1 Hanako
2 Ken
3 Yuki
4 Yumi - [正]
code name
0 Taro
1 Ken
2 Hanako
3 Yui
4 Yuki - 【 第2刷にて修正 】
- [誤]
- 176ページ 解答16の表【主な集合関数】
- [誤]
※下図を参照 - [正]
-
- 【 第2刷にて修正 】
- [誤]
- 178ページ 問3 選択肢C
- [誤]
顧客のセグメンテーションを行い、自社の顧客への理解を深める - [正]
Recency・Frequency・Monetary の3つの指標に基づいて顧客をグループ分けし、自社の顧客への理解を深める。 - 【 第2刷にて修正 】
- [誤]
- 200ページ 問6 選択肢B
- [誤]
e-Statで公開されている、日本政府の各府省が収集する統計情報は、二次データである - [正]
e-Statで公開されている日本政府の各府省が収集する統計情報をダウンロードして利用した場合、二次データである - 【 第2刷にて修正 】
- [誤]
- 213ページ 解答7の表4項目めの【例】
- [誤]
広告のCPA(Cost Per Acquisition、顧客獲得単価)が最大になるような - [正]
広告のCPA(Cost Per Acquisition、顧客獲得単価)が最小になるような - 【 第2刷にて修正 】
- [誤]
- 213ページ 解答7の表キャプション
- [誤]
【機械学習の活用領域】 - [正]
【データ・AIの活用領域】 - 【 第2刷にて修正 】
- [誤]
- 222ページ 問6の定義2行目
- [誤]
m21n11 + m22n12 - [正]
m21n11 + m22n21 - 【 第2刷にて修正 】
- [誤]
- 234ページ 問34 選択肢D
- [誤]
住宅ローン申込者への融資リスクの高低を判断する - [正]
住宅ローン申込者への融資リスクの有無を判断する - 【 第2刷にて修正 】
- [誤]
- 238ページ 問45の選択肢C、D
- [誤]
C.主成分分析を行って、寄与率の大きい成分を取り出す
D.主成分分析を行って、寄与率の小さい成分を取り出す - [正]
C.主成分分析を行って、寄与率の大きい成分を採用する
D.主成分分析を行って、寄与率の小さい成分を採用する -
備考:
【 第7刷で修正予定 】
- [誤]
- 238ページ 問43
- [誤]
※問題文を下記に差し替え - [正]
-
- 【 第2刷にて修正 】
- [誤]
- 242ページ 問52の設問文の下から3行目以降
- [誤]
また、SQLのUNION処理では、複数のSELECTの結果を結合することができる。このとき、( イ )では重複を削除するが、( ウ )では重複も含めて結合する。よって、下図では(イ)を実行している。 - [正]
また、SQLのUNION処理では、複数のSELECTの結果の和をとることができる。このとき、( イ )では重複が削除されるが、( ウ )では重複も含まれる。 - 【 第2刷にて修正 】
- [誤]
- 246ページ 問57の選択肢B
- [誤]
結合 - [正]
結合(自然結合) - 【 第2刷にて修正 】
- [誤]
- 247ページ 問58
- [誤]
※問題文を下記に差し替え - [正]
-
- 【 第2刷にて修正 】
- [誤]
- 251ページ 問70の選択肢C
- [誤]
C. 購入者データを匿名化し個人を特定できないようにしたものを、購入者の同意を得ずに第三者に提供した - [正]
C. 購入者データを仮名加工情報としたものを、購入者の同意を得ずに不特定の第三者に提供した -
備考:
【 第3刷にて修正予定 】
- [誤]
- 254ページ 問76の選択肢A、B、C、D
- [誤]
A.「生年月日」「年代」
B.「20代」「30代」「40代」「50代」「60代以上」
C.「女性」「男性」「子ども」
D.「購入した携帯電話の機種」「購入しなかった携帯電話の機種」
- [正]
A. 次の項目について教えてください。
・性別:男性 女性
・生年月日:西暦 年 月 日
・年代: 歳代
B.次のうち、該当する年代に⚪︎をつけてください。
20代 30代 40代 50代 60代以上
C.次のうち、あなたに関して該当するものに⚪︎をつけてください。
女性 男性 子ども
D.1日の間に携帯電話を何時間程度操作しますか。
1時間未満 1時間以上2時間未満 2時間以上3時間未満 3時間以上4時間未満 4時間以上 - 【 第5刷にて修正 】
- [誤]
- 258ページ 問84 選択肢A
- [誤]
顧客を年齢、性別、嗜好などの特徴ごとにグルーピングするRFM分析を行い、クライアントの商品の主な顧客層のデータを抽出し、解析する - [正]
Recency・Frequency・Monetary の3つの指標に基づいて顧客をグループ分けするRFM分析を行い、クライアントの商品の主な顧客層のデータを抽出し、解析する - 【 第2刷にて修正 】
- [誤]
- 259ページ 問86の問題文3行目
- [誤]
~店客数に比例する」「商品販売量は季節・曜日・天気・立地から予測可能」 - [正]
~店客数に比例する」「来店客数は季節・曜日・天気・立地から予測可能」 - 【 第2刷にて修正 】
- [誤]
- 260ページ 問88 選択肢B
- [誤]
アジャイル開発では、企画、設計、開発、テストを繰り返す(イテレーション)という進め方をし、イテレーションごとに開発対象の機能を決定していく - [正]
アジャイル開発では、数週間や数カ月といった短い期間で、動作するソフトウェアを作ることを重要視する - 【 第2刷にて修正 】
- [誤]
- 274ページ 解答21の下から3行目
- [誤]
グラフ上にクラス判定のしきい値をランダムに変化させながら - [正]
グラフ上にクラス判定のしきい値を0から1の範囲で変化させながら - 【 第2刷にて修正 】
- [誤]
- 282ページ 解答34の3行目
- [誤]
Dでは録音データが、 - [正]
Dでは過去の融資記録が、 - 【 第2刷にて修正 】
- [誤]
- 283ページ 解答35の2行目
- [誤]
k-means法は階層型クラスタリングの代表的な手法の一つです(B)。 - [正]
k-means法は非階層型クラスタリングの代表的な手法の一つです(B)。 - 【 第2刷にて修正 】
- [誤]
- 287ページ 解答43
- [誤]
※解答文を下記に差し替え - [正]
-
- 【 第2刷にて修正 】
- [誤]
- 292ページ 解答52の下から2行目以降
- [誤]
SQLのUNION句では、複数のSELECT句の結果を結合することができます。このとき、UNIONでは内部結合を行うため重複が削除されますが、UNION ALLでは交差結合を行うので重複が削除されません。 - [正]
また、SQLのUNION句では、複数のSELECT句の実行結果の和をとることができます。このとき、UNIONでは重複が削除されますが、UNION ALLでは重複が削除されません。 - 【 第2刷にて修正 】
- [誤]
- 293ページ 解答54の下から6行目
- [誤]
量子化は、サンプリングされたアナログ値を、離散的なデジタル値(0と1で表現できる値)に変換することをいいます。量子化を行うことで、実行時のメモリ消費量や保存時のファイルサイズを削減することができます。 - [正]
量子化は、サンプリングされたアナログ値を離散化する変換です。サンプリングと量子化は、アナログ信号をコンピュータ上で処理する際の一般的な前処理です。 - 【 第2刷にて修正 】
- [誤]
- 295ページ 解答58
- [誤]
※解答文を下記に差し替え - [正]
-
- 【 第2刷にて修正 】
- [誤]
- 296ページ 解答60の13行目
- [誤]
外部ライブラリが提供する引数の戻り値を適切に把握し、~ - [正]
外部ライブラリが提供する関数の戻り値を適切に把握し、~ - 【 第5刷にて修正 】
- [誤]
- 302ページ 解答70の3段落目
- [誤]
匿名化を行ったデータは、たとえその内容から個人を特定できない場合でも、本人の同意なしに第三者提供をすることはできません(C)。 - [正]
法令に基づく場合を除き、仮名加工情報の第三者提供は原則として禁止されています。業務委託や事業の継承などに伴う関係者間での提供が例外的に認められていますが、仮名加工情報を不特定の第三者に提供することはできません(C)。 -
備考:
【 第3刷にて修正予定 】
- [誤]
- 304ページ 解答76の5行目
- [誤]
「購入した携帯電話の機種」~よって、この設問は、MECEであるといえます。 - [正]
「1時間未満」「1時間以上2時間未満」「2時間以上3時間未満」「3時間以上4時間未満」「4時間以上」は、携帯電話の使用時間に着目した選択肢です。下端側と上端側とに「1時間未満」と「4時間以上」という選択肢が含まれているため、これらの選択肢によって、1日の間の携帯電話の使用時間を網羅することができます。また、これらの選択肢それぞれが指している時間の範囲には、重複が存在しません。よって、この設問は、MECEであるといえます(D)。 - 【 第5刷にて修正 】
- [誤]
- 306ページ 問78の解答および本文の最終行
- [誤]
解答:B
本文:以上より、選択肢Bが正解です。 - [正]
解答:C
本文:以上より、選択肢Cが正解です。 -
備考:
【 第7刷で修正予定 】
- [誤]
- 306ページ 問78の解説「RFM分析」の記述
- [誤]
顧客への理解を深めるために用いられる分析手法。顧客を属性ごとに分析するセグメンテーションが行われる。 - [正]
顧客への理解を深めるために用いられる分析手法。顧客を「Recency(最新購入日)」「Frequency(購入頻度)」「Monetary(購入金額)」の3つの指標で評価し、その結果をもとにセグメンテーションを行う。 -
備考:
【 第7刷で修正予定 】
- [誤]
- 311ページ 解答88の第3段落2行目
- [誤]
アジャイル開発では、企画、設計、開発、テストを何度も繰り返す(イテレーション)という進め方をします(B)。 - [正]
アジャイル開発では、数週間や数カ月といった短い期間で、動作するソフトウェアを作ることを重要視します(B)。 - 【 第2刷にて修正 】
- [誤]
お問い合わせ
書籍の内容に関するお問い合わせはこちら。お答えできるのは本書に記載の内容に関することに限ります。