Pythonで学ぶ音声合成 機械学習実践シリーズ

Pythonで学ぶ音声合成 機械学習実践シリーズ

3,850円(本体 3,500円+税10%)

品種名
書籍
発売日
2021/8/12
ページ数
352
サイズ
B5変形判
著者
山本龍一 著/高道慎之介 著
ISBN
9784295012276

音声合成の基礎から実践までを一冊に凝縮

「音声合成」とは、人間の音声を人工的に作り出す音声情報処理の一分野です。深層学習の発展に従い、画像認識・音声認識などの分野と同様に、音声合成においてもパラダイムシフトが起きています。本書では従来の統計的音声合成システムの基礎を解説した上で、深層学習技術による近年の音声合成の発展について詳説しています。また実際に公開されているデータセットを用いて、深層学習を用いた音声合成システムの実装も行っています。本書は『Pythonで学ぶ音源分離』『同音声認識』に続く、中級者以上向けの「機械学習実践シリーズ」です。

「読者アンケートに答える」「読者プレゼントに応募」の場合もこちらをご利用ください。

アンケートに答える

書籍の内容に関するお問い合わせはこちら。お答えできるのは本書に記載の内容に関することに限ります。

学校・法人一括購入に関するお問い合わせはこちらへ。

一括購入窓口

詳細

1120101073_01.jpg

音声合成の基礎から最新手法までカバー

第6章では、深層学習に基づく統計的パラメトリック音声合成の枠組みに則り、日本語音声合成システムを実装する方法について解説しています

日本語の音声合成システムの作り方を丁寧に解説

第10章では、前章までで解説したTacotron 2に基づき、日本語音声合成システムの実装について解説しています

著者紹介

■山本龍一(やまもと・りゅういち)
LINE株式会社Voiceチーム、音声処理開発者・研究者。2013年に名古屋工業大学大学院博士前期課程修了。チームラボ株式会社を経て、2018年2月にLINE株式会社に入社(現職)。2018年9月から2019年7月までNAVER Corp. Clova Voiceチームにて音声研究を行う。音声合成の研究開発に従事。WaveNetやTacotronに代表される音声合成に関するオープンソースソフトウェアを多数公開。

■高道慎之介(たかみち・しんのすけ)
東京大学大学院情報理工学系研究科助教。2011年に長岡技術科学大学を卒業。2013年・2016年それぞれに奈良先端科学技術大学院大学博士前期・後期課程を修了。2018年より東京大学助教(現職)。博士(工学)。音声合成変換、音声信号処理の研究に従事。

ページイメージ

クリックすると大きい画像でご覧いただけます

ダウンロード

  •  本書で参照するソースコード及び正誤表を、著者のGitHubサイト(下記URL)で公開しています。

     

    https://github.com/r9y9/ttslearn

お詫びと訂正

誤記のためにご迷惑をおかけし、誠に申し訳ございません。

  • 28ページ 1~5行目、閉音節と開音節の説明が逆
    • [誤]
      Vで終わる音節のことを閉音節(closed syllable)といいます。
      Cで終わる音節のことを開音節(open syllable)と呼びます。
    • [正]
      Vで終わる音節のことを開音節(open syllable)といいます。
      Cで終わる音節のことを閉音節(closed syllable)と呼びます。
    • 【 第2刷にて修正 】
  • 71ページ コード4.3
    • [誤]
      numpy,zeros
    • [正]
      np.zeros
    • 【 第2刷にて修正 】
  • 73ページ コード4.5 下2行
    • [誤]
      xとyの出力が逆
    • [正]
      xとyの出力を置換
    • 【 第2刷にて修正 】
  • 110ページ コード5.5
    • [誤]
      {A:(\d+)+}
    • [正]
      {A:([-\d]+)+}
    • 【 第2刷にて修正 】
  • 146ページ 本文下から8行目
    • [誤]
      get_static_features(out_feats, num_windows=3, stream_sizes=[120, 3, 1, 3])
    • [正]
      get_static_features(out_feats, num_windows=3, stream_sizes=[120, 3, 1, 3], has_dynamic_features=[True, True, False, True])
    • 【 第2刷にて修正 】
  • 166ページ コード6.18
    • [誤]
      step_size: 20
    • [正]
      step_size: 10
    • 【 第2刷にて修正 】
  • 200ページ 式(7.10)
    • [誤]
      (1 + μ^{|Y_t|})
    • [正]
      (1 + μ)^{|Y_t|}
  • 216ページ 図7-14
  • 271ページ 図9-4キャプション
    • [誤]
      (b) 注意機構なし
    • [正]
      (b) 注意機構あり
    • 【 第2刷にて修正 】
  • 312ページ 本文上から8行目
    • [誤]
      Tacotronの入力特徴量のサイズ: (60,)
    • [正]
      Tacotronの入力特徴量のサイズ: (56,)
    • 【 第2刷にて修正 】
  • 312ページ 本文上から9行目
    • [誤]
      Tacotronの出力特徴量のサイズ: (273, 80)
    • [正]
      Tacotronの出力特徴量のサイズ: (227, 80)
    • 【 第2刷にて修正 】

お問い合わせ

書籍の内容に関するお問い合わせはこちら。お答えできるのは本書に記載の内容に関することに限ります。

お問い合わせフォーム