Pythonで学ぶ音源分離(機械学習実践シリーズ)

Pythonで学ぶ音源分離(機械学習実践シリーズ)

3,850円(本体 3,500円+税10%)

品種名
書籍
発売日
2020/8/24
ページ数
352
サイズ
B5変形判
著者
戸上真人 著
ISBN
9784295009849

音源分離の基礎から実装までを一冊に凝縮

近年、AIスピーカをはじめとした音声認識システムがさまざまな場面で使われています。一般的に音声認識システムは1人の声を聞き取ることを想定しており、それ以外の音があると聞きたい声を正確に聞き取ることが難しくなります。「音源分離」とはさまざまな音が混ざった中から欲しい音だけを抽出する技術です。音源分離の基礎からPythonを用いた実装までを詳しく解説しています。本書は中級者以上に向けた、特定の技術分野のアルゴリズムの紹介と、それを実装したコードを解説する、より技術的・実践的な「機械学習実践シリーズ」です。

「読者アンケートに答える」「読者プレゼントに応募」の場合もこちらをご利用ください。

アンケートに答える

書籍の内容に関するお問い合わせはこちら。お答えできるのは本書に記載の内容に関することに限ります。

学校・法人一括購入に関するお問い合わせはこちらへ。

一括購入窓口

詳細

1119101154_01.jpg

身近なものにも活用される技術「音源分離」の基礎と実装を解説する一冊

第1章は、音源分離とはどういった技術なのか、具体例を提示しながら解説しています。第2章は、音声処理の基本として、音声ファイルの構造と、Pythonパッケージを用いて音声ファイルを開閉する方法を示しています。第3章は、音源分離で必要な、線形代数や行列、ベクトルの微分の方法、確率統計の基礎について紹介しています。第4章は、第3章の数学的知識をベースに、最適化に関する手法を示しています。

第5章は、Pyroomacousticsというライブラリを用いて仮想的に設定した部屋で収録した音声をシミュレートする方法を紹介しています。第6章では、ビームフォーミングという手法を解説しています。第7章は、空間モデルのパラメータを、音源方向の推定結果を利用して求める方法を示しています。第8章は、ブラインド音源分離法について解説しています。第9章は、残響除去の方法を示しています。第10章は、残響除去と音源分離を統合的に実行する方法を解説しています。第11章は、PyroomacousticsやNARA-WPEなどのツールや参考文献を紹介しています。

音源分離に必要不可欠な数学の基礎知識も網羅

音源分離を理解しコードを書くためには、プログラミングに関する知識に加え、線形代数、微分積分、確率・統計といった数学的知識も必要不可欠です。本書では、線形代数や行列・ベクトルの微分の方法、確率統計の基礎について示しています。とくに音源分離では複素数の行列・ベクトルを用いるため、複素数の計算方法について重点的に解説しています。

著者紹介

戸上真人(とがみ・まさひと)
2017年1月~2018年5月、スタンフォード大学のStanford Data Science Initiative (SDSI) Visiting Scholar。2018年6月にLINE株式会社入社。現在、同社のAI研究組織であるData LabsのSpeech TeamのManager兼Principal Researcher。(一社)人工知能学会理事。16年以上に渡り、音声処理の研究開発に従事。東京大学工学系研究科より2011年に博士(工学)授与。登録特許20件以上、査読あり論文9件、査読あり国際会議での採択論文数60件以上。IEEE Senior Member。

ページイメージ

クリックすると大きい画像でご覧いただけます

目次

序章
第1章 音源分離とは?
第2章 音声処理の基礎
第3章 音源分離で用いる数学的知識の基礎(線形代数、ベクトル・行列の微分)
第4章 「最適化」に関する技法を理解する
第5章 シミュレーターで音を作ってみる
第6章 古典的な音源分離方法~ビームフォーミング~
第7章 音源方向推定に基づく音源分離
第8章 現代的な統計的モデルに基づく音源分離法
第9章 響きのある音を響きのない音に変える残響除去法
第10章 音源分離と残響除去を統合的に実行する
第11章 音源分離関連のライブラリ紹介・その他のトピック・参考文献

ダウンロード

お詫びと訂正

誤記のためにご迷惑をおかけし、誠に申し訳ございません。

  • 2ページ コード5行目
    • [誤]
      pip install itertools
    • [正]
      pip install itertoolsを削除
    • 【 第2刷にて修正 】
  • 10ページ 本文下から4行目
    • [誤]
      知り当たった
    • [正]
      知り合った
    • 【 第2刷にて修正 】
  • 25ページ コード番号
    • [誤]
      code2.1とcode2.9が欠番。
    • [正]
    • 【 第2刷にて修正 】
  • 40ページ 式(2.11)
  • 43ページ 本文1行目
    • [誤]
      複素数x'(l,n,f)
    • [正]
      x'(l,n,f)
  • 45ページ 式(2.32)
  • 46ページ 式(2.36)
  • 58ページ 雑音の振幅を推定のコード
    • [誤]
      #雑音の振幅を推定
      noise_amp=np.power(np.mean(np.power(amp,p)[:,:n_noise_only_frame],axis=1,keepdims=True),1./2)
    • [正]
      #雑音の振幅を推定
      noise_amp=np.power(np.mean(np.power(amp,p)[:,:n_noise_only_frame],axis=1,keepdims=True),1./p)
    • 【 第2刷にて修正 】
  • 60ページ コード番号
    • [誤]
      code2.14
    • [正]
      code2.15
    • 【 第2刷にて修正 】
  • 82ページ 本文下から4行目
    • [誤]
      このとき、m<Mでβmは0となり、
    • [正]
      このとき、m<Mでβmは0となることがありますが、
    • 【 第2刷にて修正 】
  • 86ページ 本文下から7行目
    • [誤]
      単一行列
    • [正]
      大きさ1のベクトル
    • 【 第2刷にて修正 】
  • 97ページ コード番号
    • [誤]
      code3.9
    • [正]
      result3.1
    • 【 第2刷にて修正 】
  • 124ページ 本文上から7行目
    • [誤]
      という考え方です。
    • [正]
      という考え方に基づいてパラメータを最適化します。
    • 【 第2刷にて修正 】
  • 131ページ 本文上から1行目
    • [誤]
      と右辺が一致する(不等号の統合が成立する)
    • [正]
      であることから右辺が一致する(不等号の等号が成立する)
    • 【 第2刷にて修正 】
  • 135ページ 本文2行目
    • [誤]
      Maximization-majorization
    • [正]
      Majorization-Minimization
  • 135ページ 第4章第5節タイトル
    • [誤]
      Maximization-Majorization
    • [正]
      Majorization-Minimization
    • 【 第2刷にて修正 】
  • 135ページ 式(4.51)
  • 135ページ 式(4.54)
  • 139ページ 本文上から7行目
    • [誤]
      パラメータ法
    • [正]
      パラメータ最適化法
    • 【 第2刷にて修正 】
  • 151ページ 図5-5
  • 175ページ コード6.3
    • [誤]
      mic_alignments = np.array([ [[x,0.0,0.0] for x in np.arange(-0.31,0.32,0.02)] ] )
    • [正]
      mic_alignments = np.array( [[x,0.0,0.0] for x in np.arange(-0.31,0.32,0.02)]  )
    • 【 第2刷にて修正 】
  • 228ページ コード7.2
    • [誤]
      音声のスパース性に基づく音源分離の実行結果(マイクロホンの間隔40センチ)
    • [正]
      マイクロホンの間隔を40センチに変更
    • 【 第2刷にて修正 】
  • 238ページ 図7-5
    • [誤]
      スパース性を利用した音源分離の実行例(マイクロホン間隔40センチ)
    • [正]
      スパース性を利用した音源分離の実行例(マイクロホン36素子)
    • 【 第2刷にて修正 】
  • 258ページ 式(8.20)
  • 311ページ 本文下から4行目
    • [誤]
      式(9.2)と
    • [正]
      最小二乗法と
    • 【 第2刷にて修正 】
  • 326ページ 表10-1の数値
    • [誤]
      LGM 14.69
      LGM+Dereverb 20.71
    • [正]
      LGM 13.89
      LGM+Dereverb 19.91
    • 【 第2刷にて修正 】
  • 336ページ 表10-2の数値
    • [誤]
      ILRMA 14.38
      ILRMA+Dereverb 19.62
      ILRMA-T 18.05
    • [正]
      ILRMA 13.58
      ILRMA+Dereverb 18.82
      ILRMA-T 17.25
    • 【 第2刷にて修正 】
  • 340ページ 本文下から3行目
    • [誤]
      無残響環境と残響環境の二つの環境で実行しています。
    • [正]
      残響環境で実行しています。
    • 【 第2刷にて修正 】

お問い合わせ

書籍の内容に関するお問い合わせはこちら。お答えできるのは本書に記載の内容に関することに限ります。

お問い合わせフォーム