Spark The Definitive Guide が結構良さそう
1. はじめに
ふと、振り返ってみると、早いもので新卒入社して1年が経ってしまいました。
色々と業務が大変な反面、様々な経験をすることができました。
(本番データを削除したりとか)
その中の経験のうち、Hadoop/Sparkは入社して初めて触る技術でした。
これらの技術について、仕事をしながら色々触って見たり、分析したりする経験は、
大量のデータを持っている企業ならではのものと思い、中々経験できないだろうなと感じています。
話が逸れてしまいましたが、業務の過程で、もっとSparkについて体系的に学びたいと思い、
amazonとかで調べていると以下の書籍を発見しました。
2. どんな本なのか
パラパラと手にとって眺めただけなので、そんなに読み込んでないのですが、
基本的にSparkに関して一通りまとまってそうです。
全部で7章あり、それぞれの概要は次の通りです。
-
ビッグデータとSparkの概観
Sparkって何だよっていう話、普及した背景、簡単なSpark操作や
ツールセットを解説しています。ScalaやPythonで簡単に動かしています。 -
Structured API:DataFrame,SQL,Datasets
Sparkで扱うデータ構造の説明やSpark DataFrame,SparkSQLなどのAPIの使い方、
構文(.selectとか)、仕様の解説などを行っています。 -
Low-Lebel API
RDDの解説をしています。この本では、基本的にDataFrame等の高レベルAPIを使うよう推奨が
されているようで、より深いレベルでデータ操作を行いたい場合などにのみ使うようです。 -
アプリケーション開発
Sparkアプリケーションの開発、実際のコード例、クラスター上でsparkが
どのように動くのか、デプロイ方法、デバッグ方法、チューニングなど、
Spark開発をやる上での必要知識が網羅されています。 -
ストリーミング
Sparkでのストリーム処理の全般を解説しています。 -
機械学習
Sparkでの機械学習について解説しています。分類、回帰、リコメンド、教師なし、
DeepLearningまでカバーしています。アルゴリズム自体の解説は内容ですが、sparkで
どのように書くか、データ加工はどうするかなどが書かれています。 -
エコシステム
PySparkやSparkRについての特性だったり、人気ライブラリやコミュニティ紹介など
が書いてあります。基本的にページ数が少ないのでおまけ的な感じですかね。
上記の通り、spark開発をやる上での知識が全部網羅されています。
その分、かなり分厚い本(約580ページ)となっています。
3. 最後に
sparkについてここまで買いてある本は中々見ないので、かなり良書なのではと思っています。
まぁ、詳しく読み込んでないので言い切れませんが。。
個人的に4章のデバッグやチューニング方法が気になっていたので、
そこが詳しく書いあるこの本は良いのかなと思いました。
今後、本ブログでも実際に読んで見て、積極的に記事とかにまとめていきたいなと思います。
amazonリンクについてのコードは こちらのブログを参考にしました!