Spark The Definitive Guide が結構良さそう

1. はじめに

ふと、振り返ってみると、早いもので新卒入社して1年が経ってしまいました。
色々と業務が大変な反面、様々な経験をすることができました。
本番データを削除したりとか

その中の経験のうち、Hadoop/Sparkは入社して初めて触る技術でした。
これらの技術について、仕事をしながら色々触って見たり、分析したりする経験は、
大量のデータを持っている企業ならではのものと思い、中々経験できないだろうなと感じています。

話が逸れてしまいましたが、業務の過程で、もっとSparkについて体系的に学びたいと思い、
amazonとかで調べていると以下の書籍を発見しました。

2. どんな本なのか

パラパラと手にとって眺めただけなので、そんなに読み込んでないのですが、
基本的にSparkに関して一通りまとまってそうです。
全部で7章あり、それぞれの概要は次の通りです。

  1. ビッグデータとSparkの概観
    Sparkって何だよっていう話、普及した背景、簡単なSpark操作や
    ツールセットを解説しています。ScalaやPythonで簡単に動かしています。

  2. Structured API:DataFrame,SQL,Datasets
    Sparkで扱うデータ構造の説明やSpark DataFrame,SparkSQLなどのAPIの使い方、
    構文(.selectとか)、仕様の解説などを行っています。

  3. Low-Lebel API
    RDDの解説をしています。この本では、基本的にDataFrame等の高レベルAPIを使うよう推奨が
    されているようで、より深いレベルでデータ操作を行いたい場合などにのみ使うようです。

  4. アプリケーション開発
    Sparkアプリケーションの開発、実際のコード例、クラスター上でsparkが
    どのように動くのか、デプロイ方法、デバッグ方法、チューニングなど、
    Spark開発をやる上での必要知識が網羅されています。

  5. ストリーミング
    Sparkでのストリーム処理の全般を解説しています。

  6. 機械学習
    Sparkでの機械学習について解説しています。分類、回帰、リコメンド、教師なし、
    DeepLearningまでカバーしています。アルゴリズム自体の解説は内容ですが、sparkで
    どのように書くか、データ加工はどうするかなどが書かれています。

  7. エコシステム
    PySparkやSparkRについての特性だったり、人気ライブラリやコミュニティ紹介など
    が書いてあります。基本的にページ数が少ないのでおまけ的な感じですかね。

上記の通り、spark開発をやる上での知識が全部網羅されています。
その分、かなり分厚い本(約580ページ)となっています。

3. 最後に

sparkについてここまで買いてある本は中々見ないので、かなり良書なのではと思っています。
まぁ、詳しく読み込んでないので言い切れませんが。。
個人的に4章のデバッグやチューニング方法が気になっていたので、
そこが詳しく書いあるこの本は良いのかなと思いました。
今後、本ブログでも実際に読んで見て、積極的に記事とかにまとめていきたいなと思います。

amazonリンクについてのコードは こちらのブログを参考にしました!