『データエンジニアリングの基礎』を読んだ

書籍について

この本は、2024 年 03 月に日本語訳版が出版されたばかりの本です。

書籍の内容は以下のような感じです。

Ⅰ部　データエンジニアリングの基礎と構成要素 1章　データエンジニアリング概説 1.1　データエンジニアリングとは何か 1.2　データエンジニアリングのスキルと活動 1.3　組織内でのデータエンジニアリング 1.4　結論 1.5　参考資料 2章　データエンジニアリングライフサイクル 2.1　データエンジニアリングライフサイクルとは何か？ 2.2　データエンジニアリングにおける主要な底流 2.3　結論 2.4　参考資料 3章　適切なデータアーキテクチャの設計 3.1　データアーキテクチャとは何か？ 3.2　良いデータアーキテクチャの原則 3.3　主要なアーキテクチャの概念 3.4　データアーキテクチャの例と種類 3.5　データアーキテクチャの設計にかかわるのは誰か 3.6　結論 3.7　参考資料 4章　データエンジニアリングライフサイクルにおけるテクノロジの選択 4.1　チームのサイズと容量 4.2　市場投入までのスピード 4.3　相互運用性 4.4　コスト最適化とビジネス価値 4.5　現在vs.未来：不変テクノロジvs.一過性テクノロジ 4.6　設置場所 4.7　構築vs.購入 4.8　モノリスvs.モジュール 4.9　サーバレスvs.サーバ 4.10　最適化、性能、ベンチマーク戦争 4.11　底流とテクノロジ選択への影響 4.12　結論 4.13　参考資料 Ⅱ部　データエンジニアリングライフサイクルの詳細 5章　ソースシステムにおけるデータ生成 5.1　データソース：データはどのように生成されるのか？ 5.2　ソースシステム：主要な概念 5.3　ソースシステムの実践的な詳細 5.4　一緒に仕事する人 5.5　底流とそのソースシステムへの影響 5.6　結論 5.7　参考資料 6章　ストレージへの保存 6.1　データストレージの原材料 6.2　データストレージシステム 6.3　データエンジニアリングにおけるストレージ抽象 6.4　ストレージの要点とトレンド 6.5　一緒に仕事する人 6.6　底流 6.7　結論 6.8　参考資料 7章　データ取り込み 7.1　データ取り込みとは 7.2　取り込みフェーズにおけるエンジニアリング上の重要な検討事項 7.3　バッチ取り込みに関する検討事項 7.4　メッセージ取り込みとストリーム取り込みの検討事項 7.5　データ取り込みの方法 7.6　一緒に仕事する人 7.7　底流 7.8　結論 7.9　参考資料 8章　クエリ、データモデリング、変換 8.1　クエリ 8.2　データモデリング 8.3　変換 8.4　一緒に仕事する人 8.5　底流 8.6　結論 8.7　参考資料 9章　アナリティクス、機械学習、リバースETL へのデータの提供 9.1　データ提供に関する一般的な考慮事項 9.2　アナリティクス 9.3　機械学習 9.4　データエンジニアがMLについて知っておくべきこと 9.5　アナリティクスやMLに対してデータを提供する方法 9.6　リバースETL 9.7　一緒に仕事する人 9.8　底流 9.9　結論 9.10　参考資料 Ⅲ部　セキュリティとプライバシー、およびデータエンジニアリングの未来 10章　セキュリティとプライバシー 10.1　人材 10.2　プロセス 10.3　テクノロジ 10.4　結論 10.5　参考資料 11章　データエンジニアリングの未来 11.1　データエンジニアリングライフサイクルは消えない 11.2　複雑さの衰退と使いやすいデータツールの興隆 11.3　クラウドスケールデータOSと相互運用性の改善 11.4　「大企業的」データエンジニアリング 11.5　職種名と担当範囲は変化する 11.6　モダンデータスタックからの脱却とライブデータスタックへの移行 11.7　結論付録A　シリアライズと圧縮技術の詳細 A.1　シリアライズフォーマット A.2　データベースストレージエンジン A.3　圧縮：gzip、bzip2、Snappyなど付録B　クラウドのネットワーク B.1　クラウドネットワークのトポロジ B.2　CDN B.3　データエグレス料金の未来索　引

感想

この本は、洋書の頃から知っていてずっと読みたいと思っていた本だったのですが、ありがたいことに日本語版が発売されたので読んでみました。内容としては、データエンジニアリングライフサイクルという、ソースデータからデータを取得して、保存・変換して、提供するまでの一連の流れの中でデータエンジニアが注視すべきことが非常にわかりやすくまとまっています。

これらのライフサイクルを支える、底流として

セキュリティ

データ管理

DataOps

データアーキテクチャ

オーケストレーション

ソフトウェアエンジニアリング

という観点も紹介されています。

これらは DMBOK など、データマネジメントに必要な項目をデータエンジニアリング向けに翻訳されて書いたとも言える内容かなと思っていて非常に参考になることが多かったです。

各章でそれぞれの概念をマスターできるかというとそういうわけではないのですが、参考文献が大量に掲載されていて今後の学習には事欠かないのもまたこの本の魅力だなと思います。

個人的に最近学びを深めたいところとしてデータモデリングがあるのですが、正直この書籍だけでは理解できたとは言い難いです。しかし、次にどんな概念から学んだら良いのか、そのためのどの資料を読めば良さそうかといった点がわかるため、まさに学習の始めの地図を作るという点において非常に良い本だなと思います。

自分もこの本で、知った概念や書籍など読んでみようと思っています。

具体的に気になったところとしては、データモデリングの、Inmon、Kimball、Data Vault についてこのあたりはさらに深掘りしていこうと思います。また、DODD (Data Observability Driven Development) という概念も興味深かったです。

読み終わってみた率直な感想としては、色々と学びたいところが増えて非常にわくわくしています。データエンジニアとして重要な考えやこれから学ぶべき道を示してくれる良い本だなと思いました。

あらためて、データエンジニアとして働き始めて一冊目に読む本として非常におすすめできるなと思いました。

こんにちは、 @kz_morita です。今回は，過去に読んだ本で個人的にかなりためになったり，面白かったりした技術書を 10 冊紹介します．完全に個人の趣味趣向が入ってますが，書籍選びに迷っている人の参考になれば幸いです．ためになった書籍 10 冊 CODE COMPLETE 上 CODE COMPLETE 第2版上完全なプログラミングを目指してこの本は，大学の図書館にあったのをたまたま見かけて読んだ本になります．より良いコードを書くにはどうしたらよいかといった観点で，命名の話などを通して良いコードについて学べる本です．この本を読んだ当初は，チーム開発をしたことがなかったので動けばよいというコードを書きがちでしたがこの本を読んだことによってプログラムのソースコードは機会と人に向けて書くものという点を意識できるようになった本です．アジャイルソフトウェア開発奥義アジャイルソフトウェア開発の奥義第2版オブジェクト指向開発の神髄と匠の技新卒のときに，チームの先輩におすすめしてもらって読んだ本です． SOLID の原則を知るきっかけになった本です．それまでデザインパターンなどは軽く知ってはいたのですが，それらのデザインパターンがどのような原則のもとのパターンなのかが見えてきたのがとても勉強になりました．たとえば「Strategy パターンは，Open-Closed Principle (開放/閉鎖原則) にもとづくパターン」などの関係性が見えてくると，それまで暗記対象だったデザインパターンに対して，適用する目的を含めた理解ができるようになったと感じています． Game Programming Patterns Game Programming Patterns ソフトウェア開発の問題解決メニューこちらの本は，スマホゲーム開発を行っていたときに気になって読んだ本でした．タイトル名こそゲームプログラミングと謳ってはいるものの，実際はオブジェクト指向やデザインパターンについて書かれた本でした．ゲーム開発で良くでてくるパターンを中心に紹介されていましたが，一般的に役に立つ知識も多かったです．たとえば変数をもつ Singleton パターンが，ただのクラスにカプセル化されたグローバル変数だと言う点などについて指摘していてハッとする点が多かったです． Clean Architecture Clean Architecture 達人に学ぶソフトウェアの構造と設計この本は，同名の設計のクリーンアーキテクチャのみの話だけではなく，もっと広い範囲でソフトウェアをどう設計していけばよいかといった点について論じられていた本でした．なかでも，以下のような非常に胸が痛くなるような現実を突きつけられる内容が多々あり，これは読んでよかったなと思う本です．「あとでクリーンにすればいいよ。先に市場に出さなければ！」開発者たちはそうやっていつもごまかす。だが、あとでクリーンにすることはない。市場からのプレッシャーは止まらないからだ。「先に市場に出さなければ」ということは、後ろに競合他社が大勢いるということである。競合他社に追い抜かれないためには、これからも走り続けるしかない。ＲｏｂｅｒｔＣ．Ｍａｒｔｉｎ; 角征典; 高木正弘. Clean Architecture 達人に学ぶソフトウェアの構造と設計 (アスキードワンゴ) (Kindle の位置No.

こんにちは, @kz_morita です．最近, ネットワーク周りの基礎から学び直そうということで，マスタリングTCP / IP を読んでいます. 今回は，1 ~ 4 章までの読んだ感想を軽くまとめます．第1章ネットワーク基礎知識第1章では，はじめにコンピュータの歴史から始まって，ネットワークの基本的な構成要素について説明がされていました．特に OSI参照モデルの説明と，各層の構成要素について説明がありました．物理層の通信媒体の話は，イーサネットの同軸ケーブルや，ツイストペアケーブルなどから始まり，無線などについてもあってこういった話は普段アプリケーション開発を行う上で意識することはないのですが，普段何気なく利用しているインターネットがどういったものでできているかということを再確認できたのはとても興味深かったです．リピーターや，ブリッジ (L2スイッチ)，ルーター (L3スイッチ) などの，ネットワークを構成する機器についても簡単に紹介されてて面白かったです．第2章 TCP/IP 基礎知識第2章は，TCP / IP の基礎的な内容が説明されていました． TCP / IP の成り立ちの話や，プロトコルの標準化の話は普段意識したことがない点で面白かったです．他には，TCP の階層モデルの話や，各階層で具体的にどのようなプロトコルが使われているかがありました．他にはネットワークの通信を行う際に，アプリケーション層でヘッダをつけてトランスポート層に渡して，トランスポート層でTCPヘッダをつけて下層に渡して・・・．みたいなひととおりの通信の流れの解説などがあり，こちらもおさらいになりました．第3章データリンク第3章では，ケーブルなどの通信媒体でつながれたネットワーク内の通信技術について記載がありました．バス型や，リング型，スター型などのネットワークのトポロジについてや，通信相手を特定するためのMACアドレスについての記載がありました．中でも面白かったのが，媒体共有型のネットワークでデータの衝突の検知や，ループの検知などのデータリンクの制御のアルゴリズムが面白かったです．データの衝突の検知のための，CSMA/CD 方式や，トークンパッシング方式など媒体を共有する通信をするための工夫は興味深かったです．その他には，イーサネットのフレームフォーマットや無線通信の種類などデータリンク周りは知らない知識も多かったので勉強になりました．第4章 IP プロトコル第4章では，ネットワーク層のプロトコルである IP について書かれていました． IPアドレスについてと，ルーティング，パケットのフラグメンテーションと，IPv4, IPv6のフレームフォーマットについて学ぶことができました．先日書いた Amazon Web Services 基礎からのネットワーク&サーバー構築を読んだという記事にあるとおり AWS のネットワーク周り構築をしましたが，AWS の VPC で設定した内容のもう少し深い理論や定義などを知ることができました．具体的には，ルーティングテーブルの仕組みや，サブネットマスク (CIDR) ，NAT などについてその概念や成り立ちともに知ることができました. このあたりも，むかし少し学んだような気がしましたがあらためて AWS の VPC 構築などで手を動かしたあとに学ぶとよりすっと入ってくる実感がありました．

『データエンジニアリングの基礎』を読んだ

書籍について

感想

関連記事