AWS エバンジェリストシリーズ AWSの基礎を学ぼう
AWS Glue
- Serverless ETL
- データの取り出し、変換、取り込み
- Catalog
- いろいろなサービスから参照するインベントリ(整理された台帳)
AWS Glue Studio
https://docs.aws.amazon.com/ja_jp/glue/latest/ug/what-is-glue-studio.html
- ローコードで触れる
AWS Glue Databrew
- ノーコードで触れる
Handson Part
教材
- https://github.com/harunobukameda/AWS-Glue-DataBrew
(もしこのブログを見て実施される方で、GitHubアカウントをお持ちの方は上記のリポジトリからForkしてください)- 実施環境(Region)はN.Virginiaのみで挙動確認
- CloudFormation Templateがすごいよくできあがっている
- 実施環境(Region)はN.Virginiaのみで挙動確認
実際に行った結果
- Cloud Formation実行後に生成されるS3
- レシピ でrawデータに対する変換処理ステップを定義
- 順次変換したCSVの結果(S3)
- オブジェクトに含まれているデータの分布状況の表示
- エディタ画面を表示しようと読み込んでいる様子
- エディタ画面が表示された様子
- 読み込んだデータから予めどういったデータ整理をするとよいかを提示してくれる(レコメンデーション)
- データ品質ルールセットですでにあるオブジェクトに対する条件付き抽出
- 異なるオブジェクト同士の結合(今回はCSV同士)
- S3に保存済みのデータに対して変換処理を行い、S3の別ファイルとしてエクスポート
参考
まとめ
AWS Glueを取り扱うのに、ほとんどGUIで簡潔することに驚きました。
また操作感としては普段AWSの画面に慣れている人は少し違和感があるように感じますが、
BIツール、マイクロソフトのPowerBIとPower Queryで操作した経験のある人は違和感なく入れると思います。
AWS Glueとその周りがすごい進化をしているので、今後もアップデートは見逃せないなぁと思いつつ、
操作のハードルが下がってきているので、もっと学んでいかなければなぁと思いました。