管理人Kのひとりごと

デジモノレビューやプログラミングや写真など

Spark

EMR(Spark)のログレベルをクラスタ作成時に設定したい

特に何も設定せずにEMRのSparkを使うと、ログレベルがINFOなので、とにかくいっぱいログが出ます。 そのため、ログレベルを変更しようと思ったわけですが、クラスタ作成時に設定しておきたいなと思ったのでやってみたメモです。 検証環境 案1 ブートストラッ…

pysparkでFitbitの睡眠JSONをパースして平日と休日の平均睡眠時間を求めてみた

pysparkでFitbitの歩数JSONをパースして、平日と休日の平均歩数を求めてみました。↓PySparkで歩数JSONを平日・休日別に集計 ↓Pythonでの睡眠時間比較 確認環境 コード 実行結果例 2019年、2020年の月別、平日・休日別平均睡眠時間 参考にしました

DockerでPySparkとJupyterNotebook環境を利用する

PySparkとJupyterNotebookが使えるDockerコンテナがあったので使ってみました。すぐに使い始めることができるので、Dockerのありがたみを感じます。 EMRを使う前にスクリプトの動確できる環境が欲しかったので助かっています。 確認環境 コマンド (おまけ) P…

pysparkでFitbitの歩数JSONをパースして平日と休日の平均歩数を求めてみた

pysparkでFitbitの歩数JSONをパースして、平日と休日の平均歩数を求めてみました。pysparkでの歩数JSONのパース↓ pythonでの歩数比較↓ www.k-hitorigoto.online 確認環境 コード 実行結果例 2019年、2020年の月別、平日・休日別平均歩数 参考にしました

pysparkでFitbitの歩数JSONをパースする

pysparkでFitbitの歩数JSONをパースしました。JSONモジュールとは勝手が違ってちょっと迷いました。歩数JSONの取得とJSONモジュールでのパース↓ 確認環境 コード 実行結果 参考にしました

EMRのSparkやHiveでサブクエリが使えるか試してみた_その2

EMRのSparkやHiveでサブクエリが使えるか試してみたメモ。その2。前回、Hiveでは一部のサブクエリが実行できなかった。今回は、Existを利用したサブクエリが使えるかを確かめたメモ。 メタデータカタログはGlueデータカタログを使用。 確認環境 元ネタ 実行…

EMRのSparkやHiveでサブクエリが使えるか試してみた

EMRのSparkやHiveでサブクエリが使えるか試してみたメモ。 メタデータカタログはGlueデータカタログを使用。GlueのVPCエンドポイントを使ったところ、インターネットに出ずにデータカタログが参照できたのが意外だった。そちらの話はまた別途メモ予定。 確認…

pysparkでリテラル列を追加(pyspark)

pysparkでリテラル列を追加したかったのでメモ。 確認環境 コード 実行結果 参考にしました