Spark
以下の記事にコメントがついており、週平均歩数はどうやって求めるのか?ということだったのでやってみた。 検証環境 # Dockerイメージで実行(rootユーザで実行するため、「--user 0」を付与) # 参考:https://stackoverflow.com/questions/75560836/apach…
特に何も設定せずにEMRのSparkを使うと、ログレベルがINFOなので、とにかくいっぱいログが出ます。 そのため、ログレベルを変更しようと思ったわけですが、クラスタ作成時に設定しておきたいなと思ったのでやってみたメモです。 検証環境 案1 ブートストラッ…
pysparkでFitbitの歩数JSONをパースして、平日と休日の平均歩数を求めてみました。↓PySparkで歩数JSONを平日・休日別に集計 ↓Pythonでの睡眠時間比較 確認環境 コード 実行結果例 2019年、2020年の月別、平日・休日別平均睡眠時間 参考にしました
PySparkとJupyterNotebookが使えるDockerコンテナがあったので使ってみました。すぐに使い始めることができるので、Dockerのありがたみを感じます。 EMRを使う前にスクリプトの動確できる環境が欲しかったので助かっています。 確認環境 コマンド (おまけ) P…
pysparkでFitbitの歩数JSONをパースして、平日と休日の平均歩数を求めてみました。pysparkでの歩数JSONのパース↓ pythonでの歩数比較↓ www.k-hitorigoto.online 確認環境 コード 実行結果例 2019年、2020年の月別、平日・休日別平均歩数 参考にしました
pysparkでFitbitの歩数JSONをパースしました。JSONモジュールとは勝手が違ってちょっと迷いました。歩数JSONの取得とJSONモジュールでのパース↓ 確認環境 コード 実行結果 参考にしました
EMRのSparkやHiveでサブクエリが使えるか試してみたメモ。その2。前回、Hiveでは一部のサブクエリが実行できなかった。今回は、Existを利用したサブクエリが使えるかを確かめたメモ。 メタデータカタログはGlueデータカタログを使用。 確認環境 元ネタ 実行…
EMRのSparkやHiveでサブクエリが使えるか試してみたメモ。 メタデータカタログはGlueデータカタログを使用。GlueのVPCエンドポイントを使ったところ、インターネットに出ずにデータカタログが参照できたのが意外だった。そちらの話はまた別途メモ予定。 確認…
pysparkでリテラル列を追加したかったのでメモ。 確認環境 コード 実行結果 参考にしました