管理人Kのひとりごと

デジモノレビューやプログラミングや写真など

Spark

EMRのSparkやHiveでサブクエリが使えるか試してみた_その2

EMRのSparkやHiveでサブクエリが使えるか試してみたメモ。その2。前回、Hiveでは一部のサブクエリが実行できなかった。今回は、Existを利用したサブクエリが使えるかを確かめたメモ。 メタデータカタログはGlueデータカタログを使用。 確認環境 元ネタ 実行…

EMRのSparkやHiveでサブクエリが使えるか試してみた

EMRのSparkやHiveでサブクエリが使えるか試してみたメモ。 メタデータカタログはGlueデータカタログを使用。GlueのVPCエンドポイントを使ったところ、インターネットに出ずにデータカタログが参照できたのが意外だった。そちらの話はまた別途メモ予定。 確認…

pysparkでリテラル列を追加(pyspark)

pysparkでリテラル列を追加したかったのでメモ。 確認環境 コード 実行結果 参考にしました