Athena (Presto) で配列の重複した要素を数える

こんにちは、 @kz_morita です。

今回は、Athena で配列の重複した要素数を数える方法をメモします。

対象のデータ

以下のような配列データを想定します。

with 
dataset as (
    select *
    from (
        VALUES 'A', 'B', 'C', 'D', 'E', 'B', 'C', 'D', 'A', 'A'
    ) as t("data")
) 
select array_agg("data") as list from dataset

list
{‘A’, ‘B’, ‘C’, ‘D’, ‘E’, ‘B’, ‘C’, ‘D’, ‘A’, ‘A’}

これを以下のように集計したいケースを考えます。

key	count
‘A’	3
‘B’	2
‘C’	2
‘D’	2
‘E’	1

Presto の場合

array_frequency という関数が用意されているのでこれを利用すれば OK です。

https://prestodb.io/docs/current/functions/array.html

with 
dataset as (
    select *
    from (
        VALUES 'A', 'B', 'C', 'D', 'E', 'B', 'C', 'D', 'A', 'A'
    ) as t("data")
) 
select array_frequency(array_agg("data")) as list from dataset

ただし、こちらの関数は Athena では用意されてなく実行することができません。

Error running query: SYNTAX_ERROR: line 8:8: Function array_frequency not registered

そこでその他の配列関数を用いて同様の集計をします。

Athena で実現する方法

以下のようなクエリで実現することができます。

with
 dataset as (
     SELECT *
     FROM (
         VALUES 'A', 'B', 'C', 'D', 'E', 'B', 'C', 'D', 'A', 'A'
     ) as t("data")
 ),
 frequencies as (
     select
         transform_values(
             multimap_from_entries(
                 transform(array_agg("data"), k -> ROW (k, 1))
             ),
             (k, v) -> cardinality(v)
         ) as list
     from dataset
 )
 select
     "key",
     "count"
 from frequencies
 cross join unnest(
     map_keys(list),
     map_values(list)
 ) as t("key", "count")

ちょっと長いので少しずつ解説します。

まず、transform で ROW 型のデータに変換します。ROW (k, 1) のような形式ですが、1 の方はなんでも良いかなと思います。

with
 dataset as (
     SELECT *
     FROM (
         VALUES 'A', 'B', 'C', 'D', 'E', 'B', 'C', 'D', 'A', 'A'
     ) as t("data")
 ),
select
    transform(array_agg("data"), k -> ROW (k, 1))
from dataset

以下のようなデータになります。

list
{ {field0=A, field1=1}, {field0=B, field1=1}, {field0=C, field1=1}, {field0=D, field1=1}, {field0=E, field1=1}, {field0=B, field1=1}, {field0=C, field1=1}, {field0=D, field1=1}, {field0=A, field1=1}, {field0=A, field1=1} }

key value のペアっぽいデータができたのでこれを multimap_from_entries 関数を用いて MAP 型に変換します。

 with
 dataset as (
     SELECT *
     FROM (
         VALUES 'A', 'B', 'C', 'D', 'E', 'B', 'C', 'D', 'A', 'A'
     ) as t("data")
 )
 select
     multimap_from_entries(
         transform(array_agg("data"), k -> ROW (k, 1))
     )
 from dataset

これで以下のようなデータになります。

list
{A={1, 1, 1}, B={1, 1}, C={1, 1}, D={1, 1}, E={1}}

このデータの values の要素数を数え上げれば、目的のデータが得られます。cardinality 関数で配列の要素数を取得できます。

 with
 dataset as (
     SELECT *
     FROM (
         VALUES 'A', 'B', 'C', 'D', 'E', 'B', 'C', 'D', 'A', 'A'
     ) as t("data")
 )
 select
         transform_values(
             multimap_from_entries(
                 transform(array_agg("data"), k -> ROW (k, 1))
             ),
             (k, v) -> cardinality(v)
         ) as list
 from dataset

list
{A=3, B=2, C=2, D=2, E=1}

あとは、このデータを行に展開します。

行への展開は、こちらの記事でも紹介した、CROSS JOIN UNNEST を用います。

with
 dataset as (
     SELECT *
     FROM (
         VALUES 'A', 'B', 'C', 'D', 'E', 'B', 'C', 'D', 'A', 'A'
     ) as t("data")
 ),
 frequencies as (
     select
         transform_values(
             multimap_from_entries(
                 transform(array_agg("data"), k -> ROW (k, 1))
             ),
             (k, v) -> cardinality(v)
         ) as list
     from dataset
 )
 select
     "key",
     "count"
 from frequencies
 cross join unnest(
     map_keys(list),
     map_values(list)
 ) as t("key", "count")

map_keys と map_values でそれぞれ key と value を取り出して列にしています。

これで無事欲しかった集計をすることができました。

key	count
‘A’	3
‘B’	2
‘C’	2
‘D’	2
‘E’	1

まとめ

今回は、Athena で用意されていない array_frequency の代わりに、配列の要素数を求める SQL を紹介しました。

たまに、Presto にあっても Athena では用意されていない関数があるので注意が必要ですが、基本的な (map, filter など) 配列関数は用意されているのでそれらを用いると大体の関数は書けるかなと思います。
集計するクエリなどを書くときは配列操作周りの関数を知っておくと便利で良さそうです。

こんにちは、 @kz_morita です。 Redshift に溜まったユーザーの行動ログを分析しようとして Window 関数について調べてました． Window関数をある程度理解するとかなり分析の幅が増えるので，今回はWindow関数について学んだことをまとめます． PostgreSQL と Amazon Redshift について Window関数の前に，Redshift と PostgreSQL の関係性について述べておきます． Amazon Redshift の公式サイトに書いてありますが，Redshift は PostgreSQL に基づいています．基本的には共通しているところが多いですが，Amazon Redshift のほうがより分析ように特化しておりデータセットが巨大な場合や，SQLが複雑な場合に向いているようです．ただし，頻繁に更新されたり，同時に複数SQLが実行されるような環境には向いていないようです． Window 関数の書式それでは早速 Window 関数の書き方について見ていきます． Window 関数は主に SELECT 句などで使用でき以下のような書式になります． Window関数 OVER ( PARTITION BY パーティション ORDER BY 並び順 ROWS Windowフレーム ) 具体的な例を上げます． SELECTuser_id,action,datetime,-- 各ユーザーごとに取った行動の新しい順で2番めの値を取得 NTH_VALUE(action,2)OVER(PARTITIONBYuser_idORDERBYdatetimeDESCROWSBETWEENUNBOUNDEDPRECEDINGANDUNBOUNDEDFOLLOWING)-- ユーザーの行動ログ FROMuser_logs上記の例を用いながら Window関数, パーティション，並び順，Windowフレームの順に見ていきます． Window 関数 Window 関数は，Windowという区切られた区間についての処理を行う関数になります． NTH_VALUE(action,2)-- <- ココ OVER(PARTITIONBYuser_idORDERBYdatetimeDESCROWSBETWEENUNBOUNDEDPRECEDINGANDUNBOUNDEDFOLLOWING)上記の例で言うところの，NTH_VALUE(action, 2) という箇所が Window 関数になります．

Athena (Presto) で配列の重複した要素を数える

対象のデータ

Presto の場合

Athena で実現する方法

まとめ

関連記事