タグ「SQL」が付けられているもの

MySQLのウィンドウ関数を使ってみる

筆者は今、会社でビッグデータを扱うことがあり、周囲でSQLがよく使われるようになってきた。自分では単純なクエリしか書かないが、時々他の人が書いたSQLを読む機会がある。他の人が書いたSQLも大体基本的な構文しか使ってないので、頑張れば読める。その中で唯一、よくわかってないままだったのが、ウィンドウ関数である。

筆者はあまりSQLに深入りする気が無く、こういう複雑な文法は覚える気が無いのだが、ウィンドウ関数だけは業務上避けて通れず、筆者自身も見よう見まねで書くことがあるので、この正月休みに一度きちんと理解しておこうと思った。

会社のSQLサーバーはMySQLではないが、幸い自宅のRaspberry Pi (OS buster)にインストールされているMySQL(MariaDB 10.3)は同様のウィンドウ関数をサポートしているので、これを使って勉強しながら、何かやってみることにした。

ts	id	value
2023-01-01 00:00:00	ID_001	10
2023-01-01 00:00:00	ID_002	0
2023-01-01 00:00:00	ID_003	-10
2023-01-01 00:05:00	ID_001	9
2023-01-01 00:05:00	ID_002	-4
2023-01-01 00:05:00	ID_003	-9
2023-01-01 00:10:00	ID_001	7
2023-01-01 00:10:00	ID_002	-7
2023-01-01 00:10:00	ID_003	-7
2023-01-01 00:15:00	ID_001	4
2023-01-01 00:15:00	ID_002	-9
2023-01-01 00:15:00	ID_003	-4
2023-01-01 00:20:00	ID_001	1
2023-01-01 00:20:00	ID_002	-10
2023-01-01 00:20:00	ID_003	-1
...	...	...

こういう時系列のデータがある時に、id毎に、直前1時間の分散が一定以上であるデータが連続する区間を抽出したいとする（テストデータ作成に用いたコードは後述）。
大体5分毎になっているが、欠損があり、12行前が1時間前とは限らないとする。

まず、各行の1時間前までの分散を計算する。 id毎に計算するのでPARTITION BY id、1時間前までのフレームなのでMySQLならORDER BY ts RANGE INTERVAL 1 HOUR PRECEDING（RANGE以降はRANGE BETWEEN INTERVAL 1 HOUR PRECEDING AND CURRENT ROWでも同じ）だがあいにくMariaDB 10.3では日付型のRANGEが未サポートのようなのでORDER BY UNIX_TIMESTAMP(ts) RANGE 3600 PRECEDINGとする。

SELECT
  ts,
  id,
  value,
  VARIANCE(value) OVER (PARTITION BY id ORDER BY UNIX_TIMESTAMP(ts) RANGE 3600 PRECEDING) AS rollvar
FROM testdata;

出力

ts	id	value	rollvar
2023-01-01 00:00:00	ID_001	10	0.0000
2023-01-01 00:05:00	ID_001	9	0.2500
2023-01-01 00:10:00	ID_001	7	1.5556
2023-01-01 00:15:00	ID_001	4	5.2500
2023-01-01 00:20:00	ID_001	1	10.9600
2023-01-01 00:25:00	ID_001	-3	20.8889
2023-01-01 00:30:00	ID_001	-6	31.8367
2023-01-01 00:35:00	ID_001	-8	41.4375
2023-01-01 00:40:00	ID_001	-10	50.4691
...	...	...	...
2023-01-01 07:35:00	ID_003	-9	14.0764
2023-01-01 07:40:00	ID_003	-9	11.9097
2023-01-01 07:45:00	ID_003	-10	10.9167
2023-01-01 07:50:00	ID_003	-10	9.3889
2023-01-01 07:55:00	ID_003	-10	7.5764

261 rows in set

各idの最初の方は1時間分のデータが無い分散になってしまうのと、フレームが1時間の両端のタイムスタンプを含むので1時間5分の分散のようになってしまうが、今回は練習なのでこれで良しとする。
ついでに、WINDOW句（名前付きウィンドウ）を使って、同じフレームの1時間の平均も求めるようにする。

SELECT
  ts,
  id,
  value,
  AVG(value) OVER w AS rollmean,
  VARIANCE(value) OVER w AS rollvar
FROM testdata
WINDOW w AS (PARTITION BY id ORDER BY UNIX_TIMESTAMP(ts) RANGE 3600 PRECEDING);

出力

ts	id	value	rollmean	rollvar
2023-01-01 00:00:00	ID_001	10	10.0000	0.0000
2023-01-01 00:05:00	ID_001	9	9.5000	0.2500
2023-01-01 00:10:00	ID_001	7	8.6667	1.5556
2023-01-01 00:15:00	ID_001	4	7.5000	5.2500
2023-01-01 00:20:00	ID_001	1	6.2000	10.9600
2023-01-01 00:25:00	ID_001	-3	4.6667	20.8889
2023-01-01 00:30:00	ID_001	-6	3.1429	31.8367
2023-01-01 00:35:00	ID_001	-8	1.7500	41.4375
2023-01-01 00:40:00	ID_001	-10	0.4444	50.4691
2023-01-01 00:50:00	ID_001	-9	-0.5000	53.4500
...	...	...	...	...
2023-01-01 07:35:00	ID_003	-9	-3.5833	14.0764
2023-01-01 07:40:00	ID_003	-9	-4.5833	11.9097
2023-01-01 07:45:00	ID_003	-10	-5.5000	10.9167
2023-01-01 07:50:00	ID_003	-10	-6.3333	9.3889
2023-01-01 07:55:00	ID_003	-10	-7.0833	7.5764

261 rows in set

次に、一例として1時間の分散が40以上の行を1とするフラグの列を付ける。上のクエリをサブクエリとして、その結果を使えば簡単である。

WITH t1 AS (
  SELECT
    ts,
    id,
    value,
    AVG(value) OVER w AS rollmean,
    VARIANCE(value) OVER w AS rollvar
  FROM testdata
  WINDOW w AS (PARTITION BY id ORDER BY UNIX_TIMESTAMP(ts) RANGE 3600 PRECEDING)
)
SELECT *, rollvar >= 40 AS flag FROM t1;

出力

ts	id	value	rollmean	rollvar	flag
2023-01-01 00:00:00	ID_001	10	10.0000	0.0000	0
2023-01-01 00:05:00	ID_001	9	9.5000	0.2500	0
2023-01-01 00:10:00	ID_001	7	8.6667	1.5556	0
2023-01-01 00:15:00	ID_001	4	7.5000	5.2500	0
2023-01-01 00:20:00	ID_001	1	6.2000	10.9600	0
2023-01-01 00:25:00	ID_001	-3	4.6667	20.8889	0
2023-01-01 00:30:00	ID_001	-6	3.1429	31.8367	0
2023-01-01 00:35:00	ID_001	-8	1.7500	41.4375	1
2023-01-01 00:40:00	ID_001	-10	0.4444	50.4691	1
2023-01-01 00:50:00	ID_001	-9	-0.5000	53.4500	1
2023-01-01 00:55:00	ID_001	-7	-1.0909	52.0826	1
2023-01-01 01:00:00	ID_001	-5	-1.4167	48.9097	1
2023-01-01 01:05:00	ID_001	-2	-2.4167	37.0764	0
2023-01-01 01:10:00	ID_001	1	-3.0833	26.7431	0
2023-01-01 01:15:00	ID_001	4	-3.3333	22.3889	0
...	...	...	...	...	...

次に、上のフラグが変化する部分＝フラグの値が同じ部分の先頭行を1とする列を加える。
ウィンドウ関数のLAG()を使って1つ前のデータを参照すれば容易である。
但し、LAG()は各idの1つ前が無い先頭のデータについてはNULLになり、その為flag <> lag(flag)もNULLになってしまうので、IFNULL(x, 1)で1にする。

WITH t1 AS (
  SELECT
    ts,
    id,
    value,
    AVG(value) OVER w AS rollmean,
    VARIANCE(value) OVER w AS rollvar
  FROM testdata
  WINDOW w AS (PARTITION BY id ORDER BY UNIX_TIMESTAMP(ts) RANGE 3600 PRECEDING)
), t2 AS (
  SELECT *, rollvar >= 40 AS flag FROM t1
)
SELECT *, IFNULL(flag <> lag(flag) OVER (PARTITION BY id ORDER BY ts), 1) AS flagchg FROM t2;

出力

ts	id	value	rollmean	rollvar	flag	flagchg
2023-01-01 00:00:00	ID_001	10	10.0000	0.0000	0	1
2023-01-01 00:05:00	ID_001	9	9.5000	0.2500	0	0
2023-01-01 00:10:00	ID_001	7	8.6667	1.5556	0	0
2023-01-01 00:15:00	ID_001	4	7.5000	5.2500	0	0
2023-01-01 00:20:00	ID_001	1	6.2000	10.9600	0	0
2023-01-01 00:25:00	ID_001	-3	4.6667	20.8889	0	0
2023-01-01 00:30:00	ID_001	-6	3.1429	31.8367	0	0
2023-01-01 00:35:00	ID_001	-8	1.7500	41.4375	1	1
2023-01-01 00:40:00	ID_001	-10	0.4444	50.4691	1	0
2023-01-01 00:50:00	ID_001	-9	-0.5000	53.4500	1	0
2023-01-01 00:55:00	ID_001	-7	-1.0909	52.0826	1	0
2023-01-01 01:00:00	ID_001	-5	-1.4167	48.9097	1	0
2023-01-01 01:05:00	ID_001	-2	-2.4167	37.0764	0	1
2023-01-01 01:10:00	ID_001	1	-3.0833	26.7431	0	0
2023-01-01 01:15:00	ID_001	4	-3.3333	22.3889	0	0
...	...	...	...	...	...	...

IFNULL(flag <> lag(flag) OVER ... , 1)の部分は、MySQL独自の<=>(NULL-safe equal)という演算子（他のSQL処理系にも大体等価なものがありそう）を使ってNOT flag <=> lag(flag) OVER ...とも書けたが、可読性に難ありと思った。

次に、フラグが変化した回数を累積し、フラグの値が同じ部分のグループ番号とする。
これもウィンドウ関数を使えば容易である。
OVER句にROWSやRANGE無しでORDER BY xxxだけを付けると、ORDER BY xxx RANGE UNBOUNDED PRECEDINGと同じ、つまりその行以前の全行がフレームになる。なお、ORDER BY xxxも付けないと、ORDER BY xxx RANGE BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWINGと同じ、つまり全行がフレームになる。

WITH t1 AS (
  SELECT
    ts,
    id,
    value,
    AVG(value) OVER w AS rollmean,
    VARIANCE(value) OVER w AS rollvar
  FROM testdata
  WINDOW w AS (PARTITION BY id ORDER BY UNIX_TIMESTAMP(ts) RANGE 3600 PRECEDING)
), t2 AS (
  SELECT *, rollvar >= 40 AS flag FROM t1
), t3 AS (
  SELECT *, IFNULL(flag <> lag(flag) OVER (PARTITION BY id ORDER BY ts), 1) AS flagchg FROM t2
)
SELECT *, SUM(flagchg) OVER (PARTITION BY id ORDER BY ts) AS groupnum FROM t3;

出力

ts	id	value	rollmean	rollvar	flag	flagchg	groupnum
2023-01-01 00:00:00	ID_001	10	10.0000	0.0000	0	1	1
2023-01-01 00:05:00	ID_001	9	9.5000	0.2500	0	0	1
2023-01-01 00:10:00	ID_001	7	8.6667	1.5556	0	0	1
2023-01-01 00:15:00	ID_001	4	7.5000	5.2500	0	0	1
2023-01-01 00:20:00	ID_001	1	6.2000	10.9600	0	0	1
2023-01-01 00:25:00	ID_001	-3	4.6667	20.8889	0	0	1
2023-01-01 00:30:00	ID_001	-6	3.1429	31.8367	0	0	1
2023-01-01 00:35:00	ID_001	-8	1.7500	41.4375	1	1	2
2023-01-01 00:40:00	ID_001	-10	0.4444	50.4691	1	0	2
2023-01-01 00:50:00	ID_001	-9	-0.5000	53.4500	1	0	2
2023-01-01 00:55:00	ID_001	-7	-1.0909	52.0826	1	0	2
2023-01-01 01:00:00	ID_001	-5	-1.4167	48.9097	1	0	2
2023-01-01 01:05:00	ID_001	-2	-2.4167	37.0764	0	1	3
2023-01-01 01:10:00	ID_001	1	-3.0833	26.7431	0	0	3
2023-01-01 01:15:00	ID_001	4	-3.3333	22.3889	0	0	3
...	...	...	...	...	...	...	...
2023-01-01 07:45:00	ID_003	-10	-5.5000	10.9167	0	0	9
2023-01-01 07:50:00	ID_003	-10	-6.3333	9.3889	0	0	9
2023-01-01 07:55:00	ID_003	-10	-7.0833	7.5764	0	0	9

261 rows in set

最後に、上のグループ番号でGROUP BYしてflag=1の行のみ出力する。

WITH t1 AS (
  SELECT
    ts,
    id,
    value,
    AVG(value) OVER w AS rollmean,
    VARIANCE(value) OVER w AS rollvar
  FROM testdata
  WINDOW w AS (PARTITION BY id ORDER BY UNIX_TIMESTAMP(ts) RANGE 3600 PRECEDING)
), t2 AS (
  SELECT *, rollvar >= 40 AS flag FROM t1
), t3 AS (
  SELECT *, IFNULL(flag <> lag(flag) OVER (PARTITION BY id ORDER BY ts), 1) AS flagchg FROM t2
), t4 AS (
  SELECT *, SUM(flagchg) OVER (PARTITION BY id ORDER BY ts) AS groupnum FROM t3
)
SELECT
  id,
  MIN(ts) AS 'from(ts)',
  TIMESTAMPDIFF(MINUTE, MIN(ts), MAX(ts)) AS duration,
  MIN(rollvar),
  MAX(rollvar),
  flag
FROM t4
GROUP BY id, groupnum
HAVING flag = 1;

出力

id	from(ts)	duration	MIN(rollvar)	MAX(rollvar)	flag
ID_001	2023-01-01 00:35:00	25	41.4375	53.4500	1
ID_001	2023-01-01 01:30:00	20	42.2431	50.4298	1
ID_001	2023-01-01 02:35:00	10	45.4722	49.9167	1
ID_001	2023-01-01 03:40:00	10	41.0764	44.6389	1
ID_002	2023-01-01 01:00:00	25	41.3889	66.0556	1
ID_002	2023-01-01 01:55:00	20	44.4722	60.3056	1
ID_002	2023-01-01 03:05:00	0	43.8333	43.8333	1
ID_003	2023-01-01 00:40:00	20	46.7500	56.8100	1
ID_003	2023-01-01 01:30:00	20	41.1405	57.6875	1
ID_003	2023-01-01 02:30:00	15	46.7431	53.4722	1
ID_003	2023-01-01 03:40:00	10	40.5764	43.0833	1

11 rows in set

ブログ記事を読む

[MySQL] 2時間毎にGROUP BYする方法

先日、タイムスタンプを含むデータをSQLで2時間毎に集計したいことがあった。

id	ts	value
ID_001	2022-04-01 00:00:01	1
ID_001	2022-04-01 00:05:01	2
ID_001	2022-04-01 00:10:01	3
ID_001	2022-04-01 00:15:01	4
ID_001	2022-04-01 00:20:01	5
...	...	...
ID_002	2022-04-01 00:00:02	2
ID_002	2022-04-01 00:05:02	3
ID_002	2022-04-01 00:10:02	4
ID_002	2022-04-01 00:15:02	5
ID_002	2022-04-01 00:20:02	6
...	...	...

こういうデータがあり、GROUP BYでid毎、2時間毎(00:00:00-, 02:00:00-, 04:00:00-, ...)に集計したいとする。
TIMESTAMP型のデータからHOUR()で時分秒の時だけ取り出せるらしいので、次のようにしてみたら、望み通りの集計はできたのだが、結果のタイムスタンプが2時間毎に切り下げられない（時分秒の時が偶数かつ分秒が00:00にならない）のが不満だった。

●コード

/* This doesn't return round timestamp */
SELECT id, ts, avg(value)
FROM testdata
GROUP BY id, DATE(ts), HOUR(ts) DIV 2;

●実行結果

id	ts	avg(value)
ID_001	2022-04-01 00:00:01	12.5000
ID_001	2022-04-01 02:00:01	36.5000
ID_001	2022-04-01 04:00:01	60.5000
ID_001	2022-04-01 06:00:01	84.5000
ID_002	2022-04-01 00:00:02	13.5000
ID_002	2022-04-01 02:00:02	37.5000
ID_002	2022-04-01 04:00:02	61.5000
ID_002	2022-04-01 06:00:02	85.5000
...	...	...

Webで探すと、例えば30分毎のGROUP BYならUNIX_TIMESTAMPを30分毎に切り下げるという方法がよく知られているようである。

●コード

/* Group by 30 min */
SELECT
  id,
  FROM_UNIXTIME((UNIX_TIMESTAMP(ts) DIV (30*60)) * 30*60) AS ts_new,
  avg(value)
FROM testdata
GROUP BY id, ts_new;

●実行結果

id	ts_new	avg(value)
ID_001	2022-04-01 00:00:00	3.5000
ID_001	2022-04-01 00:30:00	9.5000
ID_001	2022-04-01 01:00:00	15.5000
ID_001	2022-04-01 01:30:00	21.5000
ID_001	2022-04-01 02:00:00	27.5000
...	...	...

しかし、同じ方法で2時間毎にすると、例えばMySQLのタイムゾーン設定がJST（日本時間）だと、時分秒の時に奇数が加えられてしまうので、うまくいかない。

●コード

/* This doesn't work well because of odd time zone +09:00 */
SELECT
  id,
  FROM_UNIXTIME((UNIX_TIMESTAMP(ts) DIV (2*60*60)) * 2*60*60) as ts_new,
  avg(value)
FROM testdata
GROUP BY id, ts_new;

●実行結果

id	ts_new	avg(value)
ID_001	2022-03-31 23:00:00	6.5000
ID_001	2022-04-01 01:00:00	24.5000
ID_001	2022-04-01 03:00:00	48.5000
ID_001	2022-04-01 05:00:00	72.5000
ID_001	2022-04-01 07:00:00	90.5000
ID_002	2022-03-31 23:00:00	7.5000
ID_002	2022-04-01 01:00:00	25.5000
ID_002	2022-04-01 03:00:00	49.5000
ID_002	2022-04-01 05:00:00	73.5000
ID_002	2022-04-01 07:00:00	91.5000
...	...	...

結局、元の案でタイムスタンプを2時間単位に切り下げたものに作り直すようにした。

●コード

SELECT
  id,
  DATE_ADD(DATE(ts),
  INTERVAL HOUR(ts) DIV 2 * 2 HOUR) as ts,
  avg(value)
FROM testdata
GROUP BY id, DATE(ts), HOUR(ts) DIV 2;

●実行結果

id	ts	avg(value)
ID_001	2022-04-01 00:00:00	12.5000
ID_001	2022-04-01 02:00:00	36.5000
ID_001	2022-04-01 04:00:00	60.5000
ID_001	2022-04-01 06:00:00	84.5000
ID_002	2022-04-01 00:00:00	13.5000
ID_002	2022-04-01 02:00:00	37.5000
ID_002	2022-04-01 04:00:00	61.5000
ID_002	2022-04-01 06:00:00	85.5000
...	...	...

ブログ記事を読む

[MySQL] サブクエリがネストしたSQLの書き直しの練習

前回のエントリーで、書き方がわからなかったSQLというのは、そのエントリーの最後に書いたSQLの、"id"がややこしい式になる時のすっきりした書き方だった。

id	id2	COUNT(*)
NULL	ID_001	10
ID_002	NULL	26
NULL	ID_003	10
ID_004	NULL	3
...	...	...

例えば、このように、IDが"id"と"id2"のどちらかに入っているとする。それに対し、前回のコードのサブクエリ以下の"id"をほぼ単純に"IFNULL(id, id2)"に書き換えたものが以下のものである。

●コード

/* original */
SELECT
  _id,
  COUNT(*) as data_num,
  AVG(count) AS mean,
  MAX(count) AS max
FROM (
  SELECT IFNULL(id, id2) AS _id, date, count
  FROM testdata
  WHERE IFNULL(id, id2) IN (
    SELECT *
    FROM (
      SELECT DISTINCT(IFNULL(id, id2))
      FROM testdata
      WHERE '2022-04-01' <= date AND date < '2022-04-10'
      LIMIT 3
    ) AS t1
  ) AND WHERE '2022-04-01' <= date AND date < '2022-05-01'
) AS t2
GROUP BY _id
ORDER BY _id;

●実行結果

_id	data_num	mean	max
ID_002	26	4.9231	11
ID_006	24	8.5833	15
ID_007	25	7.9200	16

最も内側のSELECTでは2022-04-01〜2022-04-09のデータに含まれるIDの内3つを選択している。
その1つ外側のSELECT *は、前回のエントリーに記載したMySQLの制限対策である。
その1つ外側のSELECTでは、IDをその3つ、日付を2022-04-01〜2022-04-30に絞っている。
一番外側のSELECTでは、IDでGROUP BYして集計している。

このコードの何が不満かというと、IFNULL(id, id2)が3つあることと、やりたいことに対してサブクエリがネストし過ぎているように思えることである。
その為、個人的により良いと思える書き方を考えてみることにした。

まず、MySQLではSELECT節に書いた別名をGROUP BY節で使えるらしい（会社で使用している某DBMSでも使えた）ので、サブクエリを1つばらして"AS _id"とGROUP BYを一番外側のSELECT文で一緒にやるようにする。

●コード

/* v2 */
SELECT
  IFNULL(id, id2) AS _id,
  COUNT(*) as data_num,
  AVG(count) AS mean,
  MAX(count) AS max
FROM testdata
WHERE IFNULL(id, id2) IN (
  SELECT *
  FROM (
    SELECT DISTINCT(IFNULL(id, id2))
    FROM testdata
    WHERE '2022-04-01' <= date AND date < '2022-04-10'
    LIMIT 3
  ) AS t1
) AND '2022-04-01' <= date AND date < '2022-05-01'
GROUP BY _id
ORDER BY _id;

●実行結果（同じなので省略）

次に、先にIDをDISTINCTにしてLIMIT 3するのとGROUP BYして最後にLIMIT 3するのは結果としては同じなので、内側のLIMITを外側に出す。するとDISTINCTとMySQLの制限対策のSELECT *は不要になるので、消す。
（全IDについてGROUP BYすることになりそうで、この時点では速度が気になるが）

●コード

/* v3 */
SELECT
  IFNULL(id, id2) AS _id,
  COUNT(*) as data_num,
  AVG(count) AS mean,
  MAX(count) AS max
FROM testdata
WHERE IFNULL(id, id2) IN (
  SELECT IFNULL(id, id2)
  FROM testdata
  WHERE '2022-04-01' <= date AND date < '2022-04-10'
) AND '2022-04-01' <= date AND date < '2022-05-01'
GROUP BY _id
ORDER BY _id
LIMIT 3;

●実行結果（同じなので省略）

最後に、サブクエリのあるWHERE節の部分は、要するに2022-04-01〜2022-04-09のデータがあるグループを選択するものなので、GROUP BYのGROUPを絞るHAVING節に書き換える。

●コード

/* final */
SELECT
  IFNULL(id, id2) AS _id,
  COUNT(*) as data_num,
  AVG(count) AS mean,
  MAX(count) AS max
FROM testdata
WHERE '2022-04-01' <= date AND date < '2022-05-01'
GROUP BY _id
HAVING COUNT('2022-04-01' <= date AND date < '2022-04-10' OR NULL)
ORDER BY _id
LIMIT 3;

●実行結果（同じなので省略）

HAVING節の所は個人的にはSUM('2022-04-01' <= date AND date < '2022-04-10') > 0の方がわかりやすいが、意味的にはSUMでなくANYが欲しい所であり、COUNTの方がANYの代用に相応しそうだし、COUNTの方がSQLっぽくて応用が利きそうな感じがするので、COUNTにした。

気になる処理時間であるが、テーブルの行数や結果の行数を増やして、RESET QUERY CACHE;でクエリキャッシュをクリアしてテーブルを作り直しながら複数回計測してみた結果、上の"original"と"v2"と"v3"のコードは大体同じ時間で、"final"のコードは半分くらいの時間だった。ばらつきが大きく、あまり信頼できない計測結果だったが、"final"のコードが最速なのは間違いなさそうだった。
Pandasのように、なるべく先に処理対象の行数を絞るようにする方が速くなるとは限らないようだ。

ブログ記事を読む

[MySQL] サブクエリでLIMITが使えない場合の対策

最近、会社でSQLを使い始めた。もらったサンプルコードにサブクエリがあり、それを書き換えながら実行することがある。これをもらうまで、サブクエリというものを知らなかった。

先月、自力でサブクエリを組み立てようとしたら、書き方がわからなかったことがあり、そのままGWに突入したので、GW中に考えてみようと思った。その為には、家で同じようなSQLが試せる環境が欲しい。
ふと、家のMySQLでもサブクエリが使えるのだろうか？と思って調べてみたらできるようで、ドキュメントに書かれている形の単純なものは動いた。そこで、今回悩んでいるクエリに近づけようと、サブクエリにLIMITを追加すると、エラーが出た。

●コード

SELECT *
FROM testdata
WHERE id IN (
  SELECT DISTINCT(id)
  FROM testdata
  WHERE '2022-04-01' <= date AND date < '2022-04-10'
  LIMIT 3
);

●実行結果

ERROR 1235 (42000): This version of MariaDB doesn't yet support 'LIMIT & IN/ALL/ANY/SOME subquery'

使用したMySQLはMySQL 5.5から派生したMariaDBのバージョン10.1である。この制限はMariaDBのドキュメントにもMySQL 5.6のドキュメントにも書かれている（MariaDBのドキュメントの記載はわかりにくい）。
2発目で制限事項にヒットするとは、何とも引きが強い。

ネットで探し回ると、対策が2種類ほど見つかった。

●対策１：INでなくJOINを使って絞る

SELECT *
FROM testdata RIGHT JOIN (
  SELECT DISTINCT(id)
  FROM testdata
  WHERE '2022-04-01' <= date AND date < '2022-04-10'
  LIMIT 3
) AS t1 USING (id);

ネットではRIGHT JOINでなくJOIN、USINGでなくONとINを使う例が多く、こう書く例は見なかったが、筆者はSQLに慣れていないせいか、こう書く方がわかり易い。

●対策２：制限事項に当たらないサブクエリを挟む

SELECT *
FROM testdata
WHERE id IN (
  SELECT *
  FROM (
    SELECT DISTINCT(id)
    FROM testdata
    WHERE '2022-04-01' <= date AND date < '2022-04-10'
    LIMIT 3
  ) AS t1
);

こちらの対策は極めて簡単である。

サンプルデータの行数やサブクエリが返す行数を増やしたりして簡単に2つの対策の処理時間を比較してみたが、ほぼ差が見られなかった。
上の対策２が通るなら、元のコードは何故動かせないの？と思ってしまう。

ブログ記事を読む