模組三｜台灣登革熱：非線性的統計失靈

一、本模組的教學定位

面向	模組一（京都櫻花）	模組二（勃艮第葡萄）	模組三（台灣登革熱）
統計結構	漸進趨勢	結構斷層	非線性閾值（倒 U）
核心方法	OLS、相關係數	t 檢定、CUSUM	OLS vs GAM、相關係數的盲點
視覺隱喻	剪刀效應	歷史斷層	看不見的駝峰
情意定位	浪漫入口	文化憂鬱	文化憂鬱 → 物理衝擊的橋接

一句話定位：這是全課程唯一的「統計方法論」模組。它教學生的不是「氣候很可怕」，而是「不要相信你沒有檢查過形狀的相關係數」。前兩個模組用圖打動人心，唯獨這一個模組，要學生對圖、對統計量保持戒心——尤其對那些「只報告一個相關係數、卻從不給你看散點圖」的論文與新聞。

二、課堂前置準備

2.1 環境

與前兩模組相同。Colab 首次執行：

!apt-get install -y fonts-noto-cjk -q     # 中文字型（裝完需 Runtime → Restart）
!pip install pygam -q                      # 選用；不裝也能跑（自動回退 statsmodels）

本模組刻意設計成「有 pygam 就用 pygam，沒有就用 statsmodels 的 GLMGam + B-spline」，兩者結果在教學上等價。這本身就是一個教學點：同一個統計概念（平滑樣條），可以有很多種實作工具。

2.2 資料來源說明

登革熱：衛福部疾病管制署「登革熱每日確定病例」開放資料（Dengue_Daily.csv，約 18 MB，1998 迄今逐案）。本模組篩選本土病例 × 居住台南市，依「發病日」聚合為月病例數。授權為政府資料開放授權條款第 1 版。
氣溫：NASA POWER 的 T2M（地表 2 公尺月均溫），台南座標 (22.99°N, 120.21°E)，無需金鑰，底層為 MERRA-2 再分析資料。
合併：兩個異質資料源以「年-月」為鍵值合併（2008–2023，共 192 個月）。這個合併動作本身，就是資料識讀「使用資料（Using data）」能力域的核心練習。

2.3 為什麼用台南？

台南是 2015 年台灣登革熱大爆發的震央：當年單一縣市本土病例超過 2.2 萬例，本資料中單月最高出現在 2015 年 9 月，達 12,814 例。
選用單一縣市的本土序列，能讓「氣溫—傳播」訊號不被跨縣市異質性稀釋，也讓台灣學生對「自己島上、不久前才發生」的疫情產生切身感。
進階學生可改 COUNTY 變數，比較高雄、屏東，或改成全台彙整，觀察形狀如何變化。

三、課堂節奏建議（90 分鐘版）

時段	內容	教學重點	對應程式
0–10 分	場景設定	播放 2015 台南登革熱新聞片段；提問「氣溫越高，登革熱就越嚴重，對嗎？」先讓學生投票	—
10–20 分	連結前模組	回顧模組一（漸進）、模組二（斷層）：「我們看過兩種形狀了。今天這一種，會騙過你的直覺，也會騙過電腦」	—
20–35 分	資料合併實作	學生親自執行 `build_dataset()`，觀察疾管署 18 MB 資料下載、本土篩選、與 NASA 氣溫的年-月合併	第 1、2 節
35–50 分	先跑 OLS	看到 R²≈0.02、Pearson r≈0.14。提問：「電腦說溫度幾乎不影響疫情。你相信嗎？」	第 3 節
50–65 分	再跑 GAM	同一份資料，GAM 畫出清楚的倒 U（峰值 ≈27.4°C）；分箱均值 2→11→138→670→314。震撼時刻	第 4、5 節
65–80 分	解讀雙圖	左圖（散點＋兩條擬合線）→ 右圖（分箱長條）。「線性的眼睛」看不見駝峰	第 6 節
80–90 分	收束與誠實	強調：即使 GAM 的 R² 也只有 0.03——氣溫是重要但非唯一因素。預告模組四：「換你親手把崩潰畫出來」	第 8 節

四、關鍵統計概念之淺白解釋

4.1 什麼是 GAM（廣義加成模型）？

直覺：OLS 強迫你用「一條直線」描述關係；GAM 讓資料自己決定曲線的彎法——它在每一小段溫度區間用平滑的樣條（spline）接合，最後拼成一條「會轉彎的線」。
與多項式迴歸的差別：多項式是「全域硬塞一個公式」；GAM 是「局部彈性、整體平滑」，比較不會被單一極端值拉歪。
教學比喻：OLS 像一把直尺，你只能畫直線；GAM 像一條可彎的雲尺（French curve），資料的形狀到哪，線就跟到哪。

4.2 相關係數的盲點：r ≈ 0 的兩種完全不同意思

Pearson r 衡量的是「線性」關聯。
一個完美的倒 U（例如 y = −(x−5)²）算出來的 Pearson r 接近 0——但 x 與 y 顯然密切相關。
所以 r ≈ 0 有兩種互斥的可能：(1) 真的沒關係；(2) 有關係，但不是直線。只看 r 而不看散點圖，你永遠分不出是哪一種。
本模組的真實數據正是第 (2) 種：r=0.135、OLS R²=0.018，幾乎為零；但分箱與 GAM 都顯示一條清楚的駝峰。

4.3 什麼是「閾值反應」與「最適溫度」？

太冷（< 約 18–20°C）：病媒蚊發育與病毒複製近乎停滯 → 傳播力 ≈ 0（資料中 16–20°C 月均僅 1.6 例）。
最適帶（約 26–29°C）：傳播力最大（資料中 26–28°C 月均高達 670 例）。
過熱（> 約 30°C）：蚊蟲壽命縮短、病毒複製受抑，傳播力反而下降（資料中 28–31°C 回落至 314 例）。
這條「先升後降」的曲線，與 Mordecai 等人（2017）以機制模型推得的「埃及斑蚊傳播最適溫度約 29°C」高度一致——我們用台南的真實病例，從觀測端重現了實驗室端的結論。

五、教學關鍵時刻：那條「電腦看不見的駝峰」

這是整堂課的高潮。建議教師預留 10–15 分鐘現場演示，並刻意製造「反轉」：

先讓電腦說謊。執行 OLS，把 R² = 0.018、Pearson r = 0.135 投影到大螢幕。問全班：「如果你是只會跑迴歸、不畫圖的研究助理，你會在報告裡寫什麼？」——多數學生會說「溫度與登革熱幾乎無關」。
再讓資料說話。執行分箱均值，把 2 → 11 → 138 → 670 → 314 這串數字念出來。全班會立刻發現：明明差超過 300 倍，怎麼可能「無關」？
點破機制。畫出 GAM 曲線。解釋：OLS 之所以失明，是因為它只會問「整體而言，溫度越高病例越多嗎？」而倒 U 的左半（升）與右半（降）斜率正負相反，在線性模型裡相互抵消，於是 OLS 得到一條近乎水平的線，回報「無關」。

教學啟發（板書三句）
「相關係數低，不代表沒有關係，可能只代表關係不是直線。」
「先畫散點圖，再算統計量——這是資料工作者的第一條紀律。」
「模型是一副眼鏡。戴錯眼鏡，再清楚的東西你也看不見。」

這正呼應 Van Audenhove（2020）所稱「批判資料素養」：資料與模型都不是中立的，它們各自決定了「你被允許看見什麼形狀」。

六、常見學生提問與建議回應

既然 GAM 比較準，為什麼大家還在用 OLS？

OLS 簡單、可解釋、在「關係真的接近線性」時非常好用，而且它的係數有清楚的因果語意（「每升 1°C，平均多 X 例」）。 GAM 彈性大但較難用一個數字總結，也較容易過度貼合雜訊。重點不是「GAM 永遠比較好」，而是「先看形狀，再選工具」。

為什麼連 GAM 的 R² 也只有 0.03？這樣還能下結論嗎？

問得非常好，這是本模組最誠實的部分。登革熱爆發是多因子事件：降雨與積水容器、人口移動、前一年的群體免疫、孳生源清除、輸入病例的「引信」效應……氣溫只是其中之一。我們的結論不是「氣溫決定疫情」，而是「氣溫與傳播的關係是非線性的，而這個非線性連微弱的線性訊號都會被 OLS 抹平」。誠實表述（「重要但非唯一」）比聳動表述（「氣候害死多少人」）更有教育價值。

同月的氣溫和病例對比，會不會有「時間差」問題？

會，而且很重要。台灣登革熱高峰在秋季（9–11 月），但氣溫高峰在 7 月。「病媒蚊孳生 → 叮咬 → 潛伏 → 發病」需要數週。進階練習：把氣溫 shift(1) 或 shift(2) 個月再比對，整體相關會明顯增強（OLS R² 從 0.02 升到約 0.15）。這是「落後效應」的絕佳教材。

這跟氣候變遷有什麼關係？

直接關係是：當台灣的「最適傳播溫度帶」（約 26–29°C）涵蓋的月份隨暖化而變多、變長、往北擴，登革熱的「可傳播窗口」就會拉長、地理範圍北移。模組三教的非線性思維，正是理解「為什麼暖化幾度，疫情風險可能跳一階」的關鍵。

七、評量建議

7.1 形成性評量（課中）

請學生在右圖（分箱長條）上標出「開關打開」的那一個溫度帶，並用一句話解釋：「為什麼 24°C 以下幾乎沒有病例，26–28°C 卻暴增到 670 例？」

7.2 總結性評量（課後）

三擇一繳交 800–1,000 字短文：

統計素養題：自己造一組「完美倒 U」的假資料（例如 21 個點，y = −(x−5)²），計算它的 Pearson r 與 OLS R²。說明為什麼會得到接近 0 的值，並用這個例子向朋友解釋「r=0 的兩種意思」。
落後效應題：修改程式，將氣溫 shift(1)、shift(2)、shift(3) 個月後分別與病例比對，列出三者的 OLS R²。解釋為何「落後 1–2 個月」會讓相關增強，並連結登革熱的傳播時間鏈。
跨模組整合題：把模組一（漸進剪刀）、模組二（結構斷層）、模組三（非線性閾值）三種統計形狀並列。各舉一個「你生活中可能因為用錯模型而誤判」的例子（如：考試成績、體重、社群追蹤數、投資報酬），說明若用錯形狀會得到什麼錯誤結論。

八、延伸閱讀

Mordecai, E. A., et al. (2017). Detecting the impact of temperature on transmission of Zika, dengue, and chikungunya using mechanistic models. PLoS Neglected Tropical Diseases, 11(4), e0005568.
Naish, S., Dale, P., Mackenzie, J. S., McBride, J., Mengersen, K., & Tong, S. (2014). Climate change and dengue: a critical and systematic review of quantitative modelling approaches. BMC Infectious Diseases, 14, 167.
Hastie, T. J., & Tibshirani, R. J. (1990). Generalized Additive Models. Chapman & Hall/CRC.
Anscombe, F. J. (1973). Graphs in statistical analysis. The American Statistician, 27(1), 17–21.（「先畫圖再算統計量」的經典）
衛生福利部疾病管制署（2016）。2015 年國內登革熱疫情回顧。疾管署統計資料。
Van Audenhove, L., Van den Broeck, W., & Mariën, I. (2020). Data literacy and education. In The Routledge Handbook of Critical Data Studies.

教學者自我提醒：模組三是全課程的「方法論良心」。當學生離開教室時，如果他學會了一句話「先讓我看看散點圖」，這個模組就成功了。

台灣登革熱
當線性的眼睛失明

真實資料：r≈0.14 的線性相關，藏著一條清楚的倒 U

一、本模組的教學定位

二、課堂前置準備

2.1 環境

2.2 資料來源說明

2.3 為什麼用台南？

三、課堂節奏建議（90 分鐘版）

四、關鍵統計概念之淺白解釋

4.1 什麼是 GAM（廣義加成模型）？

4.2 相關係數的盲點：r ≈ 0 的兩種完全不同意思

4.3 什麼是「閾值反應」與「最適溫度」？

五、教學關鍵時刻：那條「電腦看不見的駝峰」

六、常見學生提問與建議回應

七、評量建議

7.1 形成性評量（課中）

7.2 總結性評量（課後）

八、延伸閱讀

配套程式碼

台灣登革熱當線性的眼睛失明

真實資料：r≈0.14 的線性相關，藏著一條清楚的倒 U

一、本模組的教學定位

二、課堂前置準備

2.1 環境

2.2 資料來源說明

2.3 為什麼用台南？

三、課堂節奏建議（90 分鐘版）

四、關鍵統計概念之淺白解釋

4.1 什麼是 GAM（廣義加成模型）？

4.2 相關係數的盲點：r ≈ 0 的兩種完全不同意思

4.3 什麼是「閾值反應」與「最適溫度」？

五、教學關鍵時刻：那條「電腦看不見的駝峰」

六、常見學生提問與建議回應

七、評量建議

7.1 形成性評量（課中）

7.2 總結性評量（課後）

八、延伸閱讀

配套程式碼

台灣登革熱
當線性的眼睛失明