Generalized Linear Models (GLM) — חומר עומק (CS1, IFoA)

שכבת העומק. זה לא דף נוסחאות ולא כרטיסיות — זה פרק לימוד שבונה את הנושא מההתחלה. כל מושג מקצועי מופיע באנגלית (כך הוא במבחן ובספרות) עם הסבר בעברית. עבוד אותו לאט, עם עיפרון ביד; נסה לגזור בעצמך לפני שאתה קורא את הגזירה.

נוטציה: לפי IFoA Core Reading. בנוי 15.6.2026. משקל בסילבוס: Regression + GLM = 30% — הנושא הכבד ביותר ב-CS1. אתה מכיר GLM מ-DS, אבל הפער הוא הסגנון של IFoA: exponential family בצורה הקנונית, deviance, גזירה ביד, ופרשנות אקטוארית (לא sklearn / לא glm() כקופסה שחורה). הפרק הזה ממקד שם.

איך להשתמש עם הכרטיסיות: הפרק מלמד; הכרטיסיות משמרות. קרא חלק → ענה על הכרטיסים שלו → חזור על מה שנתקעת בו.

0. תמונת-על: למה GLM ולא רגרסיה רגילה?

רגרסיה ליניארית קלאסית (ordinary linear regression) מניחה שלושה דברים שלרוב לא נכונים בדאטה אקטוארי:

נורמליות: $Y_i \sim N(\mu_i, \sigma^2)$ — אבל מספר תביעות (claim counts) הוא מספר שלם אי-שלילי (Poisson), הסתברות לתביעה היא ב-$[0,1]$ (Binomial), וגודל תביעה (claim severity) הוא חיובי ומוטה ימינה (Gamma). אף אחד מאלה אינו נורמלי.
שונות קבועה (homoscedasticity): $\mathrm{Var}(Y_i)=\sigma^2$ לכל $i$ — אבל בדאטה אמיתי השונות לרוב גדלה עם הממוצע (לפואסון $\mathrm{Var}=\mu$; לגמא $\mathrm{Var}\propto\mu^2$).
קשר ליניארי בין $E[Y]$ למשתנים: $\mu_i = \mathbf{x}_i^\top\boldsymbol\beta$ — אבל זה יכול לתת תחזית שלילית למספר תביעות, או הסתברות מעל 1.

GLM מרחיב את הרגרסיה בשלושה צירים בדיוק כדי לטפל בשלושת הכשלים האלה. במקום נורמלי — כל התפלגות מ-the exponential family. במקום שונות קבועה — variance function $V(\mu)$ שתלויה בממוצע. במקום קשר ליניארי ישיר — link function $g(\mu)=\eta$ שממפה את הממוצע לסקלה שבה הקשר ליניארי.

שלושת הרכיבים של כל GLM (תשנן אותם — זה השלד של חצי מהשאלות): 1. Random component — ההתפלגות של $Y$, חברה ב-exponential family. 2. Systematic component — ה-linear predictor $\eta = \mathbf{x}^\top\boldsymbol\beta$. 3. Link function — $g(\mu)=\eta$, מחבר בין השניים: $\mu = g^{-1}(\eta)$.

1. The Exponential Family — היסוד

הכל ב-GLM נשען על כך שההתפלגות נכתבת בצורה הקנונית (canonical / EDF form). זו הצורה שאתה חייב לדעת לזהות ולפרק:

$$ f(y;\theta,\phi) = \exp\!\left\{ \frac{y\theta - b(\theta)}{a(\phi)} + c(y,\phi) \right\} $$

המרכיבים: - $\theta$ — the natural / canonical parameter (הפרמטר הטבעי). תלוי בממוצע. - $\phi$ — the dispersion parameter (פרמטר הפיזור / scale). לרוב $a(\phi)=\phi/w$ כאשר $w$ הוא משקל (prior weight, למשל מספר חשיפות). - $b(\theta)$ — the cumulant function. הנגזרות שלו נותנות את התוחלת והשונות (ראה למטה — זו התוצאה המרכזית). - $c(y,\phi)$ — איבר נרמול שלא תלוי ב-$\theta$ (ולכן לא משפיע על האמידה של $\boldsymbol\beta$).

1.1 התוצאה המרכזית: mean ו-variance מתוך $b(\theta)$

זה הקסם של הצורה הקנונית, ושאלת מבחן קלאסית "show that". משתמשים בשתי זהויות סקור (the score identities) שמתקיימות לכל משפחה רגולרית:

$$ E\!\left[\frac{\partial \ell}{\partial\theta}\right]=0, \qquad E\!\left[\frac{\partial^2\ell}{\partial\theta^2}\right] + E\!\left[\left(\frac{\partial \ell}{\partial\theta}\right)^2\right]=0 $$

כאשר $\ell=\log f$ היא ה-log-likelihood של תצפית אחת. נגזור:

$$ \ell = \frac{y\theta - b(\theta)}{a(\phi)} + c(y,\phi) \;\Rightarrow\; \frac{\partial\ell}{\partial\theta}=\frac{y-b'(\theta)}{a(\phi)}, \qquad \frac{\partial^2\ell}{\partial\theta^2}=\frac{-b''(\theta)}{a(\phi)} $$

מהזהות הראשונה: $E\!\left[\dfrac{y-b'(\theta)}{a(\phi)}\right]=0 \Rightarrow \boxed{E[Y]=\mu=b'(\theta)}$.

מהזהות השנייה: $\dfrac{-b''(\theta)}{a(\phi)} + \dfrac{\mathrm{Var}(Y)}{a(\phi)^2}=0 \Rightarrow \boxed{\mathrm{Var}(Y)=a(\phi)\,b''(\theta)}$.

שתי מסקנות שצריך לדקלם: - $\mu=b'(\theta)$ — התוחלת היא הנגזרת הראשונה של ה-cumulant function. - $\mathrm{Var}(Y)=a(\phi)\,b''(\theta)$ — השונות מתפרקת למכפלה של $a(\phi)$ (פיזור) ו-$b''(\theta)$.

1.2 The variance function $V(\mu)$

מכיוון ש-$\mu=b'(\theta)$, אפשר להפוך ולבטא את $\theta$ כפונקציה של $\mu$, ואז $b''(\theta)$ הופך לפונקציה של $\mu$. קוראים לזה the variance function:

$$ V(\mu) = b''(\theta(\mu)), \qquad \mathrm{Var}(Y)=a(\phi)\,V(\mu) $$

$V(\mu)$ הוא חתימת הזהות של ההתפלגות — הוא קובע איך השונות תלויה בממוצע, וזה מה שמבדיל פואסון מגמא מנורמלי. (למשל: בפועל אם רואים $\mathrm{Var}\approx\mu$ → פואסון; אם $\mathrm{Var}\approx\mu^2$ → גמא.)

1.3 הטבלה שאתה חייב לדעת בעל-פה

Distribution	$\theta$ (natural param)	$b(\theta)$	$\mu=b'(\theta)$	$V(\mu)=b''$	$a(\phi)$	Canonical link
Normal $N(\mu,\sigma^2)$	$\mu$	$\theta^2/2$	$\theta$	$1$	$\sigma^2$	identity $\mu$
Poisson $\text{Poi}(\mu)$	$\log\mu$	$e^\theta$	$e^\theta$	$\mu$	$1$	log $\log\mu$
Binomial $\text{Bin}(n,p)/n$	$\log\frac{p}{1-p}$	$\log(1+e^\theta)$	$\frac{e^\theta}{1+e^\theta}$	$\mu(1-\mu)$	$1/n$	logit $\log\frac{\mu}{1-\mu}$
Gamma	$-1/\mu$	$-\log(-\theta)$	$-1/\theta$	$\mu^2$	$\nu^{-1}$	inverse $-1/\mu$ (בפועל log)
Exponential	$-1/\mu$	$-\log(-\theta)$	$-1/\theta$	$\mu^2$	$1$	inverse

טיפ זהב למבחן: ה-canonical link הוא תמיד הפונקציה $g$ ש-$g(\mu)=\theta$ (הופכת ממוצע לפרמטר הטבעי). לכן: Normal→identity, Poisson→log, Binomial→logit, Gamma→inverse. אבל בפרקטיקה האקטוארית משתמשים ב-log link גם לגמא (כי הוא נותן מודל מולטיפליקטיבי על הפרמיה — ראה §3.2), לא ב-inverse. אל תתבלבל בין canonical (תיאורטי) ל-used in practice.

1.4 דוגמת פירוק מלאה: Poisson

נראה שפואסון אכן במשפחה ושנקבל את $b,\theta$ מהטבלה. ה-pmf:

$$ f(y;\mu)=\frac{e^{-\mu}\mu^y}{y!} = \exp\{y\log\mu - \mu - \log y!\} $$

השווה לצורה הקנונית $\exp\{(y\theta-b(\theta))/a(\phi)+c\}$: - $\theta=\log\mu$ → לכן $\mu=e^\theta$. - $b(\theta)=\mu=e^\theta$. בדיקה: $b'(\theta)=e^\theta=\mu$ ✓ (התוחלת). $b''(\theta)=e^\theta=\mu=V(\mu)$ ✓. - $a(\phi)=1$ (פואסון לא מפוזר — no free dispersion). - $c(y,\phi)=-\log y!$.

הכל מתלכד. תרגל את אותו פירוק על Gamma ו-Binomial בעצמך — זו שאלה קלאסית.

2. שלושת הרכיבים בפירוט

2.1 Random component

$Y_i$ בלתי תלויים, כל אחד מהמשפחה האקספוננציאלית עם אותו $\phi$ אבל $\theta_i$ (ולכן $\mu_i$) שונה. המשקלים $w_i$ (חשיפה / exposure) נכנסים דרך $a(\phi)=\phi/w_i$.

2.2 Systematic component — the linear predictor

$$ \eta_i = \mathbf{x}_i^\top\boldsymbol\beta = \beta_0 + \beta_1 x_{i1}+\cdots+\beta_p x_{ip} $$ זה ה"חלק הליניארי". משתנים קטגוריאליים (factors, למשל אזור גיאוגרפי, קבוצת גיל) נכנסים כ-dummy variables, וכל רמה מקבלת מקדם משלה יחסית ל-base level. זה לב התמחור האקטוארי: כל factor הוא משתנה תעריפי (rating factor).

2.3 Link function

$$ g(\mu_i)=\eta_i \quad\Longleftrightarrow\quad \mu_i = g^{-1}(\eta_i) $$ ה-link מבטיח שהתחזית נופלת בטווח החוקי של $\mu$: - log link $g(\mu)=\log\mu$: $\mu=e^\eta>0$ תמיד → מתאים ל-counts ול-severity. בונוס: הופך את המודל למולטיפליקטיבי — $\mu = e^{\beta_0}e^{\beta_1 x_1}\cdots$, כל factor מכפיל. זו הצורה הטבעית לתעריף. - logit link $g(\mu)=\log\frac{\mu}{1-\mu}$: $\mu\in(0,1)$ תמיד → מתאים להסתברויות (lapse, mortality). - identity $g(\mu)=\mu$: רגרסיה רגילה כמקרה פרטי.

3. ה-GLMs האקטואריים הקלאסיים

3.1 Poisson GLM — claim frequency (תדירות תביעות)

מספר תביעות $N_i$ עם חשיפה $E_i$ (שנות-פוליסה). מודל: $N_i\sim\text{Poisson}(E_i\lambda_i)$, log link על ה-rate: $\log\lambda_i=\mathbf{x}_i^\top\boldsymbol\beta$.
ה-$\log E_i$ נכנס כ-offset (מקדם קבוע =1, לא נאמד): $\log\mu_i=\log E_i+\mathbf{x}_i^\top\boldsymbol\beta$. שאלת מבחן נפוצה: הסבר מהו offset ולמה. התשובה: זה איבר ב-linear predictor עם מקדם ידוע (=1), שמתקנן לחשיפה כך שאומדים rate ולא count גולמי.

3.2 Gamma GLM — claim severity (חומרת תביעות)

גודל תביעה ממוצע, חיובי ומוטה ימין → גמא עם log link. מודל מולטיפליקטיבי על הסכום.
$V(\mu)=\mu^2$ → coefficient of variation קבוע, שמתאים לדאטה של גדלי תביעות.

3.3 Tweedie / מודל הפרמיה

הפרמיה הטהורה (pure premium) = frequency × severity. בפרקטיקה אקטוארית מודלים את שניהם בנפרד (Poisson לתדירות, Gamma לחומרה) ומכפילים, או משתמשים ב-Tweedie ישירות. (ב-CS1 הדגש על frequency/severity הנפרדים.)

3.4 Binomial / logistic GLM

הסתברות לאירוע (lapse rate, mortality). logit link. $\beta_j$ הוא ה-log odds ratio של ה-factor.

4. אמידה: Maximum Likelihood

אין נוסחה סגורה ל-$\hat{\boldsymbol\beta}$ (חוץ מהמקרה הנורמלי-identity = OLS). אומדים ב-MLE. ה-log-likelihood של כל הדגימה:

$$ \ell(\boldsymbol\beta) = \sum_{i=1}^n \left\{ \frac{y_i\theta_i - b(\theta_i)}{a_i(\phi)} + c(y_i,\phi)\right\} $$

כאשר $\theta_i$ תלוי ב-$\boldsymbol\beta$ דרך השרשרת $\boldsymbol\beta\to\eta_i\to\mu_i\to\theta_i$.

4.1 The score equations (גזירה ביד — נדרש)

נגזור לפי $\beta_j$ עם chain rule. נשתמש ב: $\dfrac{\partial\ell_i}{\partial\theta_i}=\dfrac{y_i-\mu_i}{a_i(\phi)}$ (מ-§1.1), $\dfrac{\partial\theta_i}{\partial\mu_i}=\dfrac{1}{V(\mu_i)}$ (כי $\mu=b'(\theta)\Rightarrow d\mu/d\theta=b''=V$), $\dfrac{\partial\mu_i}{\partial\eta_i}=1/g'(\mu_i)$, ו-$\dfrac{\partial\eta_i}{\partial\beta_j}=x_{ij}$. מכפלת השרשרת:

$$ \frac{\partial\ell}{\partial\beta_j} = \sum_{i=1}^n \frac{(y_i-\mu_i)\,x_{ij}}{a_i(\phi)\,V(\mu_i)\,g'(\mu_i)} = 0, \qquad j=0,\ldots,p $$

שים לב ל-canonical link: אם $g$ הוא ה-canonical link אז $g'(\mu)=1/V(\mu)$, וה-score equations מתפשטות יפה ל-$\sum_i (y_i-\mu_i)x_{ij}/a_i(\phi)=0$. במקרה הזה ה-MLE מקיים $\sum w_i y_i x_{ij}=\sum w_i \hat\mu_i x_{ij}$ — תכונת ה-"balance" (התחזיות משחזרות את הסכומים בכל רמת factor). זו שאלת מבחן.

4.2 פתרון נומרי: IRLS

מערכת המשוואות לא ליניארית → פותרים איטרטיבית ב-Iteratively Reweighted Least Squares: בכל צעד מבצעים weighted least squares על משתנה עזר (the adjusted dependent variable / working response). ב-CS1 צריך לדעת שזה קורה ומה הרעיון, לא לבצע איטרציות ביד. ב-R זה פשוט glm(...).

5. Deviance — מדד ההתאמה המרכזי

זה ככל הנראה החלק האקטוארי-ייחודי החשוב ביותר בנושא. deviance הוא האנלוג של sum of squares ב-GLM, ומשמש להשוואת מודלים.

5.1 The saturated model

ה-saturated model הוא המודל עם פרמטר אחד לכל תצפית ($\hat\mu_i=y_i$). הוא משחזר את הדאטה בדיוק — ה-likelihood הגבוה ביותר האפשרי. הוא חסר תועלת לחיזוי (overfit מוחלט) אבל משמש כbenchmark: כמה ה-likelihood של המודל שלנו רחוק מהמקסימום האפשרי.

5.2 הגדרת ה-(scaled) deviance

$$ D^* = 2\big[\ell(\text{saturated}) - \ell(\text{fitted model})\big] $$ זהו ה-scaled deviance. ה-unscaled deviance הוא $D = \phi\, D^*$ (מכפילים ב-$\phi$ כדי להוציא את הפיזור). בצורה מפורשת:

$$ D = 2\sum_{i=1}^n w_i\big[\, y_i(\tilde\theta_i-\hat\theta_i) - b(\tilde\theta_i)+b(\hat\theta_i)\,\big] $$ כאשר $\tilde\theta_i$ מתאים ל-$\mu_i=y_i$ (saturated) ו-$\hat\theta_i$ למודל שלנו.

נוסחאות deviance מפורשות (כדאי להכיר את שתי הראשונות): - Normal: $D=\sum (y_i-\hat\mu_i)^2$ — זה בדיוק ה-RSS! (מראה ש-deviance מכליל את least squares.) - Poisson: $D=2\sum\left[y_i\log\frac{y_i}{\hat\mu_i}-(y_i-\hat\mu_i)\right]$. - Gamma: $D=2\sum\left[-\log\frac{y_i}{\hat\mu_i}+\frac{y_i-\hat\mu_i}{\hat\mu_i}\right]$. - Binomial: $D=2\sum\left[y_i\log\frac{y_i}{\hat\mu_i}+(n_i-y_i)\log\frac{n_i-y_i}{n_i-\hat\mu_i}\right]$.

5.3 Deviance להשוואת מודלים מקוננים (nested models)

זו השאלה המרכזית. נניח Model 1 (פשוט, $p_1$ פרמטרים) מקונן בתוך Model 2 (מורכב, $p_2>p_1$). ההפרש בין ה-scaled deviances:

$$ \Delta D^* = D^*_1 - D^*_2 \;\overset{H_0}{\sim}\; \chi^2_{\,p_2-p_1} $$

תחת $H_0$ (שהמשתנים הנוספים מיותרים), הפרש ה-scaled deviance מתפלג כ-chi-square עם דרגות חופש = מספר הפרמטרים הנוספים. כלל ההחלטה: אם $\Delta D^*$ גדול מהערך הקריטי $\chi^2_{p_2-p_1,\,0.95}$ → דחה $H_0$ → המשתנים הנוספים תורמים → בחר במודל המורכב.

זהירות עם $\phi$: - אם $\phi$ ידוע (Poisson, Binomial: $\phi=1$) → משתמשים ישירות בהפרש ה-deviance מול $\chi^2$. - אם $\phi$ לא ידוע (Normal, Gamma) → צריך לאמוד אותו, ומשתמשים ב-F-test: $F=\dfrac{(D_1-D_2)/(p_2-p_1)}{\hat\phi}\sim F_{p_2-p_1,\,n-p_2}$. אנלוגי ל-F-test ברגרסיה.

5.4 AIC להשוואת מודלים שאינם מקוננים

$$ \text{AIC} = -2\ell(\hat{\boldsymbol\beta}) + 2k $$ כאשר $k$ = מספר הפרמטרים הנאמדים (כולל $\phi$ אם נאמד). מודל עם AIC נמוך יותר עדיף. מאזן בין fit (likelihood) למורכבות (penalty). שימושי כשהמודלים לא מקוננים (deviance test לא חל).

6. Residuals ו-diagnostics

ב-GLM ה-residuals הרגילים ($y_i-\hat\mu_i$) לא שימושיים כי השונות לא קבועה. שני סוגים מתוקננים:

6.1 Pearson residuals

$$ r_i^P = \frac{y_i-\hat\mu_i}{\sqrt{V(\hat\mu_i)/w_i}} $$ מתקנן לשונות. סכום ריבועיהם = the Pearson (generalized) chi-square statistic $X^2=\sum (r_i^P)^2$, שגם הוא $\approx\chi^2_{n-p}$ ומשמש לאמידת $\phi$: $\hat\phi = X^2/(n-p)$.

6.2 Deviance residuals

$$ r_i^D = \text{sign}(y_i-\hat\mu_i)\sqrt{d_i}, \qquad \sum_i d_i = D $$ כאשר $d_i$ הוא התרומה של תצפית $i$ ל-deviance. deviance residuals לרוב קרובים יותר לנורמליות מ-Pearson, ולכן מועדפים לבדיקת התאמה (QQ-plot, plot מול fitted values). אם המודל טוב — הם צריכים להיראות כרעש נורמלי ללא תבנית.

6.3 מה בודקים

plot residuals מול fitted → לחפש תבנית (curvature = link/predictor לא נכון; funnel = variance function לא נכון).
QQ-plot של deviance residuals → לבדוק נורמליות.
ערכים קיצוניים → outliers / נקודות השפעה.

7. מבחנים ורווחי סמך על הפרמטרים

ה-MLE אסימפטוטית נורמלי: $\hat{\boldsymbol\beta}\approx N(\boldsymbol\beta,\,\mathcal{I}^{-1})$ כאשר $\mathcal{I}$ הוא the Fisher information matrix ($=\mathbf{X}^\top\mathbf{W}\mathbf{X}/\phi$ בנקודת ה-MLE, $\mathbf{W}$ אלכסונית של משקלי IRLS). - רווח סמך: $\hat\beta_j \pm z_{1-\alpha/2}\cdot\text{se}(\hat\beta_j)$, כאשר $\text{se}$ הוא שורש איבר אלכסוני של $\hat{\mathcal I}^{-1}$. - מבחן לפרמטר יחיד: Wald $z=\hat\beta_j/\text{se}(\hat\beta_j)$, או deviance test (drop the term, compare). - ב-log link: $e^{\hat\beta_j}$ הוא ה-multiplicative effect (relativity) של ה-factor — מה שמופיע בטבלת תעריף.

8. דוגמה מפותחת מקצה לקצה (Poisson, ביד)

נתון: תיק עם שני אזורים (urban/rural). תביעות וחשיפה:

Area	Claims $N$	Exposure $E$
Urban	90	1000
Rural	30	600

מודל: $N_i\sim\text{Poisson}(\mu_i)$, $\log\mu_i = \log E_i + \beta_0 + \beta_1\,\mathbb{1}[\text{Urban}]$ (rural = base).

אמידה (canonical link → balance property): ה-MLE משחזר את התביעות בכל רמה, כלומר $\hat\mu_i=N_i$ (כי יש פרמטר לכל אזור = saturated כאן). לכן: - Rural: $\hat\lambda_{\text{rural}} = 30/600 = 0.05$. $\hat\beta_0=\log 0.05 = -2.996$. - Urban: $\hat\lambda_{\text{urban}} = 90/1000 = 0.09$. $\log 0.09 = \hat\beta_0+\hat\beta_1 \Rightarrow \hat\beta_1=\log(0.09/0.05)=\log 1.8 = 0.588$.

פרשנות: $e^{\hat\beta_1}=1.8$ — תדירות התביעות באזור עירוני גבוהה פי 1.8 מהכפרי. זו ה-relativity לטבלת התעריף.

deviance של המודל הזה = 0 (saturated — מתאים בדיוק). כדי לבדוק אם $\beta_1$ נחוץ, נשווה ל-null model ($\beta_1=0$): שם $\hat\lambda=120/1600=0.075$, $\hat\mu_{\text{urb}}=75,\ \hat\mu_{\text{rur}}=45$.

$$ D_{\text{null}}=2\!\left[90\log\tfrac{90}{75}-(90-75)+30\log\tfrac{30}{45}-(30-45)\right] $$ $$ =2[90(0.1823)-15+30(-0.4055)+15]=2[16.41-12.16]=2(4.25)=8.50 $$

השווה ל-$\chi^2_{1,0.95}=3.84$. מכיוון ש-$8.50>3.84$ → דוחים $H_0$ → האזור הוא factor מובהק. (גם אינטואיטיבי: 0.09 מול 0.05 הבדל גדול.)

תרגל: עשה את אותו תהליך עם שלושה אזורים, או הוסף factor שני. זה בדיוק מבנה שאלת ה-12 נקודות הטיפוסית.

9. מלכודות מבחן (8 שריפות נפוצות)

canonical ≠ used-in-practice link. ה-canonical של Gamma הוא inverse, אבל אקטוארים משתמשים ב-log. אם השאלה אומרת "state the canonical link" — ענה inverse. אם "which link is used for a multiplicative tariff" — log.
שכחת ה-offset. במודל frequency, $\log(\text{exposure})$ הוא offset עם מקדם 1 — לא משתנה הסבר רגיל ולא נאמד. שכחה משנה את כל הפירוש.
בלבול scaled מול unscaled deviance. ההפרש שמתפלג $\chi^2$ הוא ה-scaled ($D^*=D/\phi$). לפואסון/בינומי $\phi=1$ אז אין הבדל; לנורמלי/גמא יש — ושם משתמשים ב-F-test, לא בהפרש ישיר מול $\chi^2$.
דרגות חופש של ה-$\chi^2$. $\Delta\text{df}=$ מספר הפרמטרים הנוספים, לא סך הפרמטרים ולא $n-p$.
כיוון ה-decision. deviance/AIC נמוך יותר = טוב יותר. הפרש deviance גדול = המודל המורכב מובהק. אל תהפוך.
$\hat\mu$ מול $\hat\eta$. $g(\hat\mu)=\hat\eta$ — תחזיות ה-linear predictor הן בסקלת ה-link; כדי לקבל ממוצע צפוי צריך $g^{-1}$. בלוג-לינק: $\hat\mu=e^{\hat\eta}$, לא $\hat\eta$.
Pearson מול deviance residuals. לבדיקת נורמליות (QQ) — deviance residuals (קרובים יותר לנורמלי). לאמידת $\phi$ — Pearson ($X^2/(n-p)$).
interpretation של $e^{\beta}$. ב-log link זה אפקט מולטיפליקטיבי (פי כמה); ב-logit link זה odds ratio. לא אחוז ישיר על $\mu$.

10. תרגול עצמי (תשובות בסוף)

Q1. הראה שהתפלגות בינומית $Y\sim\text{Bin}(n,p)/n$ (proportion) שייכת ל-exponential family, וזהה $\theta$, $b(\theta)$, $a(\phi)$, ואת ה-variance function.

Q2. במודל Poisson GLM עם log link וחשיפה, מהו offset ולמה מקדמו קבוע ב-1?

Q3. מודל A (intercept בלבד) נותן deviance 142.0; מודל B (intercept + 3 factors) נותן 128.5. שני המודלים פואסוניים. האם ה-3 factors תורמים ברמת 5%?

Q4. למה לגמא משתמשים ב-log link בפרקטיקה ולא ב-canonical (inverse)? תן שני נימוקים.

Q5. מודל נורמלי-identity. הראה ש-deviance שלו = residual sum of squares.

תשובות

A1. $f(y)=\binom{n}{ny}p^{ny}(1-p)^{n-ny}$. $\log f = ny\log p + n(1-y)\log(1-p)+\log\binom{n}{ny}$. סדר: $= n[y\log\frac{p}{1-p}+\log(1-p)]+\log\binom{n}{ny}$. השווה לצורה $\frac{y\theta-b(\theta)}{a(\phi)}+c$: $\theta=\log\frac{p}{1-p}$ (logit), $a(\phi)=1/n$, $b(\theta)=-\log(1-p)=\log(1+e^\theta)$. בדיקה: $b'(\theta)=\frac{e^\theta}{1+e^\theta}=p=\mu$ ✓; $b''=\frac{e^\theta}{(1+e^\theta)^2}=p(1-p)=V(\mu)=\mu(1-\mu)$ ✓.

A2. offset הוא איבר ב-linear predictor עם מקדם ידוע ולא נאמד. $\log\mu_i=\log E_i+\mathbf{x}_i^\top\boldsymbol\beta$ — המקדם של $\log E_i$ קבוע ב-1 כי אנו מניחים שמספר התביעות פרופורציוני לחשיפה (כפול הקצב $\lambda_i$). זה הופך את האמידה מ-count גולמי ל-rate per unit exposure.

A3. $\Delta D = 142.0-128.5=13.5$. $\phi=1$ (Poisson) → השווה ל-$\chi^2_3$ (3 פרמטרים נוספים). $\chi^2_{3,0.95}=7.81$. מאחר ש-$13.5>7.81$ → דוחים $H_0$ → כן, ה-factors תורמים מובהקים ברמת 5%.

A4. (1) log link נותן מודל מולטיפליקטיבי — $\mu=e^{\beta_0}\prod e^{\beta_j x_j}$ — שזו הצורה הטבעית והמקובלת לטבלאות תעריף (כל factor מכפיל). (2) log link מבטיח $\mu>0$ תמיד; ה-canonical inverse link עלול לתת $\hat\mu<0$ עבור ערכים מסוימים של $\eta$, מה שחסר משמעות לגדלי תביעות.

A5. נורמלי: $\theta=\mu$, $b(\theta)=\theta^2/2$, $a(\phi)=\sigma^2$. $D=2\sum w_i[y_i(\tilde\theta_i-\hat\theta_i)-b(\tilde\theta_i)+b(\hat\theta_i)]$ עם $\tilde\theta_i=y_i$, $\hat\theta_i=\hat\mu_i$, $w_i=1$: $=2\sum[y_i(y_i-\hat\mu_i)-\frac{y_i^2}{2}+\frac{\hat\mu_i^2}{2}]=2\sum[\frac{y_i^2}{2}-y_i\hat\mu_i+\frac{\hat\mu_i^2}{2}]=\sum(y_i-\hat\mu_i)^2$ = RSS ✓.

הצעד הבא בלמידה: אחרי שעיכלת את הפרק — עבור על הכרטיסיות (כשייבנו ל-GLM), ואז תרגל שאלת past-paper מלאה של Poisson/Gamma GLM עם deviance test. הנושא הבא בעומק לפי המשקל: Statistical Inference (MLE, hypothesis testing) — 25%.