# Generalized Linear Models (GLM) — חומר עומק (CS1, IFoA)

> **שכבת העומק.** זה לא דף נוסחאות ולא כרטיסיות — זה פרק לימוד שבונה את הנושא מההתחלה. כל מושג מקצועי מופיע **באנגלית** (כך הוא במבחן ובספרות) עם הסבר בעברית. עבוד אותו לאט, עם עיפרון ביד; נסה לגזור בעצמך לפני שאתה קורא את הגזירה.
>
> **נוטציה:** לפי IFoA Core Reading. בנוי 15.6.2026.
> **משקל בסילבוס:** Regression + GLM = **30%** — הנושא הכבד ביותר ב-CS1. אתה מכיר GLM מ-DS, אבל הפער הוא **הסגנון של IFoA**: exponential family בצורה הקנונית, deviance, גזירה ביד, ופרשנות אקטוארית (לא sklearn / לא `glm()` כקופסה שחורה). הפרק הזה ממקד שם.
>
> **איך להשתמש עם הכרטיסיות:** הפרק מלמד; הכרטיסיות משמרות. קרא חלק → ענה על הכרטיסים שלו → חזור על מה שנתקעת בו.

---

## 0. תמונת-על: למה GLM ולא רגרסיה רגילה?

רגרסיה ליניארית קלאסית (ordinary linear regression) מניחה שלושה דברים שלרוב **לא נכונים בדאטה אקטוארי**:

1. **נורמליות:** $Y_i \sim N(\mu_i, \sigma^2)$ — אבל מספר תביעות (claim counts) הוא מספר שלם אי-שלילי (Poisson), הסתברות לתביעה היא ב-$[0,1]$ (Binomial), וגודל תביעה (claim severity) הוא חיובי ומוטה ימינה (Gamma). אף אחד מאלה אינו נורמלי.
2. **שונות קבועה (homoscedasticity):** $\mathrm{Var}(Y_i)=\sigma^2$ לכל $i$ — אבל בדאטה אמיתי השונות לרוב **גדלה עם הממוצע** (לפואסון $\mathrm{Var}=\mu$; לגמא $\mathrm{Var}\propto\mu^2$).
3. **קשר ליניארי בין $E[Y]$ למשתנים:** $\mu_i = \mathbf{x}_i^\top\boldsymbol\beta$ — אבל זה יכול לתת תחזית שלילית למספר תביעות, או הסתברות מעל 1.

**GLM מרחיב את הרגרסיה בשלושה צירים בדיוק כדי לטפל בשלושת הכשלים האלה.** במקום נורמלי — כל התפלגות מ-**the exponential family**. במקום שונות קבועה — **variance function** $V(\mu)$ שתלויה בממוצע. במקום קשר ליניארי ישיר — **link function** $g(\mu)=\eta$ שממפה את הממוצע לסקלה שבה הקשר ליניארי.

> **שלושת הרכיבים של כל GLM** (תשנן אותם — זה השלד של חצי מהשאלות):
> 1. **Random component** — ההתפלגות של $Y$, חברה ב-exponential family.
> 2. **Systematic component** — ה-linear predictor $\eta = \mathbf{x}^\top\boldsymbol\beta$.
> 3. **Link function** — $g(\mu)=\eta$, מחבר בין השניים: $\mu = g^{-1}(\eta)$.

---

## 1. The Exponential Family — היסוד

הכל ב-GLM נשען על כך שההתפלגות נכתבת בצורה הקנונית (canonical / EDF form). זו הצורה שאתה **חייב** לדעת לזהות ולפרק:

$$ f(y;\theta,\phi) = \exp\!\left\{ \frac{y\theta - b(\theta)}{a(\phi)} + c(y,\phi) \right\} $$

המרכיבים:
- $\theta$ — **the natural / canonical parameter** (הפרמטר הטבעי). תלוי בממוצע.
- $\phi$ — **the dispersion parameter** (פרמטר הפיזור / scale). לרוב $a(\phi)=\phi/w$ כאשר $w$ הוא משקל (prior weight, למשל מספר חשיפות).
- $b(\theta)$ — **the cumulant function**. הנגזרות שלו נותנות את התוחלת והשונות (ראה למטה — זו התוצאה המרכזית).
- $c(y,\phi)$ — איבר נרמול שלא תלוי ב-$\theta$ (ולכן לא משפיע על האמידה של $\boldsymbol\beta$).

### 1.1 התוצאה המרכזית: mean ו-variance מתוך $b(\theta)$

זה הקסם של הצורה הקנונית, ושאלת מבחן קלאסית "show that". משתמשים בשתי זהויות סקור (the score identities) שמתקיימות לכל משפחה רגולרית:

$$ E\!\left[\frac{\partial \ell}{\partial\theta}\right]=0, \qquad E\!\left[\frac{\partial^2\ell}{\partial\theta^2}\right] + E\!\left[\left(\frac{\partial \ell}{\partial\theta}\right)^2\right]=0 $$

כאשר $\ell=\log f$ היא ה-log-likelihood של תצפית אחת. נגזור:

$$ \ell = \frac{y\theta - b(\theta)}{a(\phi)} + c(y,\phi) \;\Rightarrow\; \frac{\partial\ell}{\partial\theta}=\frac{y-b'(\theta)}{a(\phi)}, \qquad \frac{\partial^2\ell}{\partial\theta^2}=\frac{-b''(\theta)}{a(\phi)} $$

מהזהות הראשונה: $E\!\left[\dfrac{y-b'(\theta)}{a(\phi)}\right]=0 \Rightarrow \boxed{E[Y]=\mu=b'(\theta)}$.

מהזהות השנייה: $\dfrac{-b''(\theta)}{a(\phi)} + \dfrac{\mathrm{Var}(Y)}{a(\phi)^2}=0 \Rightarrow \boxed{\mathrm{Var}(Y)=a(\phi)\,b''(\theta)}$.

> **שתי מסקנות שצריך לדקלם:**
> - $\mu=b'(\theta)$ — התוחלת היא הנגזרת הראשונה של ה-cumulant function.
> - $\mathrm{Var}(Y)=a(\phi)\,b''(\theta)$ — השונות מתפרקת למכפלה של $a(\phi)$ (פיזור) ו-$b''(\theta)$.

### 1.2 The variance function $V(\mu)$

מכיוון ש-$\mu=b'(\theta)$, אפשר להפוך ולבטא את $\theta$ כפונקציה של $\mu$, ואז $b''(\theta)$ הופך לפונקציה של $\mu$. קוראים לזה **the variance function**:

$$ V(\mu) = b''(\theta(\mu)), \qquad \mathrm{Var}(Y)=a(\phi)\,V(\mu) $$

$V(\mu)$ הוא **חתימת הזהות** של ההתפלגות — הוא קובע איך השונות תלויה בממוצע, וזה מה שמבדיל פואסון מגמא מנורמלי. (למשל: בפועל אם רואים $\mathrm{Var}\approx\mu$ → פואסון; אם $\mathrm{Var}\approx\mu^2$ → גמא.)

### 1.3 הטבלה שאתה חייב לדעת בעל-פה

| Distribution | $\theta$ (natural param) | $b(\theta)$ | $\mu=b'(\theta)$ | $V(\mu)=b''$ | $a(\phi)$ | Canonical link |
|---|---|---|---|---|---|---|
| **Normal** $N(\mu,\sigma^2)$ | $\mu$ | $\theta^2/2$ | $\theta$ | $1$ | $\sigma^2$ | identity $\mu$ |
| **Poisson** $\text{Poi}(\mu)$ | $\log\mu$ | $e^\theta$ | $e^\theta$ | $\mu$ | $1$ | log $\log\mu$ |
| **Binomial** $\text{Bin}(n,p)/n$ | $\log\frac{p}{1-p}$ | $\log(1+e^\theta)$ | $\frac{e^\theta}{1+e^\theta}$ | $\mu(1-\mu)$ | $1/n$ | logit $\log\frac{\mu}{1-\mu}$ |
| **Gamma** | $-1/\mu$ | $-\log(-\theta)$ | $-1/\theta$ | $\mu^2$ | $\nu^{-1}$ | inverse $-1/\mu$ (בפועל log) |
| **Exponential** | $-1/\mu$ | $-\log(-\theta)$ | $-1/\theta$ | $\mu^2$ | $1$ | inverse |

> **טיפ זהב למבחן:** ה-canonical link הוא תמיד הפונקציה $g$ ש-$g(\mu)=\theta$ (הופכת ממוצע לפרמטר הטבעי). לכן: Normal→identity, Poisson→log, Binomial→logit, Gamma→inverse. **אבל** בפרקטיקה האקטוארית משתמשים ב-**log link גם לגמא** (כי הוא נותן מודל מולטיפליקטיבי על הפרמיה — ראה §3.2), לא ב-inverse. אל תתבלבל בין canonical (תיאורטי) ל-used in practice.

### 1.4 דוגמת פירוק מלאה: Poisson

נראה שפואסון אכן במשפחה ושנקבל את $b,\theta$ מהטבלה. ה-pmf:

$$ f(y;\mu)=\frac{e^{-\mu}\mu^y}{y!} = \exp\{y\log\mu - \mu - \log y!\} $$

השווה לצורה הקנונית $\exp\{(y\theta-b(\theta))/a(\phi)+c\}$:
- $\theta=\log\mu$ → לכן $\mu=e^\theta$.
- $b(\theta)=\mu=e^\theta$. בדיקה: $b'(\theta)=e^\theta=\mu$ ✓ (התוחלת). $b''(\theta)=e^\theta=\mu=V(\mu)$ ✓.
- $a(\phi)=1$ (פואסון לא מפוזר — no free dispersion).
- $c(y,\phi)=-\log y!$.

הכל מתלכד. **תרגל את אותו פירוק על Gamma ו-Binomial בעצמך — זו שאלה קלאסית.**

---

## 2. שלושת הרכיבים בפירוט

### 2.1 Random component
$Y_i$ בלתי תלויים, כל אחד מהמשפחה האקספוננציאלית עם אותו $\phi$ אבל $\theta_i$ (ולכן $\mu_i$) שונה. המשקלים $w_i$ (חשיפה / exposure) נכנסים דרך $a(\phi)=\phi/w_i$.

### 2.2 Systematic component — the linear predictor
$$ \eta_i = \mathbf{x}_i^\top\boldsymbol\beta = \beta_0 + \beta_1 x_{i1}+\cdots+\beta_p x_{ip} $$
זה ה"חלק הליניארי". משתנים קטגוריאליים (factors, למשל אזור גיאוגרפי, קבוצת גיל) נכנסים כ-**dummy variables**, וכל רמה מקבלת מקדם משלה יחסית ל-base level. זה לב התמחור האקטוארי: כל factor הוא משתנה תעריפי (rating factor).

### 2.3 Link function
$$ g(\mu_i)=\eta_i \quad\Longleftrightarrow\quad \mu_i = g^{-1}(\eta_i) $$
ה-link מבטיח שהתחזית נופלת בטווח החוקי של $\mu$:
- **log link** $g(\mu)=\log\mu$: $\mu=e^\eta>0$ תמיד → מתאים ל-counts ול-severity. **בונוס:** הופך את המודל ל**מולטיפליקטיבי** — $\mu = e^{\beta_0}e^{\beta_1 x_1}\cdots$, כל factor מכפיל. זו הצורה הטבעית לתעריף.
- **logit link** $g(\mu)=\log\frac{\mu}{1-\mu}$: $\mu\in(0,1)$ תמיד → מתאים להסתברויות (lapse, mortality).
- **identity** $g(\mu)=\mu$: רגרסיה רגילה כמקרה פרטי.

---

## 3. ה-GLMs האקטואריים הקלאסיים

### 3.1 Poisson GLM — claim frequency (תדירות תביעות)
- מספר תביעות $N_i$ עם חשיפה $E_i$ (שנות-פוליסה). מודל: $N_i\sim\text{Poisson}(E_i\lambda_i)$, log link על ה-rate: $\log\lambda_i=\mathbf{x}_i^\top\boldsymbol\beta$.
- ה-$\log E_i$ נכנס כ-**offset** (מקדם קבוע =1, לא נאמד): $\log\mu_i=\log E_i+\mathbf{x}_i^\top\boldsymbol\beta$. **שאלת מבחן נפוצה: הסבר מהו offset ולמה.** התשובה: זה איבר ב-linear predictor עם מקדם ידוע (=1), שמתקנן לחשיפה כך שאומדים rate ולא count גולמי.

### 3.2 Gamma GLM — claim severity (חומרת תביעות)
- גודל תביעה ממוצע, חיובי ומוטה ימין → גמא עם log link. מודל מולטיפליקטיבי על הסכום.
- $V(\mu)=\mu^2$ → coefficient of variation קבוע, שמתאים לדאטה של גדלי תביעות.

### 3.3 Tweedie / מודל הפרמיה
- הפרמיה הטהורה (pure premium) = frequency × severity. בפרקטיקה אקטוארית מודלים את שניהם בנפרד (Poisson לתדירות, Gamma לחומרה) ומכפילים, או משתמשים ב-Tweedie ישירות. (ב-CS1 הדגש על frequency/severity הנפרדים.)

### 3.4 Binomial / logistic GLM
- הסתברות לאירוע (lapse rate, mortality). logit link. $\beta_j$ הוא ה-**log odds ratio** של ה-factor.

---

## 4. אמידה: Maximum Likelihood

אין נוסחה סגורה ל-$\hat{\boldsymbol\beta}$ (חוץ מהמקרה הנורמלי-identity = OLS). אומדים ב-MLE. ה-log-likelihood של כל הדגימה:

$$ \ell(\boldsymbol\beta) = \sum_{i=1}^n \left\{ \frac{y_i\theta_i - b(\theta_i)}{a_i(\phi)} + c(y_i,\phi)\right\} $$

כאשר $\theta_i$ תלוי ב-$\boldsymbol\beta$ דרך השרשרת $\boldsymbol\beta\to\eta_i\to\mu_i\to\theta_i$.

### 4.1 The score equations (גזירה ביד — נדרש)
נגזור לפי $\beta_j$ עם chain rule. נשתמש ב: $\dfrac{\partial\ell_i}{\partial\theta_i}=\dfrac{y_i-\mu_i}{a_i(\phi)}$ (מ-§1.1), $\dfrac{\partial\theta_i}{\partial\mu_i}=\dfrac{1}{V(\mu_i)}$ (כי $\mu=b'(\theta)\Rightarrow d\mu/d\theta=b''=V$), $\dfrac{\partial\mu_i}{\partial\eta_i}=1/g'(\mu_i)$, ו-$\dfrac{\partial\eta_i}{\partial\beta_j}=x_{ij}$. מכפלת השרשרת:

$$ \frac{\partial\ell}{\partial\beta_j} = \sum_{i=1}^n \frac{(y_i-\mu_i)\,x_{ij}}{a_i(\phi)\,V(\mu_i)\,g'(\mu_i)} = 0, \qquad j=0,\ldots,p $$

> **שים לב ל-canonical link:** אם $g$ הוא ה-canonical link אז $g'(\mu)=1/V(\mu)$, וה-score equations מתפשטות יפה ל-$\sum_i (y_i-\mu_i)x_{ij}/a_i(\phi)=0$. במקרה הזה ה-MLE מקיים $\sum w_i y_i x_{ij}=\sum w_i \hat\mu_i x_{ij}$ — תכונת ה-"balance" (התחזיות משחזרות את הסכומים בכל רמת factor). זו שאלת מבחן.

### 4.2 פתרון נומרי: IRLS
מערכת המשוואות לא ליניארית → פותרים איטרטיבית ב-**Iteratively Reweighted Least Squares**: בכל צעד מבצעים weighted least squares על משתנה עזר (the adjusted dependent variable / working response). ב-CS1 צריך לדעת **ש**זה קורה ומה הרעיון, לא לבצע איטרציות ביד. ב-R זה פשוט `glm(...)`.

---

## 5. Deviance — מדד ההתאמה המרכזי

זה ככל הנראה החלק האקטוארי-ייחודי החשוב ביותר בנושא. **deviance** הוא האנלוג של sum of squares ב-GLM, ומשמש להשוואת מודלים.

### 5.1 The saturated model
ה-**saturated model** הוא המודל עם פרמטר אחד לכל תצפית ($\hat\mu_i=y_i$). הוא משחזר את הדאטה בדיוק — ה-likelihood הגבוה ביותר האפשרי. הוא חסר תועלת לחיזוי (overfit מוחלט) אבל משמש כ**benchmark**: כמה ה-likelihood של המודל שלנו רחוק מהמקסימום האפשרי.

### 5.2 הגדרת ה-(scaled) deviance
$$ D^* = 2\big[\ell(\text{saturated}) - \ell(\text{fitted model})\big] $$
זהו ה-**scaled deviance**. ה-**unscaled deviance** הוא $D = \phi\, D^*$ (מכפילים ב-$\phi$ כדי להוציא את הפיזור). בצורה מפורשת:

$$ D = 2\sum_{i=1}^n w_i\big[\, y_i(\tilde\theta_i-\hat\theta_i) - b(\tilde\theta_i)+b(\hat\theta_i)\,\big] $$
כאשר $\tilde\theta_i$ מתאים ל-$\mu_i=y_i$ (saturated) ו-$\hat\theta_i$ למודל שלנו.

נוסחאות deviance מפורשות (כדאי להכיר את שתי הראשונות):
- **Normal:** $D=\sum (y_i-\hat\mu_i)^2$ — זה בדיוק ה-RSS! (מראה ש-deviance מכליל את least squares.)
- **Poisson:** $D=2\sum\left[y_i\log\frac{y_i}{\hat\mu_i}-(y_i-\hat\mu_i)\right]$.
- **Gamma:** $D=2\sum\left[-\log\frac{y_i}{\hat\mu_i}+\frac{y_i-\hat\mu_i}{\hat\mu_i}\right]$.
- **Binomial:** $D=2\sum\left[y_i\log\frac{y_i}{\hat\mu_i}+(n_i-y_i)\log\frac{n_i-y_i}{n_i-\hat\mu_i}\right]$.

### 5.3 Deviance להשוואת מודלים מקוננים (nested models)
זו השאלה המרכזית. נניח Model 1 (פשוט, $p_1$ פרמטרים) מקונן בתוך Model 2 (מורכב, $p_2>p_1$). ההפרש בין ה-scaled deviances:

$$ \Delta D^* = D^*_1 - D^*_2 \;\overset{H_0}{\sim}\; \chi^2_{\,p_2-p_1} $$

תחת $H_0$ (שהמשתנים הנוספים מיותרים), הפרש ה-scaled deviance מתפלג כ-chi-square עם דרגות חופש = מספר הפרמטרים הנוספים. **כלל ההחלטה:** אם $\Delta D^*$ גדול מהערך הקריטי $\chi^2_{p_2-p_1,\,0.95}$ → דחה $H_0$ → המשתנים הנוספים תורמים → בחר במודל המורכב.

> **זהירות עם $\phi$:**
> - אם $\phi$ **ידוע** (Poisson, Binomial: $\phi=1$) → משתמשים ישירות בהפרש ה-deviance מול $\chi^2$.
> - אם $\phi$ **לא ידוע** (Normal, Gamma) → צריך לאמוד אותו, ומשתמשים ב-**F-test**: $F=\dfrac{(D_1-D_2)/(p_2-p_1)}{\hat\phi}\sim F_{p_2-p_1,\,n-p_2}$. אנלוגי ל-F-test ברגרסיה.

### 5.4 AIC להשוואת מודלים שאינם מקוננים
$$ \text{AIC} = -2\ell(\hat{\boldsymbol\beta}) + 2k $$
כאשר $k$ = מספר הפרמטרים הנאמדים (כולל $\phi$ אם נאמד). מודל עם AIC **נמוך יותר** עדיף. מאזן בין fit (likelihood) למורכבות (penalty). שימושי כשהמודלים לא מקוננים (deviance test לא חל).

---

## 6. Residuals ו-diagnostics

ב-GLM ה-residuals הרגילים ($y_i-\hat\mu_i$) לא שימושיים כי השונות לא קבועה. שני סוגים מתוקננים:

### 6.1 Pearson residuals
$$ r_i^P = \frac{y_i-\hat\mu_i}{\sqrt{V(\hat\mu_i)/w_i}} $$
מתקנן לשונות. סכום ריבועיהם = **the Pearson (generalized) chi-square statistic** $X^2=\sum (r_i^P)^2$, שגם הוא $\approx\chi^2_{n-p}$ ומשמש לאמידת $\phi$: $\hat\phi = X^2/(n-p)$.

### 6.2 Deviance residuals
$$ r_i^D = \text{sign}(y_i-\hat\mu_i)\sqrt{d_i}, \qquad \sum_i d_i = D $$
כאשר $d_i$ הוא התרומה של תצפית $i$ ל-deviance. **deviance residuals לרוב קרובים יותר לנורמליות** מ-Pearson, ולכן מועדפים לבדיקת התאמה (QQ-plot, plot מול fitted values). אם המודל טוב — הם צריכים להיראות כרעש נורמלי ללא תבנית.

### 6.3 מה בודקים
- plot residuals מול fitted → לחפש תבנית (curvature = link/predictor לא נכון; funnel = variance function לא נכון).
- QQ-plot של deviance residuals → לבדוק נורמליות.
- ערכים קיצוניים → outliers / נקודות השפעה.

---

## 7. מבחנים ורווחי סמך על הפרמטרים

ה-MLE אסימפטוטית נורמלי: $\hat{\boldsymbol\beta}\approx N(\boldsymbol\beta,\,\mathcal{I}^{-1})$ כאשר $\mathcal{I}$ הוא **the Fisher information matrix** ($=\mathbf{X}^\top\mathbf{W}\mathbf{X}/\phi$ בנקודת ה-MLE, $\mathbf{W}$ אלכסונית של משקלי IRLS).
- **רווח סמך:** $\hat\beta_j \pm z_{1-\alpha/2}\cdot\text{se}(\hat\beta_j)$, כאשר $\text{se}$ הוא שורש איבר אלכסוני של $\hat{\mathcal I}^{-1}$.
- **מבחן לפרמטר יחיד:** Wald $z=\hat\beta_j/\text{se}(\hat\beta_j)$, או deviance test (drop the term, compare).
- ב-log link: $e^{\hat\beta_j}$ הוא ה-**multiplicative effect** (relativity) של ה-factor — מה שמופיע בטבלת תעריף.

---

## 8. דוגמה מפותחת מקצה לקצה (Poisson, ביד)

**נתון:** תיק עם שני אזורים (urban/rural). תביעות וחשיפה:

| Area | Claims $N$ | Exposure $E$ |
|---|---|---|
| Urban | 90 | 1000 |
| Rural | 30 | 600 |

מודל: $N_i\sim\text{Poisson}(\mu_i)$, $\log\mu_i = \log E_i + \beta_0 + \beta_1\,\mathbb{1}[\text{Urban}]$ (rural = base).

**אמידה (canonical link → balance property):** ה-MLE משחזר את התביעות בכל רמה, כלומר $\hat\mu_i=N_i$ (כי יש פרמטר לכל אזור = saturated כאן). לכן:
- Rural: $\hat\lambda_{\text{rural}} = 30/600 = 0.05$. $\hat\beta_0=\log 0.05 = -2.996$.
- Urban: $\hat\lambda_{\text{urban}} = 90/1000 = 0.09$. $\log 0.09 = \hat\beta_0+\hat\beta_1 \Rightarrow \hat\beta_1=\log(0.09/0.05)=\log 1.8 = 0.588$.

**פרשנות:** $e^{\hat\beta_1}=1.8$ — תדירות התביעות באזור עירוני גבוהה פי 1.8 מהכפרי. זו ה-relativity לטבלת התעריף.

**deviance של המודל הזה = 0** (saturated — מתאים בדיוק). כדי לבדוק אם $\beta_1$ נחוץ, נשווה ל-**null model** ($\beta_1=0$): שם $\hat\lambda=120/1600=0.075$, $\hat\mu_{\text{urb}}=75,\ \hat\mu_{\text{rur}}=45$.

$$ D_{\text{null}}=2\!\left[90\log\tfrac{90}{75}-(90-75)+30\log\tfrac{30}{45}-(30-45)\right] $$
$$ =2[90(0.1823)-15+30(-0.4055)+15]=2[16.41-12.16]=2(4.25)=8.50 $$

השווה ל-$\chi^2_{1,0.95}=3.84$. מכיוון ש-$8.50>3.84$ → דוחים $H_0$ → **האזור הוא factor מובהק.** (גם אינטואיטיבי: 0.09 מול 0.05 הבדל גדול.)

> תרגל: עשה את אותו תהליך עם שלושה אזורים, או הוסף factor שני. זה בדיוק מבנה שאלת ה-12 נקודות הטיפוסית.

---

## 9. מלכודות מבחן (8 שריפות נפוצות)

1. **canonical ≠ used-in-practice link.** ה-canonical של Gamma הוא inverse, אבל אקטוארים משתמשים ב-log. אם השאלה אומרת "state the canonical link" — ענה inverse. אם "which link is used for a multiplicative tariff" — log.
2. **שכחת ה-offset.** במודל frequency, $\log(\text{exposure})$ הוא offset עם מקדם 1 — לא משתנה הסבר רגיל ולא נאמד. שכחה משנה את כל הפירוש.
3. **בלבול scaled מול unscaled deviance.** ההפרש שמתפלג $\chi^2$ הוא ה-**scaled** ($D^*=D/\phi$). לפואסון/בינומי $\phi=1$ אז אין הבדל; לנורמלי/גמא יש — ושם משתמשים ב-F-test, לא בהפרש ישיר מול $\chi^2$.
4. **דרגות חופש של ה-$\chi^2$.** $\Delta\text{df}=$ מספר הפרמטרים *הנוספים*, לא סך הפרמטרים ולא $n-p$.
5. **כיוון ה-decision.** deviance/AIC **נמוך יותר = טוב יותר**. הפרש deviance **גדול** = המודל המורכב מובהק. אל תהפוך.
6. **$\hat\mu$ מול $\hat\eta$.** $g(\hat\mu)=\hat\eta$ — תחזיות ה-linear predictor הן בסקלת ה-link; כדי לקבל ממוצע צפוי צריך $g^{-1}$. בלוג-לינק: $\hat\mu=e^{\hat\eta}$, לא $\hat\eta$.
7. **Pearson מול deviance residuals.** לבדיקת נורמליות (QQ) — deviance residuals (קרובים יותר לנורמלי). לאמידת $\phi$ — Pearson ($X^2/(n-p)$).
8. **interpretation של $e^{\beta}$.** ב-log link זה אפקט מולטיפליקטיבי (פי כמה); ב-logit link זה odds ratio. לא אחוז ישיר על $\mu$.

---

## 10. תרגול עצמי (תשובות בסוף)

**Q1.** הראה שהתפלגות בינומית $Y\sim\text{Bin}(n,p)/n$ (proportion) שייכת ל-exponential family, וזהה $\theta$, $b(\theta)$, $a(\phi)$, ואת ה-variance function.

**Q2.** במודל Poisson GLM עם log link וחשיפה, מהו offset ולמה מקדמו קבוע ב-1?

**Q3.** מודל A (intercept בלבד) נותן deviance 142.0; מודל B (intercept + 3 factors) נותן 128.5. שני המודלים פואסוניים. האם ה-3 factors תורמים ברמת 5%?

**Q4.** למה לגמא משתמשים ב-log link בפרקטיקה ולא ב-canonical (inverse)? תן שני נימוקים.

**Q5.** מודל נורמלי-identity. הראה ש-deviance שלו = residual sum of squares.

---
### תשובות

**A1.** $f(y)=\binom{n}{ny}p^{ny}(1-p)^{n-ny}$. $\log f = ny\log p + n(1-y)\log(1-p)+\log\binom{n}{ny}$. סדר: $= n[y\log\frac{p}{1-p}+\log(1-p)]+\log\binom{n}{ny}$. השווה לצורה $\frac{y\theta-b(\theta)}{a(\phi)}+c$: $\theta=\log\frac{p}{1-p}$ (logit), $a(\phi)=1/n$, $b(\theta)=-\log(1-p)=\log(1+e^\theta)$. בדיקה: $b'(\theta)=\frac{e^\theta}{1+e^\theta}=p=\mu$ ✓; $b''=\frac{e^\theta}{(1+e^\theta)^2}=p(1-p)=V(\mu)=\mu(1-\mu)$ ✓.

**A2.** offset הוא איבר ב-linear predictor עם מקדם ידוע ולא נאמד. $\log\mu_i=\log E_i+\mathbf{x}_i^\top\boldsymbol\beta$ — המקדם של $\log E_i$ קבוע ב-1 כי אנו מניחים שמספר התביעות פרופורציוני לחשיפה (כפול הקצב $\lambda_i$). זה הופך את האמידה מ-count גולמי ל-rate per unit exposure.

**A3.** $\Delta D = 142.0-128.5=13.5$. $\phi=1$ (Poisson) → השווה ל-$\chi^2_3$ (3 פרמטרים נוספים). $\chi^2_{3,0.95}=7.81$. מאחר ש-$13.5>7.81$ → דוחים $H_0$ → **כן, ה-factors תורמים מובהקים** ברמת 5%.

**A4.** (1) log link נותן מודל **מולטיפליקטיבי** — $\mu=e^{\beta_0}\prod e^{\beta_j x_j}$ — שזו הצורה הטבעית והמקובלת לטבלאות תעריף (כל factor מכפיל). (2) log link מבטיח $\mu>0$ תמיד; ה-canonical inverse link עלול לתת $\hat\mu<0$ עבור ערכים מסוימים של $\eta$, מה שחסר משמעות לגדלי תביעות.

**A5.** נורמלי: $\theta=\mu$, $b(\theta)=\theta^2/2$, $a(\phi)=\sigma^2$. $D=2\sum w_i[y_i(\tilde\theta_i-\hat\theta_i)-b(\tilde\theta_i)+b(\hat\theta_i)]$ עם $\tilde\theta_i=y_i$, $\hat\theta_i=\hat\mu_i$, $w_i=1$: $=2\sum[y_i(y_i-\hat\mu_i)-\frac{y_i^2}{2}+\frac{\hat\mu_i^2}{2}]=2\sum[\frac{y_i^2}{2}-y_i\hat\mu_i+\frac{\hat\mu_i^2}{2}]=\sum(y_i-\hat\mu_i)^2$ = RSS ✓.

---

> **הצעד הבא בלמידה:** אחרי שעיכלת את הפרק — עבור על הכרטיסיות (כשייבנו ל-GLM), ואז תרגל שאלת past-paper מלאה של Poisson/Gamma GLM עם deviance test. הנושא הבא בעומק לפי המשקל: **Statistical Inference (MLE, hypothesis testing) — 25%**.