שכבת העומק. זה לא דף נוסחאות ולא כרטיסיות — זה פרק לימוד שבונה את הנושא מההתחלה. כל מושג מקצועי מופיע באנגלית (כך הוא במבחן ובספרות) עם הסבר בעברית. עבוד אותו לאט, עם עיפרון ביד; נסה לגזור בעצמך לפני שאתה קורא את הגזירה.
נוטציה: לפי IFoA Core Reading. בנוי 15.6.2026. משקל בסילבוס: Regression + GLM = 30% — הנושא הכבד ביותר ב-CS1. אתה מכיר GLM מ-DS, אבל הפער הוא הסגנון של IFoA: exponential family בצורה הקנונית, deviance, גזירה ביד, ופרשנות אקטוארית (לא sklearn / לא
glm()כקופסה שחורה). הפרק הזה ממקד שם.איך להשתמש עם הכרטיסיות: הפרק מלמד; הכרטיסיות משמרות. קרא חלק → ענה על הכרטיסים שלו → חזור על מה שנתקעת בו.
רגרסיה ליניארית קלאסית (ordinary linear regression) מניחה שלושה דברים שלרוב לא נכונים בדאטה אקטוארי:
GLM מרחיב את הרגרסיה בשלושה צירים בדיוק כדי לטפל בשלושת הכשלים האלה. במקום נורמלי — כל התפלגות מ-the exponential family. במקום שונות קבועה — variance function $V(\mu)$ שתלויה בממוצע. במקום קשר ליניארי ישיר — link function $g(\mu)=\eta$ שממפה את הממוצע לסקלה שבה הקשר ליניארי.
שלושת הרכיבים של כל GLM (תשנן אותם — זה השלד של חצי מהשאלות): 1. Random component — ההתפלגות של $Y$, חברה ב-exponential family. 2. Systematic component — ה-linear predictor $\eta = \mathbf{x}^\top\boldsymbol\beta$. 3. Link function — $g(\mu)=\eta$, מחבר בין השניים: $\mu = g^{-1}(\eta)$.
הכל ב-GLM נשען על כך שההתפלגות נכתבת בצורה הקנונית (canonical / EDF form). זו הצורה שאתה חייב לדעת לזהות ולפרק:
$$ f(y;\theta,\phi) = \exp\!\left\{ \frac{y\theta - b(\theta)}{a(\phi)} + c(y,\phi) \right\} $$
המרכיבים: - $\theta$ — the natural / canonical parameter (הפרמטר הטבעי). תלוי בממוצע. - $\phi$ — the dispersion parameter (פרמטר הפיזור / scale). לרוב $a(\phi)=\phi/w$ כאשר $w$ הוא משקל (prior weight, למשל מספר חשיפות). - $b(\theta)$ — the cumulant function. הנגזרות שלו נותנות את התוחלת והשונות (ראה למטה — זו התוצאה המרכזית). - $c(y,\phi)$ — איבר נרמול שלא תלוי ב-$\theta$ (ולכן לא משפיע על האמידה של $\boldsymbol\beta$).
זה הקסם של הצורה הקנונית, ושאלת מבחן קלאסית "show that". משתמשים בשתי זהויות סקור (the score identities) שמתקיימות לכל משפחה רגולרית:
$$ E\!\left[\frac{\partial \ell}{\partial\theta}\right]=0, \qquad E\!\left[\frac{\partial^2\ell}{\partial\theta^2}\right] + E\!\left[\left(\frac{\partial \ell}{\partial\theta}\right)^2\right]=0 $$
כאשר $\ell=\log f$ היא ה-log-likelihood של תצפית אחת. נגזור:
$$ \ell = \frac{y\theta - b(\theta)}{a(\phi)} + c(y,\phi) \;\Rightarrow\; \frac{\partial\ell}{\partial\theta}=\frac{y-b'(\theta)}{a(\phi)}, \qquad \frac{\partial^2\ell}{\partial\theta^2}=\frac{-b''(\theta)}{a(\phi)} $$
מהזהות הראשונה: $E\!\left[\dfrac{y-b'(\theta)}{a(\phi)}\right]=0 \Rightarrow \boxed{E[Y]=\mu=b'(\theta)}$.
מהזהות השנייה: $\dfrac{-b''(\theta)}{a(\phi)} + \dfrac{\mathrm{Var}(Y)}{a(\phi)^2}=0 \Rightarrow \boxed{\mathrm{Var}(Y)=a(\phi)\,b''(\theta)}$.
שתי מסקנות שצריך לדקלם: - $\mu=b'(\theta)$ — התוחלת היא הנגזרת הראשונה של ה-cumulant function. - $\mathrm{Var}(Y)=a(\phi)\,b''(\theta)$ — השונות מתפרקת למכפלה של $a(\phi)$ (פיזור) ו-$b''(\theta)$.
מכיוון ש-$\mu=b'(\theta)$, אפשר להפוך ולבטא את $\theta$ כפונקציה של $\mu$, ואז $b''(\theta)$ הופך לפונקציה של $\mu$. קוראים לזה the variance function:
$$ V(\mu) = b''(\theta(\mu)), \qquad \mathrm{Var}(Y)=a(\phi)\,V(\mu) $$
$V(\mu)$ הוא חתימת הזהות של ההתפלגות — הוא קובע איך השונות תלויה בממוצע, וזה מה שמבדיל פואסון מגמא מנורמלי. (למשל: בפועל אם רואים $\mathrm{Var}\approx\mu$ → פואסון; אם $\mathrm{Var}\approx\mu^2$ → גמא.)
| Distribution | $\theta$ (natural param) | $b(\theta)$ | $\mu=b'(\theta)$ | $V(\mu)=b''$ | $a(\phi)$ | Canonical link |
|---|---|---|---|---|---|---|
| Normal $N(\mu,\sigma^2)$ | $\mu$ | $\theta^2/2$ | $\theta$ | $1$ | $\sigma^2$ | identity $\mu$ |
| Poisson $\text{Poi}(\mu)$ | $\log\mu$ | $e^\theta$ | $e^\theta$ | $\mu$ | $1$ | log $\log\mu$ |
| Binomial $\text{Bin}(n,p)/n$ | $\log\frac{p}{1-p}$ | $\log(1+e^\theta)$ | $\frac{e^\theta}{1+e^\theta}$ | $\mu(1-\mu)$ | $1/n$ | logit $\log\frac{\mu}{1-\mu}$ |
| Gamma | $-1/\mu$ | $-\log(-\theta)$ | $-1/\theta$ | $\mu^2$ | $\nu^{-1}$ | inverse $-1/\mu$ (בפועל log) |
| Exponential | $-1/\mu$ | $-\log(-\theta)$ | $-1/\theta$ | $\mu^2$ | $1$ | inverse |
טיפ זהב למבחן: ה-canonical link הוא תמיד הפונקציה $g$ ש-$g(\mu)=\theta$ (הופכת ממוצע לפרמטר הטבעי). לכן: Normal→identity, Poisson→log, Binomial→logit, Gamma→inverse. אבל בפרקטיקה האקטוארית משתמשים ב-log link גם לגמא (כי הוא נותן מודל מולטיפליקטיבי על הפרמיה — ראה §3.2), לא ב-inverse. אל תתבלבל בין canonical (תיאורטי) ל-used in practice.
נראה שפואסון אכן במשפחה ושנקבל את $b,\theta$ מהטבלה. ה-pmf:
$$ f(y;\mu)=\frac{e^{-\mu}\mu^y}{y!} = \exp\{y\log\mu - \mu - \log y!\} $$
השווה לצורה הקנונית $\exp\{(y\theta-b(\theta))/a(\phi)+c\}$: - $\theta=\log\mu$ → לכן $\mu=e^\theta$. - $b(\theta)=\mu=e^\theta$. בדיקה: $b'(\theta)=e^\theta=\mu$ ✓ (התוחלת). $b''(\theta)=e^\theta=\mu=V(\mu)$ ✓. - $a(\phi)=1$ (פואסון לא מפוזר — no free dispersion). - $c(y,\phi)=-\log y!$.
הכל מתלכד. תרגל את אותו פירוק על Gamma ו-Binomial בעצמך — זו שאלה קלאסית.
$Y_i$ בלתי תלויים, כל אחד מהמשפחה האקספוננציאלית עם אותו $\phi$ אבל $\theta_i$ (ולכן $\mu_i$) שונה. המשקלים $w_i$ (חשיפה / exposure) נכנסים דרך $a(\phi)=\phi/w_i$.
$$ \eta_i = \mathbf{x}_i^\top\boldsymbol\beta = \beta_0 + \beta_1 x_{i1}+\cdots+\beta_p x_{ip} $$ זה ה"חלק הליניארי". משתנים קטגוריאליים (factors, למשל אזור גיאוגרפי, קבוצת גיל) נכנסים כ-dummy variables, וכל רמה מקבלת מקדם משלה יחסית ל-base level. זה לב התמחור האקטוארי: כל factor הוא משתנה תעריפי (rating factor).
$$ g(\mu_i)=\eta_i \quad\Longleftrightarrow\quad \mu_i = g^{-1}(\eta_i) $$ ה-link מבטיח שהתחזית נופלת בטווח החוקי של $\mu$: - log link $g(\mu)=\log\mu$: $\mu=e^\eta>0$ תמיד → מתאים ל-counts ול-severity. בונוס: הופך את המודל למולטיפליקטיבי — $\mu = e^{\beta_0}e^{\beta_1 x_1}\cdots$, כל factor מכפיל. זו הצורה הטבעית לתעריף. - logit link $g(\mu)=\log\frac{\mu}{1-\mu}$: $\mu\in(0,1)$ תמיד → מתאים להסתברויות (lapse, mortality). - identity $g(\mu)=\mu$: רגרסיה רגילה כמקרה פרטי.
אין נוסחה סגורה ל-$\hat{\boldsymbol\beta}$ (חוץ מהמקרה הנורמלי-identity = OLS). אומדים ב-MLE. ה-log-likelihood של כל הדגימה:
$$ \ell(\boldsymbol\beta) = \sum_{i=1}^n \left\{ \frac{y_i\theta_i - b(\theta_i)}{a_i(\phi)} + c(y_i,\phi)\right\} $$
כאשר $\theta_i$ תלוי ב-$\boldsymbol\beta$ דרך השרשרת $\boldsymbol\beta\to\eta_i\to\mu_i\to\theta_i$.
נגזור לפי $\beta_j$ עם chain rule. נשתמש ב: $\dfrac{\partial\ell_i}{\partial\theta_i}=\dfrac{y_i-\mu_i}{a_i(\phi)}$ (מ-§1.1), $\dfrac{\partial\theta_i}{\partial\mu_i}=\dfrac{1}{V(\mu_i)}$ (כי $\mu=b'(\theta)\Rightarrow d\mu/d\theta=b''=V$), $\dfrac{\partial\mu_i}{\partial\eta_i}=1/g'(\mu_i)$, ו-$\dfrac{\partial\eta_i}{\partial\beta_j}=x_{ij}$. מכפלת השרשרת:
$$ \frac{\partial\ell}{\partial\beta_j} = \sum_{i=1}^n \frac{(y_i-\mu_i)\,x_{ij}}{a_i(\phi)\,V(\mu_i)\,g'(\mu_i)} = 0, \qquad j=0,\ldots,p $$
שים לב ל-canonical link: אם $g$ הוא ה-canonical link אז $g'(\mu)=1/V(\mu)$, וה-score equations מתפשטות יפה ל-$\sum_i (y_i-\mu_i)x_{ij}/a_i(\phi)=0$. במקרה הזה ה-MLE מקיים $\sum w_i y_i x_{ij}=\sum w_i \hat\mu_i x_{ij}$ — תכונת ה-"balance" (התחזיות משחזרות את הסכומים בכל רמת factor). זו שאלת מבחן.
מערכת המשוואות לא ליניארית → פותרים איטרטיבית ב-Iteratively Reweighted Least Squares: בכל צעד מבצעים weighted least squares על משתנה עזר (the adjusted dependent variable / working response). ב-CS1 צריך לדעת שזה קורה ומה הרעיון, לא לבצע איטרציות ביד. ב-R זה פשוט glm(...).
זה ככל הנראה החלק האקטוארי-ייחודי החשוב ביותר בנושא. deviance הוא האנלוג של sum of squares ב-GLM, ומשמש להשוואת מודלים.
ה-saturated model הוא המודל עם פרמטר אחד לכל תצפית ($\hat\mu_i=y_i$). הוא משחזר את הדאטה בדיוק — ה-likelihood הגבוה ביותר האפשרי. הוא חסר תועלת לחיזוי (overfit מוחלט) אבל משמש כbenchmark: כמה ה-likelihood של המודל שלנו רחוק מהמקסימום האפשרי.
$$ D^* = 2\big[\ell(\text{saturated}) - \ell(\text{fitted model})\big] $$ זהו ה-scaled deviance. ה-unscaled deviance הוא $D = \phi\, D^*$ (מכפילים ב-$\phi$ כדי להוציא את הפיזור). בצורה מפורשת:
$$ D = 2\sum_{i=1}^n w_i\big[\, y_i(\tilde\theta_i-\hat\theta_i) - b(\tilde\theta_i)+b(\hat\theta_i)\,\big] $$ כאשר $\tilde\theta_i$ מתאים ל-$\mu_i=y_i$ (saturated) ו-$\hat\theta_i$ למודל שלנו.
נוסחאות deviance מפורשות (כדאי להכיר את שתי הראשונות): - Normal: $D=\sum (y_i-\hat\mu_i)^2$ — זה בדיוק ה-RSS! (מראה ש-deviance מכליל את least squares.) - Poisson: $D=2\sum\left[y_i\log\frac{y_i}{\hat\mu_i}-(y_i-\hat\mu_i)\right]$. - Gamma: $D=2\sum\left[-\log\frac{y_i}{\hat\mu_i}+\frac{y_i-\hat\mu_i}{\hat\mu_i}\right]$. - Binomial: $D=2\sum\left[y_i\log\frac{y_i}{\hat\mu_i}+(n_i-y_i)\log\frac{n_i-y_i}{n_i-\hat\mu_i}\right]$.
זו השאלה המרכזית. נניח Model 1 (פשוט, $p_1$ פרמטרים) מקונן בתוך Model 2 (מורכב, $p_2>p_1$). ההפרש בין ה-scaled deviances:
$$ \Delta D^* = D^*_1 - D^*_2 \;\overset{H_0}{\sim}\; \chi^2_{\,p_2-p_1} $$
תחת $H_0$ (שהמשתנים הנוספים מיותרים), הפרש ה-scaled deviance מתפלג כ-chi-square עם דרגות חופש = מספר הפרמטרים הנוספים. כלל ההחלטה: אם $\Delta D^*$ גדול מהערך הקריטי $\chi^2_{p_2-p_1,\,0.95}$ → דחה $H_0$ → המשתנים הנוספים תורמים → בחר במודל המורכב.
זהירות עם $\phi$: - אם $\phi$ ידוע (Poisson, Binomial: $\phi=1$) → משתמשים ישירות בהפרש ה-deviance מול $\chi^2$. - אם $\phi$ לא ידוע (Normal, Gamma) → צריך לאמוד אותו, ומשתמשים ב-F-test: $F=\dfrac{(D_1-D_2)/(p_2-p_1)}{\hat\phi}\sim F_{p_2-p_1,\,n-p_2}$. אנלוגי ל-F-test ברגרסיה.
$$ \text{AIC} = -2\ell(\hat{\boldsymbol\beta}) + 2k $$ כאשר $k$ = מספר הפרמטרים הנאמדים (כולל $\phi$ אם נאמד). מודל עם AIC נמוך יותר עדיף. מאזן בין fit (likelihood) למורכבות (penalty). שימושי כשהמודלים לא מקוננים (deviance test לא חל).
ב-GLM ה-residuals הרגילים ($y_i-\hat\mu_i$) לא שימושיים כי השונות לא קבועה. שני סוגים מתוקננים:
$$ r_i^P = \frac{y_i-\hat\mu_i}{\sqrt{V(\hat\mu_i)/w_i}} $$ מתקנן לשונות. סכום ריבועיהם = the Pearson (generalized) chi-square statistic $X^2=\sum (r_i^P)^2$, שגם הוא $\approx\chi^2_{n-p}$ ומשמש לאמידת $\phi$: $\hat\phi = X^2/(n-p)$.
$$ r_i^D = \text{sign}(y_i-\hat\mu_i)\sqrt{d_i}, \qquad \sum_i d_i = D $$ כאשר $d_i$ הוא התרומה של תצפית $i$ ל-deviance. deviance residuals לרוב קרובים יותר לנורמליות מ-Pearson, ולכן מועדפים לבדיקת התאמה (QQ-plot, plot מול fitted values). אם המודל טוב — הם צריכים להיראות כרעש נורמלי ללא תבנית.
ה-MLE אסימפטוטית נורמלי: $\hat{\boldsymbol\beta}\approx N(\boldsymbol\beta,\,\mathcal{I}^{-1})$ כאשר $\mathcal{I}$ הוא the Fisher information matrix ($=\mathbf{X}^\top\mathbf{W}\mathbf{X}/\phi$ בנקודת ה-MLE, $\mathbf{W}$ אלכסונית של משקלי IRLS). - רווח סמך: $\hat\beta_j \pm z_{1-\alpha/2}\cdot\text{se}(\hat\beta_j)$, כאשר $\text{se}$ הוא שורש איבר אלכסוני של $\hat{\mathcal I}^{-1}$. - מבחן לפרמטר יחיד: Wald $z=\hat\beta_j/\text{se}(\hat\beta_j)$, או deviance test (drop the term, compare). - ב-log link: $e^{\hat\beta_j}$ הוא ה-multiplicative effect (relativity) של ה-factor — מה שמופיע בטבלת תעריף.
נתון: תיק עם שני אזורים (urban/rural). תביעות וחשיפה:
| Area | Claims $N$ | Exposure $E$ |
|---|---|---|
| Urban | 90 | 1000 |
| Rural | 30 | 600 |
מודל: $N_i\sim\text{Poisson}(\mu_i)$, $\log\mu_i = \log E_i + \beta_0 + \beta_1\,\mathbb{1}[\text{Urban}]$ (rural = base).
אמידה (canonical link → balance property): ה-MLE משחזר את התביעות בכל רמה, כלומר $\hat\mu_i=N_i$ (כי יש פרמטר לכל אזור = saturated כאן). לכן: - Rural: $\hat\lambda_{\text{rural}} = 30/600 = 0.05$. $\hat\beta_0=\log 0.05 = -2.996$. - Urban: $\hat\lambda_{\text{urban}} = 90/1000 = 0.09$. $\log 0.09 = \hat\beta_0+\hat\beta_1 \Rightarrow \hat\beta_1=\log(0.09/0.05)=\log 1.8 = 0.588$.
פרשנות: $e^{\hat\beta_1}=1.8$ — תדירות התביעות באזור עירוני גבוהה פי 1.8 מהכפרי. זו ה-relativity לטבלת התעריף.
deviance של המודל הזה = 0 (saturated — מתאים בדיוק). כדי לבדוק אם $\beta_1$ נחוץ, נשווה ל-null model ($\beta_1=0$): שם $\hat\lambda=120/1600=0.075$, $\hat\mu_{\text{urb}}=75,\ \hat\mu_{\text{rur}}=45$.
$$ D_{\text{null}}=2\!\left[90\log\tfrac{90}{75}-(90-75)+30\log\tfrac{30}{45}-(30-45)\right] $$ $$ =2[90(0.1823)-15+30(-0.4055)+15]=2[16.41-12.16]=2(4.25)=8.50 $$
השווה ל-$\chi^2_{1,0.95}=3.84$. מכיוון ש-$8.50>3.84$ → דוחים $H_0$ → האזור הוא factor מובהק. (גם אינטואיטיבי: 0.09 מול 0.05 הבדל גדול.)
תרגל: עשה את אותו תהליך עם שלושה אזורים, או הוסף factor שני. זה בדיוק מבנה שאלת ה-12 נקודות הטיפוסית.
Q1. הראה שהתפלגות בינומית $Y\sim\text{Bin}(n,p)/n$ (proportion) שייכת ל-exponential family, וזהה $\theta$, $b(\theta)$, $a(\phi)$, ואת ה-variance function.
Q2. במודל Poisson GLM עם log link וחשיפה, מהו offset ולמה מקדמו קבוע ב-1?
Q3. מודל A (intercept בלבד) נותן deviance 142.0; מודל B (intercept + 3 factors) נותן 128.5. שני המודלים פואסוניים. האם ה-3 factors תורמים ברמת 5%?
Q4. למה לגמא משתמשים ב-log link בפרקטיקה ולא ב-canonical (inverse)? תן שני נימוקים.
Q5. מודל נורמלי-identity. הראה ש-deviance שלו = residual sum of squares.
A1. $f(y)=\binom{n}{ny}p^{ny}(1-p)^{n-ny}$. $\log f = ny\log p + n(1-y)\log(1-p)+\log\binom{n}{ny}$. סדר: $= n[y\log\frac{p}{1-p}+\log(1-p)]+\log\binom{n}{ny}$. השווה לצורה $\frac{y\theta-b(\theta)}{a(\phi)}+c$: $\theta=\log\frac{p}{1-p}$ (logit), $a(\phi)=1/n$, $b(\theta)=-\log(1-p)=\log(1+e^\theta)$. בדיקה: $b'(\theta)=\frac{e^\theta}{1+e^\theta}=p=\mu$ ✓; $b''=\frac{e^\theta}{(1+e^\theta)^2}=p(1-p)=V(\mu)=\mu(1-\mu)$ ✓.
A2. offset הוא איבר ב-linear predictor עם מקדם ידוע ולא נאמד. $\log\mu_i=\log E_i+\mathbf{x}_i^\top\boldsymbol\beta$ — המקדם של $\log E_i$ קבוע ב-1 כי אנו מניחים שמספר התביעות פרופורציוני לחשיפה (כפול הקצב $\lambda_i$). זה הופך את האמידה מ-count גולמי ל-rate per unit exposure.
A3. $\Delta D = 142.0-128.5=13.5$. $\phi=1$ (Poisson) → השווה ל-$\chi^2_3$ (3 פרמטרים נוספים). $\chi^2_{3,0.95}=7.81$. מאחר ש-$13.5>7.81$ → דוחים $H_0$ → כן, ה-factors תורמים מובהקים ברמת 5%.
A4. (1) log link נותן מודל מולטיפליקטיבי — $\mu=e^{\beta_0}\prod e^{\beta_j x_j}$ — שזו הצורה הטבעית והמקובלת לטבלאות תעריף (כל factor מכפיל). (2) log link מבטיח $\mu>0$ תמיד; ה-canonical inverse link עלול לתת $\hat\mu<0$ עבור ערכים מסוימים של $\eta$, מה שחסר משמעות לגדלי תביעות.
A5. נורמלי: $\theta=\mu$, $b(\theta)=\theta^2/2$, $a(\phi)=\sigma^2$. $D=2\sum w_i[y_i(\tilde\theta_i-\hat\theta_i)-b(\tilde\theta_i)+b(\hat\theta_i)]$ עם $\tilde\theta_i=y_i$, $\hat\theta_i=\hat\mu_i$, $w_i=1$: $=2\sum[y_i(y_i-\hat\mu_i)-\frac{y_i^2}{2}+\frac{\hat\mu_i^2}{2}]=2\sum[\frac{y_i^2}{2}-y_i\hat\mu_i+\frac{\hat\mu_i^2}{2}]=\sum(y_i-\hat\mu_i)^2$ = RSS ✓.
הצעד הבא בלמידה: אחרי שעיכלת את הפרק — עבור על הכרטיסיות (כשייבנו ל-GLM), ואז תרגל שאלת past-paper מלאה של Poisson/Gamma GLM עם deviance test. הנושא הבא בעומק לפי המשקל: Statistical Inference (MLE, hypothesis testing) — 25%.