# Credibility Theory — חומר עומק (CS1, IFoA)

> **שכבת העומק.** זה לא דף נוסחאות ולא כרטיסיות — זה פרק לימוד שבונה את הנושא מההתחלה. כל מושג מקצועי מופיע **באנגלית** (כך הוא במבחן ובספרות) עם הסבר בעברית. עבוד אותו לאט, עם עיפרון ביד; נסה לגזור בעצמך לפני שאתה קורא את הגזירה.
>
> **נוטציה:** לפי IFoA Core Reading. בנוי 15.6.2026.
> **משקל בסילבוס:** Credibility נכלל ב-Bayesian + Credibility = 15%, אבל הוא הפער היחיד שלא נלמד בתואר — ולכן שווה השקעה לא פרופורציונלית.
>
> **איך להשתמש עם הכרטיסיות:** הפרק הזה מלמד; הכרטיסיות (`flashcards-credibility-theory.md`) משמרות. קרא פרק → ענה על הכרטיסים של אותו חלק → חזור על מה שנתקעת בו.

---

## 0. תמונת-על: מה הבעיה שאנחנו פותרים?

דמיין שאתה אקטואר שצריך לתמחר פוליסת ביטוח לנהג מסוים. יש לך שני מקורות מידע סותרים:

1. **הניסיון הפרטי של הנהג** (individual experience) — הגיש 3 תביעות בשנתיים. אבל זה מעט מאוד דאטה — אולי סתם מזל רע?
2. **הניסיון הקולקטיבי של כל התיק** (collective / portfolio experience) — הממוצע בענף הוא תביעה אחת לשנתיים. הרבה דאטה, אבל לא ספציפי לנהג הזה.

**השאלה המרכזית של credibility theory:** כמה משקל (weight) לתת לניסיון הפרטי לעומת הממוצע הכללי?

התשובה תמיד בצורה הזו — וזו הנוסחה שאתה חייב לראות בשינה:

$$ \text{Credibility premium} = Z \cdot \bar{X} + (1 - Z)\cdot \mu $$

- $\bar{X}$ — ממוצע הניסיון של היחידה (the individual's observed mean).
- $\mu$ — הממוצע הקולקטיבי (the collective / overall mean), נקרא גם **prior mean**.
- $Z \in [0,1]$ — **the credibility factor** (גורם האמינות). זה הלב של כל התיאוריה.

האינטואיציה: $Z$ הוא "כמה אני מאמין לדאטה הפרטי". אם $Z=1$ — סומך לגמרי על הנהג ($\bar X$). אם $Z=0$ — מתעלם מהנהג, נותן לו את ממוצע הענף ($\mu$). כל השאלה היא **איך קובעים את $Z$**, וכאן נפרדות הגישות.

> **שתי האסכולות שתלמד:**
> - **Bayesian / greatest-accuracy credibility** (כולל Bühlmann, Bühlmann-Straub, EBCT) — קובעת $Z$ כך שתמזער את שגיאת החיזוי. זו הגישה המודרנית ועיקר ה-CS1.
> - **Classical / limited fluctuation credibility** — שואלת "כמה דאטה צריך כדי שהשגיאה תהיה קטנה מספיק?". ישנה יותר, פחות מרכזית במבחן אבל עדיין נדרשת.

---

## 1. היסוד הבייסיאני (the Bayesian foundation)

לפני Bühlmann צריך להבין את התשתית הבייסיאנית, כי Bühlmann הוא קירוב (approximation) שלה.

### 1.1 ה-risk parameter

נניח שלכל פוליסה/נהג יש **פרמטר סיכון** (risk parameter) שנסמן $\theta$ — מספר שמאפיין "כמה מסוכן" הנהג באמת. אנחנו **לא יודעים** את $\theta$, אבל יש לנו אמונה עליו בצורת התפלגות:

$$ \Theta \sim \text{prior distribution} \quad (\text{the "structure function"}) $$

ה-prior הזה (נקרא גם **structure function**, פונקציית המבנה) מתאר את ההתפלגות של רמות הסיכון בכל אוכלוסיית הנהגים.

בהינתן $\Theta = \theta$, התביעות $X_1, X_2, \ldots, X_n$ של אותו נהג הן **iid** (independent and identically distributed) עם:

- **conditional mean:** $\;\mu(\theta) = E[X \mid \Theta = \theta]$ — הממוצע ה"אמיתי" של הנהג. נקרא **the hypothetical mean**.
- **conditional variance:** $\;s^2(\theta) = \mathrm{Var}(X \mid \Theta = \theta)$ — השונות הפנימית, נקראת **the process variance**.

### 1.2 האומד האידיאלי: ה-posterior mean

המטרה היא לחזות את התביעה הבאה של הנהג, כלומר להעריך את $\mu(\Theta)$ שלו. הגישה הבייסיאנית אומרת: אחרי שראינו דאטה $\mathbf{x} = (x_1,\ldots,x_n)$, עדכן את האמונה ל-**posterior distribution** וקח את התוחלת:

$$ \text{Bayesian estimate} = E[\mu(\Theta) \mid \mathbf{X} = \mathbf{x}] $$

תחת loss ריבועי (squared-error loss), ה-posterior mean הוא האומד שממזער את ה-MSE. **זה האומד האידיאלי.** הבעיה: לרוב הוא מסובך לחישוב, לא ליניארי, ודורש לדעת את כל ה-prior במדויק.

> **כאן נכנס Bühlmann:** במקום האומד הבייסיאני המלא (שקשה), נחפש את **הקירוב הליניארי הטוב ביותר** אליו. מסתבר שהקירוב הזה הוא בדיוק נוסחת ה-credibility — ולכן היא כל כך יפה.

---

## 2. מודל Bühlmann — הליבה של CS1

### 2.1 שלושת הפרמטרים המבניים (the structural parameters)

כל מודל Bühlmann נשען על שלושה מספרים. תכיר אותם היטב — חצי מהשאלות במבחן הן "חשב את שלושת אלה ואז הצב":

| סימון | שם מלא (אנגלית!) | הגדרה | במילים |
|---|---|---|---|
| $\mu$ | the overall (collective) mean | $E[\mu(\Theta)]$ | הממוצע הכללי של כל התיק |
| **EPV** | **Expected Process Variance** | $E[\,s^2(\Theta)\,] = E[\mathrm{Var}(X\mid\Theta)]$ | השונות הפנימית הממוצעת — "within" |
| **VHM** | **Variance of the Hypothetical Means** | $\mathrm{Var}(\mu(\Theta)) = \mathrm{Var}(E[X\mid\Theta])$ | השונות בין הנהגים — "between" |

> **המנטרה שמצילה במבחן:** **EPV = within, VHM = between.** הבלבול ביניהם הוא הטעות #1. כתוב אותה בראש הדף לפני שאתה מתחיל.
>
> - **EPV** (within): כמה רועש הנהג *הבודד* בתוך עצמו. תביעות משנה לשנה אצל אותו נהג.
> - **VHM** (between): כמה *שונים* הנהגים זה מזה. אם כולם זהים → VHM=0.

### 2.2 נוסחת האמינות

מודל Bühlmann נותן:

$$ \boxed{\,Z = \dfrac{n}{n + k}, \qquad k = \dfrac{\text{EPV}}{\text{VHM}}\,} $$

ופרמיית האמינות:

$$ \text{Credibility premium} = Z\bar X + (1-Z)\mu, \qquad \bar X = \frac{1}{n}\sum_{i=1}^n X_i $$

### 2.3 קריאת הנוסחה — האינטואיציה מאחורי כל אות

זה החלק שהופך שינון להבנה. נתבונן ב-$k = \text{EPV}/\text{VHM}$:

- **EPV גדול** (הרבה רעש בתוך הנהג) ⇒ $k$ גדול ⇒ $Z$ קטן. **הגיוני:** אם הנתונים של הנהג רועשים מאוד, כל תצפית פחות אינפורמטיבית, אז אני פחות מאמין לו.
- **VHM קטן** (הנהגים דומים זה לזה) ⇒ $k$ גדול ⇒ $Z$ קטן. **הגיוני:** אם כולם דומים ממילא, אין הרבה להרוויח מהדאטה הפרטי — עדיף הממוצע הכללי.
- **$n$ גדול** (הרבה ניסיון) ⇒ $Z \to 1$. **הגיוני:** ככל שאני רואה יותר מהנהג, אני סומך עליו יותר.

> **בדיקות שפיות (sanity checks) — תמיד עשה אותן בסוף שאלה:**
> - $n \to \infty \Rightarrow Z \to 1$ (אינסוף דאטה → סמוך לגמרי על הניסיון).
> - $\text{VHM} \to 0 \Rightarrow k \to \infty \Rightarrow Z \to 0$ (כל הנהגים זהים → תן לכולם את הממוצע).
> - $\text{EPV} \to 0 \Rightarrow k \to 0 \Rightarrow Z \to 1$ (אין רעש פנימי → כל תצפית מושלמת → סמוך מיד).
> - תמיד $0 \le Z \le 1$. אם קיבלת $Z$ מחוץ לטווח — יש טעות.

### 2.4 למה "best linear estimator"? (גזירה)

זה החלק התיאורטי שמסביר *מאיפה* באה הנוסחה. המבחן לא תמיד דורש את הגזירה המלאה, אבל הבנתה הופכת אותך מ"מציב נוסחאות" ל"אקטואר".

**המטרה:** לקרב את $\mu(\Theta)$ ע"י **פונקציה ליניארית** של התצפיות:

$$ \hat\mu = a_0 + \sum_{j=1}^{n} a_j X_j $$

נבחר את המקדמים $a_0, a_1, \ldots, a_n$ כדי למזער את שגיאת הריבוע הצפויה:

$$ \min_{a_0,\ldots,a_n}\; E\!\left[\left(\mu(\Theta) - a_0 - \sum_{j=1}^n a_j X_j\right)^{\!2}\right] $$

**צעד 1 — סימטריה.** התצפיות $X_1,\ldots,X_n$ מתחלפות (exchangeable), כך שבאופטימום כל המקדמים שווים: $a_1 = \cdots = a_n = b$. נכתוב $\hat\mu = a_0 + b\sum_j X_j = a_0 + bn\bar X$.

**צעד 2 — תנאי אי-הטיה (unbiasedness).** דורשים $E[\hat\mu] = E[\mu(\Theta)] = \mu$. כיוון ש-$E[\bar X] = \mu$:
$$ a_0 + bn\mu = \mu \;\Rightarrow\; a_0 = \mu(1 - bn) $$
נסמן $Z = bn$, ואז $\hat\mu = Z\bar X + (1-Z)\mu$ — **כבר קיבלנו את הצורה!** נשאר למצוא את $Z$.

**צעד 3 — תנאי הניצבות (the normal equation).** האומד הליניארי האופטימלי מקיים שהשארית ניצבת לכל תצפית:
$$ \mathrm{Cov}\big(\mu(\Theta) - Z\bar X - (1-Z)\mu,\; X_i\big) = 0 $$
נפתח. צריך שני רכיבי קווריאנס:

- $\mathrm{Cov}(\mu(\Theta), X_i)$. בעזרת law of total covariance: $\mathrm{Cov}(\mu(\Theta), X_i) = \mathrm{Var}(\mu(\Theta)) = \text{VHM}$. *(כי $E[X_i\mid\Theta]=\mu(\Theta)$.)*
- $\mathrm{Cov}(\bar X, X_i)$. נפרק: $\mathrm{Var}(X_i) = \text{EPV} + \text{VHM}$ (law of total variance), ו-$\mathrm{Cov}(X_i, X_j) = \text{VHM}$ עבור $i\ne j$ (משותף רק דרך $\Theta$). לכן
$$ \mathrm{Cov}(\bar X, X_i) = \frac{1}{n}\Big[\mathrm{Var}(X_i) + (n-1)\text{VHM}\Big] = \frac{1}{n}\big[\text{EPV} + n\,\text{VHM}\big]. $$

נציב בתנאי הניצבות ($\mu$ קבוע, לא תורם לקווריאנס):
$$ \text{VHM} - Z\cdot\frac{\text{EPV} + n\,\text{VHM}}{n} = 0 $$
$$ Z = \frac{n\,\text{VHM}}{\text{EPV} + n\,\text{VHM}} = \frac{n}{\,n + \text{EPV}/\text{VHM}\,} = \frac{n}{n+k}. \qquad\blacksquare $$

**זהו.** הנוסחה $Z=n/(n+k)$ אינה "מהשמיים" — היא יוצאת בהכרח מהדרישה לאומד הליניארי הטוב ביותר. $k = \text{EPV}/\text{VHM}$ צץ באופן טבעי מהקווריאנסים.

### 2.5 דוגמה מפותחת (worked example)

> **נתון.** מספר התביעות השנתי של נהג מתפלג Poisson עם ממוצע $\lambda$ (שונה בין נהגים). ה-prior של $\lambda$: $E[\lambda] = 0.2$, $\mathrm{Var}(\lambda) = 0.05$. נהג מסוים הגיש $\bar X = 0.5$ תביעות בממוצע על פני $n = 4$ שנים. חשב את פרמיית האמינות.

**שלב 1 — שלושת הפרמטרים.**
- $\mu = E[\mu(\Theta)] = E[\lambda] = 0.2$.
- $\text{EPV} = E[\mathrm{Var}(X\mid\lambda)]$. ל-Poisson, $\mathrm{Var}(X\mid\lambda)=\lambda$, לכן $\text{EPV} = E[\lambda] = 0.2$.
- $\text{VHM} = \mathrm{Var}(\mu(\Theta)) = \mathrm{Var}(\lambda) = 0.05$.

**שלב 2 — $k$ ו-$Z$.**
$$ k = \frac{\text{EPV}}{\text{VHM}} = \frac{0.2}{0.05} = 4, \qquad Z = \frac{n}{n+k} = \frac{4}{4+4} = 0.5. $$

**שלב 3 — פרמיית האמינות.**
$$ Z\bar X + (1-Z)\mu = 0.5(0.5) + 0.5(0.2) = 0.25 + 0.10 = 0.35. $$

**שלב 4 — sanity check.** $0 \le Z=0.5 \le 1$ ✓. התוצאה $0.35$ נמצאת בין $\bar X=0.5$ ל-$\mu=0.2$ ✓ (פרמיית אמינות תמיד בין השניים). הנהג גרוע מהממוצע אבל לא מאמינים לו לגמרי — סביר.

---

## 3. מודל Bühlmann–Straub — חשיפה משתנה (varying exposure)

### 3.1 מתי צריך אותו

Bühlmann הרגיל מניח שכל שנה/תצפית "שווה" באותה מידה. אבל בפועל לכל יחידת זמן יש **חשיפה (exposure) שונה** — נסמן $m_i$. דוגמאות ל-$m_i$: מספר פוליסות-שנים (policy-years) בקבוצה $i$, מספר נהגים, גודל הצי. שנה עם 1000 פוליסות אמינה יותר משנה עם 10.

### 3.2 הנוסחאות

הממוצע נעשה **משוקלל-חשיפה** (exposure-weighted):
$$ \bar X = \frac{\sum_i m_i X_i}{\sum_i m_i} $$

וגורם האמינות משתמש בסך החשיפה $m = \sum_i m_i$ במקום $n$:
$$ \boxed{\,Z = \frac{m}{m + k}, \qquad k = \frac{\text{EPV}}{\text{VHM}}\,} $$

> **המבנה זהה ל-Bühlmann — רק $n \to m$ ו-$\bar X$ משוקלל.** זה כל ההבדל. אם תזכור את זה, חסכת חצי מהבלבול.

### 3.3 דקות עדינה: מה $X_i$ מייצג

ב-Bühlmann-Straub, $X_i$ הוא בדרך כלל **התביעה הממוצעת ליחידת חשיפה** בקבוצה $i$ (claims per unit exposure), לא סך התביעות. לכן $\mathrm{Var}(X_i \mid \Theta) = s^2(\Theta)/m_i$ — השונות יורדת ככל שהחשיפה גדלה. זו הסיבה ש-$m_i$ נכנס כמשקל. שים לב לכך בשאלות — בלבול בין "סך תביעות" ל"תביעות לחשיפה" הוא מלכודת קלאסית.

---

## 4. Bayesian / Exact Credibility — כשהקירוב הופך מדויק

### 4.1 מהו exact credibility

ראינו ש-Bühlmann הוא **קירוב ליניארי** ל-posterior mean. אבל יש משפחות מיוחדות שבהן ה-posterior mean **כבר ממילא** בצורה הליניארית $Z\bar X + (1-Z)\mu$ — שם הקירוב **מדויק** (exact). זה קורה ב-**conjugate families** מסוימות. בשלוש דוגמאות אלה Bühlmann ו-Bayes נותנים בדיוק אותו דבר.

> **שלושת ה"חשודים המיידיים" (the usual suspects) במבחן:** Poisson–Gamma, Normal–Normal, Binomial–Beta. אם רואים אחד מהם, כנראה רוצים exact credibility.

### 4.2 Poisson–Gamma — הגזירה המלאה (חובה לדעת!)

זו הדוגמה הקלאסית ביותר. שווה לדעת את הגזירה בעל-פה.

**מודל.** תצפיות $X_i \mid \lambda \sim \text{Poisson}(\lambda)$ iid. Prior: $\lambda \sim \text{Gamma}(\alpha, \beta)$ עם צפיפות $f(\lambda) \propto \lambda^{\alpha-1}e^{-\beta\lambda}$. *(קונבנציית IFoA: $\beta$ הוא ה-rate; $E[\lambda]=\alpha/\beta$.)*

**Posterior.** לפי בייס, posterior $\propto$ likelihood $\times$ prior:
$$ f(\lambda\mid\mathbf x) \propto \underbrace{\prod_i \frac{e^{-\lambda}\lambda^{x_i}}{x_i!}}_{\text{likelihood}} \cdot \underbrace{\lambda^{\alpha-1}e^{-\beta\lambda}}_{\text{prior}} \propto \lambda^{\sum x_i + \alpha - 1}\, e^{-(n+\beta)\lambda} $$

זו צורת Gamma! לכן:
$$ \boxed{\;\lambda \mid \mathbf x \;\sim\; \text{Gamma}\Big(\alpha + \textstyle\sum x_i,\; \beta + n\Big)\;} $$

**Posterior mean.** עבור $\text{Gamma}(a,b)$ התוחלת היא $a/b$:
$$ E[\lambda \mid \mathbf x] = \frac{\alpha + \sum x_i}{\beta + n} $$

**הקסם — שכתוב כ-credibility.** נחלק את המונה והמכנה ונארגן:
$$ \frac{\alpha + \sum x_i}{\beta + n} = \frac{n}{\beta+n}\cdot\underbrace{\frac{\sum x_i}{n}}_{\bar X} + \frac{\beta}{\beta+n}\cdot\underbrace{\frac{\alpha}{\beta}}_{\text{prior mean }\mu} $$

זוהי **בדיוק** $Z\bar X + (1-Z)\mu$ עם:
$$ Z = \frac{n}{n+\beta}, \qquad \mu = \frac{\alpha}{\beta}. $$

**אימות ש-$k=\beta$ דרך EPV/VHM.** נוודא שזה עקבי עם Bühlmann:
- $\text{EPV} = E[\mathrm{Var}(X\mid\lambda)] = E[\lambda] = \alpha/\beta$.
- $\text{VHM} = \mathrm{Var}(E[X\mid\lambda]) = \mathrm{Var}(\lambda) = \alpha/\beta^2$.
- $k = \dfrac{\text{EPV}}{\text{VHM}} = \dfrac{\alpha/\beta}{\alpha/\beta^2} = \beta.$ ✓

אז $Z = n/(n+k) = n/(n+\beta)$ — **בדיוק** מה שיצא מבייס. זה ה-"exact credibility": הקירוב הליניארי והפתרון הבייסיאני המלא **חופפים**.

### 4.3 Normal–Normal

**מודל.** $X_i \mid \theta \sim N(\theta, \sigma^2)$ (כאשר $\sigma^2$ ידוע), prior $\theta \sim N(\mu, \tau^2)$.

**תוצאה.** ה-posterior של $\theta$ נורמלי, ו:
$$ E[\theta \mid \mathbf x] = Z\bar X + (1-Z)\mu, \qquad Z = \frac{n}{n + \sigma^2/\tau^2}. $$

**אימות.** $\text{EPV} = E[\mathrm{Var}(X\mid\theta)] = \sigma^2$ (קבוע), $\text{VHM} = \mathrm{Var}(\theta) = \tau^2$. לכן $k = \sigma^2/\tau^2$ ו-$Z=n/(n+k)$ — שוב exact. ה-prior variance $\tau^2$ הגדול יותר → פחות בטוח ב-prior → $Z$ גדול יותר. הגיוני.

### 4.4 Binomial–Beta

**מודל.** $X \mid p \sim \text{Binomial}(n, p)$, prior $p \sim \text{Beta}(\alpha, \beta)$.

**Posterior.** $\;p \mid x \sim \text{Beta}(\alpha + \sum x_i,\; \beta + n - \sum x_i)$. *(שוב conjugate — ה-posterior מאותה משפחה.)*

**Posterior mean.** $\dfrac{\alpha + \sum x_i}{\alpha + \beta + n}$, שניתן לכתוב בצורת credibility עם $\mu = \alpha/(\alpha+\beta)$ (ה-prior mean של Beta).

### 4.5 התובנה המאחדת

| משפחה | prior | posterior | $\mu$ | $k$ |
|---|---|---|---|---|
| Poisson | Gamma$(\alpha,\beta)$ | Gamma$(\alpha+\sum x,\,\beta+n)$ | $\alpha/\beta$ | $\beta$ |
| Normal | $N(\mu,\tau^2)$ | Normal | $\mu$ | $\sigma^2/\tau^2$ |
| Binomial | Beta$(\alpha,\beta)$ | Beta$(\alpha+\sum x,\,\beta+n-\sum x)$ | $\alpha/(\alpha+\beta)$ | $\alpha+\beta$ |

> **המסר הגדול:** במשפחות conjugate, posterior mean = linear credibility formula **בדיוק**. Bühlmann הוא ההכללה: הוא נותן את הקירוב הליניארי הטוב ביותר *תמיד*, וכשהמשפחה conjugate-ליניארית — הקירוב מושלם. זה מאחד את כל הפרק.

---

## 5. Empirical Bayes Credibility Theory (EBCT) — כשלא יודעים את ה-prior

### 5.1 הבעיה

עד כה הנחנו שאנחנו יודעים את EPV ו-VHM (או את ה-prior המלא). **בפועל אנחנו לא.** EBCT אומד את הפרמטרים המבניים **מהדאטה עצמו** — נתונים על מספר קבוצות (risks) לאורך מספר שנים.

### 5.2 שני המודלים

- **EBCT Model 1** — חשיפה אחידה (uniform exposure). מקביל ל-Bühlmann הרגיל.
- **EBCT Model 2** — חשיפה משתנה (varying exposure / weights). מקביל ל-Bühlmann-Straub.

ההבדל ביניהם הוא, שוב, **רק הטיפול בחשיפה** — בדיוק כמו Bühlmann מול Bühlmann-Straub.

### 5.3 האומדים ב-Model 1

נתונים $N$ קבוצות (risks), אינדקס $i=1,\ldots,N$; כל קבוצה נצפתה לאורך $n$ שנים, אינדקס $j=1,\ldots,n$. תצפית $X_{ij}$.

**הממוצע הכללי:**
$$ \hat\mu = \bar X = \frac{1}{Nn}\sum_{i=1}^N\sum_{j=1}^n X_{ij} $$

**אומד ה-EPV** (within — ממוצע השונויות בתוך כל קבוצה):
$$ \widehat{\text{EPV}} = \frac{1}{N}\sum_{i=1}^N \left[\frac{1}{n-1}\sum_{j=1}^n (X_{ij} - \bar X_i)^2\right], \qquad \bar X_i = \frac1n\sum_j X_{ij} $$

**אומד ה-VHM** (between — שונות ממוצעי הקבוצות, פחות תיקון הטיה):
$$ \widehat{\text{VHM}} = \frac{1}{N-1}\sum_{i=1}^N (\bar X_i - \bar X)^2 \;-\; \frac{\widehat{\text{EPV}}}{n} $$

> **מאיפה התיקון $-\widehat{\text{EPV}}/n$?** השונות הנצפית בין ממוצעי הקבוצות מנופחת — היא כוללת *גם* את השונות האמיתית בין הקבוצות (VHM) *וגם* רעש דגימה (sampling noise) מתוך כל קבוצה. ה-sampling noise תורם $\text{EPV}/n$ בתוחלת, אז מחסירים אותו כדי לקבל אומד חסר-הטיה ל-VHM. זו דקות עדינה שמבדילה תשובה טובה.

ואז כרגיל: $\hat k = \widehat{\text{EPV}}/\widehat{\text{VHM}}$, $\;Z = n/(n+\hat k)$.

> **הערה למבחן:** הנוסחאות האלה **מסופקות בטבלאות הבחינה** (provided in the exam). הכישור הנדרש הוא **להציב נכון ולפרש**, לא לשנן בעל-פה. תרגל הצבה במהירות ובדיקה שהמספרים הגיוניים.

### 5.4 מלכודת ה-VHM השלילי

לפעמים $\widehat{\text{VHM}}$ יוצא **שלילי** (כי תיקון ההטיה $-\widehat{\text{EPV}}/n$ גדול מהשונות הנצפית). שונות לא יכולה להיות שלילית, אז:

$$ \widehat{\text{VHM}} < 0 \;\Rightarrow\; \text{set } \widehat{\text{VHM}} = 0 \;\Rightarrow\; \hat k \to \infty \;\Rightarrow\; Z = 0. $$

**הפרשנות:** אין עדות סטטיסטית לשונות אמיתית בין הקבוצות — כל ההבדלים שנראו הם רעש דגימה. לכן הדאטה הפרטי חסר ערך, ונותנים לכולם את הממוצע הכולל. תשובה הגיונית לחלוטין, לא באג.

### 5.5 דוגמה מפותחת מקוצרת (Model 1)

> **נתון.** $N=3$ קבוצות, $n=2$ שנים. ממוצעי הקבוצות: $\bar X_1=10$, $\bar X_2=12$, $\bar X_3=14$. אומד EPV כבר חושב: $\widehat{\text{EPV}}=8$.

$\bar X = (10+12+14)/3 = 12$.

שונות ממוצעי הקבוצות (עם $N-1=2$):
$$ \frac{1}{2}\big[(10-12)^2 + (12-12)^2 + (14-12)^2\big] = \frac{1}{2}(4+0+4) = 4. $$

$$ \widehat{\text{VHM}} = 4 - \frac{\widehat{\text{EPV}}}{n} = 4 - \frac{8}{2} = 0. $$

כאן $\widehat{\text{VHM}}=0$ בדיוק ⇒ $Z=0$ ⇒ כל הקבוצות מקבלות $12$. הרעש הפנימי (EPV=8) "בלע" את כל השונות הנראית בין הקבוצות.

---

## 6. Classical / Limited Fluctuation Credibility

הגישה הישנה יותר. שאלה שונה לגמרי: **"כמה דאטה צריך כדי שהניסיון יהיה אמין מספיק?"** במקום "מהו השקלול האופטימלי?".

### 6.1 Full credibility standard

מגדירים תקן ל-**full credibility** ($Z=1$): כמות הדאטה שבה, **בהסתברות $p$**, הניסיון הנצפה יהיה בתוך $\pm k$ אחוזים מהערך הצפוי. עבור תדירות תביעות Poisson, מספר התביעות הצפוי הנדרש ל-full credibility:

$$ \lambda_{\text{full}} = \left(\frac{z_{(1+p)/2}}{k}\right)^{\!2} $$

כאשר $z_{(1+p)/2}$ הוא ה-percentile של הנורמלי הסטנדרטי. לדוגמה, ל-$p=0.95$ ($z=1.96$) ו-$k=0.05$: $\lambda_{\text{full}} = (1.96/0.05)^2 \approx 1537$ תביעות.

### 6.2 Partial credibility — the square-root rule

אם יש פחות מ-$\lambda_{\text{full}}$ דאטה, נותנים אמינות חלקית:

$$ \boxed{\,Z = \sqrt{\dfrac{n}{n_{\text{full}}}}\,} \qquad (\text{capped at } 1) $$

**מאיפה השורש?** השגיאה התקנית (standard error) של הממוצע יורדת כ-$1/\sqrt n$. כדי שהאמינות תהיה פרופורציונלית להקטנת השגיאה, $Z \propto \sqrt n$. זו ההצדקה.

### 6.3 ההבדל המושגי מ-Bühlmann (חשוב לשאלות תיאוריה)

| | **Classical / Limited Fluctuation** | **Bühlmann / Bayesian** |
|---|---|---|
| השאלה | "כמה דאטה צריך לשגיאה קטנה?" | "מהו השקלול שממזער MSE?" |
| הגישה | significance / hypothesis-testing | optimal estimation |
| דורש | תקן full credibility שרירותי ($p,k$) | EPV, VHM (פרמטרים מבניים) |
| $Z$ | $\sqrt{n/n_{\text{full}}}$ | $n/(n+k)$ |
| חולשה | בחירת $p,k$ שרירותית | צריך לדעת/לאמוד EPV, VHM |

CS1 שם **דגש רב יותר על Bühlmann/Bayesian**, אבל מצפה שתכיר את שתיהן ותדע להשוות.

---

## 7. מפת הנושא בעמוד אחד (איך הכל מתחבר)

```
                    הבעיה: לתמחר עם מעט דאטה
                              │
              ┌───────────────┴───────────────┐
              │                               │
   Bayesian / Greatest Accuracy        Classical / Limited
   (ממזער MSE)                          Fluctuation
              │                          (significance)
              │                          Z = √(n/n_full)
   posterior mean = האידיאל
              │
   קירוב ליניארי הטוב ביותר →  Bühlmann:  Z = n/(n+k), k=EPV/VHM
              │                               │
   ┌──────────┴──────────┐         חשיפה משתנה? → Bühlmann-Straub
   │                     │                       Z = m/(m+k)
 conjugate?          לא יודעים
 (exact cred.)       את ה-prior?
   │                     │
 posterior = Z·X̄+(1-Z)μ  EBCT:
 בדיוק                   אומד EPV,VHM מהדאטה
 (Poisson-Gamma,         Model 1 (אחיד) / Model 2 (משוקלל)
  Normal-Normal,
  Binomial-Beta)
```

**שלוש המשפטים שצריך לקחת:**
1. כל credibility היא $Z\bar X + (1-Z)\mu$ — רק $Z$ משתנה בין הגישות.
2. Bühlmann = הקירוב הליניארי הטוב ביותר ל-posterior mean; $k=\text{EPV}/\text{VHM}$, EPV=within, VHM=between.
3. Bühlmann-Straub/EBCT-2 = אותו דבר עם חשיפה; EBCT = אומד את EPV,VHM מהדאטה; conjugate = הקירוב הופך מדויק.

---

## 8. מלכודות בחינה (exam pitfalls) — רשימת ביקורת

1. **EPV מול VHM** — within מול between. אם תתבלבל, כל ה-$k$ הפוך. כתוב בראש הדף.
2. **$Z$ מחוץ ל-[0,1]** — סימן ודאי לטעות. עצור ובדוק.
3. **VHM שלילי ב-EBCT** → קבע $=0$, $Z=0$. לא באג.
4. **Bühlmann-Straub:** $X_i$ = תביעות *לחשיפה*, לא סך תביעות. הממוצע משוקלל $m_i$.
5. **תיקון ה-$-\widehat{\text{EPV}}/n$ באומד VHM** — שכחה שלו = טעות נפוצה.
6. **prior mean נכון:** Gamma→$\alpha/\beta$, Beta→$\alpha/(\alpha+\beta)$. אל תבלבל.
7. **בדיקות גבול:** $n\to\infty\Rightarrow Z\to1$; $\text{VHM}\to0\Rightarrow Z\to0$. תמיד ודא שהמגמה הגיונית.
8. **פרמיית האמינות תמיד בין $\bar X$ ל-$\mu$.** אם יצא מחוץ לטווח — טעות.

---

## 9. תרגול עצמי (פתור לפני שתסתכל בכרטיסיות)

1. נסח את שלושת הפרמטרים המבניים בנוטציה, והסבר במילה אחת מי "within" ומי "between".
2. גזור את $Z=n/(n+k)$ מתנאי הניצבות (לפחות את שלד הצעדים).
3. Poisson-Gamma: הראה שה-posterior הוא Gamma ושה-posterior mean הוא בצורת credibility. מהו $Z$?
4. נתון $\text{EPV}=10$, $\text{VHM}=2$, $n=5$: חשב $k$, $Z$. אם $\bar X = 8$, $\mu=6$ — מה הפרמיה?
5. הסבר במשפט אחד למה VHM שלילי ב-EBCT מוביל ל-$Z=0$, ומה זה אומר אקטוארית.
6. מה ההבדל המושגי בין square-root rule (classical) ל-$n/(n+k)$ (Bühlmann)?

> **תשובות לבדיקה עצמית של #4:** $k=\text{EPV}/\text{VHM}=10/2=5$; $Z=5/(5+5)=0.5$; פרמיה $=0.5(8)+0.5(6)=7$. ✓ בטווח $[6,8]$.

---

*נבנה ע"י אלי, 15.6.2026. שכבת עומק ל-Credibility Theory — להשלמת הכרטיסיות. עברית כשפת הסבר, מושגים מקצועיים באנגלית כבמבחן. משוב יתקבל בברכה ויוטמע.*