Елементи математичної статистики

Приклад

На 100 навмання вибраних ділянках, однакових за певними характеристиками, зібрано різні урожаї зерна, що характеризуються такою таблицею:

Знайти числові характеристфики цих статистичних даних.

♦ 1) Мінімальні і максимальні спостережені значення:

х_min = 14, x_max = 20.

2) Розмах вибірки: R = 20 – 14 = 6;

3) Мода: М₀ = х₄ = 17.

4) Медіана: М_е = 17. Оскільки варіаційний ряд містить 100 варіант (100 = 2m – парне число), то

$M_{e}=\frac{x_{m}+x_{m+1}}{2}=\frac{x_{50}+x_{51}}{2}=\frac{17+17}{2}=17$ .

5) Статистичне середнє:

$\bar{x}_{100}=\frac{1}{100}(14\cdot 6+15\cdot 10+$

$+16\cdot 18+17\cdot 28+18\cdot 20+19\cdot 12+20\cdot 6)=17,06$ .

6) Середнє гармонічне:

$\bar{x}_{\Gamma p}=\frac{100}{\frac{6}{14}+\frac{10}{15}+\frac{18}{16}+\frac{128}{17}+\frac{20}{18}+\frac{12}{19}+\frac{6}{20}}=16,55$ .

7) Середнє геометричне:

$\bar{x}_{\Gamma M}=\sqrt[100]{14^{6}\cdot 15^{10}\cdot 16^{18}\cdot 17^{28}\cdot 18^{20}\cdot 19^{12}\cdot 20^{6}}=16,73$ .

8) Середнє квадратичне:

$\bar{x}_{\sigma }=\sqrt{\frac{1}{100}(14^{2}\cdot 6+15^{2}\cdot 10+16^{2}\cdot 18+17^{2}\cdot 28+}$

$\sqrt{+ 18^{2}\cdot 20+19^{2}\cdot 12+20^{2}\cdot 6)} =17,13$ .

Помічаємо, що $\bar{x}_{\Gamma p}<\bar{x}_{\Gamma M}<\bar{x}_{n}<\bar{x}_{\sigma }$ . Виявляється, що завжди є правильною рівність $\bar{x}_{\Gamma p}\leq \bar{x}_{\Gamma M}\leq \bar{x}_{n}\leq \bar{x}_{\sigma }$ .

9) Статистична дисперсія:

$D_{100}=\frac{1}{100}((-3,06)^{2}\cdot 6+(-2,03)^{2}\cdot 10+(-1,06)^{2}\cdot 18+$

$+(-0,06)^{2}\cdot 28+(0,94)^{2}\cdot 20+(1,94)^{2}\cdot 12+(2,94)^{2}\cdot 6)=2,33$ .

10) Виправлена статистична дисперсія:

$\tilde{D}_{100}=\frac{100}{99}D_{100}=\frac{100}{99}\cdot 2,33=2,35$ .

11) Середнє квадратичне відхилення:

$\sigma _{100}=\sqrt{D_{100}}=\sqrt{2,33}=1,53$ .

12) Початкові моменти:

$\nu _{0}=1,\; \nu _{1}=\bar{x}_{100}=17,06,$

$\nu _{2}=\frac{1}{100}(14^{2}\cdot 6+15^{2}\cdot 10+16^{2}\cdot 18+17^{2}\cdot 28+18^{2}\cdot 20+\\+19^{2}\cdot 12+20^{2}\cdot 6)=293,38,$

$\nu _{3}=\frac{1}{100}(14^{3}\cdot 6+15^{3}\cdot 10+16^{3}\cdot 18+17^{3}\cdot 28+18^{3}\cdot 20+\\+19^{3}\cdot 12+20^{3}\cdot 6)=5084,54,$

$\nu _{4}=\frac{1}{100}(14^{4}\cdot 6+15^{4}\cdot 10+16^{4}\cdot 18+17^{4}\cdot 28+18^{4}\cdot 20+\\+19^{4}\cdot 12+20^{4}\cdot 6)=88783,54.$

13) Центральні моменти: $\mu _{0}=1,\;\mu _{1}=0,\; \mu _{2}=D_{100}=2,33$ ,

$\mu _{3}=\frac{1}{100}((-3,06)^{3}\cdot 6+(-2,06)^{3}\cdot 10+(-1,06)^{3}\cdot 18+$

$+(-0,06)^{3}\cdot 28+(0,94)^{3}\cdot 20+(1,94)^{3}\cdot 12+(2,94)^{3}\cdot 6)=-0,24$ ,

$\mu _{4}=\frac{1}{100}((-3,06)^{4}\cdot 6+(-2,06)^{4}\cdot 10+(-1,06)^{4}\cdot 18+$

$+(-0,06)^{4}\cdot 28+(0,94)^{4}\cdot 20+(1,94)^{4}\cdot 12+(2,94)^{4}\cdot 6)=13,66$ .

14) Коефіцієнт асиметрії: $A_{3}=\frac{-0,24}{3,58}=-0,07$ .

15) Ексцес: $E=\frac{13,66}{5,48}-3=2,49-3=-0,51$ .

Оскільки Е < 0, то цей розподіл плосковершинний.

Враховуючи, що $\bar{x}_{100}\approx M_{0}=M_{e}$ і полігон частот майже симетричний відносно $\bar{x}_{50}$ , то можна вважати, що маємо симетричний розподіл відносних частот. А сам полігон частот цього розподілу має вигляд:

Приклад

За даними n = 100 спостережень за середньою урожайністю зерна x (ц/га) дістали таблицю відносних частот того, що $x\in [a_{i-1};a_{i}),\; i\in \bar{1,7}:$

Треба перевірити, чи близька щільність цього розподілу $f_{n}^{*}$ до нормального розподілу зі щільністю $f(x)=\frac{1}{\sqrt{2\pi }\cdot 1,5}e^{-\frac{(x-17)^{2}}{2\cdot (1,5)^{2}}}$ . При цьому вважати рівень значущості α = 0,05, а число ступенів свободи r = 7 – 1 = 6.

♦ Користуючись спеціальними таблицями, обчислюємо $p_{i}=P(x\in [a_{i-1};a_{i}))=\int_{a_{i-1}}^{a_{i}}{f(x)dx}=$

$=\frac{1}{\sqrt{2\pi }\cdot 1,5}\int_{a_{i-1}}^{a_{i}}{e^{-\frac{(x-17)^{2}}{2\cdot (1,5)^{2}}}dx}=\Phi (\frac{a_{i}-17}{1,5})-\Phi (\frac{a_{i-1}-17}{1,5})$ .

Дістаємо

Визначаємо величину $x_{ekcn}^{2}=100\sum_{i=1}^{7}{\frac{(P_{100,i}^{*}-p_{i})^{2}}{p_{i}}}=2,81$ .

За спеціальною таблицею значень $x_{kp}^{2}$ для рівня значущості α = 0,05 та числа ступенів вільності r = 6

знаходимо $x_{kp}^{2}=12,6$ .

Оскільки $x_{ekcn}^{2}<x_{kp}^{2}$ , то гіпотеза про близькість функцій $f_{n}^{*}\; i\; f$ узгоджується зі статистичними даними. Отже, даний статистичний розподіл близький до нормального розподілу з параметрами а = 17 і σ = 1,5 за рівнем значущості α = 0,05.♦

Приклад

Внаслідок проведення п’яти незалежних випробувань дістали п’ять пар значень випадкових величин X і Y, заданих у вигляді таблиці:

Обчислити основні числові характеристики випадкових величин та записати рівняння прямих регресій Y на Х і Х на Y.

_{♦ Очевидно, що в результаті кожного з п’яти випробувань дістаємо єдину пару значень}(х_і; у_і), тому для варіант х_іта у_і випадкових величин Х та Y частоти n_i = n_j = 1. Обчислимо статистичне середнє, дисперсію та середнє квадратичне відхилення для випадковвих величин X та Y:

$\bar{x}=\frac{1}{5}\sum_{i=1}^{5}{x_{i}n_{i}}=\frac{1}{5}(2+2,2+$

$+2,3+2,5+2,8)=\frac{11,8}{5}=2,36$ ;

$\bar{y}=\frac{1}{5}\sum_{i=1}^{5}{y_{i}n_{i}}=\frac{1}{5}(5+4,8+4,6+$

$+4,3+4,2)=\frac{22,9}{5}=4,58$ ;

$D_{x}=\frac{1}{5}(2^{2}+2,2^{2}+2,3^{2}+2,5^{2}+2,8^{2})-(2,36)^{2}=$

$= \frac{28,22}{5}-5,5696=5,644-5,5696=0,0744$ ;

$D_{y}=\frac{1}{5}(5^{2}+4,8^{2}+4,6^{2}+4,3^{2}+4,2^{2})-(4,58)^{2}=$

$=\frac{105,33}{5}-20,9764=21,066-20,9764=0,0896$ ;

$\sigma _{x}=\sqrt{D_{x}}=\sqrt{0,0744}\approx 0,273$ ;

$\sigma _{y}=\sqrt{D_{y}}=\sqrt{0,0896}\approx 0,299$ .

Для вивчення залежності між величинами X i Y обчислимо вибірковий коефіцієнт кореляції, який визначається за формулою $r_{xy}=\frac{\bar{xy}-\bar{x}\bar{y}}{\sigma _{x}\sigma _{y}}$ .

Оскільки $\bar{xy}=\frac{1}{5}(2\cdot 5+2,2\cdot 4,8+2,3\cdot 4,6+$

$+2,5\cdot 4,3+2,8\cdot 4,2)=\frac{53,65}{5}=10,73$ ,

то $r_{xy}=\frac{10,73-2,36\cdot 4,58}{0,273\cdot 0,299}=-\frac{0,08}{0,0816}=-0,98$ .

Отже, коефіцієнт кореляції $\left|r_{xy} \right|\approx 1$ , тому залежність між величинами X і Y можна вважати лінійною, причому кореляція є від’ємною (значення Y спадають при зростанні значень X).

У цьому випадку лінії регресії є прямими. Запишемо рівняння прямих регресії Y на X: $y-\bar{y}=r_{xy}\frac{\sigma _{x}}{\sigma _{y}}(x-\bar{x})$ та Х на Y: $x-\bar{x}=r_{xy}\frac{\sigma _{x}}{\sigma _{y}}(y-\bar{y})$ .

Тоді рівняння прямих регресії мають вигляд:

$y-4,58=-0,98\cdot \frac{0,299}{0,273}(x-2,36)\Rightarrow$

$y-4,58=-1,073(x-2,36)\Rightarrow y=-1,073x+7,112$

$x-2,36=-0,98\cdot \frac{0,273}{0,299}(y-4,58)\Rightarrow$

$x-2,36=-0,895(y-4,58)\Rightarrow x=-0,895y+6,459$ .♦

Приклад

Дана вибірка: 1, 9, 4, 6, 3, 4, 1, 3, 8, 9, 9, 6, 6, 9. Знайти її моду, медіану та середнє значення. Побудувати відповідну гістограму.

♦ Впорядкуємо задану вибірку: 1, 1, 3, 3, 4, 4, 6, 6, 6, 8, 9, 9, 9, 9.

Мода – те число, яке зустрічається найбільшу кількість разів. Це є число 9 (М = 9).

Оскільки, у вибірці парна кількість чисел (14), то медіану будемо шукати як середнє арифметичне двох середніх чисел – $\frac{6+6}{2}=6$ . Отже, m = 6.

Середнє значення шукатимемо, як середнє арифметичне усіх чисел вибірки:

$\frac{1\cdot 2+3\cdot 2+4\cdot 2+6\cdot 3+8+4\cdot 9}{14}=$

$=\frac{2+6+8+18+8+36}{14}=\frac{78}{14}\approx 5,6$ . Отже, х_с = 5,6.

Побудуємо відповідну гістограму ♦