Елементи математичної статистики

Приклад

На 100 навмання вибраних ділянках, однакових за певними характеристиками, зібрано різні урожаї зерна, що характеризуються такою таблицею:

Знайти числові характеристфики цих статистичних даних.

♦ 1) Мінімальні і максимальні спостережені значення:

хmin = 14, xmax = 20.

2) Розмах вибірки: R = 20 – 14 = 6;

3) Мода: М0 = х4 = 17.

4) Медіана: Ме = 17. Оскільки варіаційний ряд містить 100 варіант (100 = 2m – парне число), то 

 M_{e}=\frac{x_{m}+x_{m+1}}{2}=\frac{x_{50}+x_{51}}{2}=\frac{17+17}{2}=17 .

5) Статистичне середнє:

  \bar{x}_{100}=\frac{1}{100}(14\cdot 6+15\cdot 10+

 +16\cdot 18+17\cdot 28+18\cdot 20+19\cdot 12+20\cdot 6)=17,06 .

6) Середнє гармонічне: 

 \bar{x}_{\Gamma p}=\frac{100}{\frac{6}{14}+\frac{10}{15}+\frac{18}{16}+\frac{128}{17}+\frac{20}{18}+\frac{12}{19}+\frac{6}{20}}=16,55 .

7) Середнє геометричне:

  \bar{x}_{\Gamma M}=\sqrt[100]{14^{6}\cdot 15^{10}\cdot 16^{18}\cdot 17^{28}\cdot 18^{20}\cdot 19^{12}\cdot 20^{6}}=16,73 .

8) Середнє квадратичне: 

 \bar{x}_{\sigma }=\sqrt{\frac{1}{100}(14^{2}\cdot 6+15^{2}\cdot 10+16^{2}\cdot 18+17^{2}\cdot 28+}

 \sqrt{+ 18^{2}\cdot 20+19^{2}\cdot 12+20^{2}\cdot 6)} =17,13.

Помічаємо, що  \bar{x}_{\Gamma p}<\bar{x}_{\Gamma M}<\bar{x}_{n}<\bar{x}_{\sigma } . Виявляється, що завжди є правильною рівність  \bar{x}_{\Gamma p}\leq \bar{x}_{\Gamma M}\leq \bar{x}_{n}\leq \bar{x}_{\sigma }.

9) Статистична дисперсія:

 D_{100}=\frac{1}{100}((-3,06)^{2}\cdot 6+(-2,03)^{2}\cdot 10+(-1,06)^{2}\cdot 18+

 +(-0,06)^{2}\cdot 28+(0,94)^{2}\cdot 20+(1,94)^{2}\cdot 12+(2,94)^{2}\cdot 6)=2,33 .

10) Виправлена статистична дисперсія: 

 \tilde{D}_{100}=\frac{100}{99}D_{100}=\frac{100}{99}\cdot 2,33=2,35 .

11) Середнє квадратичне відхилення:

  \sigma _{100}=\sqrt{D_{100}}=\sqrt{2,33}=1,53 .

12) Початкові моменти: 

 \nu _{0}=1,\; \nu _{1}=\bar{x}_{100}=17,06,

  \nu _{2}=\frac{1}{100}(14^{2}\cdot 6+15^{2}\cdot 10+16^{2}\cdot 18+17^{2}\cdot 28+18^{2}\cdot 20+\\+19^{2}\cdot 12+20^{2}\cdot 6)=293,38,

  \nu _{3}=\frac{1}{100}(14^{3}\cdot 6+15^{3}\cdot 10+16^{3}\cdot 18+17^{3}\cdot 28+18^{3}\cdot 20+\\+19^{3}\cdot 12+20^{3}\cdot 6)=5084,54,

  \nu _{4}=\frac{1}{100}(14^{4}\cdot 6+15^{4}\cdot 10+16^{4}\cdot 18+17^{4}\cdot 28+18^{4}\cdot 20+\\+19^{4}\cdot 12+20^{4}\cdot 6)=88783,54.

13) Центральні моменти:  \mu _{0}=1,\;\mu _{1}=0,\; \mu _{2}=D_{100}=2,33 ,

 \mu _{3}=\frac{1}{100}((-3,06)^{3}\cdot 6+(-2,06)^{3}\cdot 10+(-1,06)^{3}\cdot 18+  

 +(-0,06)^{3}\cdot 28+(0,94)^{3}\cdot 20+(1,94)^{3}\cdot 12+(2,94)^{3}\cdot 6)=-0,24 ,

 \mu _{4}=\frac{1}{100}((-3,06)^{4}\cdot 6+(-2,06)^{4}\cdot 10+(-1,06)^{4}\cdot 18+

 +(-0,06)^{4}\cdot 28+(0,94)^{4}\cdot 20+(1,94)^{4}\cdot 12+(2,94)^{4}\cdot 6)=13,66 .

14) Коефіцієнт асиметрії:  A_{3}=\frac{-0,24}{3,58}=-0,07 .

15) Ексцес:  E=\frac{13,66}{5,48}-3=2,49-3=-0,51

Оскільки Е < 0, то цей розподіл плосковершинний.

Враховуючи, що  \bar{x}_{100}\approx M_{0}=M_{e} і полігон частот майже симетричний відносно   \bar{x}_{50} , то можна вважати, що маємо симетричний розподіл відносних частот. А сам полігон частот цього розподілу має вигляд:

Приклад

За даними n = 100 спостережень за середньою урожайністю зерна x (ц/га) дістали таблицю відносних частот того, що  x\in [a_{i-1};a_{i}),\; i\in \bar{1,7}:

Треба перевірити, чи близька щільність цього розподілу  f_{n}^{*} до нормального розподілу зі щільністю  f(x)=\frac{1}{\sqrt{2\pi }\cdot 1,5}e^{-\frac{(x-17)^{2}}{2\cdot (1,5)^{2}}} . При цьому вважати рівень значущості α = 0,05, а число ступенів свободи  r = 7 – 1 = 6. 

♦ Користуючись спеціальними таблицями, обчислюємо  p_{i}=P(x\in  [a_{i-1};a_{i}))=\int_{a_{i-1}}^{a_{i}}{f(x)dx}=

  =\frac{1}{\sqrt{2\pi }\cdot 1,5}\int_{a_{i-1}}^{a_{i}}{e^{-\frac{(x-17)^{2}}{2\cdot (1,5)^{2}}}dx}=\Phi (\frac{a_{i}-17}{1,5})-\Phi (\frac{a_{i-1}-17}{1,5}) .

Дістаємо  

Визначаємо величину  x_{ekcn}^{2}=100\sum_{i=1}^{7}{\frac{(P_{100,i}^{*}-p_{i})^{2}}{p_{i}}}=2,81 .

За спеціальною таблицею значень  x_{kp}^{2} для рівня значущості α = 0,05 та числа ступенів вільності r = 6

знаходимо  x_{kp}^{2}=12,6 .

Оскільки  x_{ekcn}^{2}<x_{kp}^{2} , то гіпотеза про близькість функцій  f_{n}^{*}\; i\; f  узгоджується зі статистичними даними. Отже, даний статистичний розподіл близький до нормального розподілу з параметрами а = 17 і  σ = 1,5 за рівнем значущості α = 0,05.♦

Приклад

Внаслідок проведення п’яти незалежних випробувань дістали п’ять пар значень випадкових величин X і Y, заданих у вигляді таблиці:

Обчислити основні числові характеристики випадкових величин та записати рівняння прямих регресій Y на Х і Х на Y.

♦ Очевидно, що в результаті кожного з п’яти випробувань дістаємо єдину пару значень і; уі), тому для варіант хі та уі випадкових величин Х та Y частоти ni = nj = 1. Обчислимо статистичне середнє, дисперсію та середнє квадратичне відхилення для випадковвих величин X та Y: 

 \bar{x}=\frac{1}{5}\sum_{i=1}^{5}{x_{i}n_{i}}=\frac{1}{5}(2+2,2+

 +2,3+2,5+2,8)=\frac{11,8}{5}=2,36

 \bar{y}=\frac{1}{5}\sum_{i=1}^{5}{y_{i}n_{i}}=\frac{1}{5}(5+4,8+4,6+

 +4,3+4,2)=\frac{22,9}{5}=4,58 ;

 D_{x}=\frac{1}{5}(2^{2}+2,2^{2}+2,3^{2}+2,5^{2}+2,8^{2})-(2,36)^{2}=

= \frac{28,22}{5}-5,5696=5,644-5,5696=0,0744 ;

 D_{y}=\frac{1}{5}(5^{2}+4,8^{2}+4,6^{2}+4,3^{2}+4,2^{2})-(4,58)^{2}=  

 =\frac{105,33}{5}-20,9764=21,066-20,9764=0,0896 ;

 \sigma _{x}=\sqrt{D_{x}}=\sqrt{0,0744}\approx 0,273 ;

 \sigma _{y}=\sqrt{D_{y}}=\sqrt{0,0896}\approx 0,299 .

Для вивчення залежності між величинами X i Y обчислимо вибірковий коефіцієнт кореляції, який визначається за формулою  r_{xy}=\frac{\bar{xy}-\bar{x}\bar{y}}{\sigma _{x}\sigma _{y}} .

Оскільки  \bar{xy}=\frac{1}{5}(2\cdot 5+2,2\cdot 4,8+2,3\cdot 4,6+  

 +2,5\cdot 4,3+2,8\cdot 4,2)=\frac{53,65}{5}=10,73 ,

то  r_{xy}=\frac{10,73-2,36\cdot 4,58}{0,273\cdot 0,299}=-\frac{0,08}{0,0816}=-0,98 .  

Отже, коефіцієнт кореляції  \left|r_{xy} \right|\approx 1 , тому залежність між величинами X і Y можна вважати лінійною, причому кореляція є від’ємною (значення Y спадають при зростанні значень X).

 У цьому випадку лінії регресії є прямими. Запишемо рівняння прямих регресії Y на X:  y-\bar{y}=r_{xy}\frac{\sigma _{x}}{\sigma _{y}}(x-\bar{x}) та Х на Y:  x-\bar{x}=r_{xy}\frac{\sigma _{x}}{\sigma _{y}}(y-\bar{y}) .

Тоді рівняння прямих регресії мають вигляд:

 y-4,58=-0,98\cdot \frac{0,299}{0,273}(x-2,36)\Rightarrow   

 y-4,58=-1,073(x-2,36)\Rightarrow y=-1,073x+7,112  

 x-2,36=-0,98\cdot \frac{0,273}{0,299}(y-4,58)\Rightarrow

 x-2,36=-0,895(y-4,58)\Rightarrow x=-0,895y+6,459 .♦

Приклад

Дана вибірка: 1, 9, 4, 6, 3, 4, 1, 3, 8, 9, 9, 6, 6, 9. Знайти її моду, медіану та середнє значення. Побудувати відповідну гістограму.

♦ Впорядкуємо задану вибірку: 1, 1, 3, 3, 4, 4, 6, 6, 6, 8, 9, 9, 9, 9.

Мода – те число, яке зустрічається найбільшу кількість разів. Це є число 9 (М = 9).

Оскільки,  у вибірці парна  кількість чисел (14), то медіану будемо шукати як середнє арифметичне двох середніх чисел –  \frac{6+6}{2}=6 . Отже, m = 6.

Середнє значення шукатимемо, як середнє арифметичне усіх чисел вибірки: 

 \frac{1\cdot 2+3\cdot 2+4\cdot 2+6\cdot 3+8+4\cdot 9}{14}=

 =\frac{2+6+8+18+8+36}{14}=\frac{78}{14}\approx 5,6 . Отже, хс = 5,6. 

Побудуємо відповідну гістограму