ეს ვიდეო, რამდენიმე მიზეზის გამო,
სიახლეებითაა სავსე.
პირველ რიგში, გავიგებთ,
რა არის შერჩევის დისპერსია,
რაც თავისთავად საინტერესოა.
მეორეც, ვცდი, ჩავწერო ვიდეო HD ხარისხში.
იმედია, ბევრად კარგად
დაინახავთ, ვიდრე აქამდე.
ვნახოთ, რა გამოვა.
ეს რაღაც დონეზე ექსპერიმენტია,
ასე რომ, მიგულშემატკივრეთ!
ვიდრე დავიწყებდეთ
შერჩევის დისპერსიაზე საუბარს, ვფიქრობ,
სასარგებლო იქნება, თუ მოკლედ განვიხილავთ
პოპულაციის დისპერსიას.
ასე შეგვეძლება, შევადაროთ ფორმულები.
პოპულაციის დისპერსია
აღინიშნება ბერძნული ასო სიგმათი.
ეს არის პატარა ასო სიგმა კვადრატში,
და ნიშნავს დისპერსიას.
ვიცი, უცნაურია, რომ
ცვლადი უკვე კვადრატშია აყვანილი
რეალურად, ცვლადი კვადრატში კი არ აგვყავს,
არამედ, ეს არის ცვლადი:
სიგმა კვადრატში აღნიშნავს დისპერსიას.
ან, მოდით, დავწერ.
ეს უდრის დისპერსიას.
და ეს უდრის X ინდექსად i.
იღებ თითოეულ მონაცემს, ნახულობ, რამდენით
არის დაცილებული პოპულაციის საშუალოს,
აგყავს ეს დაშორებები კვადრატში და შემდეგ
პოულობ მათ საშუალოს.
ანუ, ვიღებთ საშუალოს: ვკრებთ ყველაფერს,
i უდრის 1-დან i უდრის n-მდე,
შემდეგ, საშუალოს
გამოსათვლელად, შევკრებთ მათ
და გავყოფთ n-ზე.
ანუ, დისპერსია არის ყოველი
წერტილის საშუალოდან დაშორების მანძილი
აყვანილი კვადრატში
და გამოთვლილი მათი საშუალო.
ინტუიტიური მინიშნება
რომ მოგცეთ, ის გვიჩვენებს,
რამდენად არის დაშორებული
თითეოეული წერტილი შუა წერტილიდან,
ეს არის დისპერსიის
წარმოდგენის საუკეთესო გზა.
აქამდე პოპულაციაზე ვსაუბრობდით
მაგრამ თუ გვსურს, გავიგოთ
ქვეყანაში ყველა კაცის სიმაღის დისპერსია,
ძალიან რთული იქნება
პოპულაციის დისპერსიის გაგება.
მოგვიწევდა, გაგვეზომა ყველა,
250 მილიონი ადამიანი!
და რა ვქნათ, თუ
ზოგიერთ პოპულაციაში სრულიად შეუძლებელია,
გვქონდეს მონაცემები ან შემთხვევითი ცვლადი.
ამას დავუბრუნდებით მოგვიანებით.
უმეტეს შემთხვევებში,
გვსურს, გამოვთვალოთ ეს დისპერსია
შერჩევის დისპერიით.
შეიძლება ვერასდროს
გამოთვალო პოპულაციის საშუალო,
მაგრამ შეიძლება გამოთვალო
ის შერჩევის საშუალოს დახმარებით.
ეს პირველ ვიდეოში ვისწავლეთ.
თუ ეს არის მთლიანი პოპულაცია,
ეს მილიონობით მონაცემთა წერტილია და
აგრეთვე მონაცემთა წერტილები მომავალში,
რომლებსაც ვერასდროს მიიღებ,
რადგანაც ის შემთხვევითი ცვლადია.
ანუ, ეს არის პოპულაცია.
რაღაცების გამოთვლა შეიძლება
გინდოდეთ მხოლოდ შერჩევის მიხედვით.
გამოყვანილი სტატისტიკა სწორედ ამაზეა
აკეთებს აღწერად სტატისტიკას შერჩევაში
და დასკვნები გამოაქვს პოპულაციის შესახებ.
შეიძლება, გამოსცადოთ ნარკოტიკი
100 ადამიანზე და თუ მას
სტატისტიკურად
მნიშვნელოვანი შედეგები ექნება,
ეს ნარკოტიკი, სავარაუდოდ,
პოპულაციაზეც იმოქმედებს.
აი, სულ ესაა.
ძალიან მნიშვნელოვანია, კარგად გაიგოთ
განსხვავება პოპულაციასა და შერჩევას შორის.
შერჩევის სატისტიკის გარკვევას,
რომელსაც, უმეტეს შემთხვევაში,
შეუძლია აღწეროს პოპულაცია
ან დაგვეხმაროს შეფასებაში,
ამას ეძახიან პოპულაციის პარამეტრებს.
ანუ, რა არის პოპულაციის საშუალო?
მოდით, თავიდან გადავწერ მნიშვნელობებს.
მეწამულით დავწერ.
მეწამული აღნიშნავს პოპულაციას.
პოპულაციის საშუალოს გამოთვლისას,
იღებ პოპულაციის თითოეულ მონაცემს, x i,
და აჯამებ მათ.
იწყებ პირველი მონაცემთა
წერტილით და მიდიხარ ბოლომდე,
n მონაცემამდე.
შემდეგ კი ყოფ ჯამს n-ზე.
ანუ, შეკრებ და ყოფ n-ზე.
ეს არის საშუალო.
შემდეგ, ჩასვამ მას ამ ფორმულაში.
შეგიძლია ნახო,
რამდენად შორსაა თითოეული წერტილი
ცენტრალური წერტილიდან,
ანუ, ამ საშუალოდან.
ასე მიიღებ დისპერსიას.
ახლა, რა მოხდება,
თუ იმავეს გავაკეთებთ შერჩევისთვის?
თუ გვსურს, გამოვთვალოთ პოპულაციის
საშუალო შერჩევის საშუალოს დახმარებით,
ამისთვის არსებობს გარკვეული ფორმულები.
ეს არის ადამიანები, ვთქვათ, და
როგორ გახდება ეს შერჩევა?
ერთადერთი, რაც შეგვიძლია,
არის ის, რომ ავიღოთ შერჩევის საშუალო.
ეს იქნება შერჩევის საშუალო არითმეტიკული.
პირველ ვიდეოში ვისწავლეთ, რომ
ფორმულა თითქმის ამის იდენტურია.
უბრალოდ, ჩანაწერშია განსხვავება.
mu-ს დაწერის ნაცვლად, წერ x-ს ზემოდან ხაზით.
შერჩევის საშუალო არის, კიდევ ერთხელ ვთქვათ,
თითეული მონაცემთა წერტილი
ახლა უკვე შერჩევაში და არა პოპულაციაში,
დაჯამებული, ერთიდან n-მდე,
გვეუბნებიან, რომ
შერჩევაში n მონაცემთა წერტილია,
და შემდეგ გაყოფილი
მონაცემთა წერტილების რაოდენობაზე.
საკმაოდ მარტივია.
რეალურად, ეს იგივე ფორმულაა.
შერჩევის შემთხვევაშიც ისევე ვიქცევი,
როგორც პოპულაციის შემთხვევაში.
და ეს, ალბათ, პოპულაციის
საშუალოს გამოთვლის კარგი მეთოდია.
უფრო საინტერესოა,
როცა ვსაუბრობთ დისპერსიაზე.
ბუნებრივი რეაქცია,
თუ იფიქრებთ: კარგი მაქვს შერჩევა,
თუ მსურს პოპულაციის დისპერსიის გამოთვლა,
რატომაც არ მოვარგო
იგივე ფორმულა შერჩევასაც?
ამ დროს გამოიყენება
კვადრატში აყვანილი ფორმულა.
სიგმა არის s-ის შესაბამისი
ბერძნული ასო, რომელიც აღნიშნავს დისპერისას
მაგრამ ახლა საქმე გვაქვს შერჩევასთან,
ამიტომ ვწერთ უბრალოდ s-ს.
ეს არის შერჩევის დისპერსია.
აქ დავწერ: შერჩევის დისპერსია.
შეგვიძლია ვთქვათ,
რომ იმავე გზით გაკეთება კარგი ვარიანტია.
გავიგოთ თითოეული
წერტილის დაშორება შერჩევის საშუალოდან,
წინა ფორმულაში
პოპულაციის საშუალოს ვიყენებდით, მაგრამ
ახლა მხოლოდ შერჩევის საშუალო გვაქვს,
არ ვიცით, რა არის პოპულაციის საშუალო
თუ მთელ პოპულაციას არ ვიკვლევთ.
ავიყვანოთ კვადრატში მანძილები,
ისინი დადებითი გახდება,
მოგვიანებით განვიხილავთ,
ეს რაში გვჭირდება.
შემდეგ გამოვთვალოთ
კვადრატში აყვანილი მანძილების საშუალო.
ანუ, ვაჯამებთ ყველაფერს
მათი რაოდენობაა n
და შემდეგ ჯამს ვყოფთ n-ზე.
ვიტყვით, რომ ეს
კარგი მიახლოებითი გამოთვლაა.
რაც უნდა იყოს ეს გადახრა,
მთელი პოპულაციისთვისაც
კარგი მაჩვენებელი იქნება.
ეს სწორედ ისაა, რასაც ბევრი ადამიანი
გულისხმობს შერჩევის დისპერსიაზე საუბრისას.
და ზოგჯერ ის მართლაც ასე მოიაზრება.
აქ პატარა n-ს წერენ.
ამას იმიტომ აკეთებენ,
რომ ჯამი n-ზე გავყავით.
ალბათ მკითხავსთ, სალ, რაშია პრობლემა?
მინიშნებას მოგცემთ, რადგან
ეს ყოველთვის მაოგნებდა.
დღემდე ძალიან ვწვალობ, ამ ყველაფრის
ინტუიტიურად წარმოსადგენად.
გონება მკარნახობს, რომ სწორედ ამაშია საქმე
მაგრამ, მოდით, დავფიქრდეთ.
თუ მაქვს რიცხვების გროვა,
მოდი, დავხატავ რიცხვთა ღერძს.
ვთქვათ, ჩემს პოპულაციაში მაქვს რიცხვები.
ვთქვათ, რომ რანდომულად
ვდებ რიცხვების გროვებს პოპულაციაში.
ისინი, რომლებიც მარჯვნივაა, უფრო დიდია იმათზე
რომლებიც მარცხნივაა.
თუ მათგან ავიღებთ შერჩევას,
და შერჩევა ხომ რანდომულია,
და რეალურად, გსურს კიდეც, რომ
შერჩევა რანდომული იყოს.
ვთქვათ, ავიღებ ამას, ამას და ამას, კარგი?
და თუ ვაპირებ
ამ რიცხვების საშალოს გამოთვლას,
ეს სადღაც შუაში იქნება.
შეიძლება, აი, აქ იყოს.
შემდეგ, თუ მსურს შერჩევის
დისპერსიის გამოთვლა ფორმულით,
ვიტყვი, ეს მანძილი აყვანილი კვადრატში, დამატებული
ეს მანძლი აყვანილი კვადრატში
და დამატებული ეს მანძლი აყვანილი
კვადრატში, ახლა გამოვთვლი მათ საშუალოს
და მივიღებ ამ რიცხვს.
და, სავარაუდოდ, ეს კარგი მიახლოება
იქნება მთელი პოპულაციის დისპერსიასთან.
პოპულაციის საშუალო, ალბათ,
ძალიან ახლოს იქნება ამასთან.
ავიღეთ ყველა მონაცემთა წერტილი
და გავიგეთ საშუალო,
და შეიძლება ეს სადმე აქ არის.
შემდეგ, თუ გაიგებდით დისპერსიას,
ის ძალიან ახლოს იქნებოდა ყველა
ამ ხაზის საშუალო არითმეტიკულთან, არა?
შერჩევის მანძილების დისპერსიასთან.
სამართლიანად ჟღერს.
და ალბათ იტყვით,
სალ, ახლა მართლა კარგად გამოიყურება.
მაგრამ აქ პატარა რაღაცაა,
რასაც უნდა მიხვდეთ.
ყოველთვის არის შესაძლებლობა, რომ ასე
თანაბრად განაწილებული რიცხვების ნაცვლად,
ავიღებ ამ რიცხვს, ამას, ამას და
ამ რიცხვსაც, ჩემს შერჩევად.
რაც არ უნდა იყოს შერჩევა, მისი საშუალო
ყოველთვის მის შუაში იქნება, არა?
ანუ, ამ შემთხვევაში,
შერჩევის საშუალო ალბათ იქნება აქ.
შეიძლება თქვა, კარგი, ეს რიცხვი
არ არის ძალიან დაშორებული ამ რიცხვისგან,
ეს რიცხვიც არ არის ძალიან შორს ამისგან,
და არც ეს რიცხვებია ძალიან შორს.
თუ ასე აკეთებ, შენი შერჩევის
საშუალო უფრო ქვემოთ იქნება.
რადგან ყველა ეს რიცხვი, თავისი არსით,
ახლოს იქნება ერთმანეთის საშუალოსთან.
მაგრამ, ამ შემთხვევაში,
შენი შერჩევა დამახინჯებულია
და პოპულაციის საშუალო სადღაც აქ იქნება.
ანუ, შერჩევის რეალური საშუალო,
თუ გეცოდინებოდათ,
ვიცი, ეს ცოტა დამაბნეველია,
მოკლედ, თუ გეცოდინებოდათ საშუალო,
იპოვიდით ამ მანძილებს
რაც ბევრად მეტი იქნებოდა.
ჩემი ნათქვამის არსი ისაა,
რომ როცა იღებთ შერჩევას
არსებობს შანსი იმისა, რომ
შერჩევის საშუალო ძალიან ახლოს იქნება
პოპულაციის საშუალოსთან.
შეიძლება ჩვენი შერჩევის საშუალო აქაა და
პოპულაციის საშუალო კი - აქ.
მაშინ ეს ფორმულა საკმაოდ კარგად იმუშავებს.
ყოველი შემთხვევისთვის,
ამ შერჩევის მონაცემთა წერტილებისთვის
და გავარკვევდით დისპერსიას.
მაგრამ საკმაოდ დიდი შანსია იმისა,
რომ შერჩევის საშუალო;
შერჩევა რომ ყოველთვის
შენს მონაცემთა შერჩევაში იქნება,
ის ყოველთვის იქნება შენი შერჩევის ცენტრი.
მაგრამ სრულიად შესაძლებელია,
რომ პოპულაციის საშუალო
შერჩევის საშუალოს გარეთაა.
შეიძლება ისე გამოვიდეს,
რომ შეარჩიე მონაცემები,
რომლებიც არ შეიცავს პოპულაციის საშუალოს.
მაშინ ამ გზით გამოთვლილი
შერჩევის დისპერსია
სათანადოდ ვერ შეაფასებს
მთელი პოპულაციის დისპერსიას, ხომ ასეა?
რადგან შერჩევის
წერტილები ყოველთვის უფრო ახლოს იქნება
საკუთარ საშუალოსთან,
ვიდრე პოპულაციის საშუალოსთან.
და თუ რაც ვთქვი,
იმის 10 პროცენტს მაინც გებულობ,
სტატისტიკის ძალიან
წარმატებული სტუდენტი ხარ.
ამ ყველაფერს იმიტომ გეუბნებით,
რომ, ინტუიციის დონეზე,
გაიაზროთ, რომ გამოთვლამ
შეიძლება სათანადოდ ვერ შეაფასოს რეალობა.
ეს ფორმულა ხშირად სათანადოდ
ვერ შეაფასებს პოპულაციის რეალურ დისპერსიას
არსებობს ფორმულა, რომელიც
ბევრად მკაცრადაა დამტკიცებული,
ვიდრე მე გავაკეთებ ამას, რომ
ის უკეთესი მიახლოებაა
პოპულაციის დისპერსიასთან.
ანუ, მიუკერძოებელი შერჩევის დისპერსია.
ზოგჯერ მას ისევ s-კვადრატით აღნიშნავენ.
ზოგჯერ კი ასე წერენ: s n-1 კვადრატში.
მოდით, გიჩვენებთ, რატომ.
ეს თითქმის იგივე რამაა.
იღებთ თითოეულ მონაცემთა წერტილს, არკვევთ,
რამდენად არის დაშორებული
თითოეული შერჩევის საშუალოდან.
აგყავთ კვადრატში,
იგებთ კვადრატში აყვანილი
რიცხვების საშუალოს,
მაგრამ აქ ერთი განსხვავებაა.
i ტოლია ერთის, i ტოლია n-ის.
n-ზე გაყოფის ნაცვლად,
ჯამს ყოფ ოდნავ მცირე რიცხვზე.
ჯამს ყოფ (n-1)-ზე
როცა ამას აკეთებ, n-ზე გაყოფის ნაცვლად,
მიიღებ უფრო დიდ რიცხვს.
და ირკვევა, რომ ეს
სინამდვილეში ბევრად კარგი მიახლოებაა.
ერთ დღეს დავწერ
კომპიუტერულ პროგრამას, რათა
ერთხელ და სამუდამოდ
დავუმტკიცო საკუთარ თავს,
რომ ეს ბევრად კარგი მიახლოებაა
პოპულაციის დისპერსიასთან.
ანუ, იმავე გზით ითვლით ამ შემთხვევაშიც,
უბრალოდ, n-ის ნაცვლად, გაყოფთ (n-1)-ზე.
სხვა მხივ რომ შევხედოთ...
მაგრამ არა, დრო აღარ მყოფნის.
აქ შევჩერდეთ და მომდევნო ვიდეოში
რამდენიმე გამოთვლა შევასრულოთ,
ძალიან რომ არ გადაიღალოთ.
შევხვდებით შემდეგ ვიდეოში!