1) A ξ valószínűségi változóra vett X minta alapján adjon becslést a valószínűségi változó

(A feladatfájl a mester oldalán van,és az a neve, hogy minta zh08)

a) Milyen eloszlású a minta? Mi támasztja alá és mi nem ezt a hipotézist?

(Adjon meg legalább három érvet!)

b) szórására

c) szórásnégyzetére

d) a c értékére, ha P (ξ < c) = 0,5

e) a d értékére, ha P (ξ < d) = 0,75

f) az interkvartilis terjedelemre

g) Határozza meg a minta terjedelmét!

h) várható értékére

i) Adjon 85%-os megbízhatósági szintű konfidencia intervallumot a valószínűségi

változó várható értékére

j) Adja meg a rendezett minta 7. elemét!

 

MEGOLDÁS LÉPÉSEI:

a)

Megnyitjuk a kapott feladatunkat, amiben generált változók értékei lesznek:

 

Az eloszlás típusának meghatározása:

GRAPHSà2D GRAPHSàHISTOGRAMSàVARIABLES(X)àADVANCED FÜL: itt megnézhetünk egy páreloszlást, hogy melyiknek a sűrűségfüggvénye hasonlít a legjobban a mi kapott hisztogrammunkra. Szemmel látható, hogy tuti nem normális eloszlás:

 

 

 

 

 

 

Ezért megnézünk egy másik eloszlást, így szemre az álló téglalapok egy exponenciális függvényt mutatnak, így megnézzük, hogy tényleg az-e:

STATISTICSàRESUME…àFIT TYPE: EXPONENTIALàOK

Itt már láthatjuk, hogy a piros és kék vonalak, van ahol egyeznek, vagy csak kis mértékben térnek el, erre tehát azt mondhatjuk, hogy exponenciális eloszlású a minta.

Ha esetleg valahol az lenne, hogy írd oda a lambda értékét, akkor ezt

X = 100*0,2*expon(x; 3,1549)-ből veheted ki, mégpedig itt a lambda: 3,1549

 

Most keressünk bizonyítékokat erre az állításunkra:

1                    a hisztogram „szép” képet mutat

2                    STATISTICSàDISTRIBUTION FITTINGàEXPONENTIALàOKàVARIABLE(X)àSUMMARY

 

 

3                    GRAPHSà2D GRAPHSàPROBABILITY-PROBABILITY PLOTS…àVARIABLES(X)àDISTRIBUTION: EXPONENTIALàOK
Látjuk, hogy a normális eloszlás illeszkedik elég jól az egyenesre

 

4          A várható érték és szórás közel azonos.
                        Ezt onnan tudjuk, hogy megnéztük a normális eloszlást a legelső esetben,

ami a következő volt:
           
X = 100*0,2*normal(x; 0,317; 0,3097), ez azonos: normal(x,várható érték, szórás), látjuk,

hogy a kettő közel azonos.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

És ezzel négy bizonyítékunk van már. Ha az a kérdés, hogy mi az ami nem támasztja alá ezt, hogy exponenciális eloszlás, akkor ugyanezek ellentettjét írjuk le sztem.

 

 

 

 

 

 

 

b), c), d), e), f), g), h), i)

STATISTICSàBASICS STATISTICS/TABLESàDESCRIPTIVE STATISTICSàOKàamikre szükségünk van: szórás(Standard deviation, vagy kiszámoljuk a variance gyökét és az lesz), szórásnégyzet(variance), percentile boundaries. FRIST: 75% (van egy c is ami 0.5, akkor a FIRST: 50%, de ezt akkor nézhetjük meg ha még egy ilyet létrehozunk külön), interkvartilis terjedelem(quartile range), minta terjedelem(range talán), 85%-os konfidencia intervallum: (Confs. Limits for means, Interval: 85%), a várható érték azon a hisztogramon olvasható le melyen a normális eloszlást néztük(korábban leírtam melyik az pontosan)

VALID N: változók száma
MEAN: középérték
CONFIDENCE -95,000%: konfidencia intervallum
CONFIDENCE +95,000%: konfidencia intervallum
GEOMETRIC MEAN: geometriai közép
HARMONIC MEAN: harmónikus közép

MEDIAN: medián

MODE: talán módusz

FREQUENCY OF MODE:

SUM: összeg

MINIMUM

MAXIMUM

LOWER QUARTILE: alsó kvartilis

UPPER QUARTILE: felső kvartilis

PERCENTILE 50,00000: ez a FIRST-re kapott érték, ezt kell írni a c-re a g) feladatban.
PERCENTILE 90,00000:
RANGE: terjedelem

QUARTILE RANGE: interkvartilis terjedelem

VARIANCE: szórásnégyzet

            STD.DEV: szórás

            STANDARD ERROR

            SKEWNESS: ferdeség torzulás
            KURTOSIS
: eloszlási görbe meredeksége

 

 

 

j)

Az alapadatoknál ráállunk az X változó fejlécére, és jobb klikk:

SORT CASESàkiválasztjuk az X változót és ADD VARSàASCENDING(növekvő)àOKàráírjuk a lapra a 7. sorban lévő X változó számot

 

Ezzel megoldottuk az első feladatot

 

Ha esetlegnormális eloszlás lesz a feladatunk, akkor a bizonyítékok:

1          GRAPHSà2DàNORMAL PROBABILITY PLOTSàVARIABLE(X)àOKàjól illeszkedik

2          STATISTICSàBASIC STATISTICSàDESCREPTIVE STATISTICSàOKàVARIABLE(X)àADVANCED FÜLàSKEWNESS ÉS KURTOSIS-HOZ TESSZÜK A PIPÁKATàSUMMARYàA megjelenő eredménytáblában ez a két érték jó közelítéssel nulla, tehát ez a bizonyíték

3          A hisztogram „szép” képet mutat

 

Ezzel a normális eloszlást is bebizonyítottuk

 

2) A ξ1 és ξ2 normális eloszlású valószínűségi változókra vett X1 illetve X2 minta alapján (90%-os megbízhatósági szinten) döntse el a : H0 : D(ξ1) = D(ξ2) hipotézist a H1 : D(ξ1)  D(ξ2) hipotézis ellenében.

 

MEGOLDÁS LÉPÉSEI

 

F=maxàFn-1,n-1 ha igaz ( az első n:számláló mintaelem száma, második n: nevező mintaelem száma).

És akkor a feladat:

STATISTICSàBASIC STATISTICSàDESCRIPTIVE STATISTICSàVARIABLES(X1,X2)àPIPA KELL: VARIANCE, STANDARD DEVIATION àÉS EZT HAGYJUK IS EGY IDEIG

INSERTàADD VARIABLESàNAME: F, AFTER: VARIANCE(DUPLA KLIKK)àA FÜGGVÉNY PEDIG: AZ AZ ÉRTÉK, AMIRE AZT ÍRTAM ,HOGY MOST HAGYJUK EGY IDEIG, AZ ITT A VARIANCE OSZLOPBAN LÉVŐ X2 ÉRTÉKÉT ELOSZTJUK AZ X1-EL, FONTOS, HOGY AZ ÉRTÉKEKET ÍRJUK BE NE A VÁLTOZÓ NEVÉT, TEHÁT MOST: =1,069532/0,862210, EZEK UTÁN MEGJELENIK AZ F OSZLOP A KISZÁMOLT ÉRTÉKEKKEL

MOST MEGVIZSGÁLJUK A KRITIKUS ÉRTÉKET:

STATISTICSàPROBABILITYCALCULATORàDISTRIBUTIONSàF(FISHER)à

DF1:99, DF2:99, P: 0,9, MERT 90%-OS A MEGBÍZHATÓSÁGI SZINTàCOMPUTEàLÁTJUK, HOGY F=1,295130àEZT ÖSSZEHASONLÍTJUK AZZAL AZ F VÁLTOZÓVAL AMIT LÉTREHOZTUNK AZ ELŐBB, ANNAK ÉRTÉKE: 1,240454 VOLT, EZ AZÉRT KISEBB, TEHÁT NEM MOND ELLEN ANNAK, HOGY A KÉT SZÓRÁS MEGEGYEZIK.

UI.: A DF1 ÉS DF2 VALAMELY VÁLTOZÓK SZÁMA

 

EZZEL ELKÉSZÜLT A MÁSODIK FELADAT

 

3) Monte Carlo módszerrel számítsa ki a integrál értékét! (n=100 és n=10000 ponttal).

 

a) Milyen tartományból választotta a próbapontokat?

b) Igazolja, hogy ebben a tartományban egyenletes eloszlású pontokat generált! (n=100 esetén)

c) Relatív gyakoriság (n=100) eset

d) Közelítő érték (n=100)

e) Relatív gyakoriság (n=10000) eset

f) Közelítő érték (n=10000)

 

MEGOLDÁS MENETE:

Egy kis elméleti rész:

        

 

ÉS AKKOR A FELADAT:

X

Y

=Rnd(1)

=Rnd(2)

 

Elvileg most el kell menteni az előzőeket, és létrehozni egy teljesen új SPREADSHEET-et(vagy lesz erre is egy külön fájl), ahol a változók száma maradhat 10, az esetek száma, pedig legyen 1000. Itt írja, hogy n=100-ra is számítsuk a dolgokat, de zh-ba szerintem úgyis csak vagy 100 vagy 1000 esettel kell számolni. Tehát most akkor 1000 az esetek száma:

1000

 

10

 

Kattintsunk a VAR1 fejlecére kétszer, adjuk meg a változó nevét: X, a függvénysorba alulra írjuk be: =RND(1).

Kattintsunk a VAR2 fejlecére kétszer, adjuk meg a változó nevét: Y, a függvénysorba alulra írjuk be: =RND(1).

Ezzel van 1000 esetünk mindkét változóra.

Ezek után megnézünk egy sclatterplots-ot, hogy milyen eloszlás lehet, de ebből tulajdonképpen mi semmit nem veszünk észre(legalábbis én), és ennek tulajdonképpen érdemi része nincs, de ha megvan(elvileg ebből rá kéne jönni, hogy normális eloszlás):

GRAPHSàSCLATTERPLOTS…àVARIABLESàaz első oszlopban egyszer kattintsunk az 1-X-re, a másodikban 2-Y-raàOKàVan egy olyan jelölőnégyzet, hogy LINEAR, na onnan szedjük ki a pipát, mert az elvileg kicsit torzít. Ezután megnyomjuk, hogy OK, nem piszkálunk semmit az ADVANCED fülön. Ha jól csináltuk, akkor kapunk egy szép négyzet alakú, buborékokból felépülő akármitJ

 

Újabb változóra van szükségünk, melynek legyen a neve: TALÁLAT

VAR3 fejléc dupla kattàNAME=TALÁLAT legyenàalul a függvénysorba: =V2<SQRT(1-V1^2). Itt amire figyelni kell :ez a képlet amit beírtunk az látható, hogy a második integrál felső határa a feladatnak, viszont nem tudom miért nagyobb V1-től.

Mikor megnyomjuk, hogy OK, akkor a találat oszlopban csak „1”, vagy „0” szám látható, ahol 1 azt jelöli, hogy a mellette lévő minta benne van a buborékokban, a 0 pedig azt, hogy nem. Ezután a TALÁLAT változó fejlécére állunk, és a jobb gombbal a felugró menüből választjuk:

STATISTICS OF BLOCK DATAàBLOCK COLUMNSàMEANS(középérték)àennek értéke az 1001. sorban jelenik meg.

Most még egy változó kell:

Kattintsunk a VAR4 fejlécére kétszeràlegyen a neve Y valódiàés alul a feltétel:

=iif(V3=1;V2;-999999998), ez az utolsó szám kimásolható az MD CODE szövegmezőből, ennek a feltételnek a jelentése: ha V3=1, akkor legyen az eredmény V2, ha nem egyenlő, akkor ne történjen semmi(-999999998)àOKàmost csak azon cellákba kerültek értékek, ahol „1-es” van a találat változóban, ez így jó, ugyanis már csak azon pontok lesznek meg, melyek az integrál határait jelentik(talán)., de nézzük is meg:

GRAPHSàSCLATTERPLOTS…àVARIABLESàelső oszlop: X, második oszlop: Y valódiàOKàLINEAR pipa kiszedàOK

Most kaptunk egy szép kis negyedkört, amivel bizonyítottuk, hogy az integrál egyenletes eloszlású, ez a b) megoldás. Ezzel megoldottuk az a) feladatot: 0<=x<=1     0<=y<=2.

 

Most megint szükségünk van egy új változóra, amit D-vel jelölök, de órán nem D-vel jelöltük(talán C): VAR(5) fejlécére dupla klikkàName: Dàfüggvénysor:

=Sqrt(7-4*x^2+y^2). Ez a kettős integrálban lévő képlet. àOKàÉn itt kaptam valami, WARNING üzenetet, de végülis kiszámoltaJ

 

Most nézzük meg a szimulációt STATISTICSàBASIC STATISTICS/TABLESàDESCRIPTIVE STATISTICSàVARIABLES: kiválasztjuk az Y valódi változótàVALID N legyen kipipálvaàVALID N-re kapjuk: 773, ezt jegyezzük meg, mert kell is mindjárt. Szükségünk vagy egy utolsó változóra: VAR6 fejlécàjobb klikkàName: Monte Carloàfüggvénysorba: =V2*773/1000

És akkor a szükséges eredmények:

STATISTICSàBASICS STATISTICSàOKàVARIABLE: MONTE CARLO àbejelöljük: sumot a validN-t, a meant, a standard deviationt a std.err.of meant és a Conf limits for meant

c.) relatív gyakoriság=sum/validN: 0.38 lett nekem

 

TALÁLAT változó módosítása, rákattintunk kétszer, módosítjuk a feltételt=V2<(V2<2*V1) and (V2>V1)àOKàmegnyomjuk a menüsoron lévő x=? gombot(legutolsó sorban), hogy számolja újra a 4-es változót.

GRAPHSàSCLATTERPLOTSàA VÁLTOZÓK: X, Y VALÓDIàLINEAR PIPA KISZEDàOK

 

d) közelítő érték:

ez elvileg a konfidencia intervallum: Confidence +95% értéke

 

 

EZZEL ELKÉSZÜLT A HARMADIK FELADAT

 

 

 

EZ A MONTE CARLO-S FELADAT SOK HELYEN MAGAMTÓL KÉSZÜLT, EZÉRT NEM BIZTOS HOGY JÓ, MERT NEM VOLT PONTOSAN LEÍRVA, HOGY HOGY IS KELL CSINÁLNI, MEG EZT A FELADATOT SZINTE CSAK ÁTFUTOTTUK.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4) Adja meg a Z változó legkisebb négyzetek alapú Z = a * Y 1 + b * Y 2^3

becslését a minta alapján!

 

MEGOLDÁS MENETE

GRAPHSà3D XYZ GRAPHSàSCLATTERPLOTSàVARIABLE(Y1,Y2,Z)àOKàkapunk egy igen érdekes ábrát, ami még tulajdonképp semmit nem mond, ezért:

STATISTICSàADVANCED LINEAR/NONLINER MODELSàNONLINEAR ESTIMATIONàOKàFUNCTION TO BE ESTIMATEDàZ = a * Y 1 + b * Y 2^3àOKàOKàOKàfitted 3d function&OBSERVED VALSàEZT KELLETT VOLNA ÉSZREVENNENÜNK AZ ELŐZŐ ÁBRÁBÓLàsTATISTICSàRESUME…àSUMMARYàÉS ITT VANNAK A MEGOLDÁSOK: ESTIMATE OSZLOP „a” és „b” értéke.

 

 

EZZEL ELKÉSZÜLT A NEGYEDIK FELADAT

 

5.)        Adja meg a Z=A+B*Y1+C*Y2 regressziós sík együtthatóinak becslését.    (4 pont)

 

a) a

 

b) b

 

c) c

 

d) a szórásnégyzet hány százalékát

 

magyarázza meg az egyenlet

 

 

 

 

Feladat megoldása:

1 lépés: STATISTICSàBASIC STATISTICSàVARIABLES(X)àADVANCEDàITT KIJELÖLÜNK MINDENTàSUMMARY (de ez már meglessz, mert az elsőben megcsináltuk)

 

2 lépés: Eloszlás meghatározása az 1 és 2 feladatban leírtak szerint (de ez már meglessz, mert az elsőben megcsináltuk)

 

3 lépés: STATISTICSàADVANCED LINEAR/NONLINER MODELSàNONLINEAR ESTIMATIONàUSER-SPECIFIED REGRESSION, LEAST SQUARESàFUNCTION TO BE ESTIMATEDàBEÍRJUK A MEGADOTT KÉPLETET: Z=A+B*Y1+C*Y2àOKàREVIEW FÜLàMEANS&STANDARD DEVIATIONSàKAPUNK EGY EREDMÉNYTÁBLÁT, AMIT NEM PISZKÁLUNK

 

4 lépés: STATISTICSàDISTRIBUTION FITTINGàNORMAL-ra állítjukàOKàVARIABLES(X)àSUMMARYàmegint kapunk egy eredményt, de nem tudom mire jó

 

5.lépés: STATISTICSàADVANCED LINEAR/NONLINER MODELSàNONLINEAR ESTIMATIONàSTART NEW…(TALÁN)à USER-SPECIFIED REGRESSION, LEAST SQUARESàQUICKà FUNCTION TO BE ESTIMATEDà BEÍRJUK A MEGADOTT KÉPLETET: Z=A+B*Y1+C*Y2àOKàOKàOKàADVANCED FÜLàmegnézzük, hogy itt a confidence intervals for parameter estimates 95%-eàProportion of variance accounted for: ennek értéke lesz a d válasz( a fehér sávban van)àSUMMARYàkapunk megint egy szép piros eredménytáblát

 

6.lépés: Megoldások kiolvasása a táblázatból:

Van egy ESTIMATE oszlopà A: itt lesz egy szám, az az a) válasz

                                                  B: itt lesz egy szám, az a b) válasz

                                                  c: itt lesz egy szám, az a c) válasz

                                                  Proportion of variance accounted for értéke a d válasz

                                                 (itt sok helyen láttam, hogy beírják a 95%-os konfidencia intervallumot, de a neten az volt, hogy ez az érték az ami ide kell, persze a net is hazudhatJ )

És még minden kérdéshez írjuk oda, hogy: Nonlinear estimation results dialog, ugyanis ezek a lapok, amelyeken dolgoztunk itt.

 

EZZEL ELKÉSZÜLT AZ ÖTÖDIK FELADAT

 

 

 

LEHET HOGY VALAMIT HIBÁSAN CSINÁLTAM, ÉS NEM JÓ, DEÉN AZÉRT FELELŐSSÉGET NEM VÁLLALOKJ