25 0 2MB
Anexa 1 Funcţia de repartiţie normală normată N(0,1) x
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0
0.5000
0.5040
0.5080
0.5120
0.5160
0.5199
0.5239
0.5279
0.5319
0.5359
0.1
0.5398
0.5438
0.5478
0.5517
0.5557
0.5596
0.5636
0.5675
0.5714
0.5753
0.2
0.5793
0.5832
0.5871
0.5910
0.5948
0.5987
0.6026
0.6064
0.6103
0.6141
0.3
0.6179
0.6217
0.6255
0.6293
0.6331
0.6368
0.6406
0.6443
0.6480
0.6517
0.4
0.6554
0.6591
0.6628
0.6664
0.6700
0.6736
0.6772
0.6808
0.6844
0.6879
0.5
0.6915
0.6950
0.6985
0.7019
0.7054
0.7088
0.7123
0.7157
0.7190
0.7224
0.6
0.7257
0.7291
0.7324
0.7357
0.7389
0.7422
0.7454
0.7486
0.7517
0.7549
0.7
0.7580
0.7611
0.7642
0.7673
0.7704
0.7734
0.7764
0.7794
0.7823
0.7852
0.8
0.7881
0.7910
0.7939
0.7967
0.7995
0.8023
0.8051
0.8078
0.8106
0.8133
0.9
0.8159
0.8186
0.8212
0.8238
0.8264
0.8289
0.8315
0.8340
0.8365
0.8389
1
0.8413
0.8438
0.8461
0.8485
0.8508
0.8531
0.8554
0.8577
0.8599
0.8621
1.1
0.8643
0.8665
0.8686
0.8708
0.8729
0.8749
0.8770
0.8790
0.8810
0.8830
1.2
0.8849
0.8869
0.8888
0.8907
0.8925
0.8944
0.8962
0.8980
0.8997
0.9015
1.3
0.9032
0.9049
0.9066
0.9082
0.9099
0.9115
0.9131
0.9147
0.9162
0.9177
1.4
0.9192
0.9207
0.9222
0.9236
0.9251
0.9265
0.9279
0.9292
0.9306
0.9319
1.5
0.9332
0.9345
0.9357
0.9370
0.9382
0.9394
0.9406
0.9418
0.9429
0.9441
1.6
0.9452
0.9463
0.9474
0.9484
0.9495
0.9505
0.9515
0.9525
0.9535
0.9545
1.7
0.9554
0.9564
0.9573
0.9582
0.9591
0.9599
0.9608
0.9616
0.9625
0.9633
1.8
0.9641
0.9649
0.9656
0.9664
0.9671
0.9678
0.9686
0.9693
0.9699
0.9706
1.9
0.9713
0.9719
0.9726
0.9732
0.9738
0.9744
0.9750
0.9756
0.9761
0.9767
2
0.9772
0.9778
0.9783
0.9788
0.9793
0.9798
0.9803
0.9808
0.9812
0.9817
2.1
0.9821
0.9826
0.9830
0.9834
0.9838
0.9842
0.9846
0.9850
0.9854
0.9857
2.2
0.9861
0.9864
0.9868
0.9871
0.9875
0.9878
0.9881
0.9884
0.9887
0.9890
2.3
0.9893
0.9896
0.9898
0.9901
0.9904
0.9906
0.9909
0.9911
0.9913
0.9916
2.4
0.9918
0.9920
0.9922
0.9925
0.9927
0.9929
0.9931
0.9932
0.9934
0.9936
2.5
0.9938
0.9940
0.9941
0.9943
0.9945
0.9946
0.9948
0.9949
0.9951
0.9952
2.6
0.9953
0.9955
0.9956
0.9957
0.9959
0.9960
0.9961
0.9962
0.9963
0.9964
2.7
0.9965
0.9966
0.9967
0.9968
0.9969
0.9970
0.9971
0.9972
0.9973
0.9974
2.8
0.9974
0.9975
0.9976
0.9977
0.9977
0.9978
0.9979
0.9979
0.9980
0.9981
2.9
0.9981
0.9982
0.9982
0.9983
0.9984
0.9984
0.9985
0.9985
0.9986
0.9986
3
0.9987
0.9987
0.9987
0.9988
0.9988
0.9989
0.9989
0.9989
0.9990
0.9990
3.1
0.9990
0.9991
0.9991
0.9991
0.9992
0.9992
0.9992
0.9992
0.9993
0.9993
3.2
0.9993
0.9993
0.9994
0.9994
0.9994
0.9994
0.9994
0.9995
0.9995
0.9995
3.3
0.9995
0.9995
0.9995
0.9996
0.9996
0.9996
0.9996
0.9996
0.9996
0.9997
3.4
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9998
Anexa 2 Tabel cu valorile funcţiei Gauss-Laplace z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19 0.2 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.3 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.4 0.41
Φ(z) 0.0000 0.0080 0.0160 0.0239 0.0319 0.0399 0.0478 0.0558 0.0638 0.0717 0.0797 0.0876 0.0955 0.1034 0.1113 0.1192 0.1271 0.1350 0.1428 0.1507 0.1585 0.1663 0.1741 0.1819 0.1897 0.1974 0.2051 0.2128 0.2205 0.2282 0.2358 0.2434 0.2510 0.2586 0.2661 0.2737 0.2812 0.2886 0.2961 0.3035 0.3108 0.3182
z 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.5 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59 0.6 0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69 0.7 0.71 0.72 0.73 0.74 0.75 0.76 0.77 0.78 0.79 0.8 0.81 0.82 0.83
Φ(z) 0.3255 0.3328 0.3401 0.3473 0.3545 0.3616 0.3688 0.3759 0.3829 0.3899 0.3969 0.4039 0.4108 0.4177 0.4245 0.4313 0.4381 0.4448 0.4515 0.4581 0.4647 0.4713 0.4778 0.4843 0.4907 0.4971 0.5035 0.5098 0.5161 0.5223 0.5285 0.5346 0.5407 0.5467 0.5527 0.5587 0.5646 0.5705 0.5763 0.5821 0.5878 0.5935
z 0.84 0.85 0.86 0.87 0.88 0.89 0.9 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 1 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.1 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.2 1.21 1.22 1.23 1.24 1.25
Φ(z) 0.5991 0.6047 0.6102 0.6157 0.6211 0.6265 0.6319 0.6372 0.6424 0.6476 0.6528 0.6579 0.6629 0.6680 0.6729 0.6778 0.6827 0.6875 0.6923 0.6970 0.7017 0.7063 0.7109 0.7154 0.7199 0.7243 0.7287 0.7330 0.7373 0.7415 0.7457 0.7499 0.7540 0.7580 0.7620 0.7660 0.7699 0.7737 0.7775 0.7813 0.7850 0.7887
z 1.26 1.27 1.28 1.29 1.3 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.4 1.41 1.42 1.43 1.44 1.45 1.46 1.47 1.48 1.49 1.5 1.51 1.52 1.53 1.54 1.55 1.56 1.57 1.58 1.59 1.6 1.61 1.62 1.63 1.64 1.65 1.66 1.67
Φ(z) 0.7923 0.7959 0.7995 0.8029 0.8064 0.8098 0.8132 0.8165 0.8198 0.8230 0.8262 0.8293 0.8324 0.8355 0.8385 0.8415 0.8444 0.8473 0.8501 0.8529 0.8557 0.8584 0.8611 0.8638 0.8664 0.8690 0.8715 0.8740 0.8764 0.8789 0.8812 0.8836 0.8859 0.8882 0.8904 0.8926 0.8948 0.8969 0.8990 0.9011 0.9031 0.9051
z 1.68 1.69 1.7 1.71 1.72 1.73 1.74 1.75 1.76 1.77 1.78 1.79 1.8 1.81 1.82 1.83 1.84 1.85 1.86 1.87 1.88 1.89 1.9 1.91 1.92 1.93 1.94 1.95 1.96 1.97 1.98 1.99 2 2.02 2.04 2.06 2.08 2.1 2.12 2.14 2.16 2.18
Φ(z) 0.9070 0.9090 0.9109 0.9127 0.9146 0.9164 0.9181 0.9199 0.9216 0.9233 0.9249 0.9265 0.9281 0.9297 0.9312 0.9328 0.9342 0.9357 0.9371 0.9385 0.9399 0.9412 0.9426 0.9439 0.9451 0.9464 0.9476 0.9488 0.9500 0.9512 0.9523 0.9534 0.9545 0.9566 0.9586 0.9606 0.9625 0.9643 0.9660 0.9676 0.9692 0.9707
z 2.2 2.22 2.24 2.26 2.28 2.3 2.32 2.34 2.36 2.38 2.4 2.42 2.44 2.46 2.48 2.5 2.52 2.54 2.56 2.58 2.6 2.64 2.68 2.72 2.76 2.8 2.84 2.88 2.92 2.96 3 3.2 3.4 3.6 3.8 4 4.5 5
Φ(z) 0.9722 0.9736 0.9749 0.9762 0.9774 0.9786 0.9797 0.9807 0.9817 0.9827 0.9836 0.9845 0.9853 0.9861 0.9869 0.9876 0.9883 0.9889 0.9895 0.9901 0.9907 0.9917 0.9926 0.9935 0.9942 0.9949 0.9955 0.9960 0.9965 0.9969 0.9973 0.998626 0.999326 0.999682 0.999855 0.999937 0.999993 0.999999
Anexa 3 Tabel cu valorile repatiţiei Student în funcţie de probabilitatea P(t≤tα) şi numărul gradelor de libertate df df 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 60 70 80 90 100 120 200 500 ∞ df
0.5 1.0000 0.8165 0.7649 0.7407 0.7267 0.7176 0.7111 0.7064 0.7027 0.6998 0.6974 0.6955 0.6938 0.6924 0.6912 0.6901 0.6892 0.6884 0.6876 0.6870 0.6864 0.6858 0.6853 0.6848 0.6844 0.6840 0.6837 0.6834 0.6830 0.6828 0.6816 0.6807 0.6800 0.6794 0.6786 0.6780 0.6776 0.6772 0.6770 0.6765 0.6757 0.6750 0.6745 0.25
nivel de semnificaţie α pentru testul bilateral 0.2 0.1 0.05 0.025 0.01 3.0777 6.3137 12.7062 25.4519 63.6559 1.8856 2.9200 4.3027 6.2054 9.9250 1.6377 2.3534 3.1824 4.1765 5.8408 1.5332 2.1318 2.7765 3.4954 4.6041 1.4759 2.0150 2.5706 3.1634 4.0321 1.4398 1.9432 2.4469 2.9687 3.7074 1.4149 1.8946 2.3646 2.8412 3.4995 1.3968 1.8595 2.3060 2.7515 3.3554 1.3830 1.8331 2.2622 2.6850 3.2498 1.3722 1.8125 2.2281 2.6338 3.1693 1.3634 1.7959 2.2010 2.5931 3.1058 1.3562 1.7823 2.1788 2.5600 3.0545 1.3502 1.7709 2.1604 2.5326 3.0123 1.3450 1.7613 2.1448 2.5096 2.9768 1.3406 1.7531 2.1315 2.4899 2.9467 1.3368 1.7459 2.1199 2.4729 2.9208 1.3334 1.7396 2.1098 2.4581 2.8982 1.3304 1.7341 2.1009 2.4450 2.8784 1.3277 1.7291 2.0930 2.4334 2.8609 1.3253 1.7247 2.0860 2.4231 2.8453 1.3232 1.7207 2.0796 2.4138 2.8314 1.3212 1.7171 2.0739 2.4055 2.8188 1.3195 1.7139 2.0687 2.3979 2.8073 1.3178 1.7109 2.0639 2.3910 2.7970 1.3163 1.7081 2.0595 2.3846 2.7874 1.3150 1.7056 2.0555 2.3788 2.7787 1.3137 1.7033 2.0518 2.3734 2.7707 1.3125 1.7011 2.0484 2.3685 2.7633 1.3114 1.6991 2.0452 2.3638 2.7564 1.3104 1.6973 2.0423 2.3596 2.7500 1.3062 1.6896 2.0301 2.3420 2.7238 1.3031 1.6839 2.0211 2.3289 2.7045 1.3007 1.6794 2.0141 2.3189 2.6896 1.2987 1.6759 2.0086 2.3109 2.6778 1.2958 1.6706 2.0003 2.2990 2.6603 1.2938 1.6669 1.9944 2.2906 2.6479 1.2922 1.6641 1.9901 2.2844 2.6387 1.2910 1.6620 1.9867 2.2795 2.6316 1.2901 1.6602 1.9840 2.2757 2.6259 1.2886 1.6576 1.9799 2.2699 2.6174 1.2858 1.6525 1.9719 2.2584 2.6006 1.2832 1.6479 1.9647 2.2482 2.5857 1.2816 1.6449 1.9600 2.2414 2.5758 0.1 0.05 0.025 0.0125 0.005 nivel de semnificaţie α pentru testul unilateral
0.001 636.5776 31.5998 12.9244 8.6101 6.8685 5.9587 5.4081 5.0414 4.7809 4.5868 4.4369 4.3178 4.2209 4.1403 4.0728 4.0149 3.9651 3.9217 3.8833 3.8496 3.8193 3.7922 3.7676 3.7454 3.7251 3.7067 3.6895 3.6739 3.6595 3.6460 3.5911 3.5510 3.5203 3.4960 3.4602 3.4350 3.4164 3.4019 3.3905 3.3734 3.3398 3.3101 3.2905 0.0005
Anexa 4 Valorile variabilei χ2α în funcţie de probabilitatea α=P(χ2 > χ2α ) şi numărul de grade de libertate df
nivel de semnificaţie α df 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
0.1 2.7055 4.6052 6.2514 7.7794 9.2363 10.6446 12.0170 13.3616 14.6837 15.9872 17.2750 18.5493 19.8119 21.0641 22.3071 23.5418 24.7690 25.9894 27.2036 28.4120 29.6151 30.8133 32.0069 33.1962 34.3816 35.5632 36.7412 37.9159 39.0875 40.2560
0.05 3.8415 5.9915 7.8147 9.4877 11.0705 12.5916 14.0671 15.5073 16.9190 18.3070 19.6752 21.0261 22.3620 23.6848 24.9958 26.2962 27.5871 28.8693 30.1435 31.4104 32.6706 33.9245 35.1725 36.4150 37.6525 38.8851 40.1133 41.3372 42.5569 43.7730
0.025 5.0239 7.3778 9.3484 11.1433 12.8325 14.4494 16.0128 17.5345 19.0228 20.4832 21.9200 23.3367 24.7356 26.1189 27.4884 28.8453 30.1910 31.5264 32.8523 34.1696 35.4789 36.7807 38.0756 39.3641 40.6465 41.9231 43.1945 44.4608 45.7223 46.9792
0.01 6.6349 9.2104 11.3449 13.2767 15.0863 16.8119 18.4753 20.0902 21.6660 23.2093 24.7250 26.2170 27.6882 29.1412 30.5780 31.9999 33.4087 34.8052 36.1908 37.5663 38.9322 40.2894 41.6383 42.9798 44.3140 45.6416 46.9628 48.2782 49.5878 50.8922
0.001 10.8274 13.8150 16.2660 18.4662 20.5147 22.4575 24.3213 26.1239 27.8767 29.5879 31.2635 32.9092 34.5274 36.1239 37.6978 39.2518 40.7911 42.3119 43.8194 45.3142 46.7963 48.2676 49.7276 51.1790 52.6187 54.0511 55.4751 56.8918 58.3006 59.7022
Anexa 5 Valorile critice pentru repartiţia F corespunzător nivelului de semnificaţie de 5%. df2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
1 161.45 18.51 10.13 7.71 6.61 5.99 5.59 5.32 5.12 4.96 4.84 4.75 4.67 4.60 4.54 4.49 4.45 4.41 4.38 4.35 4.32 4.30 4.28 4.26 4.24 4.23 4.21 4.20 4.18 4.17 4.08 4.00 3.92
2 199.50 19.00 9.55 6.94 5.79 5.14 4.74 4.46 4.26 4.10 3.98 3.89 3.81 3.74 3.68 3.63 3.59 3.55 3.52 3.49 3.47 3.44 3.42 3.40 3.39 3.37 3.35 3.34 3.33 3.32 3.23 3.15 3.07
3 215.71 19.16 9.28 6.59 5.41 4.76 4.35 4.07 3.86 3.71 3.59 3.49 3.41 3.34 3.29 3.24 3.20 3.16 3.13 3.10 3.07 3.05 3.03 3.01 2.99 2.98 2.96 2.95 2.93 2.92 2.84 2.76 2.68
4 224.58 19.25 9.12 6.39 5.19 4.53 4.12 3.84 3.63 3.48 3.36 3.26 3.18 3.11 3.06 3.01 2.96 2.93 2.90 2.87 2.84 2.82 2.80 2.78 2.76 2.74 2.73 2.71 2.70 2.69 2.61 2.53 2.45
df1 5 230.16 19.30 9.01 6.26 5.05 4.39 3.97 3.69 3.48 3.33 3.20 3.11 3.03 2.96 2.90 2.85 2.81 2.77 2.74 2.71 2.68 2.66 2.64 2.62 2.60 2.59 2.57 2.56 2.55 2.53 2.45 2.37 2.29
6 233.99 19.33 8.94 6.16 4.95 4.28 3.87 3.58 3.37 3.22 3.09 3.00 2.92 2.85 2.79 2.74 2.70 2.66 2.63 2.60 2.57 2.55 2.53 2.51 2.49 2.47 2.46 2.45 2.43 2.42 2.34 2.25 2.18
8 238.88 19.37 8.85 6.04 4.82 4.15 3.73 3.44 3.23 3.07 2.95 2.85 2.77 2.70 2.64 2.59 2.55 2.51 2.48 2.45 2.42 2.40 2.37 2.36 2.34 2.32 2.31 2.29 2.28 2.27 2.18 2.10 2.02
10 241.88 19.40 8.79 5.96 4.74 4.06 3.64 3.35 3.14 2.98 2.85 2.75 2.67 2.60 2.54 2.49 2.45 2.41 2.38 2.35 2.32 2.30 2.27 2.25 2.24 2.22 2.20 2.19 2.18 2.16 2.08 1.99 1.91
12 243.90 19.41 8.74 5.91 4.68 4.00 3.57 3.28 3.07 2.91 2.79 2.69 2.60 2.53 2.48 2.42 2.38 2.34 2.31 2.28 2.25 2.23 2.20 2.18 2.16 2.15 2.13 2.12 2.10 2.09 2.00 1.92 1.83
Anexa 6 Valorile critice pentru repartiţia F corespunzător nivelului de semnificaţie de 1%. df2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
df1 1 2 3 4 5 6 8 10 12 4052.18 4999.34 5403.53 5624.26 5763.96 5858.95 5980.95 6055.93 6106.68 98.50 99.00 99.16 99.25 99.30 99.33 99.38 99.40 99.42 34.12 30.82 29.46 28.71 28.24 27.91 27.49 27.23 27.05 21.20 18.00 16.69 15.98 15.52 15.21 14.80 14.55 14.37 16.26 13.27 12.06 11.39 10.97 10.67 10.29 10.05 9.89 13.75 10.92 9.78 9.15 8.75 8.47 8.10 7.87 7.72 12.25 9.55 8.45 7.85 7.46 7.19 6.84 6.62 6.47 11.26 8.65 7.59 7.01 6.63 6.37 6.03 5.81 5.67 10.56 8.02 6.99 6.42 6.06 5.80 5.47 5.26 5.11 10.04 7.56 6.55 5.99 5.64 5.39 5.06 4.85 4.71 9.65 7.21 6.22 5.67 5.32 5.07 4.74 4.54 4.40 9.33 6.93 5.95 5.41 5.06 4.82 4.50 4.30 4.16 9.07 6.70 5.74 5.21 4.86 4.62 4.30 4.10 3.96 8.86 6.51 5.56 5.04 4.69 4.46 4.14 3.94 3.80 8.68 6.36 5.42 4.89 4.56 4.32 4.00 3.80 3.67 8.53 6.23 5.29 4.77 4.44 4.20 3.89 3.69 3.55 8.40 6.11 5.19 4.67 4.34 4.10 3.79 3.59 3.46 8.29 6.01 5.09 4.58 4.25 4.01 3.71 3.51 3.37 8.18 5.93 5.01 4.50 4.17 3.94 3.63 3.43 3.30 8.10 5.85 4.94 4.43 4.10 3.87 3.56 3.37 3.23 8.02 5.78 4.87 4.37 4.04 3.81 3.51 3.31 3.17 7.95 5.72 4.82 4.31 3.99 3.76 3.45 3.26 3.12 7.88 5.66 4.76 4.26 3.94 3.71 3.41 3.21 3.07 7.82 5.61 4.72 4.22 3.90 3.67 3.36 3.17 3.03 7.77 5.57 4.68 4.18 3.85 3.63 3.32 3.13 2.99 7.72 5.53 4.64 4.14 3.82 3.59 3.29 3.09 2.96 7.68 5.49 4.60 4.11 3.78 3.56 3.26 3.06 2.93 7.64 5.45 4.57 4.07 3.75 3.53 3.23 3.03 2.90 7.60 5.42 4.54 4.04 3.73 3.50 3.20 3.00 2.87 7.56 5.39 4.51 4.02 3.70 3.47 3.17 2.98 2.84 7.31 5.18 4.31 3.83 3.51 3.29 2.99 2.80 2.66 7.08 4.98 4.13 3.65 3.34 3.12 2.82 2.63 2.50 6.85 4.79 3.95 3.48 3.17 2.96 2.66 2.47 2.34
Sondajul simplu aleator Principalele noţiuni pereche din colectivitatea generală şi din eşantion utilizate în tehnica sondajelor. Tabel 1.1
Xi xi n N X x σ2 S2 p σp 2 Sw2
simbol pentru o caracteristică cantitativă pe care o posedă unităţile din populaţie simbol pentru o caracteristică cantitativă pe care o posedă unităţile din eşantion Volumul eşantionului Volumul populaţiei totale Media caracteristicii cantitative în populaţia totala Valoarea mediei de sondaj pentru caracteristica cantitativă Dispersia caracteristicii cantitative în populaţia totală Dispersia caracteristicii cantitative în eşantion Media caracteristicii calitative în populaţia totala Dispersia caracteristicii calitative în populaţia totală Dispersia caracteristicii calitative în eşantion
Sumarul determinării intervalului de încredere în cazul utilizării unui sondaj simplu aleator cu probabilităţi egale: Tabel 1.2
Condiţiile de desfăşurare Populaţie infinită şi eşantion de volum normal (n30 Populaţie finită şi eşantion de volum normal (n>0,05N), n>30 Eşantion de volum redus n100 considerăm că sondajul aleator fără revenire a fost realizat într-o populaţie finită. Dispersia caracteristicii cantitative vârsta în populaţiei nu este cunoscută şi va fi înlocuită cu dispersia caracteristicii în eşantion. Calculul erorii de reprezentativitate (eroare standard). σ
x
=
S2 N − n 76.56 2000 − 300 ⋅ = ⋅ = 0.4657 ani n N −1 300 2000 − 1
Calculul erorii limită Δ x = z ⋅ σ x =1.96*0.4657=0.9129 ani Intervalul de încredere: x − Δ x < X < x + Δ x 45.33 − 0.9129 < X < 45.33 + 0.9129 44.4171 < X < 46.2429 Vârsta medie a salariaţilor întreprinderii este de cel puţin 44.4171 ani şi cel mult 46.2426 ani. Această estimaţie este garantată cu o probabilitate de 0.95. 4. Dacă sondajul s-ar fi efectuat după procedeul simplu aleator cu revenire volumul eşantionului este dat de relaţia: z 2 ⋅ σ 2 z 2 ⋅ S 2 1.96 2 ⋅ 76.56 = ≈ 322 persoane n SAR = ≈ 0.9129 Δ2x Δ2x 5. Volumul eşantionului este direct proporţional cu dispersia şi cu argumentul funcţiei de probabilitate şi invers proporţional cu precizia estimaţiei. Dacă eroarea limită se va reduce este de aşteptat ca volumul eşantionului să crească. ' Δ x = 0,75 ⋅ Δ x = 0.75 ⋅ 0.9129 = 0.6847 persoane
6. Ponderea salariaţilor din eşantion care au o părere bună şi foarte bună despre activitatea sindicatului se calculează după relaţia: m 80 + 150 w= = = 0.77 n 300 Calculul erorii de reprezentativitate (eroare standard). w (1 − w ) N − n 0.77(1 − 0.77) 2000 − 300 σw = ⋅ = ⋅ = 0.000502 n N −1 300 2000 − 1 Calculul erorii limită Δ w = z ⋅ σ w =1.96*0.000502=0.000983 Intervalul de încredere: w − Δ w < p < w + Δ w 0.77 − 0.000983 < p < 0.77 + 0.000983 0.7690173 < p < 0.770983 Se garantează cu o probabilitate de 0.95 că cel puţin 76.90176% şi cel mult 77.0983% din salariaţii întreprinderii au o părere bună şi foarte bună despre activitatea desfăşurată de organizaţia de sindicat. Problema 2
În rândul celor 4000 de studenţi ai unei facultăţi s-a realizat un sondaj simplu aleator pe un eşantion de 175 persoane. La întrebarea ‘Câte ore studiaţi în medie pe săptămână (exceptând sesiunea)?’ răspunsurile centralizate se găsesc în tabelul 1.6.
Tabel 1.6 Intervale de variaţie (ore)* Nr. studenţi
0-2
2-6
6-12
12 h şi peste
Total
50
55
40
30
175
* limita inferioară este inclusă în interval Se cere: 1. Să se estimeze pentru o probabilitate de 0.95 numărul mediu de ore studiate de un student din facultate. 2. Să se estimeze cu aceeaşi probabilitate ponderea studenţilor care studiază mai puţin de 6 ore pe săptămână. Rezolvare:
1. Calculăm cât reprezintă 5% din volumul populaţiei. 0.05*N=0.05*4000=200 Deoarece n (175) 0,05*1800 considerăm că sondajul aleator fără revenire a fost realizat într-o populaţie finită. Dispersia caracteristicii cantitative vârsta în populaţiei nu este cunoscută şi va fi înlocuită cu dispersia caracteristicii în eşantion. Calculul erorii de reprezentativitate (eroare standard). σ
x
=
S2 N − n 87,11 1800 − 200 ⋅ = ⋅ = 0,62 ore n N −1 200 1800 − 1
Calculul erorii limită Δ x = z ⋅ σ x =1,96*0,62=1,22 ore Intervalul de încredere: x − Δ x < X < x + Δ x 13,58 < X < 16.02 ore Se garantează cu o probabilitate de 95% că numărul de ore petrecute pe săptămână de un student la calculator este de cel puţin 13,58 ore şi cel mult 16,02 ore.
2. Calculăm erorea de reprezentativitate pentru variabila calitativă: w (1 − w ) N − n 0,25(1 − 0,25) 1800 − 200 σw = ⋅ = ⋅ = 0,028868 n N −1 200 1800 − 1 Calculul erorii limită Δ w = z ⋅ σ w =1,96*0,028868=0,05658 Intervalul de încredere: w − Δ w < p < w + Δ w 0,19342 < p < 0,30658 Garantăm cu 95% că cel puţin 19,342% şi cel mult 30,658% din studenţilucrează. 3. Prin proiectarea unui sondaj în care eşantionarea se realizează ca şi în cazul sondajului simplu aleator (de obicei fără revenire) dar procedura de estimare a parametrilor populaţiei este asemănătoare sondajului stratificat putem obţine estimatori a căror eroare de reprezentativitate nu este cu mult mai mare decât cea care s-ar fi obţinut printr-un sondaj stratificat. Avantajul acestei metode este eliminarea inconvenienţei sau imposibilităţii grupării elementelor pe straturi înainte de eşantionare. Tabel 2.13 Sex
Ni
ni
xi
Si2
xi Ni
M F Total
1100 700 1800
112 88 200
17 12
25 16
18700 8400 27100
unde
x pstr
∑ Nx = ∑ N
N i2 2
2
Si N ni
⎛ Ni − ni ⎜⎜ ⎝ Ni −1
⎞ ⎛ Ni ⎞ 2 ⎟⎟ ⎜1 − ⎟Si N⎠ ⎠ ⎝
0.041495 0.010754 0.05225
9.722222 9.777778 19.5
k
Calculăm
x pstr
i =1 k
i =1
i
i
reprezintă
media
eşantionului
i
poststratificat. Calculele necesare sunt prezentate în tabelul 2.13. 27100 = 15,05 1800 Deoarece stratificarea se realizează după efectuarea selecţiei eroarea medie de reprezentativitate se va calcula după relaţia: x pstr =
k
σ ~xpstr =
∑ i =1
2
N i2 σ i N2 ni
⎛ Ni − n i ⎜⎜ ⎝ Ni −1
⎞ 1 ⎟⎟ + 2 ⎠ n
k
⎛
Ni ⎞
∑ ⎜⎝1 − N ⎟⎠σ
2 i
i =1
Dacă σ , dispersia stratului i nu se cunoaşte se va înlocui cu estimatorul acesteia: 2 i
Si2
1 = ni −1
Ni
∑ (x
k
ij
− x i ) 2 Relaţia devine:
j=1
⎛ Ni − ni ⎞ 1 k ⎛ Ni ⎞ 2 1 ⎜⎜ ⎟⎟ + 2 σ ~xpstr = 19,5 =0,23 ⎜1 − ⎟Si = 0,05225 + N⎠ 200 2 ⎝ N i − 1 ⎠ n i=1 ⎝ i =1 Primul termen reprezintă eroarea standard aşteptată în cazul unui sondaj stratificat cu alocarea pe straturi neproporţională şi selecţia unităţilor din interiorul straturilor după procedeul fără revenire iar al doilea termen reprezintă penalizarea datorată faptului că stratificare s-a realizat după selecţie.
∑
2
N i2 Si N2 ni
∑
1 reduce penalizarea cu cât volumul eşantionului este mai n2 mare. Putem spune în aceste condiţii că poststratificarea duce la bune estimaţii atunci când volumul eşantionului este mare. Calculul erorii limită Δ ~xpstr = z ⋅ σ ~xpstr =1,96*0,23=1,45 ore
Observăm că termenul
Intervalul de încredere: ~ x pstr − Δ ~xpstr < X < ~ x pstr + Δ ~xpstr 14,6 < X < 15,5 ore Se garantează cu o probabilitate de 95% că numărul de ore petrecute pe săptămână de un student la calculator este de cel puţin 14,6 ore şi cel mult 15,5 ore. Calculele pentru variabila calitativă sunt prezentate în tabelul 2.14. Tabel 2.14 Sex
Ni
ni
wi
Si2
w i Ni
M F Total
1100 700 1800
112 88 200
0.29 0.2
0.2059 0.16
319 140 459
∑ Nw = ∑ N
N i2 2
2
Si N ni
⎛ Ni − ni ⎜⎜ ⎝ Ni −1
⎞ ⎛ Ni ⎞ 2 ⎟⎟ ⎜1 − ⎟Si N⎠ ⎠ ⎝
0.000342 0.000108 0.000449
0.08007222 0.09777778 0.17785000
k
w pstr
i
i =1 k
i =1
i
=
i
459 =0,255 200
Deoarece stratificarea se realizează după efectuarea selecţiei eroarea medie de reprezentativitate se va calcula după relaţia: k
σ w~pstr =
∑ i =1
2
N i2 σ i N2 ni
⎛ Ni − n i ⎜⎜ ⎝ Ni −1
⎞ 1 ⎟⎟ + 2 ⎠ n
k
⎛
Ni ⎞
∑ ⎜⎝1 − N ⎟⎠σ
2 i
i =1
Dacă σ , dispersia stratului i nu se cunoaşte se va înlocui cu estimatorul acesteia: 2 i
Si2 = w i (1 − w i ) Relaţia devine: k
σ w~pstr =
∑ i =1
2
N i2 Si N2 ni
⎛ Ni − n i ⎜⎜ ⎝ Ni −1
⎞ 1 ⎟⎟ + 2 ⎠ n
k
⎛
Ni ⎞
∑ ⎜⎝1 − N ⎟⎠S i =1
2 i
= 0,000449 +
1 0,17785 200 2
=0,0213 Calculul erorii limită Δ w~pstr = z ⋅ σ w~pstr =1,96*0,0213=0,04175 Intervalul de încredere: ~ ~ ~ pstr < X < w pstr + Δ w ~ pstr 0,21325 < X < 0.29675 w pstr − Δ w Se garantează cu o probabilitate de 95% cel puţin 21,325% şi cel mult 29,675 din studenţi lucrează.
Probleme propuse Problema 1
În rândul elevilor claselor a XII dintr-un liceu se va realiza un sondaj stratificat Organizatorii sondajului propun criteriul de stratificare sexul, selecţia unităţilor din fiecare strat urmând să se realizeze după procedeul simplu aleator fără revenire. Pe baza datelor din evidenţa secretariatului s-a calculat, pornind de la variabila „media clasei a XI”, media şi dispersia pe fiecare strat. Rezultatele se găsesc în tabelul 2.15. sex masculin feminin
număr elevi(pers.) 135 165
vârsta medie (ani) 8,2 8,9
Tabel 2.15 Dispersia 3,9 4,8
Se cere: 1. Să se calculeze volumul eşantionului pentru o probabilitate de 95% şi o eroare limită maximă admisă de ±3% din valoarea notei medii a elevilor. 2. Să se calculeze volumul eşantioanelor pe fiecare strat. 3. Dacă sondajul organizat ar fi simplu aleator fără revenire ce volum de eşantion ar fi necesar în aceleaşi condiţii de eroare şi probabilitate. Problema 2
În rîndul salariaţilor unei instituţii cu 1010 de angajaţi urmează să se realizeze un sondaj având drept obiectiv principal caracterizarea mediului de lucru. Deoarece se urmăreşte evidenţierea caracteristicilor fiecărui departament se va utiliza un plan de sondaj stratificat. Informaţiile necesare aplicării planului de sondaj au fost preluate de la compartimentul resurselor umane şi sunt prezentate în tabelul 2.16. Se cere: 1. Să se calculeze volumul eşantionului pentru o probabilitate de 95% şi o eroare limită de ±3%. 2. Deoarece realizarea sondajului pentru volumul calculat la punctul 1 necesită cheltuieli prea mari s-a propus reducerea acestuia cu 20%. Care va fi eroarea limită ce va trebui acceptată în această situaţie? 3. Să se calculeze volumul eşantioanelor pe fiecare strat pornind de la volumul eşantionului calculat la punctul 2. 4. Dacă sondajul organizat ar fi simplu aleator fără revenire ce volum de eşantion ar fi necesar în aceleaşi condiţii de eroare şi probabilitate cu cele de la punctul 2. Departament I II III IV V VI Total
Număr salariaţi (pers) 80 190 110 150 260 220 1010
Tabel 2.16 Ponderea salariaţilor cu studii superioare (%) 92 63 75 86 15 19
Problema 3
În urma unui sondaj în rândul agenţilor economici din judeţul Bacău, realizat după un plan stratificat proporţional, utilizînd drept criteriu de stratificare forma de proprietate, sau obţinut datele centralizate în tabelul 2.17. Tabel 2.17 Informaţii obţinute din eşantion Forma de proprietate
Număr agenţi economici Număr agenţi economici în populaţie în eşantion
CA medie (mld. lei)
Dispersia CA.
publică
150
37
124
108
privată
459
113
56
26
mixtă
201
50
75
31
Se cere: 1. Să se estimeze cu o probabilitate de 0,9545 cifra medie de afaceri /agent economic atât pe fiecare strat cât şi la nivelul întregului judeţ. 2. Ce volum de eşantion ar fi fost necesar pentru a estima cifra medie de afaceri în aceleaşi condiţii de eroare şi probabilitate dacă s-ar realiza un sondaj simplu aleator fără revenire. Problema 4
Într-o localitate cu 109000 locuitori cu vârsta de 18 ani si peste s-a realizat un sondaj. Metoda de culegere a datelor a fost interviul prin telefon. Deoarece nu se putea cunoaşte sexul persoanei chestionatee decât în momentul desfăşurării interviului nu s-a putut realiza o stratificare pe acest criteriu. Pentu îmbunătaţirea estimaţiilor s-a recurs la o poststratificare. Datele centralizate sunt prezentate în tabelul 2.18 Se cere: 1. Să se estimeze pentru o probabilitate de 0,95 numărul mediu de ore pe zi petrecute la televizor şă procentul celor care desfăşoară o activitate secundară ştiind că strucura populaţiei de 18 ani şi peste pe sexe este:53% feminin şi 47% masculin. Tabel 2.18 Sex
Număr persoane în eşantion
M F Total
202 248 450
Numărul mediu de ore pe zi petrecute la televizor (h/pers.) 2,3 1,9
Dispersia
Ponderea celor care desfăşoară o activitate secundară(%)
0,19 0,22
23 12
Sondajul de serii Notaţii utilizate: R = numărul de unităţi complexe (serii) din populaţie; r = numărul de unităţi complexe (serii) din eşantion; N = numărul de unităţi simple (indivizi) din populaţie; n = numărul de unităţi simple (indivizi) din eşantion; Nj= numărul de unităţi simple din seria j; Tj= totalul variabilei de interes pentru toate unităţile seriei j; N = mărimea medie a unei serii în populaţie; n = mărimea medie a unei serii în eşantion; N
T=
∑
Yi este totalul din populaţie; T =
i =1
Y=
1 N
N
R
Nj
∑Y = ∑ N Y i
i =1
j
1 R
N
∑Y
i
este totalul mediu pe serie;
i =1
este nivelul mediu pe fiecare unitate simplă (individ)
j=1
unde Y j este nivelul mediu pe fiecare serie. Sumarul formulelor necesare calculării estimatorilor parametrilor populaţiei şi a erorilor de reprezentativitate este prezentat în tabelul 3.1
Probleme rezolvate Problema 1
Studenţii unei facultăţi sunt împărţiţi în 200 de grupe. Fiecare grupă este formată dintr-un număr egal de studenţi (11). S-a realizat un sondaj de serii, procedeul de selecţie a grupelor fiind simplu aleator fără revenire, cu probabilităţi egale. Rezultatele sunt prezentate în tabelul 3.2. Tabel 3.2 seria
media seriei
seria
media seriei
1 2 3 4 5 6 7 8 9 10
6.16 6.18 6.27 5.18 6.73 6.82 4.64 6.55 5.64 5.45
11 12 13 14 15 16 17 18 19 20
6.47 5.73 5.45 6.27 6.55 5.36 6.55 6.73 6.27 5.27
Tabel 3.1 Tip sondaj
Tip variabilă
Estimator
Cantitativă
ˆ 1 r Y = ∑Y j r j =1
Eroare reprezrentativitate
σˆ = Y
Serii de dimensiune egală selectate aleator nerepetat cu probabilităţi egale
R − r δ2 ≈ R r
R − r δˆ 2 R r
r ⎛ ˆ⎞ ∑ ⎜⎜ Y j − Y ⎟⎟ i =1 ⎠ cu δˆ 2 = ⎝ r −1
r
Calitativă
Cantitativă
r ˆ = 1 ∑w w j r j =1
r ˆ Y = ∑ N jY j j =1
r
∑Nj
j =1
σ wˆ =
r
ˆ = ∑N w w j j
Cantitativă
r ˆ Y = ∑ N jY j
Serii de dimensiune diferită selectate aleator cu probabilităţi proporţionale cu talia Calitativă
j =1
j =1
r
ˆ = ∑N w w j j j =1
r
∑Nj
j =1
r
∑Nj
j =1
r
∑Nj
j =1
(
2 ∑ w j − wˆ R − r δˆ p 2 i =1 ˆ cu δ p = R r r −1
)
2
σˆ =
2 r ⎛ ˆ R − r 1 δˆ T 2 ⎞ ⋅ 2⋅ cu: δˆ T 2 = ∑ ⎜⎜ T j − Y N j ⎟⎟ r − 1 R r N j =1⎝ ⎠
σ wˆ =
r R − r 1 δˆ T 2 ⋅ 2⋅ cu: δˆ T 2 = ∑ T j − wˆ N j R r j =1 N
Y
Serii de dimensiune diferită selectate aleator nerepetat cu probabilităţi egale Calitativă
2 R − r δp ≈ R r
2
(
σˆ =
r Nj ⎛ ˆ⎞ 1 ) ⋅ ⎜⎜ Y j − Y ⎟⎟ ∑ (1 − r r (r − 1) i =1 N ⎝ ⎠
σ wˆ =
r Nj 1 ) ⋅ w j − wˆ ∑ (1 − r r (r − 1) i =1 N
Y
(
)
2
2
)
2
r −1
Se cere: 1. Să se estimeze nota medie a studenţilor cu o probabilitate de 95%. 2. Ştiind că raportul de corelaţie inter-serii este de 9% ce volum de eşantion ar fi fost necesar dacă s-ar fi realizat un sondaj simplu aleatoriu fără revenire? Comentaţi rezultatul! Rezolvare:
Calculele necesare sunt sistematizate în tabelul 3.3 Tabelul 3.3 seria
Yj
ˆ⎞ ⎛ ⎜ Yj − Y ⎟ ⎠ ⎝
1 2 3 4 5 6 7 8 9 10 Total
6.16 6.18 6.27 5.18 6.73 6.82 4.64 6.55 5.64 5.45
0.02 0.03 0.07 0.69 0.51 0.65 1.90 0.28 0.14 0.31
2
seria
Yj
ˆ⎞ ⎛ ⎜ Yj − Y ⎟ ⎠ ⎝
11 12 13 14 15 16 17 18 19 20
6.47 5.73 5.45 6.27 6.55 5.36 6.55 6.73 6.27 5.27 120.27
0.21 0.08 0.31 0.07 0.28 0.42 0.28 0.51 0.07 0.55 7.38
2
1. Fiind vorba de un sondaj de serii de dimensiune egală şi cunoscută estimarea mediei se face astfel: ˆ 1 Y= r
r
∑Y
j
=
j=1
120,27 = 6,01 reprezintă estimaţia notei medii; 20
r
δˆ 2 =
ˆ⎞ ⎛ ⎜ Yj − Y ⎟ ⎠ i =1 ⎝
∑
r −1 R − r δˆ 2
2
=
7,38 = 0,39 19
200 − 20 0,39 ⋅ = 0,1336 Y R r 20 20 Nota medie se situează în următorul interval de încredere: ˆ ˆ Y−Δˆ < Y < Y+Δˆ ⇒ σˆ ≈
Y
=
Y
6,01 − 1,96 ⋅ 0,1336 < Y < 6,01 − 1,96 ⋅ 0,1336 = 6,01 ± 0,262 2. În cazul sondajului de serii numărul de elemente simple ce au format eşantionul a fost de 220. Relaţia de calcul pentru sondajul simplu aleator fără revenire este: z 2σ 2 z 2S 2 1,96 2 ⋅ 4,41 ≈ = = 225 n= 2 2 2 2 ⋅ z σ zS 1 , 96 4 , 41 2 0,262 + Δ2x + Δ2x + 2200 N N 2 0,397 variatia dintre grupe δˆ ⇒ S2 = 2 = = 4,41 η2 = 0,09 variatia totală η Observăm că, pentru aceeaşi eroare de reprezentativitate şi aceeaşi probabilitate de garantare a rezultatelor diferenţa în ceea ce priveşte dimensiunea eşantionului în
urma aplicării celor două metode este nesemnificativă. Nu trebuie să neglijăm însă principalul avantaj al sondajului de serii: reducerea substanţială a cheltuielilor. Problema 2
Studenţii unei facultăţi sunt împărţiţi în 100 de grupe. Fiecare grupă este formată dintr-un număr egal de studenţi (16). S-a realizat un sondaj de serii, procedeul de selecţie a grupelor fiind simplu aleator fără revenire, cu probabilităţi egale. Rezultatele sunt prezentate în tabelul 3.4. Ponderea studenţilor care doresc Seria să participe la cursul facultativ (%) 1 60 2 54 3 56 4 62 5 63 6 50 7 49 8 58
Tabel 3.4 Ponderea studenţilor care doresc să participe la cursul facultativ (%) 55 58 59 63 62 64 62 61
seria
9 10 11 12 13 14 15 16
Se cere: 1. Să se estimeze ponderea studenţilor care doresc să participe la cursul facultativ cu o probabilitate de 95%. 2. Ştiind că raportul de corelaţie inter-serii este de 12% ce volum de eşantion ar fi fost necesar dacă s-ar fi realizat un sondaj simplu aleator fără revenire? Rezolvare Tabelul 3.5
(w
Seria
wj
1 2 3 4 5 6 7 8 Total
0.6000 0.5400 0.5600 0.6200 0.6300 0.5000 0.4900 0.5800
j
ˆ −w
0.0002 0.0020 0.0006 0.0012 0.0020 0.0072 0.0090 0.0000
)
2
seria
wj
9 10 11 12 13 14 15 16
0.5500 0.5800 0.5900 0.6300 0.6200 0.6400 0.6200 0.6100 9.3600
1. Calculele necesare sunt sistematizate în tabelul 3.5 Estimatorul în cazul unei variabile cantitative se calculează astfel: ˆ =1 w r
r
∑w j=1
j
=
9.36 = 0.585 16
(w
j
ˆ −w
0.0012 0.0000 0.0000 0.0020 0.0012 0.0030 0.0012 0.0006 0.0318
)
2
Eroroarea de reprezenzentativitate este: 2 2 R − r δp R − r δˆ p 100 − 16 0.0021 = ⋅ = 0.01055 unde ≈ σ wˆ = R r R r 100 16 r
∑ (w
j
ˆ −w
)
2
0.0318 = 0.0021 16 − 1 r −1 Eroarea limită corespunzătoare probabilităţii de 0,95 este: Δ wˆ = z ⋅ σ wˆ = 1,96 ⋅ 0,01055 =0,0207 δˆ p 2 =
i =1
=
Intervalul de încredere: ˆ −Δˆ < P< w ˆ +Δˆ ⇒ w w w
0,585 − 0,0207 < P < 0,585 + 0,0207
0,5643 < P < 0,6057 Garantăm cu o probabilitate de 95% că cel puţin 56,43% şi cel mult 60,57% din studenţi doresc să participe la cursul facultativ. 2. În cazul sondajului de serii numărul de elemente simple ce au format eşantionul a fost de 256. Relaţia de calcul pentru sondajul simplu aleator fără revenire este: n=
z ⋅2 S 2 Δ2w + z ⋅ S 2 N
=
1,96 2 ⋅ 0,585 ⋅ (1 − 0,585) 0,0207 2 + 1,96 2 ⋅ ⋅0,585 ⋅ (1 − 0,585) 1600
≈ 922
studenţi
Deoarece variaţia dintre serii este foarte mică (raportul de corelaţie inter-serii fiind doar 0,87) sondajul de serii se dovedeşte foarte eficient. Problema 3
O localitate este formată din 415 gospodării(serii). Numărul de elemente dintr-o serie (membrii) este diferit şi nu se cunoaşte nivelul mediu al acestuia pentru toate cele 415 gospodării. Pentru a estima venitul mediu pe persoană se extrage în mod aleator un eşantion format din 25 de serii. Datele centralizate sunt prezentate în tabelul 3.6.
Seria
Numărul de rezidenţi
venit total pe serie (mil. lei)
seria
Numărul de rezidenţi
1 2 3 4 5 6 7 8 9 10 11 12 13
8 12 4 5 6 6 7 5 8 3 2 6 5
32 42 19 22 27 26 27 21 30 15 10 26 20
14 15 16 17 18 19 20 21 22 23 24 25 Total
10 9 3 6 5 5 4 6 8 7 3 8 151
Tabel 3.6 venit total pe serie (mil. lei)
30 32 12 25 18 21 17 22 30 25 14 29 592
Se cere să se estimeze venitul mediu pe gospodărie şi venitul mediu pe persoană cu o probabilitate de 95%. Rezolvare
Este vorba de un sondaj de serii de dimensiune diferită selectate după un procedeu de selecţie cu probabilităţi egale. Calculele sunt sistematizate în tabelul 3.7 Tabel 3.7 Seria
Nj
Tj
1 2 3 4 5 6 7 8 9 10 11 12 13 Total
8 12 4 5 6 6 7 5 8 3 2 6 5
32 42 19 22 27 26 27 21 30 15 10 26 20
ˆ ⎛ ⎞ ⎜T j − Y j N j ⎟ ⎝ ⎠ 0.40419 25.4657 11.0083 5.74729 12.0883 6.13464 0.19688 1.95259 1.86115 10.4873 4.66102 6.13464 0.15789
2
seria
Nj
Tj
14 15 16 17 18 19 20 21 22 23 24 25
10 9 3 6 5 5 4 6 8 7 3 8
30 32 12 25 18 21 17 22 30 25 14 29
ˆ ⎛ ⎞ ⎜T j − Y j N j ⎟ ⎝ ⎠ 84.7375 10.7897 0.05684 2.181 2.56848 1.95259 1.73681 2.32007 1.86115 5.97171 5.01048 5.58962
151
592
211.07
2
Estimatorul mediei populaţiei este: r
ˆ Y=
r
∑T
r
∑N Y ∑N j
j=1
j
j=1
j
=
j
j=1 r
∑N
=
595 = 3,94 mil. lei 151
j
j=1
Deoarece nu se poate calcula mărimea medie seriilor din populaţie N se va estima cu ajutorul mărimii medii a seriilor din eşantion n . r 151 n= Nj r = = 6,04 25 j=1
∑
Estimarea dispersia totalurilor seriilor faţă de totalul mediu este: r 2 ˆ ⎛ ⎞ − T Y N ⎜ j j j⎟ ⎝ ⎠ 196,143 j 1 = 2 δˆ T = = = 7,05 24 r −1 Eroarea medie de reprezentativitate este: 2 R − r 1 δˆ T 415 − 25 1 7,05 σˆ = ⋅ 2⋅ = ⋅ ⋅ = 0,085 Y R n r 415 6,04 2 25 Eroarea limită maximă admisă este: Δ ˆ = z ⋅ σ ˆ = 1,96 ⋅ 0,085 = 0,1666 mil. lei
∑
Y
Y
Intervalul de încredere pentru venitul mediu pe o persoană este: ˆ ˆ Y − Δ ˆ < Y < Y + Δ ˆ ⇒ 3,94 - 0,1666 < Y < 3,94 + 0,1666 Y
Y
3,774 < Y < 4,107 garantăm cu o probabilitate de 95% că venitul mediu pe o persoană în această localitate este de cel puţin 3,774 ,il. Lei şi cel mult 4,107 mil lei. Intervalul de încredere pentru estimarea venitului mediu pe o gospodărie: ⎛ˆ ⎞ ⎛ˆ ⎞ n ⋅ ⎜ Y − Δ ˆ ⎟ < n ⋅ Y < n ⋅ ⎜ Y + Δ ˆ ⎟ 6,04 ⋅ 3,774 < T < 6,04 ⋅ 4,107 22,793 < T < 24,107 Y⎠ Y⎠ ⎝ ⎝
Venitul mediu al unei gospodării se încadrează în intervalul: (22,793; 24,107) mil lei. Problema 4
Studenţii din anul terminal mai uneu universităţi sunt repartizaţi pe 140 grupe. În vederea realizării uneui studiu s-a selectat aleator un eşantion de 14 grupe. Numărul de studenţi dintr-o grupă este diferit iar nivelul mediu al acestuia pentru toate cele 140 de grupe este de 18,2 studenţi. Datele obţinute în urma prelucrării sunt centralizate în tabelul 3.8.
Seria
Nj
1 2 3 4 5 6 7
15 18 18 22 15 16 15
Ponderea studenţilor care au un loc de muncă (%) 66.7 66.7 61.1 45.5 40.0 62.5 73.3
seria
Nj
8 9 10 11 12 13 14
18 17 23 24 16 22 19
Tabel 3.8 Ponderea studenţilor care au un loc de muncă (%) 44.4 52.9 39.1 58.3 50.0 54.5 52.6
Se cere 1. Să se estimeze procentul studenţilor care au deja un loc de muncă pentru o probabilitate de 95%. 2. Să se estimeze numărul studenţilor care lucrează pentru aceeaşi probabilitate. Rezolvare
Seriile sunt de dimensiuni diferite iar procedeul de selecţie simplu aleator cu probabiulităţi egale. Calculele sunt sistematizate în tabelul 3.9 1. În cazul unei variabile calitative estimatorul se calculează după relaţia
ˆ = w
r
r
r
r
∑ N w ∑ N =∑T ∑ N j
j=1
j
j
j=1
j
j=1
j=1
j
=
140 = 0,5426 258
Estimarea dispersia totalurilor seriilor faţă de totalul mediu este:
δˆ T 2 =
r
∑ (T − wˆ N )
2
j
j
j
r −1 =
j=1
45,0257 = 3,4635 14 − 1 Tabelul 3.9
Seria
Nj
wj
Tj
1 2 3 4 5 6 7 Total
15 18 18 22 15 16 15
0.667 0.667 0.611 0.455 0.400 0.625 0.733
10 12 11 10 6 10 11
(T
j
− wˆ j N j 3.461 4.984 1.519 3.756 4.578 1.737 8.182
)
2
seria
Nj
wj
Tj
8 9 10 11 12 13 14
18 17 23 24 16 22 19 258
0.444 0.529 0.391 0.583 0.500 0.545 0.526
8 9 9 14 8 12 10 140
(T
j
− wˆ j N j
)
2
3.124 0.051 12.115 0.954 0.465 0.004 0.096 45.0257
Eroarea medie de reprezentativitate este: 2 R − r 1 δˆ T 140 − 14 1 3,4635 σ wˆ = ⋅ 2⋅ = ⋅ ⋅ = 0,0259 2 R N r 140 18,2 14 Eroarea limită maximă admisă este: Δ wˆ = z ⋅ σ wˆ = 1,96 ⋅ 0,0259 = 0,0507 Intervalul de încredere : ˆ −Δˆ < P< w ˆ + Δ ˆ ⇒ 0,5426 - 0,0507 < P < 0,5426 + 0,0507 w w w 0,4919 < p < 0,5934 Garantăm cu o probabilitate de 95% că cel puţin 49,19% şi cel mult 59,34% din studenţii anului terminal au deja un loc de muncă.
2. Calculăm numărul de studenţi din anul terminal. N = N ⋅ R = 18,2 ⋅ 140 =2548 persoane Intervalul de încredere pentru estimarea numărulzui de studenţi care lucrează: ˆ −Δ ˆ < T < N⋅ w ˆ +Δˆ N⋅ w 1253 < T < 1512 persoane. w w
(
)
(
)
Cel puţin 1253 şi cel 1512 de studenţi au un loc de muncă. Problema 5
La o facultate particulară cele 171 de cadre didactice sunt repartizate pe 8 catedre (unităţi complexe numite serii) prezentate în tabelul 3.10. Pentru a realiza un sondaj în rândul acestora s-a selectat un eşantion format din trei serii, utilizându-se procedeul de selecţie cu revenire, cu probabilităţi proporţionale cu talia seriei. Numerele aleatoare generate sunt: 73, 112, 163. Catedră Nr. profesori
1 16
2 19
3 27
4 18
5 27
6 25
7 10
Tabel 3.10 8 29
În urma culegerii datelor din cele 3 catedre ce au intrat în eşantion s-au obţinut următoarele valori: salariul mediu: Y1 = 22,5 mil lei, Y2 = 20,25 mil lei, Y3 = 23,15 mil lei ponderea profesorilor care colaborează cu alte universităţi: w 1 = 25%, w 2 = 18%, w 3 = 19% Se cere: 1. Precizaţi care sunt cele trei unităţi complexe ce formează eşantionul. 2. Să se estimeze salariul mediu si fondul mediu de salarii pe o catedră pentru o probabilitate de 0,95. 3. Să se estimeze procentul şi numărul cadrelor didactice ce colaborează cu alte universităţi pentru o probabilitate de 0,95. Rezolvare
1. Este necesar să determinăm care sunt unităţile complexe ce formează eşantionul. Pentru aceasta, considerând că mărimea unei unităţi complexe este dată de numărul de profesori, vom calcula valoarea cumulată a mărimii seriei (vezi tabelul 3.11). În funcţie de fiecare număr aleator se va alege o unitate complexă. Aceasta va fi aceea pentru care valoarea cumulată este prima mai mare sau cel mult egală cu numărul aleator.Unităţile care vor intra în eşantion sunt: 4, 6 şi 8. Catedră Nr. profesori cumul Selecţie
1 16 16
2 19 35
3 27 62
4 18 80 X
5 27 107
6 25 132 x
Tabel 3.11 8 29 171 x
7 10 142
2. Calculele necesare sunt sistematizate în tabelul 3.12. Calculăm estimatorul salariului mediu ca medie ponderată a salariului mediu obţinut pentru unităţile ce au format eşantionul.
ˆ Y=
r
∑
r
N j Yj
j=1
∑N
j
j=1
1523,6 = 21,98 mil. lei 72 Tabelul 3.12
Seria
Nj
Yj
wj
YjN j
wjN j
1 1 2 3 Total
2 18 25 29 72
3 22.5 20.25 23.15
4 0.25 0.18 0.19
5 405 506.25 671.35 1582.6
6 4.5 4.5 5.51 14.51
ˆ⎞ ⎛ ⎜Y j − Y ⎟ ⎝ ⎠ 7 0.2698 2.9948 1.3676
2
(1 − r
Nj N
8 0.6842 0.5614 0.4912
)
col.7* col 8
9 0.1846 1.6813 0.6718 2.5377
(w
)
col.10* col 8
10 0.0023 0.0005 0.0001
11 0.0016 0.0003 0.0001 0.0019
j
− wˆ
2
Eroarea de reprezentativitate este: σˆ = Y
1 r (r − 1)
r
∑ i =1
Nj
2
ˆ⎞ 1 ⎛ (1 − r ) ⋅ ⎜ Yj − Y ⎟ = 2,5277 =0,65 mil. lei N ⎝ 3(3 − 1) ⎠
Calculăm eroarea limită maximă admisă: Δ ˆ = z ⋅ σ ˆ = 1,96 ⋅ 0,65 = 1,27 mil. lei Y
Y
Intervalul de încredere pentru salariul mediu este: ˆ ˆ Y − Δ ˆ < Y < Y + Δ ˆ 20,69 < Y < 23,23 mil. lei Y
Y
Pentru a estima fondul mediu de salarii pe o catedră vom calcula mărimea medie a seriei: R
∑N
j
171 = 21,375 8 R ⎛ˆ ⎞ ⎛ˆ ⎞ N ⋅ ⎜ Y − Δ ˆ ⎟ < N ⋅ Y < N ⋅ ⎜ Y + Δ ˆ ⎟ ⇒ 442 < T < 497 Y Y ⎝ ⎠ ⎝ ⎠ Garantând cu o probabilitate de 95% putem afirma că salariul mediu al unui profesor este de cel puţin 20,69 şi cel mult 23,23 mil. lei iar fondul de salarii al unei catedre ia valori în intervalul (442, 497) mil. lei. N =
j =1
=
3. Estimatorul mediei unei variabile calitative se calculează astfel:
ˆ = w
r
r
∑N w ∑N j
j
j=1
j
=
j=1
14,51 =0,2 72
Eroarea de reprezentativitate este: σ wˆ =
1 r (r − 1)
r
∑ (1 − r N ) ⋅ (w Nj
j
ˆ −w
)
2
=
i =1
1 0,0019 =0,018 3(3 − 1)
Calculăm eroarea limită maximă admisă: Δ wˆ = z ⋅ σ wˆ = 1,96 ⋅ 0,018 = 0,035 Intervalul de încredere este: ˆ −Δˆ < P< w ˆ + Δ ˆ 0,165 < P < 0,235 w w w Pentru o probabilitate de 0,95 se poate afirnma că cel puţin 16,5% şi cel mult 23,5% din cadrele didactice colaborează cu alte universităţi. Intervalul de încredere necesar estimării numărului de cadre didactice ce colaborează cu alte universităţi este: ˆ − Δ ˆ < NP < N w ˆ + Δ ˆ 171 ⋅ 0,165 < T < 171 ⋅ 0,235 Nw w w
(
)
(
)
Cel puţin 28 şi cel mult 40 de profesori colaborează cu alte universităţi.
Probleme propuse Problema 1
O societate comercială produce ţevi de diferite profile şi dimensiuni. Un beneficiar a solicitat un anumit tip de ţeavă care, în vederea transportului se încarcă în containere speciale. Fiecare container conţine 10 ţevi. La recepţia mărfii beneficiarul doreşte să verifice lotul de 90 de containere. Pentru aceasta selectează 9 din cele 90 de containere şi ferifică dacă tevile corespund din punct de vedere al calităţii efectuând diverse teste şi măsurători. Rezultatele prelucrării datelor sunt prezentate în tabelul 3.13.
Se cere: 1. Să se estimeze ponderea procentul şi numărul ţevilor care corespund din punct de vedere al finisajului cu o probabilitate de 95%. 2. Să se estimeze lungimea medie a ţevilor pentru o proobabilitate de 0,9545.
seria
Lugimea medie (m)
1 2 3 4 5 6 7 8 9
9.86 9.98 9.57 10.18 10.33 9.82 9.64 9.55 10.14
Tabel 3.13 Procentul ţevilor care corespund din punct de vedere al finisajului 98 92 93 91 89 93 95 98 93
Problema 2
Cei 600 de salariaţi ai unei societăţi de construcţii sunt grupaţi în 35 de echipe de lucru. Numărul de salariaţi dintr-o echipă este diferit. Pentru a realiza un studiu în rândul salariaţilor s-au selectat aleator nerepetat 9 echipe. În urma prelucrării datelor din chestionare s-au obţinut rezultatele prezentate în tabelul 3.14.
seria
Numărul de salariaţi
1 2 3 4 5 6 7 8 9
18 12 24 19 18 17 20 23 16
Tabel 3.14 Numărul mediu de ore lucreate pe zi de un Salariaţi care declară că sunt salariat unici întreţinători ai familiei
7,8 9 8 8,2 8,9 9,3 9,8 8,9 7,9
8 6 7 10 9 6 14 17 10
Se cere: 1. Să se estimeze numărul mediu de ore lucrate de un muncitor corespunzător unei probabilităţi de 0,95. 2. Să se estimeze ponderea salariaţilor unici întreţinători ai familiei pentru aceeaşi probabilitate. Problema 3
În cele 5 licee dintr-o localitate sunt 12 clase a XIIa. Numărul de elevi dintr-o clasă este diferit (vezi tabelul 3.15). Pentru a realiza un sondaj în rândul acestora s-a selectat un eşantion format din patru clase, utilizându-se procedeul de selecţie cu revenire, cu probabilităţi proporţionale cu talia seriei. În urma calculării pasului de eşantionarea şi a alegerii unei număr aleator de debut s-au obţinut următoarele valori (pe baza cărora s-a decis care unităţi intră în eşantion): 38, 113, 188, 263.
Clasa nr. Elevi
1 31
2 25
3 26
4 29
5 32
6 24
7 20
8 29
9 19
10 17
11 23
Tabel 3.15 12 25
În urma culegerii datelor din cele 4 clase ce au intrat în eşantion s-au obţinut următoarele valori: Numărul mediu de ore de studiu individual pe zi: Y1 = 3,4 h Y2 = 3,9 h, Y3 = 4,1 h Y4 = 3,1 h Ponderea elevilor care fumează: w 1 = 32%, w 2 = 20%, w 3 = 25% w 3 = 20% Se cere: 1. Precizaţi care sunt cele patru clase ce formează eşantionul. 2. Să se estimeze numărul mediu de ore de studiu individual pentru o probabilitate de 0,95. 3. Să se estimeze procentul şi numărul elevilor care fumează pentru o probabilitate de 0,95.
Sondajul bistadial Notaţii utilizate: R = numărul de unităţi primare din populaţie; r = numărul de unităţi primare selectate în primul stadiu; Ni = numărul total de unităţi simple (indivizi) din UPi; ni = numărul de unităţi simple (indivizi) extrase din UP ; R
∑N
N=
numărul total de indivizi;
i
i =1 Ni
∑y
Ti =
ij
totalul variabilei pentru unitatea primară UPi;
ij
estimatorul totalului variabilei pentru unitatea primară UPi;
j=1
Tˆi =
ni
∑y j=1
Ni
T=R
∑y
ij
totalul variabilei pentru toate unităţile primare;
j =1
R Tˆ = r
⎛N ⎜ i ⎜ ni ⎝
r
∑ i =1
ni
∑ j=1
⎞ y ij ⎟ estimatorul totalului variabilei studiate. ⎟ ⎠
ˆ estimatorul mediei caracteristicii calculat pentru unitatea primară UP ; Y i i ˆ Y estimatorul mediei caracteristicii la nivelul populaţiei studiate; V(Tˆ) reprezintă variaţia estimatorului totalului variabilei şi stă la baza calculării erorii de reprezentativitate. Este definită de următoarea relaţie:
r ⎞ σ2 ⎛ R 2 ⎜1 − ⎟ 1 ⎝ R⎠ r variaţia dintre UP
V(Tˆ) =
σ12 =
1 R
R
∑ (T − T ) i
2
+
r
2
⎛ n ⎞ σ 2,i unde: N i2 ⎜⎜1 − i ⎟⎟ N n i i ⎝ ⎠ i =1 variaţia din interiorul UP R r
∑
variaţia în populaţie a totalurilor unităţilor primare.
i =1
Deoarece aceasta nu se cunoaşte se va utiliza estimatorul acesteia: σˆ 12
1 = r −1
r
∑ (T − Tˆ ) i
i =1
2
σ 22,i = σˆ 22,i
1 Ni
Ni
∑ (y
ij
− y i ) 2 variaţia din interiorul unităţii primare UPi
j=1
1 = ni −1
ni
∑ (y
ij
− yˆ i ) 2 estimatorul variaţiei din interiorul unităţii primare
j=1
UPi.
Eroarea medie de reprezentativitate se va calcula pe baza estimaţiei variaţiei estimatorului valorii totale după relaţia: ˆ (Tˆ) = σ Tˆ = V
r ⎞ σˆ 2 R R ⎜1 − ⎟ 1 + r ⎝ R⎠ r 2⎛
r
∑ i =1
⎛ N i2 ⎜⎜1 − ⎝
ni Ni
2
⎞ σˆ 2,i ⎟⎟ ⎠ ni
Probleme rezolvate Problema 1
Se realizează un sondaj după un plan bistadial într-o localitate care are populaţia de 18 ani peste de 48000 . Unităţile primare sunt reprezentate de secţiile de votare (27) şi au fost selectate după un procedeu aleator cu probabilităţi egale fără revenire. În tabelul 4.1. sunt prezentate rezultatele obţinute în urma prelucrării datelor eşantioanelor din fiecare unitate primară ce a fost selectată în eşantion. nr. pers. nr. pers. din venitul mediu selectate din Secţia secţia i (mil lei) secţia i 1 2116 43 2.8 2 2430 43 2.5 3 2268 43 2.6 4 2346 52 3.8 5 1750 42 4.2 6 2386 52 4.1 7 2180 46 3.7 8 1534 45 3.5 9 1598 42 3.4 10 2391 52 2.7 11 1295 52 2.9
dispersia după variabila venit 0.04 0.0576 0.16 0.09 0.25 0.16 0.1089 0.01 0.09 0.04 0.0484
Tabelul 4.1 nr. pers. care petrec la televizor mai mult de 3 h/zi 20 25 24 28 31 36 28 29 33 36 30
Se cere: 1. Să se estimeze venitul mediu din localitate pentru o probabilitate de 0,95. 2. Să se estimeze procentul celor care petrec la televizor mai mult de 3 h/zi pentru aceeaşi probabilitate. Rezolvare
1. Calculăm estimatorul totalului variabilei studiate (venitul total) pe baza calculelor sistematizate în tabelul 4.2. r r ⎛ N ni ⎞ R r R 27 ˆ =R ⎜ i Tˆ = y ij ⎟ = Ni Y Tˆi = ⋅ 73023,4 =179239,25 mil lei i ⎜ ⎟ r i =1 n i j=1 r i=1 r i =1 11 ⎝ ⎠
∑
∑
∑
∑
Tabel 4.2 Secţia
Ni
ni
Yˆi
1 2 3 4 5 6 7 8 9 10 11 Total
2116 2430 2268 2346 1750 2386 2180 1534 1598 2391 1295 22294
43 43 43 52 42 52 46 45 42 52 52 512
2.8 2.5 2.6 3.8 4.2 4.1 3.7 3.5 3.4 2.7 2.9
σˆ 22,i
Tˆi
ˆ (Tˆi − T ) 2
0.04 0.0576 0.16 0.09 0.25 0.16 0.1089 0.01 0.09 0.04 0.0484
5924.8 6075 5896.8 8914.8 7350 9782.6 8066 5369 5433.2 6455.7 3755.5 73023.4
509354.714 317522.005 550105.405 5181583.08 506245.186 9885421.98 2037782.2 1611607.17 1452726.18 33412.5164 8311636.58 30397397
⎛ n ⎞ ⎜1 − i ⎟ ⎟ ⎜ N i ⎠ ⎝
0.98 0.98 0.98 0.98 0.98 0.98 0.98 0.97 0.97 0.98 0.96
⎛ N i2 ⎜⎜1 − ⎝
ni Ni
2 ⎞ σˆ 2 ,i ⎟ ⎟ n ⎠ i
4080.44 7769.85 18776.93 9314.52 17791.67 17135.15 11013.39 507.58 5328.19 4301.96 1498.25 97517.92
Eroarea medie de reprezentativitate se va calcula pe baza estimaţiei variaţiei estimatorului valorii totale după relaţia: r ⎞ σˆ 2 R ⎛ R 2 ⎜1 − ⎟ 1 + r ⎝ R⎠ r
σ Tˆ =
unde σˆ 12 = 1 Tˆ = r
1 r −1
r
∑ Tˆ = i
i =1
r
∑ (Tˆ − Tˆ ) i
i =1
r
∑ i =1
2
=
2 ⎛ n ⎞ σˆ 2,i N i2 ⎜⎜1 − i ⎟⎟ ⎝ Ni ⎠ ni
30397397 = 3039739,7 10
73023,4 = 6638,5 mil. lei 11
Calculăm primul termen al erorii de reprezentativitate indus de selecţia din primul stadiu al planului de sondaj. ⎛ 11 ⎞ 3039739,7 =119378868,2 Termen1=272 ⋅ ⎜1 − ⎟ ⋅ 11 ⎝ 27 ⎠ Al doilea termen al erorii de reprezentativitate este determinat de selecţia ce a avut loc în al doilea stadiu, în interiorul unităţilor primare ce au format eşantionul. 27 Termen2= ⋅ 97517,92 =239362,8 11 Observăm că primul termen al variaţiei estimatorului are o contribuţie substanţială în determinarea mărimii erorii de reprezentativitate. Acesta este motivul pentru care planul de sondaj trebuie să se organizeze astfel încât să se reducă eroarea din primul stadiu. Se recomandă stratificarea unităţilor primare. σ Tˆ = 119378868 + 239362,8 = 10937,012 Intervalul de încredere al totalului este: Tˆ − 1,96 ⋅ σ Tˆ ≤ T ≤ Tˆ + 1,96 ⋅ σ Tˆ
157802,7 ≤ T ≤ 200675,8 mil. Lei
Venitul mediu estimat este: ˆ Tˆ Y = = 3,734 mil. Lei N
Intervalul de încredere al venitului mediu este : 1 ˆ T 1 (T − 1,96 * σ Tˆ ) ≤ ≤ (Tˆ + 1,96 * σ Tˆ ) N N N 3,287 ≤ Y ≤ 4,18 Garantăm cu o probabilitate de 95% că venitul mediu pe o persoană este de cel puţin 3,287 mil. lei şi cel mult 4,18 mil. lei. 2. Se pune problema estimării unei variabile calitative. Calculele sunt prezentate în tabelul 4.3. Tabelul 4.3
Secţia
Ni
1 2116 2 2430 3 2268 4 2346 5 1750 6 2386 7 2180 8 1534 9 1598 10 2391 11 1295 Total 22294
ni
mi
wˆ i
43 43 43 52 42 52 46 45 42 52 52 512
20 25 24 28 31 36 28 29 33 36 30
0.4651 0.5814 0.5581 0.5385 0.7381 0.6923 0.6087 0.6444 0.7857 0.6923 0.5769
σˆ 22,i
Tˆi
ˆ (Tˆi − T ) 2
0.2488 0.2434 0.2466 0.2485 0.1933 0.2130 0.2382 0.2291 0.1684 0.2130 0.2441
984.2 1412.8 1265.9 1263.2 1291.7 1651.8 1327.0 988.6 1255.6 1655.3 747.1 13843.11
75228.67524 23816.57237 54.70016007 22.7172322 1102.383243 154749.1181 4691.155746 72838.84794 8.369917026 157484.5118 261477.9275 751474.9792
⎛ n ⎞ ⎜1 − i ⎟ ⎜ ⎟ N i ⎠ ⎝
⎛ N i2 ⎜⎜1 −
0.98 0.98 0.98 0.98 0.98 0.98 0.98 0.97 0.97 0.98 0.96
⎝
ni Ni
2 ⎞ σˆ 2 ,i ⎟ ⎟ n ⎠ i
25378.59 32829.62 28942.27 25720.57 13757.28 22813.07 24088.40 11630.56 9967.70 22909.85 7555.70 225593.60
Calculăm estimatorul totalului variabilei studiate (numărul persoanelor care petrec la televizor mai mult de 3 h/zi
R Tˆ = r
r
∑
ˆi = Ni w
i =1
R r
r
∑ Tˆ
27 ⋅ 13843,11 = 33978,54 pers. 11
=
i
i =1
Eroarea medie de reprezentativitate se va calcula pe baza relaţiei: r ⎞ σˆ 2 R R ⎜1 − ⎟ 1 + r ⎝ R⎠ r 2⎛
σ Tˆ =
unde σˆ 12 = 1 Tˆ = r
1 r −1
r
∑ Tˆ = i
i =1
r
∑ (Tˆ − Tˆ ) i
i =1
r
∑ i =1
2
=
⎛ N i2 ⎜⎜1 − ⎝
ni Ni
2 ⎞ σˆ 2,i ⎟⎟ ⎠ ni
751474,9792 = 75147,49792 10
13843,11 = 1258,465 pers. 11
⎛ 11 ⎞ 75147,49792 =2951247,191 Termen 1=272 ⋅ ⎜1 − ⎟ ⋅ 11 ⎝ 27 ⎠ 27 Termen 2= ⋅ 225593,60 =553729,7456 11 Observăm că şi în acest caz primul termen al variaţiei estimatorului are o contribuţie substanţială în determinarea mărimii erorii de reprezentativitate. stadiu. σ Tˆ = 2951247,191 + 553729,7456 = 1872,158363
Intervalul de încredere al totalului este: Tˆ − 1,96 ⋅ σ Tˆ ≤ T ≤ Tˆ + 1,96 ⋅ σ Tˆ
30309 ≤ T ≤ 37648 persoane Cel puţin 30309 persoane şi cel mult 37648 persoane petrec cel puţin 3 ore pe zi la televizor. Procentul mediu estimat este: ˆ ˆ = T = 0,70789 w N Intervalul de încredere al procentului mediu este : 1 ˆ T 1 (T − 1,96 * σ Tˆ ) ≤ ≤ (Tˆ + 1,96 * σ Tˆ ) N N N 0,6315 ≤ p ≤ 0,7843 Se garantează cu o probabilitate de 95% că cel puţin 63,15% şi cel mult 78,43% din populaţia ce vârsta de 18 ani şi peste se uită cel puţin 3 ore pe zi la televizor.
Probleme propuse Problema 1
S-a organizat o cercetare în rândul unităţilor sanitare(spitale) cu privire la atitudinea personaluluimedical faţă de reforma sistemului sanitar. Studiul s-a desfăşurat după un plant de sondaj bistadial. În primul stadiu din 132 de spitale s-au selectat 12. Numărul de persoane intervievate din fiecare unitate primară ce a format eşantionul, precum şi informaţiile obţinute în urma prelucrării datelor sunt prezentate în tabelul nr. 4.4. Tabel 4.4 Unitatea primară
Personal medical
1 2 3 4 5 6 7 8 9 10 11 12
102 245 56 67 98 76 112 145 160 189 79 87
Pers. ce consideră satisfăcătoare Personal medical selectat dotarea cu aparatură asigurarea cu materiale medicală consumabile 42 38 32 58 55 50 30 45 47 32 27 25 35 30 28 33 30 29 44 40 37 47 40 38 50 42 38 53 48 45 33 27 25 34 26 28
Se cere: 1. Să se estimeze cu o probabilitate de 95% procentul personalului medical ce consideră satisfăcătoare dotarea cu aparatură medicală. 2. Să se estimeze cu o probabilitate de 95% procentul personalului medical ce consideră satisfăcătoare asigurarea cu materiale consumabile.
Problema 2
În rândul studenţilor studenţilor Academiei de Studii Economice s-a realizat o cercetare ce a avut ca obiectiv caracterizarea modului de petrecere a timpului liber. Studiul realizat a avut la baza un sondaj bistadial unităţile primare fiind considerate seriile iar unităţile secundare studenţii. În toate facultăţile ASE sunt 125 de serii din care au fost selectate 12. În urma prelucrării datelor s-au obţinut inforţiile din tabelul 4.5. Tabel 4.5 Seria
studenţi în serie
1 2 3 4 5 6 7 8 9 10 11 12
87 93 78 77 85 88 94 87 83 72 70 75
studenţi în venit mediu pe studenţi care eşantion lună (mil. Lei) practică sport 32 34 30 30 32 32 34 32 32 30 30 30
2.6 2.3 2.5 2.4 2.9 3 2.7 2.4 2.9 3 2.6 2.7
6 9 10 7 8 9 13 15 9 8 7 9
studenţi care merg frecvent în excursii/drumeţii 12 15 17 18 19 16 17 15 14 17 16 17
Se cere: 1. Să se estimeze venitul mediu/student pentru o probabilitate de 95,45%. 2. Să se estimeze procentul studenţilor care practică sport si cel al studenţilor care merg frecvent în excursii pentru o probabilitate de 95%.
Sondajul pe bază de eşantioane fixe Sondajele repetate, asupra aceleiaşi probleme, la intervale regulate de timp, urmărind să identifice unele tendinţe, periodicităţi, sau alte elemente dinamice pentru parametrii de interes se numesc şi sondaje pe bază de eşantioane fixe (paneluri) sau sondaje longitudinale. Aceste sondajele presupun iniţial realizarea unui eşantion reprezentativ pentru populaţia studiată. Acest eşantion este de cele mai multe ori realizat după un plan multistadial cu stratificarea unităţilor primare. Unităţile care formează aceste eşantioane pot fi diverse: întreprinderi, magazine, gospodării, persoane. Eşantionul astfel constituit permite strângerea de informaţii cu o anumită regularitate sau la intervale neprecizate de timp.
Probleme propuse Problema 1
În rândul societăţilor comerciale din domeniul de activitate „Hoteluri şi restaurante” se realizează o anchetă periodică ce are la bază un eşantion de tip panel. Pornind de la variabila auxiliară număr salariaţi prezentată în tabelul 5.1 (pentru exemplificare s-au luat doar primele 20 de societăţi comerciale din eşantion) se va verifica eficienţa panelului. Se cere: 1. Să se stabilească gradul de uzură al panelului cu ajutorul metodei coeficientului de corelaţie. 2. Să se verifice eficienţa panelului cu ajutorul testului Student (α=0.05) pentru date înrudite (eşantioane dependente).
Societate comercială
1 2 3 4 5 6 7 8 9 10
Număr salariaţi (pers.) la momentul la momentul verificării realizării eficienţei panelului panelului Yi1 Yi2 13 14 15 14 37 35 44 40 34 30 23 21 21 30 14 17 15 20 16 20
Societate comercială
11 12 13 14 15 16 17 18 19 20
Tabel 5.1 Număr salariaţi (pers.) la momentul la momentul verificării realizării eficienţei panelului panelului
18 17 22 25 28 29 33 43 25 28
22 22 20 25 27 28 31 41 28 30
1. Calculăm valoarea coeficientului de corelaţie după relaţia: n n n n∑i =1 y i1 y i 2 − ∑i =1 y i1 ∑i =1 y i 2 ry1 y2 = 2 n ⎞ ⎛ n n y 2 i1 − n y i1 2 ⎞ ⋅ ⎛ n n y 2 i 2 − y i2 ⎟ ⎟ ⎜ ⎜ ∑i =1 ∑ ∑ ∑ i =1 i =1 i =1 ⎠ ⎠ ⎝ ⎝
(
)
(
)
În funcţie de valoarea coeficientului de corelaţie pot exista următoarele situaţii: o ry1 y2 < 0 ⇒ legătură inversă între valorile variabilei yi la cele două momente de timp. Uzura panelului este foarte mare şi necesită reînnoire totală. o ry1 y2 ≥ 0,9 ⇒ legătură foarte puternică între valorile variabilei yi la cele două momente de timp. ⇒ Panel eficient. Nu este necesară reînnoirea acestuia; o 0,2 < ry1 y2 < 0,9 ⇒ Există o legătură între valorile variabilei yi la cele două momente de timp dar nu foarte puternică ⇒ reînnoirea parţială a panelului. În funcţie de valoarea coeficientului de corelaţie se decide care este proporţia de reînnoire (k). Unii autori consideră că valoarea optimă este de 50%. o 0 ≤ ry1 y2 ≤ 0,2 ⇒ Nu există legătură între valorile variabilei yi la cele două momente de timp. Se poate spune că datele provin din eşantioane independente ⇒ reînnoirea totală a panelului. Calculele necesare aflării coeficientului de corelaţie sunt prezentate în tabelul 5.2. Tabelul 5.2 Societate comercială 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 total
ry1 y2 =
yi1
yi2
yi1 yi2
13 15 37 44 34 23 21 14 15 16 18 17 22 25 28 29 33 43 25 28 500
14 14 35 40 30 21 30 17 20 20 22 22 20 25 27 28 31 41 28 30 515
182 210 1295 1760 1020 483 630 238 300 320 396 374 440 625 756 812 1023 1763 700 840 14167
20 ⋅ 14167 − 500 ⋅ 515
(20 ⋅14196 − 500 )⋅ (20 ⋅14379 − 515 ) 2
2
y
2
i1
169 225 1369 1936 1156 529 441 196 225 256 324 289 484 625 784 841 1089 1849 625 784 14196
y2 i2
196 196 1225 1600 900 441 900 289 400 400 484 484 400 625 729 784 961 1681 784 900 14379
= 0,9384 ≥ 0,9
În aceste condiţii se consideră panelul eficient şi nu este necesară înnoirea acestuia.
2. Utilizarea testului Student pentru date înrudite pornind de la o variabilă auxiliară presupune: H0: y1 = y 2 ; H1: y1 ≠ y 2 Considerăm variabila d i = y i1 − y i 2 ce măsoară diferenţele individuale, pentru care calculăm media şi abaterea medie pătratică (vezi tabelul 5.3). Tabelul 5.3 Societate comercială
yi1
yi2
di
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Total
13 15 37 44 34 23 21 14 15 16 18 17 22 25 28 29 33 43 25 28 25
14 14 35 40 30 21 30 17 20 20 22 22 20 25 27 28 31 41 28 30 25.75
-1 1 2 4 4 2 -9 -3 -5 -4 -4 -5 2 0 1 1 2 2 -3 -2 -0.75
(d
−d)
2
i
0.0625 3.0625 7.5625 22.5625 22.5625 7.5625 68.0625 5.0625 18.0625 10.5625 10.5625 18.0625 7.5625 0.5625 3.0625 3.0625 7.5625 7.5625 5.0625 1.5625 229.75
d = y1 − y 2 = 25 − 25.75 = −0.75 Sd =
∑ (d n
i =1
−d)
2
i
n − 1 = 229.75 / 19 = 3.47737
Statistica testului este: t c =
d
n=
y1 − y 2
n = 0.96455 Sd Sd Valoarea calculată a testului se compară cu cea teoretică corespunzătoare nivelului de semnificaţie ales şi n-1=19 grade de libertate. Valoarea teoretică ce corespunde nivelului de semnificaţie α=0.05 şi numărului de grade de libertate 19 este t=2.093 Deoarece valoarea calculată este mai mică decât cea teoretică se acceptă ipoteza diferenţei nule ceea ce înseamnă că nu există diferenţe semnificative între cele două medii, panelul fiind eficient.
Problema 2
În urma a două anchete succesive realizate pe baza unui panel de 1000 persoanes-au obţinut pentru variabila venit următoarele informaţii: y1 = 3.9 mil. lei preţuri comparabile y2 =4.3 mil lei preţuri comparabile Estimatorul abaterii medii pătratice a variabilei definite d i = y i1 − y i 2 este 5.7 mil. lei preţuri comparabile. Putem spune că este semnificativă statistic creşterea venitului (α=0.05)? Rezolvare
H0: y1 = y 2 ; H1: y1 ≠ y 2 d = y1 − y 2 = 3.9 − 4.3 = −0.4
Statistica testului este: t c =
d
n=
y1 − y 2
n = 2.219 Sd Sd Valoarea calculată a testului se compară cu cea teoretică corespunzătoare nivelului de semnificaţie ales şi n-1=999 grade de libertate. Valoarea teoretică ce corespunde nivelului de semnificaţie α=0.05 şi numărului de grade de libertate 19 este t=1.96. Deoarece valoarea calculată este mai mare decât cea teoretică se respinge ipoteza diferenţei nule ceea ce înseamnă că există diferenţe semnificative între cele două medii, creşterea venitului fiind semnificativă statistic. Problema 3
În urma a două anchete succesive realizate pe baza unui panel de 1600 persoane s-a constat că 27% din cei intervievaţi în primul val au declarat că trăiesc mai bine decât anul trecut faţă 30% care au optat pentru acest răspuns din valul al doilea. În tabelul 5.4 este prezentat tabelul de contingenţă obşinut pe baza datelor din cele două anchete. Tabelul 5.4 A1
A2 mai bine
la fel sau mai prost
Total
mai bine
390
43
433
la fel sau mai prost
90
1077
1167
Total
480
1120
1600
Se cere să se precizeze dacă modificarea procentelor este semnificativă statistic pentru un nivel de semnificaţie α=0.05.
Rezolvare
Pentru a putea aprecia dacă modificările nivelului de mulţumire sunt semnificative s-a construit tabelul de contingenţă cu următoarea formă: A1
A2 mai bine
la fel sau mai prost
Total
mai bine
n11
n12
n1.
la fel sau mai prost
n21
n22
n2.
Total
n.1
n.2
N
Acest tabel este necesat aplicării testului Testul Mc Nemar. H0= p.1= p1. şi H1= p.1≠ p1. Deoarece volumul eşantioanelor din cele două anchete este acelaşi ipotezele se reduc la:H0= n.1= n1. H1= n.1≠ n1. Cum n.1= n11+ n21 iar n1.= n11+ n12 H0 se reduce la a testa n12=n21 Se va utiliza testul χ2 frecvenţa teoretică fiind (n12+n21)/2. 2 2 n12 + n 21 ⎞ ⎛ n12 + n 21 ⎞ ⎛ ⎟ ⎟ + ⎜ n 21 − ⎜n − 2 ( f e − f t )2 ⎝ 12 2 2 ⎠ = (n12 − n 21 ) ⎝ ⎠ 2 χc = ∑ = n12 + n 21 ft n12 + n21 2
χ c2 =
(90 − 43)2
= 16,609 90 − 43 Comparăm rezultatul obţinut cu valoarea teoretică a lui χ2 pentru un nivel de semnificaţie dorit (α=0.05) şi numărul de grade de libertate corespunzător ((l-1)*(c-1)). χ t2,α =0,05;1 = 3.84 . Deoarece χ2c>χ2t se respinge ipoteza nulă si se acceptă ipoteza alternativă, ceea ce denotă că s-a produs o modificare reală a gradului de mulţumire faţă de nivelului de trai actual raportat la perioada precedentă.
Probleme propuse Problema 1
În regiunea de dezvoltare Centru se realizează periodic o anchetă în rândul societăţilor comerciale din sectorul secundar ce are la bază un eşantion de tip panel. Pornind de la variabila auxiliară „cifra de afaceri” prezentată în tabelul 5.5. Se cere: 1. Să se stabilească gradul de uzură al panelului cu ajutorul metodei coeficientului de corelaţie. 2. Să se verifice eficienţa panelului cu ajutorul testului Student (α=0.05) pentru date înrudite.
Cifra de afaceri (mii Euro) la momentul la momentul verificării realizării eficienţei panelului panelului Yi1 Yi2 123 143 560 514 67 135 70 140 790 780 1276 1321 456 530 654 617 987 1038 456 520
Întreprindere
1 2 3 4 5 6 7 8 9 10
Tabel 5.5 Cifra de afaceri (mii Euro) la momentul la momentul verificării realizării eficienţei panelului panelului
Întreprindere
11 12 13 14 15 16 17 18 19 20
45 543 213 25 45 129 333 243 525 728
122 622 520 225 127 50 231 141 328 530
Problema 2
Pentru a analiza cmportamentul de consum s/a construit un panel de 1200 consumatori. În urma a două anchete s-au obţinut următoarele informaţii privind „consumul mediu săptămânal de carne/persoană: y1 = 1.12 Kg/pers. y 2 = 0.98 Kg/pers Estimatorul variaţiei variabilei definite d i = y i1 − y i 2 este 4.2. Se cere: 1. Pentru un nivel de semnificaţie α=0.05 precizaţi dacă este semnificativă statistic diferenţa dintre consumul mediu de carne între cele două valuri. 2. Pe baza răspunsurilor la întrebarea: „Consumaţi produse din soia?” s-a obţinut următorul tabel de contingenţă: Tabel 5.6 A1
A2 DA
NU
Total
DA
230
20
250
NU
82
868
950
Total
312
888
1200
Precizaţi (pentru un nivel de semnificaţie α=0.05) dacă este semnificativă statistic creşterea procentului consumatorilor de produse din soia.
Metode de tratare a nonrăspunsurilor parţiale În sondajele statistice întâlnim două tipuri de non-răspunsuri: non-răspuns parţial (când pentru o unitate din eşantion lipsesc valorile unora dintre variabile) şi nonrăspuns total (când pentru o unitate din eşantion ne lipsesc valorile tuturor variabilelor). Unităţile încadrate la non-răspunsuri totale se numesc non-respondenţi iar cauzele apariţiei lor pot fi: unitatea a fost inaccesibilă, refuzul sau incapacitatea de a răspunde, abandonul cooperării în timpul interviului (prin distrugerea chestionarului) sau pur şi simplu pierderea înregistrărilor pentru unitatea respectivă. Existenţa valorilor lipsă ridică probleme serioase atunci când datele colectate prin sondaj constituie baza unei analize statistice bazate pe metode avansate.
Probleme rezolvate Problema 1
În urma centralizării răspunsurilor obţinute dintr-un sondaj în rândul studenţilor unei universităţi au rezultat datele prezentate în tabelul 6.1. Definirea variabilelor: ¾ STRAT. sondajul s-a realizat după un plan stratificatastfel: 1 anul I, 2 anul II, 3 anul III şi 4 anulIV. ¾ SEX. 1 feminin, 2 masculin. ¾ MEDIE. Este variabilă numerică şi reprezintă media obţinută în sesiunea din iarnă. ¾ NRORE. Este variabilă numerică şi reprezintă numărul de ore de studiu pe săptămână în afara sesiunii. ¾ ACORD. Este variabila obţinută în urma centralizării răspunsurilor la întrebarea: “În ce măsură sunteţi de acord cu modificările survenite în învăţământul superior?”. Codurile reprezintă: 1 dezacord total, 2 dezacord, 3 indiferent, 4 acord şi 5 acord total. Se cere: 1. Să se înlocuiască valorile lipsă ale variabilei NRORE folosind imputaţia predictivă prin mediere globală, imputaţia predictivă prin mediere pe clase şi imputaţia obiectivă. 2. Să se înlocuiască valorile lipsă ale variabilei ACORD folosind imputaţia ”hot-deck”. Rezolvare
1. Notăm cu yij răspunsul pe care îl dă individului i din eşantionul E la întrebarea j (i=1,..,n, j=1,... ,p). Concentrându-ne asupra individul i din eşantion constatăm că vectorului (yi1, ...., yip), format din răspunsurile la întrebările din chestionar, îi lipsesc unele componente (non-răspunsurile). Fiecare poziţie de coordonate (i,j) trebuie tratată separat, prin crearea unei valori y’ij numită ’’valoare atribuită’’ sau ’’imputaţie’’.
Imputaţia predictivă prin mediere globală Aceasta se realizează înlocuind non-răspunsul de pe poziţia (i,j) cu media răspunsurilor care au fost obţinute la întrebarea j. În acest caz avem: r 119 y'ij = y r, j = ∑ y ij r = = 5.17 23 i =1 unde r este numărul răspunsurilor valide la întrebarea j. În urma aplicării acestei metode toate cele 7 valori lipsă se vor înlocui cu 5.17 (vezi tabelul 6.2 variabila NROREIG). Avantajul acestei metode este că înlocuirea valorii lipsă se face cu o valoare probabilă ceea ce îi dă un oarecare grad de stabilitate. Dacă există mulţi respondenţi care nu au răspuns la întrebarea j vom folosi pentru toţi aceeaşi ’’imputaţie’’. Este clar că se produce o subevaluare severă a dispersiei estimatorului pentru media sau totalul caracteristicii yj. Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
STRAT 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4
SEX 1 1 1 1 2 2 1 1 1 1 1 2 2 2 1 1 1 1 1 1 2 2 2 1 1 1 1 2 2 2
MEDIE 7 8.33 6.67 9.67 6.33 7.8 9.67 8 7.2 8.8 6.33 7 8.8 8.2 7.9 8.8 6.67 9.33 8.33 7.7 8.2 5.67 9.2 9.33 8.9 7.8 8.2 8.9 7.9 7.5
NRORE 3 4 3 10
4 11 3 6 4 4 6 5 5
9 6 5 5 9 7 6 7 5 4
Tabel 6.1 ACORD 2 2 3 4 2 1 2 2
4 5 1 1 3 4 4 2 2 2 2 3 2 1 2
Imputaţia predictivă prin mediere clase Această metodă este similară imputaţiei predictive prin mediere globală, cu deosebirea că nu se utilizează o singură ’’imputaţie’’, ci mai multe corespunzătoare unor clase în care a fost împărţită mulţimea respondenţilor. Astfel, partiţionăm mulţimea respondenţilor r la întrebarea j în q clase disjuncte. Identificăm clasa căruia îi k
aparţine individul şi construim imputaţia: y'ij = y rjt = ∑ y ij k i =1
unde t ia valorile 1,..,q iar k este numărul de respondenţi din clasa respectivă,
Deoarece există patru straturi se vor calcula 4 imputaţii. k k 23 32 y'1ij = y rj1 = ∑ y ij k = = 4.6 y'2ij = y rj2 = ∑ y ij k = = 4.57 5 7 i =1 i =1 k k 37 27 y'3ij = y rj3 = ∑ y ij k = = 6.17 y'42ij = y rj4 = ∑ y ij k = = 5.4 6 5 i =1 i =1 În tabelul 6.2 variabila NROREIC este obţinută în urma aplicării acestei metode. Utilizarea acestui tip de imputaţie reduce gradul de subestimare a dispersiei estimatorului. În cazul în care caracteristica este reprezentată pe o scală de intervale sau proporţională calcularea media aritmetică se va înlocui cu o medie de poziţie (mediana în cazul unei variabile ordinale sau modulul pentru variabilele nominale). Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
STRAT 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4
SEX 1 1 1 1 2 2 1 1 1 1 1 2 2 2 1 1 1 1 1 1 2 2 2 1 1 1 1 2 2 2
MEDIE 6 8.33 5.67 9.67 5.33 7.8 9.67 8 7.2 8.8 6.33 6.33 8.8 8.2 7.9 8.8 5.67 9.33 8.33 7.7 8.2 5.67 9.2 9.33 8.9 7.8 8.2 8.9 7.9 7.5
NRORE 2 4 3 10
4 9 3 5 2 3 5 5 5
8 6 4 5 9 7 6 7 4 3
NROREIG 2 4 3 10 5.17 4 9 5.17 3 5 2 3 5 5 5 5.17 5.17 8 6 4 5 5.17 9 5.17 7 6 7 5.17 4 3
NROREIC 2 4 3 10 4.6 4 9 4.57 3 5 2 3 5 5 5 6.17 6.17 8 6 4 5 6.17 9 5.4 7 6 7 5.4 4 3
Tabel 6.2 NROREIO 2 4 3 10 0.49 4 9 5.19 3 5 2 3 5 5 5 6.60 1.09 8 6 4 5 1.09 9 7.53 7 6 7 6.78 4 3
Imputaţia obiectivă La baza acestei metode stă generarea unei ecuaţii de regresie pe baza setului de date ce conţin înregistrări complete ale variabilei ce urmează a fi supuse procesului de imputare. Ecuaţia poate avea următoarea formă: y = b0 + b1 x1 + b2 x 2 + ...... + bk x k unde y este variabila ce urmează a fi imputată pentru valorile date ale variabilelor xi, i=1,…,k corelate cu variabila y. Pentru setul de date ce nu conţine valori lipsă pentru variabila NRORE se stabileşte forma ecuaţiei de regresie ce are ca variabilă independentă MEDIA.În figura 6.1 este reprezentată grafic legătura dintre MEDIE şi NRORE. Nr. ore studiu în funcţie de media obţinută în sesiunea din iarnă 12 10
nr. ore
8 6 4 2 0 0
2
4
6
y = 1.761x - 8.8953
8
10
12 media
Fig. 6.1
Pe baza ecuaţiei de regresie y = 1.761x - 8.8953 se determină imputaţiile cu care se vor înlocui non-răspunsurile variabilei NRORE (vezi tabelul 6.2 variabila NROREIO). 2. Imputaţia „hot-deck este utilizată la scară largă deoarece, spre deosebire de imputaţia prin mediere globală sau pe clase, evită subestimarea dispersiei estimatorului. Pentru aplicarea acestei metode se parcurg următoarele etape: Tabel 6.3 STRAT 1 1 2 2 3 3 4 4
SEX 1 2 1 2 1 2 1 2
ACORD 2 2 2 1 3 2 2 1
Etapa1. Fişierul ce conţine baza de date este în prealabil sortat după caracteristicile demografice, economice sau sociale pe baza cărora se poate pune în evidenţă structura eşantionului. Deoarece în tabelul 6.1 datele sunt deja sortate după STRAT şi SEX se poate trece la etapa următoare. Etapa 2. Un registru de lucru este iniţializat cu valorile aferente câmpurilor cuprinse în prima înregistrare a unei caracteristici după care s-a realizat sortarea. În tabelul 6.3 este prezentat registrul de lucru constituit. Etapa 3. Fişierul (tabelul 6.1) se parcurge înregistrare cu înregistrare şi fiecare câmp este identificat şi verificat să nu conţină valori lipsă. Etapa 4. În cazul în care unul din câmpuri conţine valori lipsă acesta va fi înlocuit cu valoarea corespunzătoare din registru. Rezultatul implementării acestei metode este prezentat în tabelul 6.4. Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
STRAT 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4
SEX 1 1 1 1 2 2 1 1 1 1 1 2 2 2 1 1 1 1 1 1 2 2 2 1 1 1 1 2 2 2
ACORD 2 2 3 4 2 1 2 2
4 5 1 1 3 4 4 2 2 2 2 3 2 1 2
Tabelul 6.4 ACORDM 2 2 3 4 2 1 2 2 2 4 5 1 1 1 3 4 3 4 2
2 2 2 2 3 2 2 1 1 2
Probleme propuse Problema 1
În urma centralizării datelor provenite dintr-un sondaj realizat în rândul şomerilor întegistraţi la ANOFM Bucureşti s-au obţinut datele prezentate în tabelul 6.5. Pentru uşurinţa calculelor sunt prezentate doar 30 de înregistrări. Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
SEX 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2
STUDII 1 1 2 2 2 2 3 3 3 3 3 3 3 3 3 4 4 1 2 2 3 3 3 3 3 3 3 3 4 4
DŞOMAJ 14 10 7 9 4 9
ACORDR 2 2 4 4
5 8 4
2 2
6 7 6 5 2 2 9 6 9 5 6 4 8 6 4 3
2
4 2 1 5 2 2 3 2 2 32 2 4 5 5 5 5
Tabel 6.5 ULTACT 1
1 1 2 3 3 1 2 1 1 2 2 3 1 2 1 3 1 2 4 5 4 4 4
Definirea variabilelor: ¾ SEX. 1 feminin, 2 masculin. ¾ STUDII. 1 fără studii, 2 studii primare, 3 studii medii, 4 studii superioare. ¾ DŞOMAJ. Este variabilă numerică şi reprezintă durata medie a şomajului exprimată în luni. ¾ ACORDR. Este variabila obţinută în urma centralizării răspunsurilor la întrebarea: “În ce măsură sunteţi de acord să participaţi la cursuri de recalificare?”. Codurile reprezintă: 1 dezacord total, 2 dezacord, 3 indiferent, 4 acord şi 5 acord total.
¾ ULTACT Este variabila obţinută în urma centralizării răspunsurilor la întrebarea: “Care este ultima acţiune întreprinsă pentru găsirea unui loc de muncă?”. Codurile reprezintă: 1 m-am înscris la o agenţie autorizată de ocupare a forţei de muncă, 2 am consultat anunţurile din ziare, 3 am apelat la prieteni şi cunoştinţe, mi-am înscris CV pe pagini Web specializate, 5 alte acţiuni.
Se cere: 1. Să se înlocuiască valorile lipsă ale variabilei DŞOMAJ folosind imputaţia predictivă prin mediere globală şi imputaţia predictivă prin mediere pe clase (realizate după variabila STUDII). 2. Să se înlocuiască valorile lipsă ale variabilei ACORDR folosind imputaţia ”hot-deck”. 3. Să se înlocuiască valorile lipsă ale variabilei ULTACT folosind imputaţia predictivă prin mediere pe clase (realizate după variabila STUDII).
Verificarea reprezentativităţii eşantionului Ameliorarea estimatorilor prin post-stratificare Înainte de a trece la analiza statistică şi la interpretarea rezultatelor este important să stabilim dacă eşantioanele sunt sau nu reprezentative pentru populaţiile din care au fost selectate. Dacă diferenţele dintre parametri cunoscuţi din populaţie faţă de valorile estimatorilor obţinuţi pe baza datelor din sondaj sunt semnificative atunci eşantionul nu este reprezentativ. În ciuda eforturilor de a asigura reprezentativitatea eşantionului, în anchetele de mare amploare, realizate la nivel naţional, de cele mai multe ori estimatorii variabilelor auxiliare sunt deplasaţi faţă de parametrii populaţiei. Datorită existenţei corelaţiei dintre aceste variabile şi variabilele de interes putem presupune că şi estimatorii acestora din urmă vor avea aceeaşi problemă. Din acest considerent se impune ameliorarea estimatorilor.
Probleme rezolvate Problema 1
S-a realizat un sondaj în rândul studenţilor unei universităţi partiulare pe un eşantion de 90 persoane. În urma centralizării datelor pentru variabilele auxiliare SEX şi MEDIE (media ultimei sesiuni) au rezultat următoarele informaţii: ponderea fetelor în eşantion este de 67% iar nota medie 7,2 cu o dispersie de 1.42. Se cere să se verifice reprezentativitatea eşantionului stiind că ponderea fetelor în populaţie este e 65% iar nota medie a studenţilor este de 6.98 iar probabilitatea de garantare a rezultatelor este de 95%. Rezolvare
Pentru a vedea dacă există diferenţe semnificative faţă de valoarea cunoscută din populaţie a ponderii fetelor faţă de cea din în eşantion se utilizează testul z (eşantionul este de volum normal) pentru compararea proporţiei din eşantion cu cea din populaţie. Ipotezele testului bilateral sunt: H0: w= p şi H1: w ≠ p . Regiunea critică în cazul testului bilateral este dată de relaţia:
w−p
W:
p ⋅ (1− p) n
>z
1−
α 2
iar valoarea calculată a testului este: z c =
w−p
p ⋅ (1 − p )
=0.398 n
Pentru o probabilitate de garantare a rezultatelor de 95% căruia îi corespunde un nivel de semnificaţie α=0,05 în cazul efectuării unui test bilateral valoarea teoretică este z α =1,96. Deoarece valoarea calculată a testului luată în modul este mai mică decât 1−
2
valoarea teoretică se acceptă ipoteza nulă concluzionându-se că eşantionul este reprezentativ. Pornind de la variabila auxiliară MEDIA, pentru verificarea reprezentativităţii se utilizează testul z pentru compararea mediei unui eşantion cu cea a populaţiei. Ipotezele testului bilateral sunt: H0: x = X 0 şi H1: x ≠ X 0 .
Regiunea critică în cazul testului bilateral este dată de relaţia: W:
x − X0
σ
iar valoarea calculată a testului este: z c =
x − X0
σ2
2
> z
n
1−
α 2
=1.75
n
Valoarea calculată luată în valoare absolută se compară cu cea teoretică de 1,96 corespunzătoare nivelului de semnificaţie ales (α=0,05) şi, deoarece este mai mică decât aceasta se acceptă ipoteza nulă concluzionându-se că eşantionul este reprezentativ. Problema 2
În rândul populaţiei de 160000 persoane (cu vârsta peste 15 ani) dintr-o localitate s-a realizat un sondaj pe un eşantion de 800 persoane privind atitudinea faţă de. În tabelul 7.1 este prezentată structura eşantionului şi structura populaţiei pe grupe de vârstă. Grupe de vârstă 15-24 25-34 35-44 45-54 peste 55 Total
Structura populaţiei (%) 16 20 24 21 19 100
Tabel 7.1 Structura eşantionului (%) 19 23 20 17 21 100
Se cere: 1. Să se verifice reprezentativitatea eşantionului utilizând testul χ2 pentru un nivel de semnificaţie α=0,05. 2. Să se verifice reprezentativitatea eşantionului utilizând testul KolmogorovSmirnov pentru un nivel de semnificaţie α=0,05. Rezolvare
1. Atunci când se cunoaşte forma distribuţia variabilei în populaţie pentru verificarea reprezentativităţii eşantionului se poate utiliza unul din testele de concordanţă. Tabelul 7.2 Grupe de vârstă 15-24 25-34 35-44 45-54 peste 55 Total
Structura Structura Număr salariaţi Număr salariaţi în eşantion populaţiei eşantionului în populaţie ( Fti ) (fei) (%) (%) 16 19 25600 152 20 23 32000 184 24 20 38400 160 21 17 33600 136 19 21 30400 168 100 100 160000 800
fti 128 160 192 168 152 800
( fei − f ti )2
f ti
4.50 3.60 5.33 6.10 1.68 21.21
Ipotezele testului χ2 sunt: H0: ft= fe şi H1: ft≠fe unde ft reprezintă frecvenţele teoretice iar fe frecvenţele empirice.
Frecvenţele empirice sunt cele obţinute în urma centralizării datelor din sondaj iar cele teoretice se calculează după relaţia: fti = Fti ⋅ N n ( Fti fiind frecvenţa corespunzătoare a grupei i din populaţie). Calculele necesare sunt sistematizate în tabelul 7.2. 2
Valoarea calculată a testului este: χ c =
k
∑ i =1
(f ei − f ti )2 f ti
=2.1.21 Valoarea
teoretică pentru un nivel de semnificaţie α=0,05 şi numărul de grade de libertate df=k2 2 1=5-1=4 este de 9,49. Deoarece χ c > χ α =0, 05;df = 4 se respinge ipoteza nulă putând spune că cele două distribuţii nu concordă şi, deci eşantionul nu este reprezentativ. 2. Testul Kolmogorov este unul dintre cele mai răspândite teste de concordanţă a repartiţiilor empirice şi teoretice pentru variabile aleatoare continue. Pentru efectuarea testului este necesară alcătuirea claselor şi stabilirea frecvenţelor absolute empirice şi teoretice (în funcţie de repartiţia testată). Ulterior se cumulează aceste frecvenţe crescător şi prin raportarea lor la total se obţin funcţiile de repartiţie empirice (Fn(x)) şi teoretice (F(z)). Se calculează pe clase diferenţa lor şi se ia diferenţa maximă în valoare absolută. Pe baza ei se obţine statistica λ a testului Kolmogorov astfel: λ c = n × max Fn ( x ) − F(z) , unde n este volumul eşantionului. Valoarea calculată λ c se compară cu valoarea teoretică tabelată în funcţie de nivelul de semnificaţie. Unui α=0,05 îi corespunde λ α=1,36. Dacă λ < λ α repartiţia empirică este în concordanţă cu cea teoretică. Testul Kolmogorov –Smirnov este o extindere a testului Kolmogorov pentru cazul verificării concordanţei a două repartiţii empirice. Notând cele două variabile aleatoare cu x şi y se calculează o valoare λc după relaţia n 1⋅ n 2 .; n1 + n 2 unde F(x) şi F(y) reprezintă funcţiile repartiţiilor empirice ale celor două variabile. Se compară apoi valoarea calculată cu cea teoretică. Dacă λc < λ α repartiţiile sunt în concordanţă. Considerăm variabilele x şi y vârsta în totalul populaţiei şi respectiv în eşantion. Calculele sunt sistematizate în tabelul 7.3
următoare: λ c = max F( x ) − F( y)
Grupe de vârstă 15-24 25-34 35-44 45-54 peste 55 Total
fei
fti
fei cumulat
fti cumulat
152 184 160 136 168 800
128 160 192 168 152 800
152 336 496 632 800
128 288 480 648 800
f* ei cumulat F(x) 0.19 0.42 0.62 0.79 1
f* ti cumulat F(y) 0.16 0.36 0.6 0.81 1
Tabel 7.3 di
0.03 0.06 0.02 0.02 0
În relaţia de calcul a valorii teoretice λc considerăm n1 volumul populaţiei N iar n2 volumul eşantionului n. Relaţia devine: λ c = max F( x ) − F( y)
Nn N+n
.
În cazul în care volumul populaţiei este mare în raport cu eşantionul (n λ
repartiţia empirică nu este în concordanţă cu cea teoretică iar eşantionul nu este reprezentativ ceea ce va duce la obţinerea unor estimatori deplasaţi. α
Problema 3
În urma unui sondaj pe un eşantion de 600 persoane privind caracterizarea nivelului de trai s-au obţinut datele prezentate în tabelul 7.4 cu prinire la venitul mediu. Din surse administrative se cunoaşte repartiţia populaţiei pe grupe de vârstă. Nr. Persoane în populaţie (mii) 30 70 40 140
Grupe de vârstă
18-34 35-54 peste 55
Nr. persoane în eşantion
180 320 100 600
Tabel 7.4 Venit mediu (mil. Lei) 5.2 8.3 3.2
Se cere: 1. Să se calculeze estimatorul venitului mediu pe baza informaţiilor din eşantion. 2. Să se calculeze estimatorul venitului mediu în urma aplicării metodei poststratificării pe baza informaţiilor deţinute din surse administrative. Rezolvare
1. Calculele necesare sunt przentate în tabelul 7.5. Grupe de vârstă
Ni (mii)
ni
yi
y i ni
18-34 35-54 peste 55
30 70 40 140
180 320 100 600
5.2 8.3 3.2
936 2656 320 3912
Tabel 7.5 y i N i (mii)
156 581 128 865
Estimatorul venitului mediu se calculează după relaţia:
∑ yn ∑ n k
y=
i =1 k
i
i
=
i
i =1
3912 =6.52 mil. Lei 600
2. Îmbunătăţirea estimatorului prin post-stratificare presupune calcularea venitului mediu ca medie aritmetică ponderată pe baza ponderilor din populaţie după relaţia: ~ ∑ yN y= ∑ N k
i =1 k
i =1
i
i
i
=
865000 =6.178 mil lei 140000
Problema 4
Un sondaj în rândul salariaţilor a avut drept obiectiv evaluarea atitudinii acestora faţă de evaluarea periodică şi formarea profesională continuă. Una din variabilele aixiliare ale studiului este variabila SEX. În urma centralizării datelor pentru variabila auxiliară SEX şi pentru variabila de interes ce corespunde întrebării: “Sunteţi de acord cu evaluarea periodică?” s-au obţinut informaţiile din tabelul 7.6. Sex Masculin Feminin Total
Acord 35 31 66
Indiferent 15 9 24
Tabel 7.6 Total 60 90 150
Dezacord 10 50 60
Se cere: 1. Să se calculeze estimatorul procentului salariaţilor care sunt de acord cu evaluarea. 2. Să se calculeze estimatorul procentului salariaţilor care sunt de acord cu evaluarea în urma aplicării metodei post-stratificării ştiind din surse administrative procentul salariiaţilor de sex masculin este de 45%. Rezolvare
1. Estimatorul procentului salariaţilor care sunt de acord cu evaluarea este: 66 wacord = = 0.44 . Deci 44% din salariaţi sunt de acord cu evaluarea 150 periodică. 2. Deoarece în populaţie sunt 45% salariaţi de sex masculin şi nu doar 40% cât reiese din eşantion este recomandat să ameliorăm estimatorul prin poststratificare. Pentru aceasta calculăm ponderile wij pentru fiecare clasă din tabelul 7.6 obţinând datele din tabelul 7.7. Sex
Acord
Indiferent
Dezacord
ni
~ ni
Masculin Feminin Total
0.58 0.34
0.25 0.10
0.17 0.56
60 90 150
68 82 150
Tabel 7.7
wi1 n~i 40 28 68
Practic estimatorul procentului celor ce sunt de acord cu evaluarea se poate calcula şi ca medie ponderată astfel: wacord =
∑ wn ∑n j =1
ij
i
= 0.44
i
Estimatorul ameliorat prin post-stratificare se obţine după relaţia: w n~ ∑ 68 j =1 ij i ~ wacord = = = 0.45 unde ~ n i sunt determinate ca frecvenţe ~ 150 n ∑ i teoretice astfel încât să se respecte structura pe sexe cunoscută din surse administrative ~ n i masculin = 0.45 ⋅ 150 =68 persoane ~ n i feminin = 0.55 ⋅ 150 =82 persoane
Probleme propuse Problema 1
Patronatul Societăţilor de Construcţii a organizat un sondaj în rândul firmelor participante la Construct Expo. În urma centralizării celor 200 de chestionare s-a constatat că 64% din societăţile comerciale ce au intrat în eşantion au sediul în provincie. Cunoscându-se din fişele de înscriere la târg că doar 58% din firme au sediul în provincie să se verifice reprezentativitatea eşantionului pentru o probabilitate e 95%. Problema 2
În rândul salariaţilor unei companii s-a realizat un sondaj pe un eşantion de 220 persoane. Vârsta medie a salariaţilor din eşantion este de 39 de ani cu o dispersie de 4.5. Ştiind că vârsta medie a tuturor salariaţilor calculată pe baza informaţiilor de la biroul de resurse umane este de 42.4 ani să se precizeze pentru o probabilitate de 95% dacă eşantionul este reprezentativ. Problema 3
În tabelul 7.8 este prezentată distribuţia agenţilor economici după numărul de salariaţi ce a fost obţinută în urma centralizării datelor dintr-un sondaj în rândul acestora. Din datele oficiale existente la circa financiară se cunoaşte distribuţia tuturor agenţilor economici înregistraţi. Tabel 7.8 Grupe de agenţi economici după numărul de salariaţi
Nr. agenţi economici în eşantion
Nr. agenţi economici în populaţie
sub 10 10-49 50-99 100 şi peste Total
25 125 40 10 200
268 1450 335 178 2230
Se cere: 1. Să se verifice reprezentativitatea eşantionului utilizând testul χ2 pentru un nivel de semnificaţie α=0,05. 2. Să se verifice reprezentativitatea eşantionului utilizând testul KolmogorovSmirnov pentru un nivel de semnificaţie α=0,05. Problema 4
În chestionarul unui sondaj în rândul agenţilor economici a conţinut întrebarea: Acordaţi o notă de la 0-10 pentru importanţa acordată de către firmă fiecărui criteriu în momentul recrutării de forţă de muncă Criteriul 1. Experienţa 2. Nivelul studiilor
Nota acordată
În tabelul 7.9 sunt prezentate rezultatele centralizării datelor la această întrebare pe grupe de agenţi economici. Tabelul 7.9 Nr. agenţi Gr. agenţi economici economici în după nr. salariaţi eşantion
sub 10 10-49 50-99 100 şi peste Total
Nr. agenţi economici în populaţie
25 125 40 10 200
Nota medie acordată criteriului “experienţă”
Nota medie acordată criteriului “nivelul studiilor”
7 8.9 8.7 9.2
7.6 8.2 8.8 9.3
201 1227 647 156 2230
Se cere: 1. Să se calculeze estimatorii scorului mediu obşinut de cele două criterii pe baza informaţiilor din eşantion. 2. Să se calculeze estimatorul estimatorii scorului mediu obşinut de cele două criteri în urma aplicării metodei post-stratificării pe baza informaţiilor deţinute din surse administrative. Problema 5
În rândul populaţiei unei localităţi (cu vârsta de 15 ani şi peste) s-a realizat un studiu privind amploarea şi gravitatea problemelor determinate de fumatul activ şi pasiv. Una din variabilele aixiliare ale studiului este variabila SEX. În urma centralizării datelor pentru variabila auxiliară SEX şi pentru variabila de interes ce corespunde întrebării: “Sunteţi fumător?” s-au obţinut informaţiile din tabelul 7.10. Sex Masculin Feminin Total
DA 72 85 157
NU 28 65 93
Tabel 7.10 Total 100 150 250
Se cere: 1. Să se calculeze estimatorul procentuluide fumători. 2. Să se calculeze estimatorul procentuluide fumători în urma aplicării metodei post-stratificării ştiind din surse administrative procentul locuitorilor de sex masculin este de 49%.
Teste de verificare a cunoştinţelor TESTUL 1
S1. Tipuri de întrebări utilizate şi reguli de formulare a acestora. S2. Sondajul de serii (definire, utilizare, avantaje). S3. Procentul studenţilor care au promovat toate examenele este de 68%. Limita superioară a intervalului de încredere garantat cu o probabilitate de 90% (z=1,65) este 70%. Care este limita inferioară a intervalului de încredere daca probabilitatea de garantare a rezultatelor este de 95%. S4. În urma unui sondaj stratificat proporţional după mediul de rezidenţă realizat în judeţul Bacău de către un post de televiziune local s-a calculat numărul mediu de ore de vizionare a emisiunilor televizate pe parcursul unei săptămâni. Selecţia unităţilor din fiecare strat s-a realizat simplu aleator cu revenire. Media şi dispersia pe fiecare strat se găsesc în tabelul următor: Mediul
Urban Rural Total
Efecivul populaţiei (mii pers.) 340 325 665
Eşantion (pers.) 511 489 1000
Numărul mediu de ore de vizionare 18,75 14,35
Coeficient de variaţie (%) 45 30
Se cere: a) să se estimeze cu o probabilitate de 0,95 numărul mediu de ore de vizionare a emisiunilor TV pe fiecare strat şi pe întregul judeţ. b) cunoscând că proporţia celor care urmăresc emisiunile informative în mediul urban este de 58% iar în mediul rural de 38% să se estimeze proporţia acestora în întregul judeţ (z=2). c) Dacă sondajul utilizat era stratificat optim care ar fi fost alocarea pe straturi? S5. Pentru verificarea duratei medii de ardere a unui bec s-a organizat un sondaj de 5% dintr-un lot de 2000 de becuriîn cutii de câte 10 bucăţi. În urma măsurării duratei de funcţionare a becurilor din fiecare cutie s-a calculat durata medie de funcţionare. Datele sunt prezentate în tabelul următor: Nr. crt. al seriei 1 2 3 4 5
Durata medie de funcţionare (ore) 2100 2250 2080 1950 2352
Nr. crt. al seriei 6 7 8 9 10
Durata medie de funcţionare (ore) 2230 2170 2050 2175 2200
Ştiind că la selectarea cutiilor s-a folosit un procedeu de selecţie aleator nerepetat, iar probabilitatea cu care se garantează rezultatele este de 95% se cere: a) Să se estimeze limitele în care se va încadra durata medie de funcţionare a întregului lot de becuri. b) Ştiind că raportul de corelaţie inter-serii este de 8% ce volum de eşantion ar fi fost necesar dacă s-ar fi realizat un sondaj simplu aleator fără revenire? TESTUL 2
S1. Tipuri de erori întâlnite în cercetarea selectivă. S2. Sondajul de serii (criteriile pe care trebuie să le îndeplinească seriile, aspecte privind organizarea sondajului de serii). S3. În rândul salariaţilor unei întreprinderi urmează să se organizeze un sondaj simplu aleator fără revenire (populaţia fiind omogenă deoarece coeficientul de variaţie este de 34%). Din surse administrative se ştire că salariul mediu este de 9,6 mil. lei. Ce volum de eşantion este necesar pentru a estima rezultatele cu o o eroare de ±3% şi o probabilitate de 95%? S4. În Bucureşti urmează să se realizeze un sondaj în rândul populaţiei de 18 ani şi peste având drept obiectiv principal caracterizarea nivelului de trai. Se va utiliza un plan de sondaj stratificat optim iar informaţiile necesare sunt în tabelul următor:
Sector 1 Sector 2 Sector 3 Sector 4 Sector 5 Sector 6 Total
Populaţia(pers.)
ponderea pers. cu venitul sub 3 mil (%)
230000 245000 290000 265000 290000 280000 1600000
0,25 0,35 0,7 0,65 0,74 0,75
Se cere: a) Să se calculeze volumul eşantionului pentru o probabilitate de 95% şi o eroare limită de ±3% şi să se repartizeze pe straturi. b) Deoarece realizarea sondajului pentru volumul calculat la punctul a necesită cheltuieli prea mari s-a propus reducerea acestuia cu %. Care va fi eroarea limită ce va trebui acceptată în această situaţie? c) Dacă sondajul organizat ar fi simplu aleator fără revenire ce volum de eşantion ar fi necesar în aceleaşi condiţii de eroare şi probabilitate cu cele de la punctul a. S5. Studenţii facultăţi CSIE sunt împărţiţi în 88 de grupe. Fiecare grupă este formată dintr-un număr egal de studenţi (15). S-a realizat un sondaj de serii, procedeul de selecţie a grupelor fiind simplu aleator fără revenire, cu probabilităţi egale. Rezultatele sunt prezentate în tabelul ce urmează.
Se cere: a) Să se estimeze nota medie a studenţilor cu o probabilitate de 95%. b) Ştiind că raportul de corelaţie inter-serii este de 11% ce volum de eşantion ar fi fost necesar dacă s-ar fi realizat un sondaj simplu aleator fără revenire? Comentaţi rezultatul! seria 1 2 3 4 5 6 7 8 9 10
6 10 10 2 7 5 6 7 4 9
3 6 10 2 6 9 3 6 4 8
3 10 5 5 5 7 3 2 7 3
8 4 3 7 10 9 9 2 7 4
9 4 6 6 10 6 4 9 9 2
nota medie a fiecărui student 5 7 6 5 10 3 3 8 9 5 10 6 2 2 9 4 9 8 3 4 10 3 9 4 4 9 4 5 6 7 6 2 5 5 5 7 9 7 9 6 8 2 4 10 5 6 5 3 6 9
4 6 6 7 6 8 3 8 2 5
3 7 10 9 9 2 6 5 9 7
6 6 10 6 4 9 8 2 5 9
10 5 9 4 4 7 5 9 9 2
4 6 6 7 6 8 3 6 4 9
TESTUL 3
S1. Tratarea nonrăspunsurilor prin metodele bazate pe imputaţii. S2. De ce sondajul simplu aleator este foarte rar utilizat? Într-o localitate cu o populaţie de 120000 persoane peste 18 ani s-a realizat un sondaj (simplu aleator cu revenire) pe un eşantion de 1000 de persoane. Rezultatele centralizate la întrebarea: “Daca duminica ar avea loc alegerile locale/generale aţi participa la vot?” sunt: Alegeri locale
Da 590
Nu 380
NS 30
TOTAL 1000
Care este limita inferioară a intervalului de încredere pentru procentul celor ce se vor prezenta la vot garantată cu o probabilitate de 95,45% ? S3. În rândul clienţilor unei societăţi comerciale al cărei obiect de activitate este comercializarea unor materiale speciale de construcţii s-a efectuat un sondaj stratificat optim. Selecţia unităţilor din fiecare strat s-a realizat după procedeul aleator fără revenire. Rezultatele obţinute în urma prelucrării se găsesc în tabelul următor: Strat
Bucureşti Provincie Total
Nr. clienţi populaţie eşantion 1250 140 1550 160 2800 300
ponderea celor care doresc asistenţă tehnică (%) 54 31
Se cere: a) Să se estimeze procentul celor care doresc sa se asigure şi asistenţă tehnică pe fiecare strat şi pe total pentru o probabilitate de 95%. b) Să se estimeze numărul mediu de comezi pe trimestru dacă valoarea estimatorului calculată pe baza datelor din sondaj este de 5,7 iar abaterile straturilor sunt 0,8 pentru primul strat respectiv 1,4 pentru al doilea. c) Dacă sondajul organizat ar fi simplu aleator fără revenire ce volum de eşantion ar fi necesar pentru a estima procentul celor care doresc sa se asigure şi asistenţă tehnică în aceleaşi condiţii de eroare şi probabilitate.
S4. În cadrul unei societăţi de construcţii cei 800 de muncitori sunt repartizaţi pe echipe de câte 10 oameni. În urma unui sondaj de serii s-au obţinut datele prezentate în tabelul următor: Nr. crt. al seriei 1 2 3 4 5
Numărul mediu de ore lucrate pe zi de un muncitor 9,2 8,5 10 10,5 9
Nr. crt. al seriei 6 7 8 9 10
Numărul mediu de ore lucrate pe zi de un muncitor 9,7 9,5 9,1 10,5 9,6
Ştiind că la selectarea pachetelor s-a folosit un procedeu de selecţie aleator nerepetat iar probabilitatea cu care se garantează rezultatele este de 95% se cere: a) Să se estimezenumărul mediu de ore lucrate pe zi de un muncitor. b) Să se estimeze numărul mediu de ore lucrate pe zi de o ochipă şi numărul total de ore lucrate de cei 800 de muncitori. TESTUL 4
S1. Eroarea de reprezentativitate în cazul sondajului pe cote faţă de sondajul simplu aleator este: a) mai mare, deoarece selecţia unităţilor nu este aleatoare; b) mai mică deoarece respectă fidel structura populaţiei; c) nu putem aprecia; d) mai mare deoarece creşc erorile de acoperire. S2. Avantajele sondajului pe bază de eşantioane fixe sunt: a) reducerea costurilor; b) nu necesită existenţa unei baze de sondaj; c) permite analiza longitudinală; d) reducerea erorii de reprezentativitate. S3. Într-o localitate s-a realizat un sondaj pe un volum de eşantion de 600 de persoane. Ponderea femeilor din eşantion este de 48%. Ştiind că ponderea reală este de 51% precizaţi dacă această diferenţă afectează reprezentativitatea eşantionului (z=1,96). S4. În cadrul unei societăţi de construcţii cei 400 de muncitori sunt repartizaţi pe 20 de echipe. În urma unui sondaj de bistadial, in care numărul de unităţi primare selectate a fost de 8, s-au obţinut datele prezentate în tabelul. Ştiind că procedeul de selecţie al unităţilor primare si secundare a fost aleator nerepetat iar probabilitatea cu care se garantează rezultatele este de 95% se cere să se estimeze numărul mediu de ore lucrate de un muncitor pe zi, numărul mediu de ore lucrate pe zi de o ochipă şi numărul total de ore lucrate de cei 400 de muncitori.
Nr. crt. al seriei
1 2 3 4 5 6 7 8
Număr Număr muncitori muncitori selectaţi în al doilea stadiu
18 19 22 24 20 18 16 25
6 6 7 7 7 6 5 7
Estimatorul numărului mediu de ore lucrate pe zi de un muncitor 9,7 9,5 9,1 10,5 9,6 9,2 8,5 10
Estimatorul dispersiei
0,04 0,05 0,042 0,04 0,06 0,052 0,032 0,03
S5. În rândul celor 3800 de studenti ai unei facultati s-a realizat un sondaj efectuat după procedeul simplu aleator fără revenire ce a avut drept obiectiv ’modul de petrecere a timpului liber’. În urma centralizării datelor s-a obţinut: sex M F Total
frecvent 25 100 125
Mergeti la teatru ocazional niciodata 75 100 125 75 200 175
Total 200 300 500
Se cere: a) Să se estimeze ponderea studenţilor care merg frecvent la teatru. b) Ştiind că ponderea fetelor în totalul studenţilor facultăţii este de 73% să se estimeze ponderea studentilor care merg frevcent la teatru cu ajutorul estimatorului corectat prin metoda poststratificării. (probabilitatea cu care se garantează rezultatele este de 0,95). TESTUL 5
S1. Referitor la sondajul pe bază de eşantioane fixe care din următoarele afirmaţii sunt adevărate: a) dacă există deplasări ale estimatorilor demografici este necesar ca acestea să se corecteze modificând structura panelului; b) există riscul ca răspunsurile să nu mai fie spontane; c) se reduc erorile de acoperire; d) permite o analiză în dinamică a indicatorilor. S2. Pentru a aduce îmbunătăţiri eşantionării pe cote se recomandă: a) utilizarea unui număr cât mai mare de criterii de cotă pentru a asigura reprezentativitatea eşantionului; b) criteriile de cotă să fie corelate cu variabilele de interes; c) utilizarea doar a cotelor marginale pentru uşurarea muncii operatorilor; d) baza de sondaj să fie actualizată şi adecvată programului de observare. S3. Utilizând testul χ2 verificaţi reprezentativitatea eşantionului de 800 persoane selectat dintr-o populaţie de 600000. (χ2= 9,49 pentru α=0,05)
Naţionalitate
română maghiară slovacă
f populaţie
f eşantion (%)
450000 108000 12000
Naţionalitate
f populaţie
70 rromă 15 alta 6
f eşantion (%)
24000 6000
6 3
S4. În cadrul unei societăţi de construcţii cei 450 de muncitori sunt repartizaţi pe 20 de echipe. În urma unui sondajde serii in care numărul de unităţi selectate a fost de 8, s-au obţinut datele prezentate în tabelul următor: Nr. crt. al seriei
Număr muncitori
1 2 3 4
22 19 22 25
Numărului mediu de ore Nr. crt. lucrate pe zi de un al seriei muncitor 9,7 5 9,5 6 8,1 7 9,5 8
Număr muncitori
20 18 16 24
Numărului mediu de ore lucrate pe zi de un muncitor 9,6 8,2 8,5 10
Ştiind că procedeul de selecţie al unităţilor complexe a fost aleator nerepetat iar probabilitatea cu care se garantează rezultatele este de 95% se cere să se estimeze numărul mediu de ore lucrate de un muncitor pe zi, numărul mediu de ore lucrate pe zi de o ochipă şi numărul total de ore lucrate de cei 450 de muncitori. S5. În urma unui sondaj în randul agentilor economici din Bucureşti s-a obţinit: Nr. salariaţi
nivelul mediu al CA pe anul 2005 (mld. Lei)
pana in 10 `10-50 peste 50
2.3 40 150
Nr agenti economici in esantion 42 25 14
Structura agentilor economici după nr. salariati in populatie (%) 60 30 10
Se cere: a) Să se estimeze media CA pe baza datelor din eşantion. b) Sa se estimeze media CA în urma redresării eşantionului prin poststratificare.