Analisi Dei Dati e Statistica I Parte Analisi Dei Dati e Statistica I Parte [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

lOMoARcPSD|11500446

Analisi dei dati e statistica I parte Analisi dei dati e Statistica (Università degli Studi di Trento)

StuDocu non è sponsorizzato o supportato da nessuna università o ateneo. Scaricato da Sofia Digiuni ([email protected])

lOMoARcPSD|11500446

Capitolo 1 – Statistica: l’arte e la scienza di apprendere dai dati Definizione (1) di statistica: arte e scienza del disegno di studi e dell’analisi delle informazioni che tali studi producono. Obiettivo: tradurre i dati in conoscenza e comprensione del mondo circostante. Quindi, la statistica è l’arte e la scienza di apprendere dai dati. Dati = informazioni che si raccolgono attraverso esperimenti e indagini. Nel secolo scorso, i metodi statistici sono stati formulati in assenza di dati, adoperando solamente i cosiddetti dati di letteratura. Il problema attuale è opposto: siamo in presenza di un diluvio informativo (big data = dati finissimi a livello temporale-spaziale  surplus informativo) e, dunque, dobbiamo essere abili nel gestire i dati, attraverso l’individuazione di quelli rilevanti ai fini dell’indagine. La statistica si muove in un mondo incerto, quindi l’analisi dei dati serve a prendere delle decisioni limitando gli errori (assegnando delle probabilità alle varie alternative). Fasi del processo di indagine: 1. Formulazione di una domanda statistica 2. Raccolta dei dati 3. Analisi dei dati 4. Interpretazione dei risultati Definizione (2) di statistica: tecnica che ha per scopo la conoscenza quantitativa dei fenomeni collettivi. Componenti principali della statistica: o Disegno: pianificazione della raccolta dei dati mirata a far luce sul problema oggetto di interesse. o Analisi descrittiva: identificazione e sintesi di tendenze e schemi presenti nei dati (attraverso i grafici, ad esempio). o Inferenza: decisioni e previsioni sulla base dei dati (tendenzialmente queste riguardano un gruppo più ampio di individui rispetto al campione). o Probabilità: strumento metodologico per quantificare la verosimiglianza di diversi esiti possibili. La analisi descrittiva e l’inferenza sono modi complementari di analizzare i dati; la prima fornisce sintesi utili (di tendenze e schemi), mentre la seconda serve a decidere se gli schemi osservati sono significativi. Elementi importanti: o Soggetti (o unità): entità che si misurano in uno studio (non sono sempre persone). o Popolazione: insieme di tutti i soggetti portatori delle caratteristiche di interesse; (1) popolazione reale = in linea teorica, totalmente osservabile (studenti di Trento) – (2) popolazione virtuale = definibile ma non osservabile (cinquine del Lotto). o Campione: sottoinsieme della popolazione con le stesse caratteristiche, di cui abbiamo (o pianifichiamo di avere) dati a disposizione. [L’obiettivo di molti studi è conoscere la popolazione, attraverso un’indagine campionaria.] L’analisi statistica può essere: - Descrittiva: si riferisce ai metodi per la sintesi dei dati raccolti (grafici, medie, percentuali – sintesi grafiche e sintesi numeriche vengono spesso combinate); (1) lo scopo principale della statistica descrittiva è ridurre e rendere più comprensibili i dati senza distorcere/perdere troppa informazione; (2) essa può essere usata sia nel caso in cui i dati siano ottenuti da un campione sia dall’intera popolazione (nel caso di censimento totale della popolazione, questa analisi è sufficiente per dare un’informazione certa riguardo al risultato). - Inferenziale: si riferisce ai metodi per prendere decisioni o fare previsioni riguardanti una popolazione, sulla base dei dati ottenuti da un campione di quella popolazione. L’operazione di campionamento produce una previsione (attraverso un certo numero/percentuale) che stima il

Scaricato da Sofia Digiuni ([email protected])

lOMoARcPSD|11500446

risultato effettivo (informazione reale proveniente dall’intera popolazione) entro un margine di errore preciso con una confidenza del 95%; se si ripete più volte questa operazione, la variabilità dei risultati campionari si riduce parallelamente all’errore nella stima. Pertanto, la rilevazione dei dati può essere di tipo completo (censimento) o di tipo parziale (campionaria). Motivi per cui si effettuano i campioni: - Costi minori in termini di tempo: si producono informazioni tempestive; - Costi minori in termini di denaro: per il censimento, si richiedono più operazioni logistiche (che hanno dei costi), ma anche capacità di calcolo molto avanzate (macchine) che risultano onerose; - Maggior facilità di gestione; - Possono essere più accurati di un censimento: ad esempio, in un censimento la raccolta dei dati può provocare dei ritardi nel raggiungimento di un risultato (che quindi può essere scorretto). Da dove si prendono i dati: - Dati pubblicati da enti: ISTAT (dati di proprietà della collettività raccolti a fini statistici), Camera di Commercio/Banca d’Italia (dati raccolti a fini amministrativi, ma consultabili a fini statistici); - Dati provenienti da mercati finanziari; - Dati da esperimenti condotti dall’uomo (farmaci, ad esempio); - Dati da indagini; - Dati da studi osservazionali (ad esempio, sul comportamento degli animali) | La distinzione tra statistiche campionarie e i valori corrispondenti della popolazione è un punto importante: un parametro ( β ) è una sintesi numerica di una popolazione; una statistica ( ^β = stima) è una sintesi numerica di un campione preso dalla popolazione  si utilizzano statistiche campionarie per stimare i valori dei parametri. (esempio: C = α + βy  β è la propensione marginale al consumo della popolazione = parametro) | Un altro punto importante è il campionamento casuale: un campione rispecchia bene una popolazione quando ciascun soggetto di essa ha la stessa chance di essere incluso in quel campione; questo consente di rendere i campioni rappresentativi della popolazione. - Il campionamento casuale permette di fare una buona inferenza sulle popolazioni; - La casualità è importante anche per condurre adeguatamente gli esperimenti (quando chi indaga seleziona il campione, introduce distorsioni nell’indagine). Il concetto di variabilità è strettamente legato a quello di casualità: ogni soggetto è diverso da un altro, pertanto la casualità della scelta introduce la variabilità all’interno del campione (che, evidentemente, più è ampio più è variabile); inoltre, così come i soggetti variano, anche i campioni variano e producono risultati differenti: è per questo motivo che le operazioni di campionamento si ripetono più volte.

Capitolo 2 – Esplorazione dei dati con grafici e sintesi numeriche o Variabile (carattere) = caratteristica oggetto di osservazione in uno studio - il termine evidenzia che i valori assunti dai dati sono soggetti a variazione; o Unità statistica = elemento di osservazione di base della popolazione oggetto di indagine – non sempre si può entrare in contatto con tutte le unità statistiche; o Unità di rilevazione = elemento di osservazione di base della rilevazione – spesso non coincidente con l’unità statistica (esempio: unità statistica = persona residente in Italia, unità di rilevazione = famiglia residente in Italia – attraverso capofamiglia –); o Modalità = modo in cui la variabile si presenta in un’unità. Una variabile può essere: - Qualitativa: attributo, quantità non misurabile – si esprime attraverso una parola; - Quantitativa: misura, informazione quantitativa – si esprime attraverso un numero.

Scaricato da Sofia Digiuni ([email protected])

lOMoARcPSD|11500446

Le variabili qualitative possono essere: - Sconnesse: non passibili di essere ordinate (es. genere); - Ordinabili: passibili di essere ordinate (es. titolo di studio). Le variabili quantitative possono essere: - Discrete: se i valori che possono assumere costituiscono un insieme di numeri distinti finiti – in presenza di una variabile discreta si opera un conteggio; - Continue: se i valori che possono assumere costituiscono un intervallo – le variabile continue assumono un’infinità continua di possibili valori. Esistono delle cariabili continue a cui l’uomo non è capace di rapportarsi, pertanto li discretizza, tuttavia, le variabili mantengono il loro carattere continuo; nel continuo si calcolano probabilità di intervallo, in quanto nel punto la probabilità è 0 (all’infinito ci sarà sempre un decimale che divergerà). Una popolazione è costituita da N unità statistiche: P= {u 1 , u 2 , u3 , … ,u 4 } N = dimensione di una popolazione, n = dimensione di un campione - Ha senso prendere un campione solo se n