Indietro

ⓘ Censura (statistica)




                                     

ⓘ Censura (statistica)

In statistica, ingegneria, economia e ricerca medica, la censura si verifica quando il valore di una misurazione o di unosservazione è solo parzialmente noto.

Ad esempio, si supponga che venga condotto uno studio per misurare limpatto di un farmaco sulla mortalità legata a una malattia. In tale studio, può darsi si sappia che letà di un individuo alla morte è di almeno 75 anni. Tale situazione potrebbe verificarsi se lindividuo si fosse ritirato dallo studio alletà di 75 anni, o se lindividuo fosse attualmente vivo alletà di 75 anni.

La censura si verifica anche quando un valore cade al di fuori dellintervallo di uno strumento di misura. Ad esempio, una bilancia per il bagno potrebbe nisurare solo fino a 140 chilogrammi. Se un individuo di 160 chilogrammi si pesasse usando quella bilancia, losservatore saprebbe solo che il peso dellindividuo è di almeno 140 chilogrammi.

                                     

1. Tipi

  • Censura di tipo II: nel medesimo contesto, si verifica nel caso in cui lesperimento termina solo quando rimane un certo numero di soggetti vivi, che risultano così censurati a destra.
  • Censura a destra: unosservazione è al di sopra di un certo valore, ma non si sa di quanto.
  • Censura a intervallo: unosservazione è in un intervallo tra due valori, ma non si sa esattamente in che punto.
  • Censura casuale o non informativa: quando ogni soggetto ha un tempo di censura che è stocasticamente indipendente dal momento della sua morte. Il tempo di sopravvivenza osservato è il minimo tra il momento della censura e quello della morte. I soggetti che abbandonano lo studio prima della loro morte sono quelli che restano censurati a destra.
  • Censura di tipo I: nel contesto dellanalisi di sopravvivenza si verifica quando un esperimento con un numero definito di soggetti o elementi si interrompe a un istante predeterminato, dopo il quale i soggetti ancora vivi sono censurati a destra.
  • Censura a sinistra: unosservazione è al di sotto di un certo valore, ma non si sa di quanto.

La censura non dovrebbe essere confusa con lidea collegata del troncamento. Con la censura, si sa che le osservazioni censurate superano una certa soglia o stanno in un certo intervallo, e questa informazione parziale si può utilizzare al momento di modellare statisticamente il fenomeno. Con il troncamento, le osservazioni non danno mai luogo a valori al di fuori di un certo intervallo; i valori della popolazione al di fuori di questo intervallo sono interamente scartati. Si noti che in statistica il troncamento è cosa diversa dallarrotondamento.

Il problema dei dati censurati, dove il valore osservato di una certa variabile è parzialmente noto, è legato al problema dei dati perduti, dove il valore osservato di una certa variabile è ignoto.

La censura a intervallo si può verificare quando losservazione di un valore richiede controlli o ispezioni successive. La censura a sinistra e a destra sono casi speciali della censura a intervallo, in cui rispettivamente lestremo sinistro inizio dellintervallo è a zero e lestremo destro fine è a infinito.

I dati censurati a sinistra si osservano, ad esempio, nei dati analitici ambientali in cui le concentrazioni in traccia delle sostanze chimiche possono in realtà essere presenti in un campione ambientale ad es. acqua freatica, suolo ma sono "non rivelabili", ad es. perché si trovano sotto il limite di rivelabilità dello strumento analitico o del metodo di laboratorio. I metodi di stima per usare i dati censurati a sinistra variano, e daltra parte non tutti i metodi di stima possono applicabili, o i più affidabili, per tutti gli insiemi di dati.

                                     

2. Epidemiologia

Uno dei primi tentativi di analizzare un problema statistico concernente dati censurati fu lanalisi del 1766 di Daniel Bernoulli sui dati di morbilità e mortalità del vaiolo per dimostrare lefficacia della vaccinazione.

                                     

3. Operating life testing

Le prove di affidabilità consistono spesso nel condurre un test su un elemento in condizioni specificate per determinare il tempo occorrente perché si verifichi un fallimento.

  • Talvolta gli ingegneri pianificano un programma di test in modo che, dopo in certo tempo limite o un certo numero di fallimenti, tutti gli altri test saranno conclusi. Queste situazioni, definite come tempi sospesi, sono trattati come dati censurati a destra. In questo caso, luso di dati censurati è intenzionale. Unanalisi dei dati dei replicati comprende sia i tempi di fallimento degli elementi che sono falliti, sia il tempo di donclusione per quelli che non lo sono.
  • Talvolta un fallimento è pianificato e atteso, ma non si verifica: errore delloperatore, malfunzionamento dellattrezzatura, anomalia del test, ecc. Il risultato del test non è stato il tempo di fallimento desiderato, ma si può e si dovrebbe usarlo come tempo di conclusione. Luso di dati censurati è non intenzionale ma necessario.


                                     

4. Analisi

Per gestire i dati censurati si possono usare tecniche speciali. I test con tempi di fallimento specifici sono codificati come fallimenti effettivi; i dati censurati sono codificati per il tipo di censura e per lintervallo o limite noto. Programmi speciali di software spesso orientati allaffidabilità possono condurre a stime di massima verosimiglianza per statistiche di riepilogo, intervalli di confidenza, ecc.