Monday, September 26, 2016

R data analysis examples mixed effects logistic regression , fixef






+

Benvenuti al Istituto per la ricerca e l'istruzione digitale R Analisi dei dati Esempi: Regressione Effetti logistica mista effetti misti regressione logistica viene utilizzato per modellare le variabili di outcome binarie, in cui le probabilità di registro dei risultati sono modellati come combinazione lineare delle variabili predittive quando i dati sono raggruppati o ci sono sia fissi ed effetti casuali. Questa pagina usa i seguenti pacchetti. Assicurarsi che sia possibile caricare prima di provare a eseguire gli esempi in questa pagina. Se non si dispone di un pacchetto installato, eseguire: install. packages ( "packagename"). o se si vede la versione non è aggiornata, eseguire: update. packages (). Informazioni Versione: Codice per questa pagina è stato testato in R versione 3.1.0 (2014/04/10) On: 2014/07/10 Con: boot 1,3-11; lme4 1,1-6; Rcpp 0.11.2; Matrix 1.1-3; GGally 0.4.4; rimodellare 0.8.4; plyr 1.8; XTABLE 1,7-3; auto 2,0-20; estera 0,8-61; Hmisc 3,14-4; Formula 1.1-1; la sopravvivenza 2,37-7; reticolo 0,20-29; mgcv 1,7-29; NLME 3,1-117; png 0,1-7; gridExtra 0.9.1; reshape2 1.2.2; ggplot2 0.9.3.1; VCD 1.3-1; rjson 0.2.14; RSQLite 0.11.4; DBI 0,2-7; knitr 1.5 Si prega di notare: Lo scopo di questa pagina è quello di mostrare come utilizzare i vari comandi di analisi dei dati. Esso non copre tutti gli aspetti del processo di ricerca, che sono tenuti ai ricercatori di fare. In particolare, non copre la pulizia dei dati e il controllo, la verifica di ipotesi, diagnostica modello o potenziali analisi di follow-up. Esempi di effetti misti di regressione logistica Esempio 1: Un ricercatore di applicazioni a 40 diversi collegi campionato per studiare fattore che prevedono l'ammissione al college. Predittori comprendono GPA di studente di scuola superiore, attività extrascolastiche, e punteggi SAT. Alcune scuole sono più o meno selettivi, quindi la probabilità di base di ingresso in ciascuna delle scuole è diverso. predittori livello scolastico includono se la scuola è pubblica o privata, l'attuale rapporto studenti-to-insegnante, e il rango della scuola. Esempio 2: Una grande HMO vuole sapere cosa paziente e medico fattori sono principalmente connessi al fatto che il cancro ai polmoni di un paziente va in remissione dopo il trattamento come parte di un più ampio studio di risultati del trattamento e della qualità della vita in pazienti con cancro Lunger. Esempio 3: Una stazione televisiva vuole sapere come campagne di tempo e della pubblicità sulla se le persone vedono un programma televisivo. Essi campione di persone da quattro città per sei mesi. Ogni mese, si chiedono se le persone che avevano visto uno spettacolo particolare o meno la scorsa settimana. Dopo tre mesi, hanno introdotto una nuova campagna pubblicitaria in due delle quattro città e il controllo continuo o meno di persone avevano assistito allo spettacolo. Descrizione dei dati In questo esempio, ci accingiamo ad esplorare Esempio 2 sul cancro al polmone utilizzando un set di dati simulato, che abbiamo pubblicato on-line. Una varietà di esiti sono stati raccolti su pazienti, che sono annidati all'interno di medici, che sono a loro volta nidificato all'interno degli ospedali. Ci sono anche un paio di variabili di livello medico, come l'esperienza che useremo nel nostro esempio. Ora ci accingiamo a rappresentare graficamente le nostre variabili predittive continue. dati VISUALIZING possono aiutarci a capire le distribuzioni, individuare gli errori di codifica (ad esempio, sappiamo che una variabile assume solo i valori da 0 a 7, ma vediamo un 999 nel grafico), e ci danno un senso del rapporto tra le nostre variabili. Ad esempio, potremmo vedere che due predittori sono altamente correlati e decidere vogliamo solo includere uno nel modello, o si potrebbe notare una relazione curvilinea tra due variabili. La visualizzazione dei dati è un modo rapido e intuitivo per controllare tutto questo in una sola volta. Se la maggior parte delle vostre predittori appaiono indipendenti l'uno dall'altro, che è bene. Si forma le vostre aspettative del modello. Ad esempio, se sono indipendenti, la stima per un predittore dovrebbe non cambia molto quando si entra in un altro predittore (anche se le prove di errore e di significatività standard di maggio). Siamo in grado di ottenere tutte queste informazioni e l'intuizione su cosa e come modellare sono i dati semplicemente visualizzazione. Non sembrano esserci forti relazioni lineari tra i nostri continui predittori. Vediamo le distribuzioni delle nostre variabili di CancerStage. Perché LengthofStay è codificato in modo discreto in giorni, siamo in grado di esaminare come CancerStage è associato utilizzando diagrammi a bolle. L'area di ogni bolla è proporzionale al numero di osservazioni con tali valori. Per i predittori continui, usiamo trame di violino con valori di dati jittered. Tutti i dati grezzi è presentato separati da CancerStage. Per alleviare overplotting e visualizzare i valori meglio, si aggiunge una piccola quantità di rumore casuale (principalmente per l'asse x) e impostare la trasparenza alpha. Anche se i punti jittered sono utili per vedere i dati grezzi, può essere difficile ottenere un senso preciso della distribuzione. Per questo, aggiungiamo trame violino. trame di violino sono trame densità solo kernel riflessa attorno all'asse stampa. Tracciamo le trame Violino in cima a dei punti jittered con una trasparenza in modo da poter stil vedere i dati grezzi, ma le trame di violino sono dominanti. Poiché sia ​​IL6 e CRP tendono ad avere distribuzioni asimmetriche, si usa una scala di radice quadrata sull'asse y. Le distribuzioni sembrano abbastanza normale e simmetrica, anche se è ancora possibile vedere la coda lunga a destra, anche utilizzando una scala radice quadrata (notare che solo la scala è stata spostata, i valori stessi non vengono trasformati, che è importante perché questo consente di vedere e interpretare i punteggi reale, piuttosto che la radice quadrata dei punteggi). Perché è difficile vedere come le variabili binarie cambiano nel livelli di variabili continue, siamo in grado di capovolgere il problema intorno e osserviamo la distribuzione delle variabili continue ad ogni livello del risultato binario. Metodi di analisi si potrebbe considerare Di seguito è riportato un elenco di metodi di analisi potrebbe essere considerato. effetti misti di regressione logistica, il focus di questa pagina. Mixed regressione probit effetti è molto simile agli effetti misti di regressione logistica, ma utilizza il normale CDF invece del CDF logistica. Entrambi i modelli risultati binari e possono includere fissi ed effetti casuali. effetti fissi regressione logistica è limitata in questo caso perché può ignorare necessarie effetti casuali e / o non l'indipendenza nei dati. Corretto effetti probit regressione è limitata in questo caso perché può ignorare necessarie effetti casuali e / o non l'indipendenza nei dati. La regressione logistica con errori standard cluster. Questi possono registrare per ottenere non l'indipendenza, ma non consente effetti casuali. regressione probit con errori standard cluster. Questi possono registrare per ottenere non l'indipendenza, ma non consente effetti casuali. effetti misti di regressione logistica Di seguito si usa il comando glmer di stimare un modello di regressione logistica effetti mescolato con IL-6. CRP. e LengthofStay come predittori continui livello paziente, CancerStage come predittore livello paziente categorica (I, II, III o IV), Experience come predittore continuo livello medico e intercetta casuale per DID. ID medico. La stima e interpretare i modelli lineari generalizzati misti (GLMMs, di cui effetti misti di regressione logistica è uno) può essere molto impegnativo. Se si sono appena agli inizi, si consiglia vivamente la lettura di questa pagina prima introduzione alla GLMMs. Esso copre una parte dello sfondo e la teoria così come le opzioni di stima, inferenza, e insidie ​​in modo più dettagliato. La prima parte ci dice le stime sono basate su un adattativo gaussiana Hermite approssimazione della probabilità. In particolare abbiamo utilizzato 10 punti di integrazione (come funziona è discusso in dettaglio qui). Come si usa più punti di integrazione, l'approssimazione diventa convergente più accurato le stime ML; tuttavia, più punti sono più computazionalmente impegnativi e possono essere estremamente lento o addirittura intrattabile con la tecnologia di oggi. Per evitare un avvertimento di nonconvergence, specifichiamo un ottimizzatore di diverso con il controllo argomento = glmerControl (ottimizzatore = "bobyqa"). Anche se il modello produrrà risultati quasi identici senza l'argomento nuovo, preferiamo usare modelli senza tali avvertimenti. La sezione successiva ci dà informazioni di base che può essere utilizzato per confrontare i modelli, seguita dalle stime degli effetti casuali. Questo rappresenta la variabilità stimato nella intercetta sulla scala logit. Se ci fosse stato ad altri effetti casuali, come pendii casuali, avrebbero anche apparire qui. La sezione superiore si conclude con il numero totale di osservazioni, e il numero di livello 2 osservazioni. Nel nostro caso, questo include il numero totale di pazienti (8.525) e medici (407). L'ultima sezione è una tabella delle stime effetti fissi. Per molte applicazioni, queste sono ciò che le persone sono principalmente interessati. Le stime rappresentano i coefficienti di regressione. Questi sono unstandardized e sono sulla scala logit. Le stime sono seguiti dai loro errori standard (SES). Come è comune in GLMs, SES si ottengono invertendo la matrice di informazione osservata (matrice negativa derivata seconda). Tuttavia, per GLMMs, questa è ancora una volta una approssimazione. Le approssimazioni delle stime dei coefficienti probabile stabilizzano più velocemente di quanto non facciano quelli per le SE. Pertanto, se si utilizza un minor numero di punti di integrazione, le stime possono essere ragionevole, ma l'approssimazione della SE può essere meno accurati. Il Wald test, \ (\ frac \), si basano sulla teoria asintotica, qui riferendosi come la più alta dimensione dell'unità livello converge a infinito, questi test verrà distribuito normalmente, e da quel, valori di p (la probabilità di ottenere la stima osservato o più estremo, data la stima reale è 0). Può essere bello avere intervalli di confidenza (IC). Siamo in grado di ottenere stime approssimative usando la SE. probabilità previste e grafica Questi risultati sono grandi da mettere nella tabella o nel testo di un manoscritto di ricerca; Tuttavia, i numeri possono essere difficili da interpretare. presentazioni visive sono utili per facilitare l'interpretazione e per poster e presentazioni. Come modelli diventano più complessi, ci sono molte opzioni. Discuteremo alcuni di loro per breve tempo e dare un esempio di come si potrebbe fare uno. In un modello logistico, il risultato è comunemente su una delle tre scale: Log probabilità (chiamato anche logit), che è la scala linearizzato Odds ratio (OR) di registro elevate a potenza, che non sono su una scala lineare Le probabilità, che non sono anche su una scala lineare Per le tabelle, le persone spesso presentano gli odds ratio. Per la visualizzazione, la scala logit o probabilità è più comune. Ci sono alcuni vantaggi e svantaggi di ciascuno. La scala logit è conveniente perché è linearizzata, il che significa che un aumento dell'1 unità in un predittore traduce in un incremento unitario coefficiente nel risultato e ciò vale indipendentemente dai livelli degli altri predittori (accantonando interazioni per il momento). Un aspetto negativo è la scala non è molto interpretabile. E 'difficile per i lettori di avere una comprensione intuitiva del logit. Al contrario, le probabilità sono una bella scala per comprendere in modo intuitivo i risultati; Tuttavia, essi non sono lineari. Ciò significa che un incremento unitario di predittore, non è uguale a una costante aumento della probabilità --- la variazione della probabilità dipende dai valori scelti per gli altri predittori. In ordinaria regressione logistica, si può solo contenere tutti i predittori costante, solo variando la vostra predittore di interesse. Tuttavia, in effetti misti modelli logistici, gli effetti casuali portano anche sui risultati. Quindi, se si tiene tutto omogenei, la variazione della probabilità del risultato sopra diversi valori di vostra predittore di interesse sono vere solo quando tutte le covariate sono mantenuti costanti e si è nello stesso gruppo, o di un gruppo con lo stesso effetto casuale. Gli effetti sono condizionati da altri predittori e l'appartenenza al gruppo, che è abbastanza restringendo. Una valida alternativa è quella di ottenere la probabilità media marginale. Cioè, in tutti i gruppi nel nostro campione (che si spera rappresentante della popolazione di interesse), un grafico la variazione media probabilità del risultato in tutta la gamma di alcuni predittore di interesse. Stiamo andando ad esplorare un esempio con probabilità marginali medi. Questi prendere più lavoro di probabilità condizionate, perché si deve calcolare probabilità condizionate separati per ogni gruppo e poi la media. Inoltre non è facile da ottenere intervalli di confidenza intorno a questi effetti medie marginali in un quadro frequentista (anche se sono banale per ottenere da Stima bayesiana). In primo luogo, definiamo la procedura generale usando la notazione da qui. Creiamo \ (\ mathbf _ \) prendendo \ (\ mathbf \) e la fissazione di un particolare fattore predittivo di interesse, diciamo nella colonna \ (j \), ad una costante. Se abbiamo curato solo circa un valore del predittore, \ (i \ in \ \). Tuttavia, più comunemente, vogliamo un intervallo di valori per il predittore per tracciare come la probabilità predetta varia tutta la sua gamma. Siamo in grado di farlo prendendo la gamma osservata del predittore e prendendo \ (k \) campioni equidistanti all'interno della gamma. Ad esempio, supponiamo che il nostro predittore variava da 5 a 10, e volevamo 6 campioni, \ (\ frac = 1 \), quindi ogni campione sarebbe 1 a parte il precedente e sarebbero: \ (\ \). Poi creiamo \ (k \) diverso \ (\ mathbf _ \) s dove \ (i \ in \ \), dove in ogni caso, la \ (j \) esima colonna è impostato su una costante. Poi calcoliamo: \ [\ boldsymbol _ = \ mathbf _ \ boldsymbol + \ mathbf \ boldsymbol \] Questi sono tutti i diversi predittori lineari. Infine, prendiamo \ (h (\ boldsymbol) \), che ci dà \ (\ boldsymbol _ \), che sono le aspettative condizionate sulla scala originale, nel nostro caso, le probabilità. Possiamo quindi prendere l'aspettativa di ogni \ (\ boldsymbol _ \) e la trama che contro il valore del nostro predittore di interesse si è tenuto presso. Potremmo anche fare i grafici a scatole per mostrare non solo la probabilità media marginali previsto, ma anche la distribuzione di probabilità previste. Avrete notato che un sacco di variabilità va in tali stime. Stiamo usando \ (\ mathbf \) solo tenendo il nostro predittore di interesse a un costante, che permette a tutti gli altri predittori di assumere i valori nei dati originali. Inoltre, abbiamo lasciato \ (\ mathbf \ boldsymbol \) come nel nostro campione, il che significa che alcuni gruppi sono più o meno rappresentate di altri. Se avessimo voluto, avremmo potuto ri-ponderata tutti i gruppi ad avere lo stesso peso. Abbiamo scelto di lasciare tutte queste cose così come sono in questo esempio, sulla base del presupposto che il nostro campione è veramente un buon rappresentante della nostra popolazione di interesse. Piuttosto che tentare di scegliere valori significativi per tenere covariate al (anche la media non è necessariamente significativo, specialmente se una covariata come una distribuzione bimodale, può essere che nessun partecipante aveva un valore su o vicino alla media), abbiamo utilizzato i valori da il nostro campione. Questo suggerisce anche che se il nostro campione era una buona rappresentazione della popolazione, allora la media probabilità previste marginali sono una buona rappresentazione della probabilità di un nuovo campione casuale dalla nostra popolazione. Ora che abbiamo un po 'di fondo e la teoria, vediamo come possiamo effettivamente fare per il calcolo di queste cose. Otteniamo una sintesi delle LengthofStay. nostro predittore di interesse, e quindi ottenere 100 valori in tutta la sua gamma da utilizzare in previsione. Facciamo una copia dei nostri dati in modo che possiamo risolvere i valori di uno dei predittori e quindi utilizzare la funzione di prevedere per calcolare i valori previsti. Tutti gli effetti casuali sono inclusi di default, vedi? Predict. merMod per maggiori dettagli. Si noti che il metodo di prevedere per i modelli effetti misti è nuovo e attualmente è solo nella versione di sviluppo di lme4. quindi assicuratevi di avere quella installata.




No comments:

Post a Comment