Modelo binomial negativo no stata forex
4. Modelos para Dados de Contagem sobre Dispersão Utilizamos dados de Long (1990) sobre o número de publicações produzidas por Ph. D. bioquímicos para ilustrar a aplicação dos modelos de Poisson de Poisson, Poisson negativo, binomial negativo e inflacionado com zero. As variáveis no conjunto de dados são art. artigos nos últimos três anos de doutorado fem. codificado para as fêmeas mar. codificado um se casado kid5. número de crianças menores de seis anos de idade. prestígio do doutorado programa. artigos de mentor nos últimos três anos Esses dados também foram analisados por Long e Freese (2001), e estão disponíveis no site da Stata: O número médio de artigos é de 1,69 e a variância é de 3,71, um pouco mais que o dobro da média. Os dados estão super-dispersos, mas é claro que ainda não consideramos nenhuma covariável. Um modelo de Poisson Vamos nos ajustar ao modelo usado por Long e Freese (2001), um modelo aditivo simples usando todos os cinco preditores. Poderíamos usar poisson para obter as estimativas e então estat gof para obter o desvio, mas usaríamos o comando glm para obter as estatísticas qui-quadrado de deviance e Pearsons imediatamente. Também armazenaremos as estimativas para uso posterior. Vemos que o modelo obviamente não se ajusta aos dados. O valor crítico de cinco por cento para um qui-quadrado com 909 d. f. é e o desvio e qui-quadrado de Pearson são ambos em 1600. Variação Extra-Poisson Supomos agora que a variância é proporcional e não igual à média, e estimamos o parâmetro de escala phi dividindo Pearseon qui-quadrado pelo seu d. f. Vemos que a variância é cerca de 83 maior que a média. Isso significa que devemos ajustar os erros padrão multiplicando por 1,35, a raiz quadrada de 1,83. O comando glm pode fazer isso por nós através da opção scale (), que aceita como argumento um valor numérico, neste caso 1.8289841, ou simplesmente x2 para indicar que o ajuste deve ser baseado no qui-quadrado de Pearson: Você pode verificar isso esses erros padrão são cerca de 35 maiores que antes. Usando este procedimento, atribuímos essencialmente toda a falta de ajuste ao erro puro. Você pode querer experimentar poisson com a opção robusta para calcular erros padrão usando o estimador robusto ou sanduíche. Você obterá resultados muito semelhantes. Em qualquer caso, todos os testes devem ser feitos usando a estatística Walds. Os testes de razão de verossimilhança não são possíveis porque não estamos fazendo suposições distributivas completas sobre o resultado, baseando-nos em suposições sobre a média e a variância. Regressão Binomial Negativa Agora ajustamos um modelo binomial negativo com os mesmos preditores: Statas alpha é a variância do efeito aleatório multiplicativo e corresponde ao sigma 2 nas notas. Estima-se que seja 0,44 e é altamente significativo (diferente de zero). Para testar a significância deste parâmetro você pode pensar em computar o dobro da diferença em log-verossimilhança entre este modelo e o modelo de Poisson, 180.2, e tratá-lo como um qui-quadrado com um d. f. As assintóticas usuais não se aplicam, no entanto, porque a hipótese nula está em um limite do espaço de parâmetros. Há algum trabalho mostrando que uma melhor aproximação é tratar a estatística como uma mistura de zero de 50:50 e um qui-quadrado com um d. f. e Stata implementa esse procedimento, relatando a estatística como chi2bar. Alternativamente, tratar a estatística como um qui-quadrado dá um teste conservador. De qualquer forma, temos provas contundentes de superdispersão. Para testar hipóteses sobre os coeficientes de regressão, podemos usar testes de Wald ou testes de razão de verossimilhança, que são possíveis porque fizemos suposições distributivas completas. Heterogeneidade não observada O Stata possui uma função gammaden (a, b, g, x) para calcular a densidade de uma distribuição gama com a forma a. escala b. e mudança de localização g. Em nossa notação a forma é alfa, a escala é 1 / beta e o deslocamento é 0. Em particular, a densidade quando o efeito aleatório tem variância v é gammaden (1 / v, v, 0, x). Isso pode ser usado para plotar a densidade. Também podemos calcular quantis. O invgammap da função Mata (a, p) calcula os quantles da distribuição gama padrão com a forma a. que tem escala 1 e turno 0. Quando a distribuição tem variância v os quartis são invgammap (1 / v, (1,2,3) / 4) v. Bioquímicos no Q1 da distribuição da heterogeneidade não observada publicam 49 trabalhos a menos do que o esperado a partir de suas características observadas, enquanto aqueles na mediana publicam 14 a menos e os do Q3 publicam 33 a mais que o esperado. Comparando Estimativas e Erros Padrão As estimativas de parâmetros baseadas no modelo binomial negativo não são muito diferentes daquelas baseadas no modelo de regressão de Poisson. Vamos compará-los lado a lado. Ambos os conjuntos de estimativas de parâmetros levariam às mesmas conclusões. Olhando para os erros padrão relatados logo abaixo dos coeficientes, vemos que ambas as abordagens à sobre-dispersão levam a estimativas muito semelhantes e que a regressão de Poisson ordinária subestima os erros padrão. Goodness of Fit Uma forma de calcular o desvio do modelo binomial negativo é Alimente a estimativa da variância em glm. que pode caber esses modelos para um valor fixo do parâmetro de escala. Vemos que o modelo binomial negativo se encaixa muito melhor do que o de Poisson, mas ainda tem um desvio (apenas) acima do valor crítico de cinco por cento. A função de variância Os modelos binomiais negativos e de Poisson super-dispersos têm diferentes funções de variação. Uma maneira de verificar qual deles pode ser mais apropriado é criar grupos com base no preditor linear, calcular a média e a variância para cada grupo e, finalmente, plotar a relação média-variância. Aqui estão grupos baseados no preditor linear binomial negativo, criado usando egen com o subcomando cut () e a opção group () para criar 20 grupos de tamanhos iguais aproximados Agora nós colapsamos para um conjunto de dados de médias e desvios padrão (o colapso não faz variâncias, mas podemos sempre quadrar o desvio padrão). Também computamos as funções de Poisson e binomial de variância excessivamente dispersas e plotamos tudo. A função de variância de Poisson faz um bom trabalho para a maior parte dos dados, mas não consegue captar as altas variações dos estudiosos mais produtivos. A função de variação binomial negativa não é muito diferente, mas, sendo uma quadrática, pode subir mais rapidamente e fazer um trabalho melhor na extremidade alta. Concluímos que o modelo binomial negativo fornece uma melhor descrição dos dados do que o modelo de Poisson super-disperso. Poisson Inflamado Zero Uma ocorrência freqüente com dados de contagem é um excesso de zeros comparado ao que é esperado sob um modelo de Poisson. Este é realmente um problema com nossos dados: vemos que 30,0 dos cientistas da amostra não publicaram artigos nos últimos três anos de seu doutorado. mas o modelo de Poisson prevê que apenas 20,9 não teriam publicações. Claramente, o modelo subestima a probabilidade de contagens zero. Uma maneira de modelar esse tipo de situação é assumir que os dados vêm de uma mistura de duas populações, uma em que as contagens são sempre zero. e outro onde a contagem tem uma distribuição de Poisson com média de mu. Neste modelo, as contagens zero podem vir de qualquer população, enquanto as contagens positivas vêm apenas da segunda. No contexto das publicações por Ph. D. bioquímicos, podemos imaginar que alguns tinham em mente trabalhos onde as publicações não seriam importantes, enquanto outros estavam apontando para trabalhos acadêmicos, onde um registro de publicações era esperado. Os membros do primeiro grupo publicariam artigos zero, enquanto os membros do segundo grupo publicariam 0,1,2. uma contagem que pode ser assumida como tendo uma distribuição de Poisson. A distribuição do resultado pode então ser modelada em termos de dois parâmetros, pi a probabilidade de sempre zero, e mu, o número médio de publicações para aqueles que não estão no grupo sempre zero. Uma maneira natural de introduzir covariáveis é modelar o logit da probabilidade pi de sempre zero e o log da média mu para aqueles que não estão na classe sempre zero. Stata implementa essa combinação no comando zip quando as contagens são consideradas Poisson. Um desenvolvimento paralelo usando um modelo binomial negativo para as contagens no segundo grupo leva ao comando zinb. Em ambos os casos, o modelo para a probabilidade de sempre zero é especificado na opção infle (). Aqui está um modelo de Poisson inflado-zero com todas as covariáveis em ambas as equações: Olhando para a equação de inflação, vemos que o único preditor significativo de estar na classe sempre zero é o número de artigos publicados pelo mentor, com cada artigo do mentor associado com 12,6 menores chances de nunca publicar. Olhando para a equação para o número médio ou artigos entre aqueles que não estão na classe sempre zero, encontramos desvantagens significativas para mulheres e cientistas com crianças menores de cinco anos, e um grande efeito positivo do número de publicações pelo mentor, com cada artigo associado com um aumento de 1,8 no número esperado de publicações. Para verificar se o modelo resolve o problema do excesso de zeros, predizemos pi e mu e calculamos a probabilidade combinada de não haver publicações. Statas predict calcula a probabilidade de sempre zero com a opção pr e o preditor linear de Poisson usando a opção xb. Uma terceira opção que não usaremos, n. prevê a contagem esperada como (1-pr) exp (xb). Aqui está como prever pi e mu Então o modelo resolve o problema do excesso de zeros, prevendo que 29.9 dos bioquímicos irão publicar nenhum artigo, muito mais próximo do valor observado de 30.0. Comparação do modelo com a AIC Como acontece, para esses dados, o binômio negativo resolve o problema também. Aqui está a probabilidade de zero artigos no binômio negativo O modelo prevê que 30,4 dos bioquímicos não publicariam artigos nos últimos três anos de seu doutorado. muito próximo do valor observado de 30,0. Para escolher entre os modelos binomial negativo e zero inflado, precisamos recorrer a outros critérios. Uma maneira muito simples de comparar modelos com diferentes números de parâmetros é calcular o Akaikes Information Criterion (AIC), que definimos como sendo p o número de parâmetros no modelo. O primeiro termo é essencialmente o desvio e o segundo uma penalidade pelo número de parâmetros. Para nossos dados Para este conjunto de dados, o modelo binomial negativo é um vencedor claro em termos de parcimônia e qualidade de ajuste. Outros critérios diagnósticos que podemos observar são a distribuição marginal das contagens previstas e observadas e as funções de variância. Modelos com truncamento zero e obstáculos Outros modelos que não foram cobertos são o Poisson zero e o binomial negativo, projetados para dados que não incluem zeros. Um exemplo comum é o tempo de permanência em um hospital, que é pelo menos um dia. Uma abordagem sensata é ajustar um modelo binomial de Poisson ou negativo que exclui zero e redimensiona as outras probabilidades para somar um. Deve-se ter cuidado ao interpretar esses modelos porque mu não é o resultado esperado, mas a média de uma distribuição subjacente que inclui os zeros. Esses modelos são implementados nos comandos Stata ztp e ztnb. Uma abordagem alternativa para o excesso (ou uma falta) de zeros é usar um processo de dois estágios, com um modelo logit para distinguir entre contagens zero e positivas e, em seguida, um modelo binomial negativo ou Poisson zero para as contagens positivas. Em nosso exemplo, poderíamos usar um modelo de logit para diferenciar aqueles que publicam daqueles que não o fazem, e depois um modelo binomial de Poisson ou negativo truncado para o número de artigos daqueles que publicam pelo menos um. Esses modelos são freqüentemente chamados de modelos de obstáculos. Eles podem ser instalados no Stata usando os comandos logit e poisson ou nbreg, simplesmente adicionando as probabilidades de log de cada estágio. Comparando os modelos hurdle e zero-inflated, acho que a distinção entre zero e um ou mais para ser mais clara com os modelos hurdle, mas a interpretação da média é mais clara com os modelos com inflação zero. cópia 2016 Germaacuten Rodriacuteguez, Universidade de PrincetonBem-vindo ao Instituto de Pesquisa e Educação Digital Exemplos de Análise de Dados Stata Regressão binomial negativa Informações da versão: O código para esta página foi testado em Stata 12. A regressão binomial negativa é para modelar variáveis de contagem, geralmente para contagem excessivamente dispersa variáveis de resultado. Por favor, note: O objetivo desta página é mostrar como usar vários comandos de análise de dados. Ele não cobre todos os aspectos do processo de pesquisa que os pesquisadores devem fazer. Em particular, não abrange limpeza e verificação de dados, verificação de hipóteses, diagnósticos de modelos ou potenciais análises de acompanhamento. Exemplos de regressão binomial negativa Exemplo 1. Administradores escolares estudam o comportamento de frequência de alunos do ensino médio em duas escolas. Preditores do número de dias de ausência incluem o tipo de programa em que o aluno está matriculado e um teste padronizado em matemática. Exemplo 2. Um pesquisador relacionado à saúde está estudando o número de visitas hospitalares nos últimos 12 meses por cidadãos idosos em uma comunidade com base nas características dos indivíduos e nos tipos de planos de saúde sob os quais cada um é coberto. Descrição dos dados Vamos seguir o exemplo 1 acima. Temos dados de presença em 314 juniores de duas escolas secundárias urbanas no arquivo nbdata. dta. A variável resposta de interesse é dias ausentes, daysabs. A variável matemática é a pontuação matemática padronizada para cada aluno. A variável prog é uma variável nominal de três níveis que indica o tipo de programa instrucional em que o aluno está matriculado. Vamos ver os dados. É sempre uma boa ideia começar com estatísticas descritivas e gráficos. Cada variável possui 314 observações válidas e suas distribuições parecem bastante razoáveis. A média incondicional de nossa variável de resultado é muito menor que sua variação. Vamos continuar com nossa descrição das variáveis neste conjunto de dados. A tabela abaixo mostra os números médios de dias ausentes por tipo de programa e parece sugerir que o tipo de programa é um bom candidato para prever o número de dias ausentes, nossa variável de resultado, porque o valor médio do resultado parece variar por prog. As variações dentro de cada nível de prog são maiores que as médias dentro de cada nível. Estes são os meios e variações condicionais. Essas diferenças sugerem que a dispersão excessiva está presente e que um modelo Binomial Negativo seria apropriado. Métodos de análise que você pode considerar Abaixo está uma lista de alguns métodos de análise que você pode ter encontrado. Alguns dos métodos listados são bastante razoáveis, enquanto outros caíram em desuso ou têm limitações. Regressão binomial negativa - A regressão binomial negativa pode ser usada para dados de contagem excessivamente dispersos, ou seja, quando a variância condicional excede a média condicional. Pode ser considerado como uma generalização da regressão de Poisson, uma vez que possui a mesma estrutura média da regressão de Poisson e possui um parâmetro extra para modelar a super-dispersão. Se a distribuição condicional da variável de desfecho for superdispersa, os intervalos de confiança para a regressão binomial Negativa provavelmente serão mais estreitos do que aqueles de um modelo de regressão de Poisson. Regressão de Poisson - A regressão de Poisson é frequentemente usada para modelar dados de contagem. Regressão de Poisson tem um número de extensões úteis para modelos de contagem. Modelo de regressão com inflação zero - Os modelos com inflação zero tentam explicar o excesso de zeros. Em outras palavras, acredita-se que existam dois tipos de zeros nos dados, quottrue zerosquot e quotexcess zerosquot. Os modelos com inflação zero estimam duas equações simultaneamente, uma para o modelo de contagem e outra para os zeros em excesso. Regressão OLS - As variáveis de resultado da contagem são algumas vezes transformadas em log e analisadas usando a regressão OLS. Muitas questões surgem com essa abordagem, incluindo a perda de dados devido a valores indefinidos gerados pelo registro de zero (que é indefinido), bem como a falta de capacidade de modelar a dispersão. Análise de regressão binomial negativa Abaixo, usamos o comando nbreg para estimar um modelo de regressão binomial negativo. O i. antes prog indica que é uma variável de fator (ou seja, variável categórica), e que deve ser incluído no modelo como uma série de variáveis indicadoras. A saída inicia o log de iteração. Podemos ver que ele começa com a adaptação de um modelo de Poisson, depois um modelo nulo (somente modelo de interceptação) e, finalmente, o modelo binomial negativo. Como usa a estimativa de probabilidade máxima, itera até que a mudança na probabilidade do log seja suficientemente pequena. O último valor no log de iteração é o valor final da probabilidade do log para o modelo completo e é exibido novamente. A probabilidade de log pode ser usada para comparar modelos. A informação do cabeçalho é apresentada a seguir. No lado direito, o número de observações usadas na análise (314) é dado, juntamente com a estatística qui-quadrado de Wald com três graus de liberdade para o modelo completo, seguido pelo valor p para o qui-quadrado. . Este é um teste que todos os coeficientes estimados são iguais a zero - um teste do modelo como um todo. A partir do valor p, podemos ver que o modelo é estatisticamente significativo. O cabeçalho também inclui um pseudo-R 2. que é 0,03 neste exemplo. Abaixo do cabeçalho, você encontrará os coeficientes de regressão binomial negativa para cada uma das variáveis, juntamente com os erros padrão, z-scores, p-values e 95 intervalos de confiança para os coeficientes. A variável matemática tem um coeficiente de -0,006, o que é estatisticamente significante. Isso significa que para cada aumento de uma unidade em matemática. a contagem de log esperada do número de dias ausentes diminui em 0,006. A variável indicadora 2.prog é a diferença esperada na contagem de log entre o grupo 2 (prog 2) e o grupo de referência (prog 1). A contagem de log esperada para o nível 2 de prog é 0,44 menor do que a contagem de log esperada para o nível 1. A variável indicadora 3.prog é a diferença esperada na contagem de log entre o grupo 3 (prog 3) e o grupo de referência (prog 1). A contagem de log esperada para o nível 3 do prog é 1,28 menor do que a contagem de log esperada para o nível 1. Para determinar se o prog, em geral, é estatisticamente significativo, podemos usar o comando test para obter o teste de dois graus de liberdade esta variável. O teste do qui-quadrado de dois graus de liberdade indica que o prog é um preditor estatisticamente significativo de daysabs. Além disso, o parâmetro de sobre-dispersão transformado em log (/ lnalpha) é estimado e é exibido junto com o valor não transformado. Um modelo de Poisson é aquele em que esse valor alfa é restrito a zero. Stata encontra a estimativa de probabilidade máxima do log de alfa e, em seguida, calcula alfa a partir disso. Isso significa que alfa é sempre maior que zero e que o nbreg Statas permite apenas superdispersão (variância maior que a média). Abaixo da tabela de coeficientes, você encontrará um teste de razão de verossimilhança que alfa é igual a zero - o teste da razão de verossimilhança comparando este modelo com um modelo de Poisson. Neste exemplo, o valor do qui-quadrado associado é 926,03 com um grau de liberdade. Isso sugere fortemente que o alfa é diferente de zero e o modelo binomial negativo é mais apropriado que o modelo de Poisson. Também podemos ver os resultados como taxas de taxa de incidentes usando a opção irr. A saída acima indica que a taxa de incidentes para 2.prog é 0,64 vezes a taxa de incidentes para o grupo de referência (1.prog). Da mesma forma, a taxa de incidentes de 3.prog é 0,28 vezes a taxa de incidentes para o grupo de referência que mantém as outras variáveis constantes. A mudança percentual na taxa de incidência de daysabs é de 1 decréscimo para cada aumento de unidade em matemática. A forma da equação modelo para regressão binomial negativa é a mesma que para a regressão de Poisson. O log do resultado é previsto com uma combinação linear dos preditores: log (daysabs) Intercepto b 1 (prog2) b 2 (prog3) b 3 matemática. daysabs exp (Intercepto b 1 (prog2) b 2 (prog3) b 3 math) exp (Intercepto) exp (b 1 (prog2)) exp (b 2 (prog3)) exp (b 3 math) Os coeficientes têm um efeito aditivo na escala log (y) e a TIR tem um efeito multiplicativo na escala y. O parâmetro de dispersão alfa na regressão binomial negativa não afeta as contagens esperadas, mas afeta a variância estimada das contagens esperadas. Mais detalhes podem ser encontrados na documentação do Stata. Para obter informações adicionais sobre as várias métricas nas quais os resultados podem ser apresentados e a interpretação de tais, consulte Modelos de regressão para variáveis dependentes categóricas usando Stata, segunda edição por J. Scott Long e Jeremy Freese (2006). Para entender melhor o modelo, podemos usar o comando margins. Abaixo, usamos o comando margins para calcular as contagens previstas em cada nível de prog. mantendo todas as outras variáveis (neste exemplo, matemática) no modelo em suas médias. Na saída acima, vemos que o número previsto de eventos para o nível 1 de prog é de cerca de 10.24, mantendo a matemática em sua média. O número previsto de eventos para o nível 2 de prog é menor em 6,59, e o número previsto de eventos para o nível 3 de prog é de cerca de 2,85. Observe que a contagem prevista do nível 2 do prog é (6,587927 / 10,2369) 0,64 vezes a contagem prevista para o nível 1 do prog. Isso corresponde ao que vimos na tabela de saída de IRR. Abaixo, obteremos o número previsto de eventos para valores de matemática que variam de 0 a 100 em incrementos de 20. A tabela acima mostra que com prog em seus valores observados e matemática mantida em 0 para todas as observações, a contagem média prevista (ou número médio de dias ausentes) é de cerca de 7,72 quando a matemática 100, a contagem média prevista é de cerca de 4,24. Se compararmos as contagens previstas em quaisquer dois níveis de matemática, como matemática 20 e matemática 40, podemos ver que a proporção é (6,072587 / 6,845863) 0,887. Isso corresponde à TIR de 0,994 para uma alteração de 20 unidades: 0,99920 0,887. O comando fitstat gravado pelo usuário (assim como os comandos statas estat) pode ser usado para obter informações adicionais de ajuste de modelo que podem ser úteis se você quiser comparar modelos. Você pode digitar findit fitstat para baixar esse programa (consulte Como usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre como usar o findit). Você pode representar graficamente o número previsto de eventos com os comandos abaixo. O gráfico indica que a maioria dos dias ausentes é prevista para aqueles do programa acadêmico 1, especialmente se o aluno tiver um baixo valor de matemática. O menor número de dias previstos ausentes é para os alunos do programa 3. Pontos a considerar Não é recomendado que modelos binomiais negativos sejam aplicados a pequenas amostras. Uma causa comum de dispersão excessiva é o excesso de zeros por um processo adicional de geração de dados. Nessa situação, o modelo com inflação zero deve ser considerado. Se o processo de geração de dados não permitir nenhum 0 (como o número de dias gastos no hospital), um modelo com truncamento zero pode ser mais apropriado. Os dados de contagem geralmente têm uma variável de exposição, que indica o número de vezes que o evento poderia ter ocorrido. Essa variável deve ser incorporada em seu modelo de regressão binomial negativo com o uso da opção exp (). A variável de resultado em uma regressão binomial negativa não pode ter números negativos e a exposição não pode ter 0s. Você também pode executar um modelo binomial negativo usando o comando glm com o link de log e a família binomial. Você precisará usar o comando glm para obter os resíduos para verificar outras suposições do modelo binomial negativo (veja Cameron e Trivedi (1998) e Dupont (2002) para mais informações). Pseudo-R-quadrado: Existem muitas medidas diferentes de pseudo-R-quadrado. Todos eles tentam fornecer informações semelhantes àquelas fornecidas pelo R-quadrado na regressão OLS, no entanto, nenhuma delas pode ser interpretada exatamente como R-quadrado na regressão OLS é interpretada. Para uma discussão de vários pseudo-R-quadrados, veja Long e Freese (2006) ou nossa página de perguntas e respostas O que são pseudo-quadrados? Referências Long, J. S. (1997). Modelos de regressão para variáveis dependentes categóricas e limitadas. Thousand Oaks, CA: Sage Publications. Long, J. S. e Freese, J. (2006). Modelos de regressão para variáveis dependentes categóricas usando o Stata, segunda edição. College Station, TX: Stata Press. Cameron, A. C. e Trivedi, P. K. (2009). Microeconometria Usando Stata. College Station, TX: Stata Press. Cameron, A. C. e Trivedi, P. K. (1998). Análise de Regressão de Dados de Contagem. Nova Iorque: Cambridge Press. Cameron, A. C. Avanços na Discussão de Regressão de Dados de Contagem para o Workshop de Estatística Aplicada, 28 de março de 2009. cameron. econ. ucdavis. edu/racd/count. html. Dupont, W. D. (2002). Modelagem Estatística para Pesquisadores Biomédicos: Uma Introdução Simples à Análise de Dados Complexos. Nova Iorque: Cambridge Press. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software em particular pela Universidade da Califórnia. Bem-vindo ao Instituto de Pesquisa Digital e Educação Saída Anotada de Stata Regressão Binomial Negativa Esta página mostra um exemplo de análise de regressão binomial negativa com notas de rodapé explicando a saída. Os dados coletados foram informações acadêmicas de 316 alunos. A variável resposta é a ausência de dias durante o ano letivo (daysabs), a partir da qual exploramos sua relação com a pontuação dos testes padronizados de matemática (matemática), a pontuação dos testes padronizados de linguagem (langnce) e o gênero (feminino). Como assumido para um modelo binomial negativo, nossa variável de resposta é uma variável de contagem e cada sujeito tem a mesma duração de tempo de observação. Se o tempo de observação dos participantes fosse variado, o modelo precisaria ser ajustado para levar em conta a duração variável do tempo de observação por indivíduo. Este ponto é discutido mais adiante na página. Além disso, o modelo binomial negativo, em comparação com outros modelos de contagem (ou seja, modelos de Poisson ou inflacionados com zero), é considerado o modelo apropriado. Em outras palavras, assumimos que a variável dependente é superdispersa e não possui um número excessivo de zeros. A primeira metade desta página interpreta os coeficientes em termos de coeficientes de regressão binomial negativa, e a segunda metade interpreta os coeficientes em termos de taxas de taxa de incidência. Registro de Iteração a a. Log de Iteração - Este é o log de iteração do modelo binomial negativo. Note que existem três seções: Ajustar o modelo de Poisson, ajustar somente o modelo constante e ajustar o modelo completo. A regressão binomial negativa é um procedimento de máxima verossimilhança e boas estimativas iniciais são necessárias para a convergência. As duas primeiras seções fornecem bons valores iniciais para o modelo binomial negativo estimado na terceira seção. A primeira seção, Modelo de Poisson de ajuste, ajusta um modelo de Poisson aos dados. As estimativas da última iteração servem como valores iniciais para as estimativas de parâmetro na seção final. A segunda seção, Ajustando apenas o modelo constante, encontra a estimativa de máxima verossimilhança para o parâmetro de média e dispersão da variável de resposta. O parâmetro de dispersão é conectado como o valor inicial para o parâmetro de dispersão. Uma vez que os valores iniciais são obtidos, o modelo binomial negativo itera até o algoritmo convergir. A opção de rastreio pode ser especificada para ver como as partes dos dois primeiros componentes de iteração são usadas para o componente de iteração final. Modelo Resumo b. Dispersão - Refere-se como a sobre-dispersão é modelada. O método padrão é a dispersão média. c. Log Likelihood - Esta é a probabilidade do log do modelo ajustado. É utilizado no cálculo do teste qui-quadrado da Razão de Verossimilhança (RV) para verificar se todos os coeficientes de regressão das variáveis preditoras são simultaneamente zero e em testes de modelos aninhados. d. Número de obs - Esse é o número de observações usadas no modelo de regressão. Pode ser menor que o número de casos no conjunto de dados se houver valores ausentes para algumas variáveis na equação. Por padrão, o Stata faz uma exclusão de lista de casos incompletos. e. LR chi2 (3) - Esta é a estatística de teste de que todos os coeficientes de regressão no modelo são simultâneos iguais a zero. É calculado como negativo duas vezes a diferença da probabilidade para o modelo nulo e o modelo ajustado. O modelo nulo corresponde à última iteração do modelo de ajuste somente constante. Reunindo partes do log de iteração juntas, o valor LR chi2 (3) é -2-891.24 - (-880,87) 20,74. f. Prob gt chi2 - Esta é a probabilidade de se obter uma estatística de teste de LR tão extrema quanto, ou mais, do que a observada sob a hipótese nula de que a hipótese nula é que todos os coeficientes de regressão são simultaneamente iguais a zero. Em outras palavras, essa é a probabilidade de obter essa estatística qui-quadrada (20,74) se não houver, de fato, nenhum efeito das variáveis preditoras. Esse valor p é comparado a um nível alfa especificado, nossa disposição em aceitar um erro do Tipo I, que normalmente é definido como 0,05 ou 0,01. O pequeno p-value do teste LR, lt0.00001, nos levaria a concluir que pelo menos um dos coeficientes de regressão no modelo não é igual a zero. O parâmetro da distribuição do qui-quadrado usado para testar a hipótese nula é definido pelos graus de liberdade na linha anterior, chi2 (3). g. Pseudo R2 - Este é o pseudo-quadrado de McFaddens. É calculado como 1 - ll (modelo) / ll (nulo) 0,0116. A regressão binomial negativa não tem um equivalente à medida de R-quadrado encontrada na regressão OLS, no entanto, muitas pessoas tentaram criar uma. Como essa estatística não significa o que R-square significa na regressão OLS (a proporção de variância para a variável de resposta explicada pelos preditores), sugerimos interpretar essa estatística com cautela. Estimativas de Parâmetros f. daysabs - Esta é a variável de resposta na regressão binomial negativa. Abaixo estão as variáveis preditoras, o intercepto e o parâmetro de dispersão. g. Coef. - Estes são os coeficientes de regressão binomial negativos estimados para o modelo. Lembre-se de que a variável dependente é uma variável de contagem que está sobre ou abaixo da dispersão, e o modelo modela o log da contagem esperada como uma função das variáveis preditoras. Podemos interpretar o coeficiente de regressão binomial negativo da seguinte forma: para uma mudança de uma unidade na variável preditora, a diferença nos registros de contagens esperadas da variável de resposta deve ser alterada pelo respectivo coeficiente de regressão, dadas as outras variáveis preditoras na variável de previsão. modelo são mantidos constantes. mathnce - Esta é a estimativa de regressão binomial negativa para um aumento unitário na pontuação do teste padronizado de matemática, dado que as outras variáveis são mantidas constantes no modelo. Se um aluno aumentasse sua pontuação no teste de avaliação em um ponto, a diferença nos registros das contagens esperadas diminuiria em 0,0016 unidade, mantendo as outras variáveis na constante do modelo. langnce - Esta é a estimativa de regressão binomial negativa para um aumento de uma unidade no escore do teste padronizado de linguagem, dado que as outras variáveis são mantidas constantes no modelo. If a student were to increase her langnce test score by one point, the difference in the logs of expected counts would be expected to decrease by 0.0143 unit, while holding the other variables in the model constant. female - This is the estimated negative binomial regression coefficient comparing females to males, given the other variables are held constant in the model. The difference in the logs of expected counts is expected to be 0.4312 unit higher for females compared to males, while holding the other variables constant in the model. cons - This is the negative binomial regression estimate when all variables in the model are evaluated at zero. For males (the variable female evaluated at zero) with zero mathnce and langnce test scores, the log of the expected count for daysabs is 2.2849 units. Note that evaluating mathnce and langnce at zero is out of the range of plausible test scores. If the test scores were mean-centered, the intercept would have a natural interpretation: the log of the expected count for males with average mathnce and langnce test scores. /lnalpha - This is the estimate of the log of the dispersion parameter, alpha . given on the next line. alpha - This is the estimate of the dispersion parameter. The dispersion parameter alpha can be obtained by exponentiating /lnalpha . If the dispersion parameter equals zero, the model reduces to the simpler poisson model. If the dispersion parameter, alpha . is significantly greater than zero than the data are over dispersed and are better estimated using a negative binomial model than a poisson model. h. Std. Errar. - These are the standard errors for the regression coefficients and dispersion parameter for the model. They are used in both the calculation of the z test statistic, superscript i, and confidence intervals, superscript j. Eu. z and Pgtz - These are the test statistic and p-value, respectively, that the null hypothesis that an individual predictors regression coefficient is zero, given that the rest of the predictors are in the model. The test statistic z is the ratio of the Coef. to the Std. Errar. of the respective predictor. The z value follows a standard normal distribution which is used to test against a two-sided alternative hypothesis that the Coef. is not equal to zero. The probability that a particular z test statistic is as extreme as, or more so, than what has been observed under the null hypothesis is defined by Pgtz . j. 95 Conf. Interval - This is the confidence interval (CI) of an individual negative binomial regression coefficient, given the other predictors are in the model. For a given predictor variable with a level of 95 confidence, wed say that we are 95 confident that upon repeated trials 95 of the CIs would include the quottruequot population regression coefficient. It is calculated as Coef. (z 945/2 )( Std. Err. ), where z 945/2 is a critical value on the standard normal distribution. The CI is equivalent to the z test statistic: if the CI includes zero, wed fail to reject the null hypothesis that a particular regression coefficient is zero, given the other predictors are in the model. An advantage of a CI is that it is illustrative it provides information on the precision of the point estimate. k. Likelihood-ratio test of alpha0 - This is the likelihood-ratio chi-square test that the dispersion parameter alpha is equal to zero. The test statistic is negative two times the difference of the log-likelihood from the poisson model and the negative binomial model, -2-1547.9709 -(-880.87312) 1334.1956 with an associated p-value of lt0.0001. The large test statistic would suggest that the response variable is over-dispersed and is not sufficiently described by the simpler poisson distribution. Incidence Rate Ratio Interpretation The following is the interpretation of the negative binomial regression in terms of incidence rate ratios, which can be obtained by nbreg, irr after running the negative binomial model or by specifying the irr option when the full model is specified. This part of the interpretation applies to the output below. Before we interpret the coefficients in terms of incidence rate ratios, we must address how we can go from interpreting the regression coefficients as a difference between the logs of expected counts to incidence rate ratios. In the discussion above, regression coefficients were interpreted as the difference between the log of expected counts, where formally, this can be written as 946 log( 956 x01 ) - log( 956 x0 ), where 946 is the regression coefficient, 956 is the expected count and the subscripts represent where the predictor variable, say x, is evaluated at x 0 and x 0 1 (implying a one unit change in the predictor variable x). Recall that the difference of two logs is equal to the log of their quotient, log( 956 x01 ) - log( 956 x0 ) log( 956 x01 / 956 x0 ), and therefore, we could have also interpreted the parameter estimate as the log of the ratio of expected counts: This explains the quotratioquot in incidence rate ratios. In addition, what we referred to as a count is technically a rate. Our response variable is the number of days absent over the school year, which by definition, is a rate. A rate is defined as the number of events per time (or space). Hence, we could also interpret the regression coefficients as the log of the rate ratio: This explains the quotratequot in incidence rate ratio. Finally, the rate at which events occur is called the incidence rate thus we arrive at being able to interpret the coefficients in terms of incidence rate ratios from our interpretation above. Also, each subject in our sample was followed for one school year. If this was not the case (i. e. some subjects were followed for half a year, some for a year and the rest for two years) and we were to neglect the exposure time, our regression estimates would be biased, since our model assumes all subjects had the same follow up time. If this was an issue, we would use the exposure option, exposure( varname ) . where varname corresponds to the length of time an individual was followed to adjust the poisson regression estimates. uma. IRR - These are the incidence rate ratios for the negative binomial regression model shown earlier. mathnce - This is the estimated rate ratio for a one unit increase in math standardized test score, given the other variables are held constant in the model. If a student were to increase his mathnce test score by one point, his rate for daysabs would be expected to decrease by a factor of 0.9984, while holding all other variables in the model constant. langnce - This is the estimated rate ratio for a one unit increase in language standardized test score, given the other variables are held constant in the model. If a student were to increase his langnce test score by one point, his rate for daysabs would be expected to decrease by a factor 0.9857, while holding all other variables in the model constant. female - This is the estimated rate ratio comparing females to males, given the other variables are held constant in the model. Females compared to males, while holding the other variable constant in the model, are expected to have a rate 1.539 times greater for daysabs. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software em particular pela Universidade da Califórnia.
Comments
Post a Comment