Sunday, 8 October 2017

Missing Data Imputation Binary Options


16.1.2 Principios generales para tratar los datos que faltan Hay una gran literatura de métodos estadísticos para tratar los datos que faltan. Aquí revisamos brevemente algunos conceptos clave y hacemos algunas recomendaciones generales para los autores de la revisión Cochrane. Es importante pensar por qué los datos pueden faltar. Los estadísticos a menudo usan los términos que faltan al azar y no desaparecen al azar para representar diferentes escenarios. Se dice que los datos faltan al azar si el hecho de que faltan no está relacionado con los valores reales de los datos que faltan. Por ejemplo, si algunos cuestionarios de calidad de vida se perdieran en el sistema postal, sería poco probable que estuviera relacionado con la calidad de vida de los participantes del ensayo que completaron los formularios. En algunas circunstancias, los estadísticos distinguen entre los datos que faltan al azar y los que faltan completamente al azar, aunque en el contexto de una revisión sistemática es poco probable que la distinción sea importante. Los datos que faltan al azar pueden no ser importantes. Los análisis basados ​​en los datos disponibles tenderán a ser imparciales, aunque basados ​​en un tamaño de muestra menor que el conjunto de datos original. Se dice que los datos no faltan al azar si el hecho de que faltan está relacionado con los datos faltantes reales. Por ejemplo, en un juicio de depresión, los participantes que tenían una recaída de depresión podrían tener menos probabilidades de asistir a la entrevista de seguimiento final y más probabilidades de tener datos de resultado que faltan. Tales datos no son ignorables en el sentido de que un análisis de los datos disponibles por sí solos típicamente tendrán sesgo. El sesgo de publicación y el sesgo de información selectiva conducen por definición a datos que no faltan al azar, y el desgaste y las exclusiones de individuos dentro de los estudios a menudo también lo hacen. Las principales opciones para tratar los datos faltantes son. 2.160160160160160160160 analizando sólo los datos disponibles (es decir, ignorando los datos faltantes), imputando los datos faltantes con valores de reemplazo, y tratándolos como si fueran observados (por ejemplo, la última observación llevada adelante, imputando un resultado supuesto como suponiendo que todos eran resultados pobres La media, imputando sobre la base de los valores predichos de un análisis de regresión) 3.160160160160160160160imponiendo los datos que faltan y teniendo en cuenta el hecho de que éstos fueron imputados con incertidumbre (por ejemplo, imputación múltiple, métodos de imputación simple (como punto 2) con el ajuste al error estándar) 4.160160160160160160160 Utilizando modelos estadísticos para permitir la falta de datos, haciendo suposiciones sobre sus relaciones con los datos disponibles. La opción 1 puede ser apropiada cuando se puede suponer que los datos faltan al azar. Las opciones 2 a 4 son intentos de tratar los datos que no faltan al azar. La opción 2 es práctica en la mayoría de las circunstancias y muy comúnmente utilizada en revisiones sistemáticas. Sin embargo, no reconoce la incertidumbre en los valores y resultados imputados, típicamente, en intervalos de confianza que son demasiado estrechos. Las opciones 3 y 4 requerirían la participación de un experto en estadística. Cuatro recomendaciones generales para tratar los datos faltantes en las revisiones Cochrane son las siguientes. Siempre que sea posible, póngase en contacto con los investigadores originales para solicitar los datos que faltan. Hacer explícitos los supuestos de cualquier método utilizado para hacer frente a los datos faltantes: por ejemplo, se supone que los datos se pierden al azar o se asume que los valores perdidos tienen un valor particular, como un resultado deficiente. Realizar análisis de sensibilidad para evaluar la sensibilidad de los resultados a los cambios razonables en las suposiciones que se hacen (véase el Capítulo 9, Sección 9.7). Abordar el impacto potencial de la falta de datos sobre los resultados de la revisión en la sección de discusión. Nuevo método de imputación para datos binarios incompletos Munevver Mina Subasi a. , Ersoy Subasi b. . , Martin Anthony c. , Peter L. Hammer 1 Departamento de Ciencias Matemáticas, Instituto de Tecnología de la Florida, 150 W. University Blvd. Melbourne, FL 32901, EE. UU. B RUTCOR, Centro de Investigación de Operaciones de Rutgers, 640 Bartholomew Road, Piscataway, NJ 08854, EE. UU. c Departamento de Matemáticas, London School of Economics and Political Sciences, Londres WC2A 2AE, UK En los problemas de análisis de datos donde los datos están representados por vectores de números reales, es a menudo el caso que algunos de los puntos de datos tendrán valores de ldquomissingrdquo, lo que significa que No se observa una o más de las entradas del vector que describe el punto de datos. En este artículo proponemos un nuevo enfoque para la imputación de valores binarios faltantes. La técnica que utilizamos emplea un método de medición de la calidad que ha sido introducido por Anthony y Hammer (2006). Comparamos experimentalmente el rendimiento de nuestra técnica con los basados ​​en la medida de distancia de Hamming y la imputación múltiple. Palabras clave Imputación Medida de similitud booleana 1. Introducción En el aprendizaje práctico de la máquina o en los problemas de análisis de datos en los que los datos a analizar consisten en vectores de números reales, es frecuente que algunos de los puntos de datos tengan valores ldquomissingrdquo, No se conoce más de las entradas del vector que describe el punto de datos. Es natural intentar ldquofill inrdquo o imputar estos valores perdidos de modo que uno que tenga datos completos para trabajar de. Esto puede ser necesario, por ejemplo, para que los datos puedan ser utilizados para aprender de la utilización de técnicas estadísticas o de aprendizaje automático. Este es un problema clásico de aprendizaje estadístico y de máquina y muchas técnicas han sido empleadas. Dado que en aplicaciones de la vida real los datos que faltan son una molestia más que el enfoque primario, un método de imputación con buenas propiedades puede ser preferible a uno que es complicado de implementar y más eficiente, pero específico del problema. Algunos enfoques para manejar datos perdidos simplemente ignoran o eliminan puntos que están incompletos. Los enfoques clásicos de este tipo son la eliminación en lista (LD) y la eliminación por pares (PD). Debido a su simplicidad, son ampliamente utilizados (véase, por ejemplo, 15) y tienden a ser el valor predeterminado para la mayoría de los paquetes estadísticos. Sin embargo, la aplicación de estas técnicas puede conducir a una gran pérdida de observaciones, lo que puede resultar en conjuntos de datos que son demasiado pequeños si la fracción de valores faltantes es alta y, en particular, si el conjunto original de datos es pequeño. Una de las decisiones más difíciles que enfrentan los investigadores es elegir el método más apropiado para manejar los datos que faltan durante el análisis. Little y Rubin 13 sugieren que los métodos de imputación ingenuos o sin principios pueden crear más problemas de los que solucionan. Las técnicas de imputación de datos más comunes son la imputación media también denominada imputación media incondicional, imputación de regresión (RI) también denominada imputación media condicional, imputación de cubierta caliente (IDH) e imputación múltiple (IM). Observamos que la imputación media y enfoques similares no son apropiados en el sentido de Rubin 16 y, por lo tanto, no se recomiendan. En la mayoría de las situaciones, las técnicas simples para manejar los datos faltantes (como los métodos de análisis de casos completos LD y PD, IM global y el método de indicador faltante) producen resultados sesgados como se documenta en 5. 12. 16. 18 xA0andxA021. Una técnica más sofisticada MI da mejores resultados 5. 12. 16. 18 xA0andxA021. El MI 16 es una técnica estadística en la que cada valor faltante es reemplazado por varios valores (k) (k), produciendo k k completos conjuntos de datos para el análisis. Las diferencias entre estos conjuntos de datos reflejan la incertidumbre de los valores faltantes. Cada conjunto de datos imputados se analiza mediante procedimientos estándar de datos completos, que ignoran la distinción entre valores reales e imputados. Los resultados k k se combinan entonces de tal manera que se puede incorporar la variabilidad debida a la imputación. Cuando se realizan correctamente, los resultados de estos análisis combinados no sólo producen estimadores no sesgados para los parámetros, sino que incorporan adecuadamente la incertidumbre involucrada debido a los datos faltantes, es decir, producen estimaciones válidas de las varianzas de estas estimaciones de parámetros. Rubin 16 dio un tratamiento integral del IM y se refirió a usos potenciales de la técnica principalmente para archivos de gran uso público de datos de encuestas por muestreo y censos. La técnica está disponible en paquetes estadísticos estándar como SAS, Stata y S-Plus. Se ha vuelto cada vez más atractivo para los investigadores en las ciencias biomédicas, conductuales y sociales donde los datos que faltan son un problema común. Estos métodos están documentados en el libro de Schafer 18 sobre datos multivariados incompletos. En modelos completamente paramétricos, las estimaciones de máxima verosimilitud pueden ser calculadas directamente a partir de los datos incompletos por métodos numéricos especializados, como el algoritmo ExpectationndashMaximization (EM) 4 xA0andxA014. El algoritmo EM es un procedimiento iterativo en el que utiliza otras variables para imputar un valor (Expectativa), luego comprueba si ese es el valor más probable (Maximización). De lo contrario, vuelve a imputar un valor más probable. Esto continúa hasta que alcanza el valor más probable. Esos procedimientos pueden ser algo más eficientes que MI porque no implican ninguna simulación. La Imputación EM está disponible en el módulo Análisis de Valores Perdidos de SAS, Stata, R y SPSS. Las técnicas de imputación se han vuelto más fáciles de realizar con la llegada de varios paquetes de software. Sin embargo, la imputación de los datos binarios faltantes sigue siendo un problema práctico importante. Ibrahim 7 mostró que, bajo la suposición de que los datos faltantes faltaban al azar, el paso E del algoritmo EM para cualquier modelo lineal generalizado puede expresarse como una probabilidad ponderada de logaritmos de datos completos cuando se supone que las covariables no observadas vienen de Una distribución discreta con rango finito. Método Ibrahimrsquos de pesos 7. 8. 9. 11. 10 xA0andxA06 puede utilizarse como un enfoque basado en principios para la imputación de datos binarios. En este artículo proponemos un nuevo enfoque para la imputación de valores binarios faltantes. La técnica que introducimos emplea una medida de ldquosimilaridad introducida en 1. La medida de similitud booleana ya ha demostrado ser de alguna aplicación en problemas de clasificación 19. Aquí, lo usamos para ayudar a indicar si un valor faltante debe ser 0 o 1, y comparamos Experimentalmente el rendimiento de nuestra técnica con los basados ​​en la medida de distancia de Hamming habitual y la técnica MI utilizando SAS 17. El marco utilizado aquí requiere que los datos sean representados por vectores binarios. Sin embargo, en muchas aplicaciones, los datos sin procesar con los que trabajamos en una situación particular podrían codificarse más naturalmente como un vector de valor real. En tales casos, los datos pueden ser transformados en datos binarios a través de un proceso conocido como binarización (véase 2 por ejemplo). El conjunto de datos transformado puede entonces simplificarse o limpiarse de diversas maneras, eliminando puntos repetidos, por ejemplo, y eliminando los atributos (o coordenadas) que resultan ser estadísticamente insignificantes para determinar la clasificación. La Sección 2 proporciona detalles de la medida de similitud booleana que está en el núcleo de nuestra técnica y describe el método de imputación que deriva de esta medida. En la sección 3 se describen los experimentos que realizamos para probar este método y los resultados se presentan en la Sección 4. Bienvenido al Instituto de Investigación y Educación Digital Seminarios de Informática Estadística Falta datos en SAS Parte 1 Nota: Una presentación en PowerPoint de esta página web puede Se puede descargar aquí. Introducción La falta de datos es una cuestión común, y más a menudo que no, nos ocupamos de la cuestión de los datos que faltan de una manera ad hoc. El propósito de este seminario es discutir técnicas comúnmente usadas para manejar datos faltantes y problemas comunes que podrían surgir cuando se usan estas técnicas. En particular, nos centraremos en uno de los métodos más populares, la imputación múltiple. No estamos abogando a favor de ninguna técnica para manejar datos faltantes y dependiendo del tipo de datos y el modelo que va a utilizar, otras técnicas como la máxima verosimilitud directa pueden servir mejor sus necesidades. Hemos optado por explorar la imputación múltiple mediante un examen de los datos, una cuidadosa consideración de los supuestos necesarios para implementar este método y una comprensión clara del modelo analítico que se va a estimar. Esperamos que este seminario le ayude a comprender mejor el alcance de los problemas que podría enfrentar al tratar con datos que faltan utilizando este método. El conjunto de datos hsbmar. sas7bdat que se basa en hsb2.sas7bdat utilizado para este seminario se puede descargar en el siguiente enlace. El código SAS para este seminario está desarrollado a partir de SAS 9.4 y SAS / STAT 13.1. Así que me de las variables tienen etiquetas de valor (formatos) asociados con ellos. Esta es la configuración para leer correctamente las etiquetas de valor. Objetivos del análisis estadístico con datos que faltan: Minimizar el sesgo Maximizar el uso de la información disponible Obtener estimaciones apropiadas de incertidumbre Explorar los mecanismos de datos faltantes El mecanismo de datos faltantes describe el proceso que se cree que ha generado los valores faltantes. Mecanismos de datos perdidos generalmente caen en una de tres categorías principales. Hay definiciones técnicas precisas para estos términos en la literatura la siguiente explicación contiene necesariamente simplificaciones. Falta completamente al azar (MCAR) Una variable se pierde completamente al azar, si ni las variables en el conjunto de datos ni el valor no observado de la propia variable predicen si un valor faltará. Faltar completamente al azar es un supuesto bastante fuerte y puede ser relativamente raro. Una situación relativamente común en la que los datos faltan completamente al azar se produce cuando un subconjunto de casos se selecciona al azar para someterse a medidas adicionales, a veces se denomina quotplanned missing. quot Por ejemplo, en algunas encuestas de salud, algunos sujetos son seleccionados al azar Someterse a un examen físico más extenso por lo tanto, sólo un subconjunto de participantes tendrá información completa para estas variables. Faltando completamente al azar también permiten que falte en una variable sea relacionado a faltar en otro, p. Var1 falta cuando falta var2. Por ejemplo, un marido y una esposa faltan información sobre la altura. Se dice que una variable falta al azar si se pueden usar otras variables (pero no la variable misma) en el conjunto de datos para predecir la ausencia en una variable dada. Por ejemplo, en las encuestas, los hombres pueden ser más propensos a negarse a responder a algunas preguntas que las mujeres (es decir, el género predice la ausencia en otra variable). MAR es un supuesto menos restrictivo que el MCAR. Bajo este supuesto, la probabilidad de ausencia no depende de los valores reales después de controlar las variables observadas. MAR también está relacionado con la ignorabilidad. Se dice que el mecanismo de datos faltantes es ignorable si falta al azar y la probabilidad de una falta no depende de la información que falta. La asunción de ignorabilidad es necesaria para la estimación óptima de la información que falta y es una suposición necesaria para ambas técnicas de datos faltantes que vamos a discutir. Faltando no al azar (MNAR) Finalmente, se dice que los datos faltan no de forma aleatoria si el valor de la variable no observada predice la ausencia. Un ejemplo clásico de esto es el ingreso. Los individuos con ingresos muy altos son más propensos a negarse a responder preguntas sobre sus ingresos que los individuos con ingresos más moderados. Una comprensión de los mecanismos de datos faltantes presentes en sus datos es importante porque los diferentes tipos de datos faltantes requieren diferentes tratamientos. Cuando faltan datos completamente al azar, el análisis solo de los casos completos no dará como resultado estimaciones de parámetros sesgadas (por ejemplo, coeficientes de regresión). Sin embargo, el tamaño de la muestra para un análisis se puede reducir sustancialmente, dando lugar a mayores errores estándar. Por el contrario, el análisis de casos completos sólo para los datos que faltan al azar o los que no se detectan al azar puede conducir a estimaciones de parámetros sesgadas. La imputación múltiple y otros métodos modernos tales como la máxima verosimilitud directa generalmente asumen que los datos son al menos MAR, lo que significa que este procedimiento también puede usarse en datos que faltan completamente al azar. También se han desarrollado modelos estadísticos para modelar los procesos MNAR, sin embargo, estos modelos están fuera del alcance de este seminario. Para más información sobre los mecanismos de datos faltantes, por favor vea: Allison, 2002 Enders, 2010 Pequeño amplificador Rubin, 2002 Rubin, 1976 Schafer amp Graham, 2002 Datos completos: A continuación se muestra un modelo de regresión que predice leer usando el conjunto de datos completo (hsb2) usado para crear Hsbmar Utilizaremos estos resultados para compararlos. Técnicas comunes para tratar los datos faltantes En esta sección, vamos a discutir algunas técnicas comunes para tratar los datos faltantes y discutir brevemente sus limitaciones. Análisis completo de casos (eliminación de listas) Análisis de casos disponibles (supresión por pares) Imputación media Imputación individual Imputación estocástica 1. Análisis completo de casos: Este método implica la supresión de casos en un conjunto de datos que faltan datos sobre cualquier variable de interés. Es una técnica común porque es fácil de implementar y funciona con cualquier tipo de análisis. A continuación veremos algunas de las estadísticas descriptivas del conjunto de datos hsbmar. Que contiene los resultados de las pruebas, así como información demográfica y escolar para 200 estudiantes de secundaria. Tenga en cuenta que aunque el conjunto de datos contiene 200 casos, seis de las variables tienen menos de 200 observaciones. La información que falta varía entre 4.5 (leer) y 9 (femenino y prog) de los casos dependiendo de la variable. Esto parece un montón de datos faltantes, por lo que podría estar inclinado a tratar de analizar los datos observados como son, una estrategia a veces se refiere como un análisis de caso completo. A continuación se muestra un modelo de regresión donde se lee la variable dependiente que se regresa al escribir. Matemáticas, femenino y prog. Observe que el comportamiento por defecto de proc glm es un análisis de caso completo (también conocido como eliminación listwise). En cuanto a la producción, vemos que sólo 130 casos se utilizaron en el análisis en otras palabras, más de un tercio de los casos en nuestro conjunto de datos (70/200) fueron excluidos del análisis debido a la falta de datos. La reducción del tamaño de la muestra (y el poder estadístico) por sí sola podría considerarse un problema, pero el análisis completo de los casos también puede conducir a estimaciones sesgadas. Específicamente verá a continuación que las estimaciones para el intercepto, escritura, matemáticas y prog son diferentes del modelo de regresión en los datos completos. Además, los errores estándar son más grandes debido al tamaño de la muestra más pequeño, resultando en la estimación del parámetro para la hembra que casi se hace no significativa. Desafortunadamente, a menos que el mecanismo de datos faltantes sea MCAR, este método introducirá sesgo en las estimaciones de parámetros. 2. Análisis de Caso Disponible: Este método implica estimar los medios, las varianzas y las covarianzas basándose en todos los casos no faltantes disponibles. Esto significa que se calcula una matriz de covarianza (o correlación) donde cada elemento se basa en el conjunto completo de casos con valores no faltantes para cada par de variables. Este método se hizo popular porque la pérdida de potencia debido a la falta de información no es tan sustancial como con el análisis completo del caso. A continuación, observamos las correlaciones entre el resultado leído y cada uno de los predictores, escritura, prog, sexo femenino y matemáticas. Dependiendo de la comparación de parejas examinada, el tamaño de la muestra cambiará en función de la cantidad de ausente presente en una o ambas variables. Debido a que proc glm no acepta matrices de covarianza como entrada de datos, el siguiente ejemplo se hará con proc reg. Esto nos obligará a crear variables ficticias para nuestro predictor prog categórico ya que no hay declaración de clase en proc reg. Por defecto, proc corr utiliza la supresión por pares para estimar la tabla de correlación. Las opciones de la sentencia de proc corr, cov y outp. Mostrará una matriz de varianza / covarianza basada en la eliminación por parejas que se utilizará en el modelo de regresión siguiente. Lo primero que debe ver es la nota que SAS imprime en su archivo de registro indicando quotN no es igual entre las variables del conjunto de datos. Esto puede no ser apropiado. Se utilizará el valor más pequeño. Uno de los principales inconvenientes de este método es que no hay un tamaño de muestra consistente. También observará que las estimaciones de parámetros presentadas aquí son diferentes de las estimaciones obtenidas del análisis de los datos completos y del enfoque de supresión en la lista. Por ejemplo, la variable femenina tuvo un efecto estimado de -2,7 con los datos completos, pero se atenuó a -1,85 para el análisis de caso disponible. A menos que el mecanismo de datos faltantes sea MCAR, este método introducirá sesgo en las estimaciones de parámetros. Por lo tanto, este método no se recomienda. 3. Imputación media incondicional: Este método implica reemplazar los valores faltantes de una variable individual con la media global estimada de los casos disponibles. Si bien este es un método sencillo y fácilmente implementado para tratar con valores que faltan tiene algunas consecuencias desafortunadas. El problema más importante con la imputación media, también llamada sustitución media, es que resultará en una reducción artificial de la variabilidad debido al hecho de que está imputando valores en el centro de la distribución de la variable. Esto también tiene la consecuencia involuntaria de cambiar la magnitud de las correlaciones entre la variable imputada y otras variables. Podemos demostrar este fenómeno en nuestros datos. A continuación se presentan las tablas de las medias y desviaciones estándar de las cuatro variables en nuestro modelo de regresión ANTES y DESPUÉS de una imputación media, así como sus correspondientes matrices de correlación. Volveremos a utilizar las variables dummy prog que creamos anteriormente. Notará que hay muy poco cambio en la media (como cabría esperar) sin embargo, la desviación estándar es notablemente menor después de sustituir en valores medios para las observaciones con información que falta. Esto se debe a que reduce la variabilidad en sus variables cuando impute a todos en la media. Además, se puede ver la tabla de Coeficientes de Correlación de Parece que la correlación entre cada uno de nuestros predictores de interés, así como entre los predictores y el resultado leído ahora se han atenuado. Por lo tanto, los modelos de regresión que buscan estimar las asociaciones entre estas variables también verán sus efectos debilitados. 4. Imputación individual o determinista: Un tipo de imputación un poco más sofisticado es una imputación de media regresiva / condicional, que r sustituye los valores faltantes con las puntuaciones predichas de una ecuación de regresión. La fuerza de este enfoque es que utiliza información completa para imputar valores. El inconveniente aquí es que todos sus valores predichos caerán directamente en la línea de regresión una vez más disminuyendo la variabilidad, no tanto como con la imputación media incondicional. Por otra parte, los modelos estadísticos no pueden distinguir entre los valores observados y los imputados y por lo tanto no incorporan en el modelo el error o incertidumbre asociado con esa imputedva lue. Además, verá que este método también inflar las asociaciones entre variables porque imputa valores que están perfectamente correlacionados entre sí. Desafortunadamente, incluso bajo la presunción de MCAR, la imputación de regresión polarizará las correlaciones y las estadísticas R-cuadradas. Se puede encontrar más información y un ejemplo de esto en Craig Enders libro quotApplied Missing Data Analysisquot (2010). 5. Imputación estocástica: En reconocimiento de los problemas con la imputación de regresión y la menor variabilidad asociada con este enfoque, los investigadores desarrollaron una técnica para incorporar o quotadd backquot perdido variabilidad. Un término residual, que se extrae aleatoriamente de una distribución normal con media cero y varianza igual a la varianza residual del modelo de regresión, se agrega a las puntuaciones predichas de la imputación de regresión restaurando así parte de la variabilidad perdida. Este método es superior a los métodos anteriores, ya que producirá estimaciones de coeficiente imparcial bajo MAR. Sin embargo, los errores estándar producidos durante la estimación de regresión, mientras que menos sesgada entonces el enfoque de imputación única, todavía se atenúa. Si bien es posible que se incline a utilizar uno de estos métodos más tradicionales, considere esta afirmación: Los análisis de datos de molesto son difíciles porque no existe un procedimiento metodológico intrínsecamente correcto. En muchas situaciones (si no en la mayoría), aplicar ciegamente la estimación de máxima verosimilitud o la imputación múltiple probablemente conducirá a un conjunto de estimaciones más preciso que el uso de una de las técnicas de manejo de datos faltantes mencionadas anteriormente (p.344, Applied Missing Data Analysis, 2010) . Imputación múltiple La imputación múltiple es esencialmente una forma iterativa de imputación estocástica. Sin embargo, en lugar de rellenar un solo valor, la distribución de los datos observados se utiliza para estimar múltiples valores que reflejan la incertidumbre alrededor del valor real. Estos valores se utilizan entonces en el análisis de interés, como en un modelo OLS, y los resultados combinados. Cada valor imputado incluye un componente aleatorio cuya magnitud refleja la medida en que otras variables del modelo de imputación no pueden predecir sus verdaderos valores (Johnson y Young, 2011 White et al, 2010). Por lo tanto, la construcción en los valores imputados un nivel de incertidumbre alrededor de la quottruthfulnessot de los valores imputados. Un concepto erróneo común de los métodos de datos faltantes es la suposición de que los valores imputados deben representar valores quotrealquot. El propósito al tratar datos faltantes es reproducir correctamente la matriz de varianza / covarianza que habríamos observado si nuestros datos no tuvieran ninguna información faltante. MI tiene tres fases básicas: 1. Imputación o fase de relleno: Los datos que faltan se rellenan con valores estimados y se crea un conjunto de datos completo. Este proceso de relleno se repite m veces. 2. Fase de análisis: Cada uno de los m conjuntos de datos completos se analiza a continuación utilizando un método estadístico de interés (por ejemplo, regresión lineal). 3. Fase de agrupación: Las estimaciones de parámetros (por ejemplo, coeficientes y errores estándar) obtenidas de cada conjunto de datos analizados se combinan a continuación para inferencia. El método de imputación que elija depende del patrón de información que falta y del tipo de variable con información que falta. Modelo de Imputación, Modelo Analítico y Compatibilidad: Al desarrollar su modelo de imputación, es importante evaluar si su modelo de imputación es quotcongenial o consistente con su modelo analítico. Consistencia significa que su modelo de imputación incluye (al menos) las mismas variables que están en su modelo analítico o de estimación. Esto incluye cualquier respuesta a las variables que serán necesarias para evaluar su hipótesis de interés. Esto puede incluir transformaciones de log, términos de interacción o recodificación de una variable continua en una forma categórica, si así es como se usará en el análisis posterior. La razón de esto se relaciona con los comentarios anteriores sobre el propósito de la imputación múltiple. Como estamos tratando de reproducir la matriz de varianza / covarianza apropiada para la estimación, todas las relaciones entre nuestras variables analíticas deben ser representadas y estimadas simultáneamente. De lo contrario, está imputando valores suponiendo que tienen una correlación de cero con las variables que no incluyó en su modelo de imputación. Esto resultaría en subestimar la asociación entre los parámetros de interés en su análisis y una pérdida de poder para detectar las propiedades de sus datos que pueden ser de interés, tales como las no linealidades y las interacciones estadísticas. Para más información sobre este tema en particular vea: 1. von Hippel, 2009 2. von Hippel, 2013 3. White et al. 2010 Preparación para la realización de MI: Primer paso: Examine el número y la proporción de valores faltantes entre sus variables de interés. El proc significa que el procedimiento en SAS tiene una opción llamada nmiss que contará el número de valores faltantes para las variables especificadas. También puede crear banderas de datos faltantes o variables de indicador para la información que falta para evaluar la proporción de faltas. Esta tabla quotMissing Data Patternsquot se puede solicitar sin realizar una imputación completa especificando la opción nimpute0 (especificando cero conjuntos de datos imputados a crear) en la línea de instrucción de proc mi. Cada quotgroupquot representa un conjunto de observaciones en el conjunto de datos que comparten el mismo patrón de información que falta. Por ejemplo, el grupo 1 representa las 130 observaciones en los datos que tienen información completa sobre las 5 variables de interés. Este procedimiento también proporciona medios para cada variable para este grupo. Puede ver que hay un total de 12 patrones para las variables especificadas. Los medios estimados asociados con cada patrón de datos faltantes también pueden dar una indicación de si la asunción MCAR o MAR es apropiada. Si empieza a observar que aquellos con ciertos patrones de datos perdidos parecen tener una distribución de valores muy diferente, esto es una indicación de que los datos pueden no ser MCAR. Además, dependiendo de la naturaleza de los datos, puede reconocer patrones tales como falta monótona que se puede observar en datos longitudinales cuando un individuo abandona en un punto de tiempo determinado y, por lo tanto, todos los datos después de que faltan posteriormente. Además, puede identificar patrones de omisión que se omitieron en su revisión original de los datos que deberían tratarse antes de seguir adelante con la imputación múltiple. Tercer Paso: Si es necesario, identifique las variables auxiliares potenciales. Las variables auxiliares son variables en su conjunto de datos que están correlacionadas con una variable o variables faltantes (la recomendación es r 0,4) o se cree que están asociadas con la ausencia. Estos son factores que no son de particular interés en su modelo analítico. Pero se agregan al modelo de imputación para aumentar la potencia y / o ayudar a hacer más plausible la asunción de la MAR. Estas variables se han encontrado para mejorar la calidad de los valores imputados generan a partir de la imputación múltiple. Por otra parte, la investigación ha demostrado su particular importancia al imputar una variable dependiente y / o cuando se tienen variables con una alta proporción de información que falta (Johnson y Young, 2011 Young y Johnson, 2010 Enders, 2010). Usted puede a priori saber de varias variables que cree que haría buenas variables auxiliares basadas en su conocimiento de los datos y el tema. Además, una buena revisión de la literatura a menudo puede ayudar a identificarlos también. Sin embargo, si no está seguro de qué variables en los datos podrían ser candidatos potenciales (esto es a menudo el caso cuando se realiza análisis análisis de datos secundarios), puede utilizar algunos métodos simples para ayudar a identificar posibles candidatos. Una forma de identificar estas variables es examinando las asociaciones entre escritura, lectura, hembra y matemáticas con otras variables del conjunto de datos. For example, let39s take a look at the correlation matrix between our 4 variables of interest and two other test score variables science and socst . Science and socst both appear to be a good auxiliary because they are well correlated (r gt0.4) with all the other test score variables of interest. You will also notice that they are not well correlated with female . A good auxiliary does not have to be correlated with every variable to be used. You will also notice that science also has missing information of it39s own. Additionally, a good auxiliary is not required to have complete information to be valuable. They can have missing and still be effective in reducing bias (Enders, 2010). One area, this is still under active research, is whether it is beneficial to include a variable as an auxiliary if it does not pass the 0.4 correlation threshold with any of the variables to be imputed. Some researchers believe that including these types o f items introduces unnecessary error into the imputation model (Allison, 2012), while others do not believe that there is any harm in this practice (Ender, 2010). Thus. we leave it up to you as the researcher to use your best judgment. Good auxiliary variables can also be correlates or predictors of missingness. Let39s use the missing data flags we made earlier to help us identify some variables that may be good correlates. We examine if our potential auxiliary variable socst also appears to predict missingness. Below are a set of t-tests to test if the mean socst or science scores differ significantly between those with missing information and those without. The only significant difference was found when examining missingness on math with socst. Above you can see that the mean socst score is significantly lower among the respondents who are missing on math. This suggests that socst is a potential correlate of missingness (Enders, 2010) and may help us satisfy the MAR assumption for multiple imputation by including it in our imputation model. Example 1: MI using multivariate normal distribution (MVN): When choosing to impute one or many variables, one of the first decisions you will make is the type of distribution under which you wa nt to impute your variable(s). One method available in SAS uses Markov Chain Monte Carlo (MCMC) which assumes that all the variables in the imputation model have a joint multivariate normal distribution. This is probably the most common parametric approach for multiple imputation. The specific algorithm used is called the data augmentation (DA) algorithm, which belongs to the family of MCMC procedures. The algorithm fills in missing data by drawing from a conditional distribution, in this case a multivariate normal, of the missing data given the observed data. In most cases, simul ation studies have shown that assuming a MVN distribution leads to reliable estimates even when the normality assumption is violated given a sufficient sample size (Demirtas et al. 2008 KJ Lee, 2010). Ho wever, biased estimates have been observed when the sample size is relatively small and the fraction of missing information is high. Note: Since we are using a multivariate normal distribution for imputation, decimal and negative values are possible. These values are not a problem for estimation however, we will need to create dummy variables for the nominal categorical variables so the parameter estiamtes for each level can be interpreted. Imputation in SAS requires 3 procedures. The first is proc mi where the user specifies the imputation model to be used and the number of imputed datasets to be created. The second procedure runs the analytic model of interest (here it is a linear regression using proc glm ) within each of the imputed datasets. The third step runs a procedure call proc mianalyze which combines all the estimates (coefficients and standard errors) across all the imputed datasets and outputs one set of parameter estimates for the model of interest. On the proc mi procedure line we can use the nimpute option to specify the number of imputations to be performed. The imputed datasets will be outputted using the out option, and stored appended or quotstackedquot together in a dataset called quotmimvnquot. An indicator variables called imputation is automatically created by the procedure to number each new imputed dataset. After the var statement, all the variables for the imputation model are specified including all the variables in the analytic model as well as any auxiliary variables. The option seed is not required, but since MI is designed to be a random process, setting a seed will allow you to obtain the same imputed dataset each time. This estimates the linear regression model for each imputed dataset individually using the by statement and the indicator variable created previously. You will observe in the Results Viewer, that SAS outputs the parameter estimates for each of the 10 imputations. The output statement stores the parameter estimates from the regression model in the dataset named quotamvn. quot This dataset will be used in the next step of the process, the pooling phase. Proc mianalyze uses the dataset quotamvnquot that contains the parameter estimates and associated covariance matrices for each imputation. The variance/covariance matrix is needed to estimate the standard errors. This step combines the parameter estimates into a single set of statistics that appropriately reflect the uncertainty associated with the imputed values. The coefficients are simply just an arithmetic mean of the individual coefficients estimated for each of the 10 regression models. Averaging the parameter estimates dampens the variation thus increasing efficiency and decreasing sampling variation. Estimation of the standard error for each variable is little more complicated and will be discussed in the next section. If you compare these estimates to those from the complete data you will observe that they are, in general, quite comparable. The variables write female and math . are significant in both sets of data. You will also observe a small inflation in the standard errors, which is to be expected since the multiple imputation process is designed to build additional uncertainty into our estimates. 2. Imputation Diagnostics: Above the quotParameter Estimatesquot table in the SAS output above you will see a table called quotVariance Informationquot. It is important to examine the output from proc mianalyze, as several pieces of the information can be used to assess how well the imputation performed. Below we discuss each piece: Variance Between (V B ): This is a measure of the variability in the parameter estimates (coefficients) obtained from the 10 imputed datasets For example, if you took all 10 of the parameter estimates for write and calculated the variance this would equal V B 0.000262. This variability estimates the additional variation (uncertainty) that results from missing data. Variance Within (V W ): This is simply the arithmetic mean of the sampling variances (SE) from each of the 10 imputed datasets. For example, if you squared the standard errors for write for all 10 imputations and then divided by 10, this would equal, this would equal V w 0.006014. This estimates the sampling variability that we would have expected had there been no missing data. Variance Total (V T ): The primary usefulness of MI comes from how the total variance is estimated. T he total variance is sum of multiple sources of variance. While regression coefficients are just averaged across imputations, Rubin39s formula (Rubin, 1 987) p artitions variance into quotwithin imputationquot capturing the expected uncertainty and quotbetween imputationquot capturing the estimation variability due to missing information (Graham, 2007 White et al. 2010). The total variance is the sum of 3 sources of variance. The within, the between and an additional source of sampling variance. For example, the total variance for the variable write would be calcualted like this: V B V w V B / m 0.000262 0.006014 0.000262/10 0.006302 The additional sampling variance is literally the variance between divided by m . This value represents the sampling error associated with the overall or average coefficient estimates. It is used as a correction factor for using a specific number of imputations. This value becomes small er, the more imputations are conducted. The idea being that the larger the number of imputations, the more precise the parameter estimates will be. Bottom line: The main difference between multiple imputation and other single imputation methods, is in the estimation of the variances. The SE39s for each parameter estimate are the square root of it39s V T . Degrees of Freedom (DF): Unlike analysis with non-imputed data, sample size does not directly influence the estimate of DF. DF actually continues to increase as the number of imputations increase. The standard formula used to calculate DF can result in fractional estimates as well as estimates that far exceed the DF that would had resulted had the data been complete. By default the DF infinity. Note: Starting is SAS v.8, a formula to adjust for the problem of inflated DF has been implemented (Barnard and Rubin, 1999). Use the EDF option on the proc mianalyze line to indicate to SAS what the proper adjusted DF. Bottom line: The standard formula assumes that the estimator has a normal distribution, i. e. a t-distribution with infinite degrees of freedom. In large samples this is not usually an issue but can be with smaller sample sizes. In that case, the corrected formula should be used (Lipsitz et al. 2002). Relative Increases in Variance (RIV/RVI): Proportional increase in total sampling variance that is due to missing information (V B V B / m /V W ). For example, the RVI for write is 0.048, this means that the estimated sampling variance for write is 4.8 larger than its sampling variance would have been had the data on write been complete. Bottom line: Variables with large amounts of missing and/or that are weakly correlated with other variables in the imputation model will tend to have high RVI39s. Fraction of Missing Information (FMI): Is directly related to RVI. Proportion of the total sampling variance that is due to missing data (V B V B / m / V T ) . It39s estimated based on the percentage missing for a particular variable and how correlated this variable is with other variables in the imputation model. The interpretation is similar to an R-squared. So an FMI of 0.046 for write means that 4.6 of the total sampling variance is attributable to missing data. The accuracy of the estimate of FMI increases as the number imputation increases because varaince estimates become more stable. This especially important in the presence of a variable(s) with a high proportion of missing information. If convergence of your imputation model is slow, examine the FMI estimates for each variables in your imputation model. A high FMI can indicate a problematic variable. Bottom line: If FMI is high for any particular variable(s) then consider increasing the number of imputations. A good rule of thumb is to have the number imputations (at least) equal the highest FMI percentage. Relative Efficiency: The relative efficiency (RE) of an imputation (how well the true population parameters are estimated) is related to both the amount of missing information as well as the number ( m) of imputations performed. When the amount of missing information is very low then efficiency may be achieved by only performing a few imputations (the minimum number given in most of the literature is 5). However when there is high amount of missing information, more imputations are typically necessary to achieve adequate efficiency for parameter estimates. You can obtain relatively good efficiency even with a small number of m. However, this does not mean that the standard errors will be well estimated well. More imputations are often necessary for proper standard erro r estimation as the variability between imputed datasets incorporate the necessary amount of uncertainty around the imputed values. The direct relationship between RE, m and the FMI is: 1/(1FMI/ m ) . This formula represent the RE of using m imputation versus the infinte number of imputations. To get an idea of what this looks like practically, take a look at the figure below from the SAS documentation where m is the number of imputations and lambda is the FMI. Bottom line: It may appear that you can get good RE with a few imputations however, it often takes more imputations to get good estimates of the variances than good estimates of parameters like means or regression coefficients. After performing an imputation it is also useful to look at means, frequencies and box plots comparing observed and imputed values to assess if the range appears reasonable. You may also want to examine plots of residuals and outliers for each imputed dataset individually. If anomalies are evident in only a small number of imputations then this indicates a problem with the imputation model (White et al, 2010). You should also assess convergence of your imputation model. This should be done for different imputed variables, but specifically for those variables with a high proportion of missing (e. g. high FMI). Convergence of the proc mi procedure means that DA algorithm has reached an appropriate stationary posterior distribution. Convergence for each imputed variable can be assessed using trace plots. These plots can be requested on the mcmc statement line in the proc mi procedure. Long-term trends in trace plots and high serial dependence are indicative of a slow convergence to stationarity. A stationary process has a mean and variance that do not change over time. By default SAS will provide a trace plots of estimates for the means for each variable but you can also ask for these for the standard deviation as well. You can take a look at examples of good and bad trace plots in the SAS users guide section on quotAssessing Markov Chain Convergence quot. Above is an example of a trace plot for mea n social studies score. There are two main things you want to note in a trace plot. First, assess whether the algorithm appeared to reach a stable posterior distribution by examining the plot to see if the mean remains relatively constant and that there appears to be an absence of any sort of trend (indicating a sufficient amount of randomness in the means between iterations). In our case, this looks to be true. Second, you want to examine the plot to see how long it takes to reach this stationary phase. In the above example it looks to happen almost immediately, indicating good convergence. The dotted lines represent at what iteration and imputed dataset is drawn. By default the burn-in period (number of iterations before the first set of imputed values is drawn) is 200. This can be increased if it appears that proper convergence is not achieved using the nbiter option on the mcmc statement. Another plot that is very useful for assessing convergence is the auto correlation plot also specified on the mcmc statement using plotsacf. This helps us to assess possible auto correlation of parameter values between iterations. Let39s say you noticed a trend in the mean social studies scores in the previous trace plot. You may want to assess the magnitude of the observed dependency of scores across iterations. The auto correlation plot will show you that. In the plot below, you will see that the correlation is perfect when the mcmc algorithm starts but quickly goes to near zero after a few iterations indicating almost no correlation between iterations and therefore no correlation between values in adjacent imputed datasets. By default SAS, draws an imputed dataset every 100 iterations, if correlation appears high for more than that, you will need to increase the number of iterations between imputed datasets using the niter option. Take a look at the SAS 9.4 proc mi documentation for more information about this and other options. Note: The amount of time it takes to get to zero (or near zero) correlation is an indication of convergence time (Enders, 2010). For more information on these and other diagnostic tools, please se e Ender, 2010 and Rubin, 1987. Example 2: MI using fully conditional specification (also known as imputation by chained equations/ICE or sequential generalized regression ) A second method available in SAS imputes missing variables using the fully conditional method (FCS) which does not assume a joint distribution but instead uses a separate conditio nal distribution for each imputed variable. This specification may be necessary if your are imputing a variable that must only take on specific values such as a binary outcome for a logistic model or count variable for a poisson model. In simulation studies (Lee amp Carlin, 2010 Van Buuren, 2007), the FCS has been show to produce estimates that are comparable to MVN method. Later we will discuss some diagnostic tools that can be used to assess if convergence was reached when using FCS. The FCS methods available is SAS are discriminant function and logistic regression for binary/categorical variables and linear regression and predictive mean matching for continuous variables. If you do not specify a method, by default the discriminant function and regression are used. Some interesting properties of each of these options are: 1. The discriminant function method allows for the user to specify prior probabilities of group membership. In discriminant function only continuous variables can be covariates by default. To change this default use the classeffects option. 2. The logistic regression method assumes ordering of class variables if more then two levels. 3. The default imputation method for continuous variables is regression. The regression method allows for the use of ranges and rounding for imputed values. These options are prob lematic and typically introduce bias (Horton et al. 2003 Allison, 2005). Take a look at the quotOther Issuesquot section below, for further discussion on this topic. 4. The predictive mean matching method will provide imputed values that are consistent with observed values. If plausible values are necessary, this is a better choice then using bounds or rounding values produced from regression. For more information on these methods and the options associated with them, see SAS Help and Documentation on the FCS Statement . The basic set-up for conducting an imputation is shown below. The var statement includes all the variables that will be used in the imputation model. If you want to impute these variables using method different then the default you can specify which variable(s) is to be imputed and by what method on the FCS statement. In this example we are imputing the binary variable female and the categorical variable prog using the discriminant function method. Since they are both categorical, we also list female and prog on the class statement. Note: Because we are using the discriminant function method to impute prog we no longer need to create dummy variables. Additionally, we use the classeffectsinclude option so all continuous and categorical variables will be used as predictors when imputing female and prog . All the other variables on var statement will be imputed using regression since a different distribution was not specified. The ordering of variables on the var statement controls in which order variables will be imputed. With multiple imputation using FCS, a single imputation is conducted during an initial fill-in stage. After the initial stage, the variables with missing values are imputed in the order specified on the var statement. With subsequent variable being imputed using observed and imputed values from the variables that proceeded them. For more information on this see White et al. 2010. Also as in the previous proc mi example using MVN, we can also specify the number of burn-in interations using the option nbiter . The FCS statement also allows users to specify which variable you want to use as predictors, if no covariates are given from the imputed variable then SAS assumes that all the variables on the var statement are to be used to predict all other variables. Multiple conditional distributions can be specified in the same FCS statement. Take a look at the examples below. This specification, imputes female and prog under a generalized logit distribution that is appropriate for non-ordered categorical variables instead of the default cumulative logit that is appropriate for ordered variables. This second specification, imputes female and prog under a generalized logit distribution and uses predictive mean matching to impute math, read and write instead of the default regression method. This third specification, indicates that prog and female should be imputed using a different sets of predictors. 2. Analysis and Pooling Phase Once the 20 multiply imputed datasets have been created, we can run our linear regression using proc genmod . Since we imputed female and prog under a distribution appropriate for categorical outcomes, the imputed values will now be true integer values. Take a look at the results of proc freq for female and prog in the second imputed dataset as compared to original data with missing values. As you can see, the FCS method has imputed quotrealquot values for our categorical variables. Prog and female can now be used in the class statement below and we no longer need to create dummy variables for prog . As with the previous example using MVN, we will run our model on each imputed dataset stored in mifcs . We will also use an ODS Output statement to save the parameter estimates from our 20 regressions. Below is a proc print of what the parameter estimates in gmfcs look like for the first two imputed datasets. quot Imputation quot indicates which imputed dataset each set of parameters estimates belong to. quotLevel1quot indicates the levels or categories for our class variables. The mianalyze procedure will now require some additional specification in order to properly combine the parameter estimates. You can see above that the parameter estimates for variables used in our model39s class statement have estimates with 1 row for each level. Additionally, a column called quotLevel1quot specifies the name or label associated with each category. In order from mianalyze to estimate the combined estimates appropriately for the class variables we need to add some options to the proc mianalyze line. As before the parms refers to input SAS data set that contains parameter estimates computed from each imputed data set. However, we also need the option classvar added. This option is only appropriate when the model effects contain classification variables. Since proc genmod names the column indicator for classification quotLevel1quot we will need to specify classvarlevel . Note: Different procedures in SAS require different classvar options. If you compare these estimates to those from the full data (below) you will see that the magnitude of the write . female . and math parameter estimates using the FCS data are very similar to the results from the full data. Additionally, the overall significance or non-significance of specific variables remains unchanged. As with the MVN model, the SE are larger due to the incorporation of uncertainty around the parameter estimates, but these SE are still smaller then we observed in the complete cases analysis. 4. Imputation Diagnostics: Like the previous imputation method with MVN . the FCS statement will output trace plots. These can be examined for the mean and standard deviation of each continuous variable in the imputation model. As before, the dashed vertical line indicates the final iteration where the imputation occurred. Each line represents a different imputation. So all 20 imputation chains are overlayed on top of one another. Autocorrelation plots are only available with the mcmc statement when assuming a joint multivariate normal distribution. This plot is not available when using the FCS statement. 1. Why Auxiliary variables So one question you may be asking yourself, is why are auxiliary variables necessary or even important. First, they can help improve the likelihood of meeting the MAR assum ption (White et al, 2011 Johnson and Young, 2011 Allison, 2012). Remember, a variable is said to be missing at random if other variables in the dataset can be used to predict missingness on a given variable. So you want your imputation model to include all the variables you think are associated with or p redict missingness in your variable in order to fulfill the assumption of MAR. Second, including auxiliaries has been shown to help yield more accurate and stable estimates and thus reduce the estimated standard errors in analytic models (Enders, 2010 Allison, 2012 von Hippel and Lynch, 2013). This is especially true in the case of missing outcome variables. Tercero. including these variable can also help to increase po wer (Reis and Judd, 2000 Enders, 2010). In general, there is almost always a benefit to adopting a more quotinclusive analysis str ategyquot (Enders, 2010 Allison, 2012). 2. Selecting the number of imputations ( m ) Historically, the recommendation was for three to five MI datasets. Relatively low values of m may still be appropriate when the fraction of missing information is low and the analysis techniques are relatively simple. Recently, however, larger values of m are often being recommended. To some extent, this change in the recommended number of imputations is based on the radical increase in the computing power available to the typical researcher, making it more practical to run, create and analyze multiply imputed datasets with a larger number of imputations. Recommendations for the number of m vary. For example, five to 20 imputations for low fractions of missing information, and as many as 50 (or more) imputations when the proportion of missing data is relatively high. Remember that estimates of coefficients stabilize at much lower values of m than estimates of variances and covariances of error terms (i. e. standard errors). Thus, in order to get appropriate estimates of these parameters, you may need to increase the m. A larger number of imputations may also allow hypothesis tests with less restrictive assumptions (i. e. that do not assume equal fractions of missing information for all coefficients). Multiple runs of m imputations are recommended to assess the stability of the parameter estimates. Graham et al. 2007 conducted a simulation demonstrating the affect on power, efficiency and parameter estimates across different fractions of missing information as you decrease m. The authors found that: 1. Mean square error and standard error increased. 2. Power was reduced, especially when FMI is greater than 50 and the effect size is small, even for a large number of m (20 or more). 3. Variability of the estimate of FMI increased substantially. In general. the estimation of FMI improves with an increased m . Another factor to consider is the importance of reproducibility between analyses using the same data. White et al. (2010), ass uming the true FMI for any variable would be less than or equal to the percentage of cases that are incomplete, uses the rule m should equal the percentage of incomplete cases. Thus if the FMI for a variable is 20 then you need 20 imputed datasets. A similar analysis by Bodner, 2008 makes a similar recommendation. White et al. 2010 also found when making this assumption, the error associated with estimating the regression coefficients, standard errors and the resulting p-values was considerably reduced and resulted in an adequate level of reproducibility. 3. Maximum, Minimum and Round This issue often comes up in the context of using MVN to impute variables that normally have integer values or bounds. Intuitively speaking, it makes sense to round values or incorporate bounds to give quotplausiblequot values. However, these methods has been shown to decrease efficiency and increase bias by altering the correlation or covariances between variables estimated during the imputation process. Additionally, these changes will often result in an underestimation of the uncertainly around imputed values. Remember imputed values are NOT equivalent to observed values and serve only to help estimate the covariances between variables needed for inference (Johnson and Young 2011). Leaving the imputed values as is in the imputation model is perfectly fine for your analytic models. If plausible values are needed to perform a specific type of analysis, than you may want to use a different imputation algorithm such as FCS . Isn39t multiple imputation just making up data No. This is argument can be made of the missing data methods that use a single imputed value because this value will be treated like observed data, but this is not true of multiple imputation. Unlike single imputation, multiple imputation builds into the model the uncertainty/error associated with the missing data. Therefore the process and subsequent estimation never depends on a single value. Additionally, another method for dealing the missing data, maximum likelihood produces almost identical results to multiple imputation and it does not require the missing information to be filled-in. What is Passive imputation Passive variables are functions of imputed variables. For example, let39s say we have a variable X with missing information but in my analytic model we will need to use X 2. In passive imputation we would impute X and then use those imputed values to create a quadratic term. This method is called quotimpute then transformquot (von Hippel, 2009). While th is appears to make sense, additional research (Seaman et al. 2012 Bartlett et al. 2014) has s hown that using this method is actually a misspecification of your imputation model and will lead to biased parameter estimates in your analytic model. There are better ways of dealing with transformations. How do I treat variable transformations such as logs, quadratics and interactions Most of the current literature on multiple imputation supports the method of treating variable transformations as quotjust another variablequot. For example, if you know that in your subsequent analytic model you are interesting in looking at the modifying effect of Z on the association between X and Y (i. e. an interaction between X and Z). This is a property of your data that you want to be maintained in the imputation. Using something like passive imputation, where the interaction is created after you impute X and/or Z means that the filled-in values are imputed under a model assuming that Z is not a moderator of the association between X an Y. Thus, your imputation model is now misspecified. Should I include my dependent variable (DV) in my imputation model Yes An emphatic YES unless you would like to impute independent variables (IVs) assuming they are uncorrelated with your DV (Enders, 2010). Thus, causing the estimated association between you DV and IV39s to be biased toward the null (i. e. underestimated). Additionally, using imputed values of your DV is considered perfectly acceptable when you have good auxiliary variables in your imputation model (Enders, 2010 Johnson and Young, 2011 White et al. 2010). However, if good auxiliary variables are not available then you still INCLUDE your DV in the imputation model and then later restrict your analysis to only those observations with an observed DV value. Research has shown that imputing DV39s when auxiliary variables are not present can add unnecessary random variation into your imputed valu es (Allison, 2012). How much missing can I have and still get good estimates using MI Simulations have indicated that MI can perform well, under certain circumstances, even up to 50 missing observations (Allison, 2002). However, the larger the amount of missing information the higher the chance you will run into estimation problems during the imputation process and the lower the chance of meeting the MAR assumption unless it was planned missing (Johnson and Young, 2011). Additionally, as discussed further, the higher the FMI the more imputations are needed to reach good relative efficiency for effect estimates, especially standard errors. What should I report in my methods abut my imput ation Most papers mention if they performed multiple imputation but give very few if any details of how they implemented the method. In general, a basic description should include: Which statistical program was used to conduct the imputation. The type of imputation algorithm used (i. e. MVN or FCS). Some justification for choosing a particular imputation method. The number of imputed datasets ( m) created. The proportion of missing observations for each imputed variable. The variables used in the imputation model and why so your audience will know if you used a more inclusive strategy. This is particularly important when using auxiliary variables. This may seem like a lot, but probably would not require more than 4-5 sentences. Enders (2010) provides some examples of write-ups for particular scenarios. Additionally, MacKinnon (2010) discusses the reporting of MI procedures in medical journals. Main Take Always from this seminar: Multiple Imputation is always superior to any of the single imputation methods because: A single imputed value is never used The variance estimates reflect the appropriate amount of uncertainty surrounding parameter estimates There are several decisions to be made before performing a multiple imputation including distribution, auxiliary variables and number of imputations that can affect the quality of the imputation. Remember that multiple imputation is not magic, and while it can help increase power it should not be expected to provide quotsignificantquot effects when other techniques like listwise deletion fail to find significant associations. Multiple Imputation is one tool for researchers to address the very common problem of missing data. Allison (2002). Missing Data. Sage Publications. Allison (2012). Handling Missing Data by Maximum Likelihood. SAS Global Forum: Statistics and Data Analysis. Allison (2005). Imputation of Categorical Variables with PROC MI. SUGI 30 Proceedings - Philadelphia, Pennsylvania April 10-13, 2005. Barnard and Rubin (1999). Small-sample degrees of freedom with multiple imputation. Biometrika . 86(4), 948-955. Bartlett et al. (2014). Multiple imputation of covariates by fully conditional specific ation: Accommodating the substantive model. Stat Methods Med Res . Todd E. Bodner (2008).quotWhat Improves with Increased Missing Data Imputationsquot. Structural Equation Modeling: A Multidisciplinary Journal . 15:4, 651-675. Demirtas et al.(2008). Plausibility of multivariate normality assumption when multiply imputing non-gaussian continuous outcomes: a simulation assessment. Jour of Stat Computation amp Simulation . 78(1). Enders (2010). Applied Missing Data Analysis. The Guilford Press. Graham et al. (2007). How Many Imputations are Really Needed Some Practical Clarifications of Multiple Imputation Theory. Prev Sci, 8: 206-213. Horton et al. (2003) A potential for bias when rounding in multiple imputation. American Statistician. 57: 229-232. Lee and Carlin (2010). Multiple Imputation for missing data: Fully Conditional Specification versus Multivariate Normal Imputation. Am J Epidemiol . 171(5): 624-32. Lipsitz et al. (2002). A Degrees-of-Freedom Approximation in Multiple Imputation. J Statist Comput Simul, 72(4): 309-318. Little, and Rubin, D. B. (2002). Statistical Analysis with Missing Data . 2 nd edition, New York. John Wiley. Johnson and Young (2011). Towards Best Practices in analyszing Datasets with Missing Data: Comparisons and Recomendations. Journal of Marriage and Family, 73(5): 926-45. Mackinnon (2010). The use and reporting of multiple imputation in medical research a review. J Intern Med, 268: 586593. Editors: Harry T. Reis, Charles M. Judd (2000). Handbook of Research Methods in Social and Personality Psychology. Rubin (1976). Inference and Missing Data. Biometrika 63 (3), 581-592. Rubin (1987). Multiple Imputation for Nonresponse in Surveys. J. Wiley amp Sons, New York. Seaman et al. (2012). Multiple Imputation of missing covariates with non-linear effects: an evaluation of statistical methods. B MC Medical Research Methodology . 12(46). Schafer and Graham (2002) Missing data: our view of the state of the art. Psychol Methods, 7(2):147-77 van Buuren (2007). Multiple imputation of discrete and continuous data by fully conditional specification. Statistical Methods in Medical Research . 16: 219242 . von Hippel (2009). How to impute interactions, squares and other transformed variables. Sociol Methodol . 39:265-291. von Hippel and Lynch (2013). Efficiency Gains from Using Auxiliary Variables in Imputation. Cornell University Library . von Hippel (2013). Should a Normal Imputation Model be modified to Impute Skewed Variables . Sociological Methods amp Research, 42(1):105-138. White et al. (2011). Multiple imputation using chained equations: Issues and guidance for practice. Statistics in Medicine . 30(4): 377-399. Young and Johnson (2011). Imputing the Missing Y39s: Implications for Survey Producers and Survey Users. Proceedings of the AAPOR Conference Abstracts . pp. 62426248. The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California.

No comments:

Post a Comment