6533b7d4fe1ef96bd1262fe6

RESEARCH PRODUCT

Tratamiento bayesiano de valores ausentes en datos espacio-temporales

Carlos Abellán De Andrés

subject

espacialvalores ausentestemporal:MATEMÁTICAS::Estadística [UNESCO]inferencia bayesianaUNESCO::MATEMÁTICAS::Estadística

description

Con frecuencia en estadística se tiene que hacer frente a la presencia de valores ausentes en el conjunto de datos sobre el que se desea realizar un análisis estadístico. La existencia de valores ausentes no sólo implica una mayor complejidad asociada al análisis sino que también introduce mayor incertidumbre en el estudio. Este hecho puede derivar en posibles sesgos en los resultados finales y, por tanto, cuestionar la fiabilidad en las conclusiones que de estos se deriven, por lo que la existencia de valores ausentes puede llegar a representar un serio problema si su tratamiento no es el adecuado. No es de extrañar entonces, la innumerable cantidad de publicaciones existentes asociadas al tema. Estas abarcan casi la totalidad de campos de investigación en los que se requiere del análisis estadístico. Sin embargo, salvo excepciones, el tratamiento que se realiza de la existencia de valores ausentes no es el adecuado. La mayor parte de estas publicaciones, o bien hacen caso omiso de la no completitud de sus datos, procediendo a analizarlos mediante técnicas estadísticas para datos completos; o bien hacen referencia a cómo abordar el análisis de este tipo de datos incompletos únicamente desde el punto de vista de la imputación de los valores ausentes. Es necesario, por tanto, hacer frente con rigurosidad al problema de la existencia de valores ausentes. Se debe plantear el análisis de datos de forma global, no sólo diseñando el estudio estadístico a realizar sino también planteando un tratamiento adecuado de la información faltante. Para este propósito dos factores asociados a la existencia de valores ausentes adquieren relevancia. En primer lugar, el mecanismo de aparición de los valores ausentes. Su modelización es clave, pues dicho mecanismo influirá en el posterior tratamiento de los datos no observados. En segundo lugar el diseño de un modelo de imputación de datos, incluyendo la decisión de si se decide completar la base de datos mediante imputación simple, imputación múltiple o sencillamente incluir la modelización de los valores ausentes dentro del estudio principal. En el primer caso, identificar el mecanismo de generación de los valores ausentes conlleva la detección de una posible dependencia en la aparición de estos, o entre la aparición de valores ausentes y los valores observados. Respecto a los tipos de imputación, se debe decidir si se opta por un imputación simple, múltiple o la inclusión del modelo de imputación de datos dentro del estudio principal. Si la existencia de valores ausentes es habitual en bases de datos, no lo es menos en aquellos conjuntos de datos caracterizados por la presencia de correlación espacio-temporal. En esta tesis, nos planteamos el objetivo de hacer frente a bases de datos provistas de dicha estructura espacio-temporal e incompletas debido a la existencia de valores ausentes. Lo hacemos asumiendo un proceso de aparición de valores ausentes aleatorio, a la vez que planteamos la imputación de los valores no observados encajada en futuros estudios que pudieran incluir a la base de datos como parte del análisis. Para llevar a cabo la imputación de la información faltante presentamos una comparativa de tres posibles modelos de imputación diseñados para adaptarse a la realidad espacio-temporal de los datos a los que nos enfrentamos. El planteamiento de las modelizaciones presentadas en esta tesis parte de la recurrencia con la que aparecen en la literatura específica de la estadística espacio-temporal. En este trabajo adaptamos las ideas que subyacen en cada uno de los modelos al campo de la imputación de valores ausentes. Y estudiamos no sólo si las imputaciones que proporcionan estos modelos son adecuadas sino también se analiza cómo cada modelo se adapta y ajusta a la correlación espacial y temporal de los datos. Dicha comparativa la llevaremos a cabo a través de la utilización de la base de datos de calidad del agua potable en la Comunitat Valenciana. Esta información, al estar recogida a nivel municipal entre los años 1991-2000, se considera susceptible de ser tratada atendiendo a una posible correlación espacio-temporal. En particular, el estudio de las modelizaciones de imputación lo centramos sobre las concentraciones de magnesio y de nitratos existentes en el agua potable. Siendo estos últimos valores de concentraciones de nitratos los que, debido a su estructura, nos permitirán analizar con mayor detalle el comportamiento de los modelos. Posteriormente se realizará un estudio de sensibilidad en el que llevaremos a cabo una simulación de bancos de datos dotados con estructura espacio-temporal. Procediendo después de nuevo a comparar las tres modelizaciones de imputación sobre dichos datos simulados. De esta forma, el hecho de conocer los verdaderos valores asociados a los datos simulados como ausentes, nos aportará más claridad en el estudio de cómo se comporta cada uno de los modelos de imputación propuestos. Todo el proceso descrito de estudio y comparación de dichas modelizaciones espacio-temporales, tanto para el caso del banco de datos de calidad del agua potable como para los bancos de datos simulados, lo llevaremos a cabo bajo la perspectiva bayesiana.

http://hdl.handle.net/10550/48578