INEbase / Demografía y población / Cifras de población y Censos demográficos / Censos de Población y Viviendas de 2001
Censos de Población y Viviendas de 2001 Tratamiento informático
Como no podía ser de otra forma en unos Censos de Población y Viviendas realizados en el año 2001, las nuevas tecnologías han jugado un papel fundamental a lo largo de todas las fases. En las fases previas a la recogida de los cuestionarios censales, las herramientas informáticas han permitido diseñar de una forma eficiente los diferentes modelos de cuestionarios, procesar en tiempos muy reducidos los datos de las dos pruebas piloto realizadas, de forma que sus resultados se han podido utilizar para mejorar el diseño definitivo de la operación, y preparar, a partir de los datos padronales, los ficheros que se han utilizado en la personalización de los cuestionarios del censo. Los tratamientos informáticos han permitido también eliminar la tradicional operación de recorrido del territorio un año antes de los Censos de Población y Viviendas, que servía para formar los Censos de Edificios y Locales y para preparar los cuadernos de recorrido de los agentes censales (actualizaciones del seccionado y del callejero). En este censo, esa costosa operación se ha sustituido ventajosamente por tratamientos informáticos aplicados a registros administrativos, principalmente padronales y catastrales, como resultado de los cuales se han podido preimprimir tanto los cuadernos de recorrido como la información de datos personales y de domicilios de las personas empadronadas. La gestión de la contratación del personal eventual necesario para realizar la recogida, agentes censales y encargados de grupo (mas de 40 mil personas), se ha gestionado de manera descentralizada en las Delegaciones Provinciales del INE, posibilitando no solo la propia contratación, sino también la gestión de altas y bajas a la Seguridad Social y la gestión de la nóminas de sus pagos. Durante la propia operación de recogida censal, las nuevas tecnologías han estado igualmente presentes. Así, las 500 oficinas comarcales en las que se ha descentralizado la operación de la recogida, han estado comunicadas con las Delegaciones Provinciales y con los Servicios Centrales del INE por una red privada especial para los censos, basada en telefonía móvil. Cada una de las oficinas comarcales se informatizó con dos ordenadores personales, uno de ellos con comunicación a la red privada de censos, una impresora, y un lector de código de barras. Esta infraestructura ha resultado fundamental para facilitar el control de la operación de la recogida, para poder enviar rápidamente instrucciones a todas las oficinas censales, y para facilitar la información de los cupos de trabajo realizados por cada agente para calcular la parte variable del pago de sus nóminas. A pesar de no haber precedentes en el mundo de abordar una operación censal permitiendo realizar, con carácter general, la cumplimentación de los cuestionarios por internet, el INE decidió asumir el reto de ser el primer país que lo hiciera. Y así se hizo, estableciendo un procedimiento por el que ofreciendo las mayores medidas de seguridad en cuanto al acceso a la información de los propios datos de carácter personal, permitiera hacer la cumplimentación del censo por internet a todas aquellas personas previamente empadronadas donde residían a la fecha de referencia utilizada para hacer la preimpresión de la información de datos padronales. Otra novedad introducida a través de internet es posibilitar su cumplimentación a personas con discapacidades visuales. Finalmente el número de hogares que han cumplimentado el censo por internet ha sido de 13.818, que representa alrededor de un uno por mil del total de los hogares existentes. En el segundo apartado de este capítulo se hace un breve resumen de las características técnicas de los sistemas utilizados. Los sistemas informáticos de las oficinas comarcales han permitido conocer que hogares habían realizado la cumplimentación por internet, evitanto de esta forma tener que recoger el cuestionario en papel. Adicionalmente, han permitido controlar los envíos de los cuestionarios cumplimentados en papel al Centro de producción censal constituido para realizar la captura y procesamiento informático de dicha documentación, facilitando que en éste se iniciasen los trabajos sin necesidad de esperar a que se diese por cerrada la recogida en cada una de las secciones censales. El Centro de producción censal de INE ha sido creado expresamente para realizar este trabajo, realizándose las mejoras de las instalaciones del edificio que lo alberga y el montaje de la arquitectura de los sistemas y de las aplicaciones necesarias. En el tercer apartado se hace una descripción de las características técnicas de los sistemas utilizados. Este capítulo se finaliza con una breve descripción del resto de los tratamientos informáticos a que se someterán los datos recogidos, que permitirán poner a disposición de los usuarios la información censal. Captura de cuestionarios por internet Las ideas claves que definieron este proyecto fueron:
A continuación se hace una breve descripción de la forma en que se abordó este proceso: Según el diseño de la operación censal española, en los cuestionarios en papel que se distribuyeron a los hogares españoles, figuró preimpresa determinada información individual de cada ciudadano, obtenida de la base de datos padronales. Se estableció el cuestionario censal en un servidor web seguro SSL 3 (con la dirección (http://censos2001.es) y cuando el usuario no necesitaba modificar sus datos padronales el mecanismo de autenticación se basó en los siguientes identificadores: 1) CLAVE1 (código identificativo incluido en cada sobre conteniendo los cuestionarios censales); 2) CLAVE2 (contraseña asociada a la cumplimentación por Internet, también incluida en cada sobre censal); 3) el DNI de una de las personas incluidas en la hoja de datos padronales (DNI también preimpreso en el cuestionario) y 4) el nombre del padre y de la madre tal y como figuran en el DNI de determinada persona del hogar (esta información no figuraba preimpresa en el cuestionario censal). CLAVE1 Y CLAVE2 fueron distintas para cada vivienda. Únicamente para los casos que requerían modificar los datos padronales preimpresos en el cuestionario, se estableció un mecanismo de firma electrónica avanzada (certificados X.509 de clase 2, mediante convenio con la FNMT-RCM), complementado con las claves 1 y 2 descritas. Relacionado directamente con la autenticación, se implementaron un conjunto de medidas orientadas a realizar el control de accesos incorrectos, de intentos de fraude, bloqueos y desbloqueos de cuestionarios, etc. El servidor web ofreció la posibilidad de cumplimentar los cuestionarios en los distintos idiomas cooficiales en España y en algunos otros extranjeros. Se incluyeron un conjunto de normas de edición del cuestionario en formato web; es decir, el conjunto de edits necesario para asegurar la calidad y la consistencia de cada uno de los cuestionarios cumplimentados por Internet, comunicando al usuario cualquier problema que impidiera la aceptación final de dicha cumplimentación, para que aquel procediera a corregir los errores correspondientes. Asimismo, el sistema permitió que el usuario pudiera interrumpir su trabajo de cumplimentación del cuestionario, pudiéndolo continuar posteriormente. En el momento en que la cumplimentación se hubiera finalizado de forma totalmente correcta, el sistema proporcionaba al usuario un número que servía de recibo o de comprobante de que dicha cumplimentación completa se había producido. Se implementaron los mecanismos necesarios para la comunicación con las Oficinas Comarcales y con las Delegaciones Provinciales del INE, de modo que ningún agente censal reclamara los cuestionarios previamente cumplimentados por Internet. Esa comunicación con las Oficinas Comarcales consideró diferentes posibilidades: como mecanismo básico existió un procedimiento de envío o de descarga, de modo que cada Oficina Comarcal y cada Delegación Provincial dispusiera semanalmente de un fichero conteniendo los datos identificativos de los cuestionarios recogidos por Internet, y alternativamente, procedimientos de consultas por rangos de valores. El siguiente gráfico muestra la arquitectura de los sistemas y de las comunicaciones del servicio de webhousing, que fue realizado por la UTE INDRA/TELEFÓNICA. Captura de cuestionarios cumplimentados en papel Los tratamientos informáticos que se aplican a los datos censales están fuertemente condicionados por el enorme volumen de información a procesar y por la reducción sustancial del tiempo que los usuarios demandan para obtener los datos censales. Ambos factores confluyen en que los tratamientos censales, aparte de asegurar la calidad de los procesos, deben ser ante todo rápidos. Los condicionantes del actual proceso informático de producción censal son los siguientes:
Como consecuencia, se puede afirmar que el proyecto de producción censal de los cuestionarios en papel, no es solo el mayor proyecto de almacenamiento y gestión documental avanzada en España, sino que tampoco existen precedentes a nivel mundial de un proyecto de estas características. El Centro de Producción Censal (CPC) se ha situado en la localidad de San Fernando de Henares (Madrid). Cuenta con más de 5.000 mts2, y en él se realiza la producción de los Censos de Población y Viviendas 2001, a excepción de los cuestionarios cumplimentados vía Internet. Más de 800 personas trabajan en la explotación de los datos censales. El esquema de producción censal del INE contempla las siguiente áreas de gestión:
Los equipamientos físicos y lógicos necesarios para realizar los Censos de Población y Viviendas 2001, conforme al modelo de procesamiento establecido, se representa en los gráficos siguientes: La operación de captura se realiza mediante un sistema de reconocimiento óptico de caracteres, que incorpora procedimientos de codificación automática, de control de rangos y de coherencia intra e inter registros, y que consta de los siguientes procesos:
Las aplicaciones desarrolladas para realizar la gestión documental y los procesos de reconocimiento óptico se han basado en el sistema Bellview Scan (de la empresa Pulse Train), incorporando sistemas de mejora de literales basados en diccionarios, así como codificaciones automáticas, han sido desarrolladas y están siendo explotadas por la empresa ODEC. Como resultado se han podido alcanzar niveles de reconocimiento superiores al 80% de lo procesado, que son completados por procesos de videocorrección. La arquitectura de los sistemas informáticos está diseñada en SAN (Múltiples servidores compartiendo un sistema de almacenamiento de forma segura vía protocolo Fiber Channel), e incorpora las mayores medidas de seguridad física y lógica que existen en la actualidad, discos en RAID 0+1 (discos espejo), servidores y switches en cluster (duplicidad de servidores trabajando en forma cooperativa), asistencia remota vía módem a centros de seguridad y alerta de los proveedores informáticos, tarjetas chip de acceso a los sistemas, etc. Las estaciones de trabajo del proceso de digitalización requieren una gran capacidad de proceso (modelos Primergy B210 con dos procesadores PIII Xeon a 1 GHz y 256 MB RAM, de SIEMENS), en tanto que las estaciones de trabajo utilizadas para realizar los procesos de reconocimiento requieren una gran cantidad de memoria (modelos Scenic Di815E con un procesador PIII a 1 GHz y 512 MB RAM, de SIEMENS). Los servidores de aplicación Bellview (dos en cluster) y de gestión de los ficheros de imágenes son similares, Primergy N400 de 4 vías, con dos procesadores Xeon a 700 MHz, los primeros con 3 GB RAM y el de imágenes con 1 GB de RAM, en tanto que los servidores de bases de datos (dos en cluster) son Primergy N800 de 8 vías, con dos procesadores Xeon a 700 MHz y 4 GB RAM. Los ordenadores personales utilizados para realizar el resto de los procesos (gestión de almacen, videodepuración, control de calidad, etc.), mas de 200, tienen procesadores Pentium III a 1 GHz, Pentium IV a 1,2 GHz y 128 MB RAM. El sistema de almacenamiento utilizado de 25 TB (Terabyte = Unidad de capacidad de memoria equivalente a un billón de bytes) con 140 discos de 181 GB cada uno, es de EMC2 (modelo Symmetrix 8430). El sistema de backup es el denominado Scalar 100 (LTO) que cuenta con una capacidad de 15 TB, con cintas de 100/200 GB, y un ratio de transferencia de 15 MB/s con una velocidad de copia de 324 Gb/h. El Sistema operativo empleado es Windows 2000 Advance Server, lo que ha obligado a tener que conformar unidades lógicas con volúmenes físicos de información de 4,5 TB cifra récord a nivel mundial que sobrepasa los límites conocidos en entorno Windows hasta el momento, y la base de datos Microsoft SQL 2000. Tambien se dispone de un sistema de copias en CD con el que se pretende enviar a cada municipio de España las imágenes correspondientes a su Padrón Municipal. Tratamientos posteriores al Centro de Producción Censal Cuando acaba el trabajo del Centro de producción censal, los cuestionarios censales han sido escaneados, reconocidos y validados. Estos procesos se han apoyado en diccionarios que han permitido a su vez realizar la codificación de aquellas preguntas que requieren una respuesta literal: provincia y municipio de nacimiento o residencia en 1991, actividad, ocupación, etc. Sin embargo no se consigue el 100 por 100 de las codificaciones. Tampoco las validaciones que van asociadas a controles de coherencia son necesariamente exhaustivas pues se centran en la eliminación de los errores más importantes. Por este motivo hay que aplicar tratamientos adicionales que permitan la obtención de los ficheros finales del censo plenamente explotables estadísticamente. La codificación de los casos que no han salido resueltos del Centro de producción se hace de dos maneras alternativas: para los registros correspondientes a comunidades autónomas que han firmado un convenio de colaboración que lo prevé, son los institutos de estadística de estas comunidades los que se responsabilizan de esta codificación, pudiendo emplear procedimientos de codificación automática, asistida o mixtos, según sus posibilidades, aunque siempre coherentes con los que utiliza el INE para el resto del Estado. Esto resulta especialmente interesante en los casos en los que existe una lengua propia en la comunidad, o bien ésta dispone, de otros proyectos, de potentes diccionarios que faciliten esta codificación. Para los registros del resto de las comunidades, es el Instituto Nacional de Estadística el que se encarga de la tarea. Para ello empleará una versión actualizada de los procedimientos ya utilizados con éxito en los Censos de 1991, y que consisten básicamente en una codificación automática por aproximación, apoyada en diccionarios que se mejoran progresivamente. Finalmente, tanto los registros cuya codificación han terminado los institutos de estadística autonómicos como los procesados por el INE se someten a un único procedimiento de imputación automática ejecutado por el INE (al igual que los tratamientos de codificación automática, este tratamiento se realiza de forma centralizada en la Subdirección de Informática), que tiene por objeto eliminar las inconsistencias y que consta de un proceso de imputación probabilística que mantiene al máximo la información original. Este procedimiento produce así, el fichero final que se utilizará en las explotaciones estadísticas que realicen tanto el INE como los institutos autonómicos. Con esto se logra una notable economía de medios (al aplicarse un tratamiento único para todos los datos de España), y lo que es igualmente importante, un único fichero final que evite que una misma fuente estadística aporte distintas cuantificaciones de un mismo fenómeno. Respecto a Censos anteriores, el grado de utilización de la imputación automática va a ser mucho menor, puesto que las depuraciones y controles aplicadas en el centro de producción hacen que la calidad de los datos que llegue a ella sea mucho mejor. El INE volverá a realizar la imputación automática utilizando el sistema DIA, desarrollado por el INE y ya aplicado en 1991 y en otras encuestas como la EPA. NOTAS |