El manejo y análisis de datos es una tarea fundamental en la investigación y el análisis estadístico. SPSS (Statistical Package for the Social Sciences) es una herramienta robusta que ofrece diversas funcionalidades para facilitar este proceso. Entre sus capacidades más valiosas se encuentra la de filtrar datos, una técnica que permite aislar subconjuntos de casos para su análisis. Esto es particularmente útil cuando se detectan valores erróneos o se desea enfocar el análisis en segmentos específicos de la muestra. SPSS nos ofrece dos posibilidades principales para la ubicación y el manejo de casos, ya sea de forma manual o mediante la creación de filtros que activan o desactivan la inclusión de ciertos valores en los procedimientos subsiguientes.

Para comprender la diferencia y la utilidad de estos métodos, realizaremos la ubicación de valores erróneos en la variable "Género" a través del primer método, la búsqueda manual, y la ubicación de valores erróneos en la variable "Estado civil" empleando filtros.
Localización Manual de Casos Erróneos: El Método "Buscar"
La primera posibilidad que SPSS nos ofrece para la ubicación de casos consiste en localizar de forma manual cada uno de los valores errados dentro de una variable específica. Este método se accede a través de la opción "Buscar". Para activar esta ventana de búsqueda, debemos hacer clic sobre el nombre de la variable en la que deseamos realizar la indagación, de manera que el nombre de la variable aparezca claramente en la parte superior del cuadro de diálogo.
Una vez que la variable está seleccionada, ingresamos el valor que deseamos localizar en la casilla "Buscar qué". Posteriormente, hacemos clic en el botón "Buscar siguiente". Al hacerlo, el cursor se posicionará automáticamente en el primer caso que contenga el valor definido. Si volvemos a presionar el botón "Buscar siguiente", el programa avanzará al siguiente caso que concuerde con el valor buscado.
En el contexto de nuestro ejemplo, supongamos que, tras examinar la tabla de frecuencias de la variable "Género", hemos detectado que un valor erróneo corresponde al número tres (3). Siguiendo el procedimiento descrito, ingresaríamos este valor "3" en la casilla "Buscar qué". Al hacer clic en "Buscar siguiente", el cursor se ubicará en la fila correspondiente al primer caso con este valor erróneo. Si existen múltiples instancias de este valor, cada clic en "Buscar siguiente" nos llevará al siguiente caso que lo contenga. La información sobre la cantidad de casos con este valor erróneo, obtenida de la tabla de frecuencias, nos permite anticipar cuántas veces tendremos que presionar el botón para encontrarlos todos.
Es de gran importancia anotar el número del caso donde se encuentra el valor erróneo. Este número de caso es crucial para poder determinar la encuesta o el registro específico al que corresponde dicho error. En muchos archivos de SPSS, el número de encuesta o identificador único del registro coincide directamente con el número de fila en la vista de datos. Por lo tanto, al identificar el número de fila donde se encuentra el valor erróneo, ya tenemos la información necesaria para localizar el formulario o registro original en el que debemos buscar y corregir el error. Este método, aunque directo, puede ser laborioso si el número de casos erróneos es elevado.

Creación de Filtros para la Selección de Casos: El Método "Seleccionar Casos"
Antes de proceder a la corrección de los errores detectados en la variable "Género", es útil conocer el segundo método de búsqueda y selección de datos: la utilización de filtros. Este método es especialmente poderoso cuando se desea trabajar con un subconjunto de datos específico en múltiples análisis o procedimientos, como es el caso de los valores erróneos en la variable "Estado civil".
Para realizar la identificación y el manejo de casos por medio de filtros, es necesario recurrir al procedimiento "Seleccionar casos". Este procedimiento se encuentra generalmente en el menú "Datos" de SPSS. Al abrir la ventana de "Seleccionar casos", nos encontraremos con un cuadro de diálogo compuesto por varias secciones.
La primera sección corresponde a la lista de variables disponibles en nuestro archivo de datos. Aquí se muestran todas las variables con las que contamos para realizar nuestras selecciones.
La segunda sección, denominada "Selección", es el corazón del procedimiento de filtrado. En esta sección, encontramos cinco procedimientos o métodos de filtrado que el programa ofrece. Estos métodos nos permiten definir las condiciones bajo las cuales se seleccionarán o no los casos.
La última sección del cuadro de diálogo de "Seleccionar casos" corresponde a las "Opciones de los casos no seleccionados". Aquí encontramos dos posibilidades fundamentales: "Filtrarlos" o "Eliminarlos". Es altamente recomendable utilizar siempre la opción "Filtrar". Si elegimos la opción "Eliminar", los casos que no cumplan la condición serán permanentemente borrados del archivo de datos, y no podremos recuperarlos. En cambio, la opción "Filtrar" simplemente oculta los casos no seleccionados para los procedimientos subsiguientes, permitiendo su posterior recuperación si fuera necesario.
Dentro de los métodos de selección disponibles en la sección "Selección", encontramos cinco opciones principales:
Todos los casos: Esta es la opción que utiliza SPSS por defecto. Al seleccionarla, cualquier filtro o selección de casos creado con anterioridad se desactiva. Todos los resultados, procesos y procedimientos se realizarán con la totalidad de los casos presentes en el archivo de datos. Es útil para restablecer el análisis a su estado original.
Si satisface la condición: Este es el método más flexible y potente para la creación de filtros. Utiliza una expresión condicional para seleccionar los casos. Si el resultado de la expresión condicional es "verdadero", el caso se selecciona y se incluirá en los análisis posteriores. Si el resultado de la expresión es "falso" o si el caso tiene un valor perdido en alguna de las variables involucradas en la condición, entonces el caso no se selecciona y queda oculto o "filtrado".
Al hacer clic en el botón "(Si)" asociado a la opción "Si satisface la condición", se abre un cuadro de diálogo específico donde debemos definir la ecuación condicional que actuará como nuestro filtro. Este cuadro de diálogo está a su vez dividido en tres secciones:
- La primera sección es un listado de todas las variables que contiene el archivo de datos. Podemos seleccionar variables de esta lista para incluirlas en nuestra expresión condicional.
- La segunda sección es la casilla de "Ecuación". Aquí es donde introduciremos la expresión lógica o matemática que SPSS utilizará como filtro. Podemos escribirla directamente o construirla utilizando las variables, operadores lógicos (AND, OR, NOT), operadores de relación (<, >, =, <=, >=, <>), operadores aritméticos (+, -, *, /) y funciones que ofrece SPSS.
- La tercera sección es la "Calculadora de SPSS", que proporciona acceso a una amplia gama de funciones estadísticas, lógicas y aritméticas que pueden ser incorporadas en nuestra ecuación condicional.
Para el propósito de identificar los valores erróneos en la variable "Estado civil", podríamos utilizar esta opción. Por ejemplo, si sabemos que el valor erróneo es "99", la expresión condicional podría ser Estado_civil = 99. Al aplicar este filtro, SPSS seleccionará únicamente los casos donde la variable "Estado civil" tenga el valor "99", permitiéndonos examinarlos y corregirlos de manera eficiente.
SPSS - Selección conjunto de variables
Profundizando en la Selección Condicional
La potencia del método "Si satisface la condición" reside en su capacidad para construir expresiones complejas que van más allá de la simple igualdad. Podemos, por ejemplo, buscar valores que no cumplan ciertos criterios, o valores que se encuentren dentro de un rango específico.
Selección por Rangos
Si necesitamos identificar casos cuyos valores en una variable numérica se encuentren dentro de un rango determinado, podemos usar operadores de relación. Por ejemplo, para seleccionar casos donde la "Edad" sea mayor a 65 años, la expresión sería Edad > 65. Si quisiéramos seleccionar casos con "Ingresos" entre 30,000 y 50,000, podríamos usar: Ingresos >= 30000 AND Ingresos <= 50000.
Selección por Múltiples Condiciones
Los operadores lógicos "AND" y "OR" nos permiten combinar múltiples condiciones. El operador "AND" requiere que todas las condiciones especificadas sean verdaderas para que el caso sea seleccionado. Por ejemplo, Género = 1 AND Edad > 30 seleccionará solo a los hombres mayores de 30 años. El operador "OR" requiere que al menos una de las condiciones especificadas sea verdadera. Por ejemplo, Estado_civil = 1 OR Estado_civil = 2 seleccionará a los casos que sean solteros o casados.
Selección de Valores Perdidos
Identificar valores perdidos es crucial para la limpieza de datos. Podemos usar funciones específicas para esto. Por ejemplo, MISSING(VariableX) devolverá "verdadero" si "VariableX" tiene un valor perdido para ese caso. Así, MISSING(Ingresos) nos permitiría seleccionar todos los casos con ingresos no especificados.
Selección de Valores No Perdidos
De manera inversa, NOT MISSING(VariableX) seleccionaría los casos donde "VariableX" tiene un valor válido.
Aplicación Práctica: Corrección de Errores en "Estado Civil"
Retomando nuestro ejemplo con la variable "Estado civil", supongamos que la tabla de frecuencias revela que hay un número considerable de casos con el valor "5", el cual no corresponde a ninguna categoría válida de estado civil en nuestro sistema de codificación.
- Abrir "Seleccionar casos": Navegar a "Datos" > "Seleccionar casos…".
- Elegir "Si satisface la condición": Seleccionar esta opción en la sección "Selección".
- Definir la condición: Hacer clic en el botón "(Si)" y en la casilla "Ecuación" escribir:
Estado_civil = 5. - Confirmar: Hacer clic en "Aceptar" en el cuadro de diálogo de la ecuación y luego en "Aceptar" en la ventana principal de "Seleccionar casos".
Inmediatamente, notaremos que en la vista de datos, los casos que no cumplen la condición (es decir, aquellos cuyo estado civil no es "5") aparecerán tachados o con una barra diagonal en su fila. Los procedimientos que realicemos a partir de este momento solo operarán sobre los casos seleccionados (aquellos con "Estado civil = 5").
Ahora, podemos proceder a corregir estos casos. Dado que ya hemos identificado los casos específicos, podemos usar el método de búsqueda manual dentro de este subconjunto filtrado, o directamente editar los valores en la vista de datos. Si necesitamos más información sobre estos casos (por ejemplo, de qué encuesta provienen), podríamos haber incluido variables adicionales en nuestra condición de selección, como (Estado_civil = 5) AND (Número_encuesta > 100).
Una vez que hayamos corregido todos los valores erróneos de "5" a su categoría correcta o a un valor perdido apropiado, es fundamental desactivar el filtro para poder trabajar con todos los datos nuevamente. Para ello, simplemente volvemos a "Datos" > "Seleccionar casos…" y seleccionamos la opción "Todos los casos", haciendo clic en "Aceptar". Los casos que habían sido tachados reaparecerán normalmente en la vista de datos, listos para ser incluidos en análisis posteriores.

Consideraciones Adicionales y Mejores Prácticas
La correcta aplicación de filtros en SPSS es una habilidad esencial para cualquier analista de datos. Permite una gestión de datos más eficiente y precisa.
Prevalencia de "Filtrar" sobre "Eliminar"
Como se mencionó anteriormente, la opción "Filtrar" en las opciones de casos no seleccionados es crucial. Eliminar casos de forma permanente puede llevar a la pérdida irrecuperable de información valiosa. Filtrar, en cambio, mantiene la integridad del conjunto de datos original mientras permite el análisis de subconjuntos específicos.
Verificación de Filtros
Después de aplicar un filtro, es una buena práctica verificar que la selección se ha realizado correctamente. Esto se puede hacer de varias maneras:
- Observar los casos tachados: La indicación visual de los casos no seleccionados es un primer indicador.
- Ejecutar un procedimiento simple: Realizar un procedimiento como "Frecuencias" sobre una variable clave (por ejemplo, la variable por la que se filtró) y comparar el número de casos válidos con el número esperado de casos seleccionados. Si se filtró por
Estado_civil = 5, el número de casos válidos en la tabla de frecuencias de "Estado civil" debería coincidir con el número total de casos que cumplen esa condición. - Usar la opción "Resumen de casos seleccionados": En la ventana de "Seleccionar casos", dentro de las opciones, se puede elegir que SPSS genere un informe resumiendo cuántos casos fueron seleccionados y cuántos no.
Guardar Datos Filtrados (con precaución)
Si bien es recomendable no eliminar casos permanentemente, puede haber situaciones en las que se desee guardar un subconjunto de datos como un archivo separado para un análisis posterior o para compartirlo. En este caso, después de haber aplicado el filtro deseado y verificado su correcta aplicación, se puede ir a "Archivo" > "Guardar datos como…" y guardar el conjunto de datos. Sin embargo, es vital recordar que este archivo guardado contendrá solo los casos que estaban activos bajo el filtro en ese momento. Es aconsejable nombrar estos archivos de manera descriptiva para evitar confusiones (por ejemplo, "DatosHombresMayores_30.sav").
Múltiples Filtros y Secuencialidad
Es posible aplicar múltiples filtros de forma secuencial. Por ejemplo, primero filtrar por hombres (Género = 1), y luego, dentro de ese grupo ya filtrado, aplicar otro filtro para seleccionar solo a los mayores de 30 años (Edad > 30). SPSS aplicará estos filtros de manera acumulativa. Para limpiar y restablecer todos los filtros, se debe seleccionar "Todos los casos".
Dominar las técnicas de filtrado en SPSS es indispensable para realizar análisis de datos precisos y eficientes. Ya sea para localizar y corregir errores, o para segmentar la muestra y explorar relaciones específicas, estas herramientas proporcionan el control necesario para manipular los datos de manera efectiva. La elección entre la búsqueda manual y los filtros depende de la naturaleza del problema, la cantidad de datos y el objetivo del análisis. Para la corrección de errores puntuales, la búsqueda manual puede ser suficiente. Sin embargo, para análisis que requieren la manipulación recurrente de subconjuntos de datos, la creación de filtros mediante "Seleccionar casos" es la estrategia más robusta y eficiente.