En el nuevo mapa de los negocios, las tomas de decisiones empresariales se realizan mediante históricos que conforman los datos. Por tanto, el valor de los datos para las empresas, hoy día, es indiscutible. Los datos son un activo más y suponen un factor clave para evaluar el posicionamiento de una empresa, la reorientación del negocio o la escalabilidad de un producto o servicio.
Cada día, en internet se generan alrededor de 2,5 Exabytes (1018) de datos y sin embargo, se estima que tan solo el 0,5% de la información disponible de cualquier organización está siendo tratada para soportar decisiones operacionales o estratégicas.
Como resulta evidente, para sacar el máximo partido a dichos datos, es necesario el uso de soluciones tecnológicas. Técnicas como el Big Data dependen directamente de la cantidad de datos que se logren suministrar.
Ahora bien, de manera proporcional a la demanda de datos personales por las empresas, y en base al Reglamento 2016/679 General de Protección de Datos (en adelante, RGPD) y a los principios contenidos en él, así como en el Dictamen 05/2014 del GT 29, el interés por los procesos y técnicas de anonimización y seudonimización han aumentado considerablemente. Esta es una decisión que resulta de capital importancia para determinar, entre otros, el efectivo cumplimiento de los derechos establecidos en el RGPD, reduciendo el riesgo a los interesados, y ayudar a los responsables y encargados del tratamiento a cumplir sus obligaciones.
Una de las técnicas empleadas para proporcionar una protección adicional en el tratamiento de datos personales es la función hash. La función hash (o resumen) es un proceso que transforma cualquier conjunto arbitrario de datos en una nueva serie de caracteres con una longitud fija, independientemente del tamaño de los datos de entrada.
Al resultado obtenido se le denomina hash, resumen, digest o imagen. A los datos que van a ser procesados por la función hash se le denomina mensaje o preimagen. El conjunto de todos los posibles mensajes o preimágenes es el dominio.
Matemáticamente la función actúa como una proyección del conjunto U sobre el conjunto M. Veamos su representación sin mayor profundidad:
H : U → M
x → h (x)
Más allá de su representación matemática, a los juristas nos interesa saber cómo funciona el hash como técnica de seudonimización. Veámoslo. En general, una función hash (1) divide en bloques el mensaje de entrada y se asigna a cada carácter un valor numérico (Espacios-0, A-1, B-2, C-3, D-4, E-5, etc.), (2) se calcula el hash, por ejemplo, multiplicando el valor asociado a un carácter con su posición en el bloque, (3) se calcula el hash del siguiente bloque y se suma al resultado anterior. Este proceso se realiza de manera sucesiva hasta que se recorren todos los bloques.
Resumiendo, la función hash tiene como entrada un conjunto de elementos, que suelen ser cadenas, y los convierte en un rango de salida finito, normalmente cadenas de longitud fija. Es decir, la función actúa como una proyección del conjunto U sobre el conjunto M. Por esta razón se dice que estas funciones resumen datos del conjunto dominio. Pongamos un ejemplo visual para el lector:

El hash empleado para este ejemplo es de tipo SHA256 pero existen otros como por ejemplo DES(Unix), MD5(Unix), MD5(APR), RAdmin v2.x,SHA-1 o SHA-512(Unix).
En el marco teórico, la existencia de conjuntos de preimágenes que podrían crear dudas sobre la utilidad del hash como identificador único resulta de los posibles resultados de una función hash, los cuales son muy altos, pero no infinitos. Dado que el espacio de mensajes puede ser infinito, existirán infinitos mensajes que pueden dar lugar a un mismo valor de hash. Pero repito, que dicha casuística se da en un marco o entorno teórico y no en el de un tratamiento concreto.
Visto el proceso a nivel técnico, hablemos desde una perspectiva jurídica. Mediante la seudonimización se produce una ruptura con los datos personales tratados y los datos identificativos para que no puedan asociarse de manera alguna con la persona titular de los mismos. No obstante, para alcanzar este objetivo es preciso garantizar la irreversibilidad de la anonimización.
La finalidad del proceso de anonimización es eliminar o reducir al mínimo los riesgos de reidentificación de los datos anonimizados manteniendo la veracidad de los resultados del tratamiento de estos, es decir, además de evitar la identificación de las personas, los datos anonimizados deben garantizar que cualquier operación o tratamiento que pueda ser realizado con posterioridad a la anonimización no conlleva una distorsión de los datos reales.
Los procesos de anonimización se deben enfocar desde el concepto de protección de datos desde el diseño, lo que supone que los requisitos de privacidad deben tenerse en cuenta desde las etapas iniciales del diseño del sistema de información o del producto utilizado para el proceso de anonimización y durante todo el ciclo de vida de dicho producto o sistema de información. El concepto de privacidad desde el diseño en procesos de anonimización supone la aplicación de los principios de proactividad, privacidad por defecto, privacidad objetiva, plena funcionalidad, privacidad en el ciclo de vida de la información y en el principio de información y formación.
Como conclusiones, los procesos de anonimización y seudonimización son una herramienta válida para garantizar la privacidad de los datos personales. Existe una proporcionalidad entre la capacidad tecnológica de anonimizar y la posibilidad de reidentificación de las personas cuyos datos han sido anonimizados, añadiéndosele, además, el riesgo que la propia sociedad de la información añade a datos anonimizados. Dicha valoración del riesgo debe hacerse, asimismo, sobre los procesos de anonimización como una contingencia permanente a lo largo de la vida de la información, por lo que las medidas de valoración y gestión de riesgos deben tener un carácter periódico y no puntual.
Para finalizar, en mi opinión, no es posible considerar que los procesos de anonimización garanticen al 100% la no reidentificación de las personas, por lo que será necesario evaluaciones de impacto (EIPD) en dichos procesos y de cualquier medida que sirva para atenuar los riesgos de reidentificación.
____________________________________________________________________________________________________
SOBRE EL AUTOR
Jesús Vicente Menoyo es Legal Engineer experto en Transformación digital, Legaltech y Protección de datos.
Tiene experiencia en diseño de UX, crecimiento empresarial y de software, programación e implementación de soluciones tecnológicas de alto valor en el sector legal, entrenamiento en IA, RPA, ERP o CRM, chatbots, firma digital…
