Publicamos la versión en castellano de la intervención de Emanuele Cozzo en la antología Datacrazia, recién publicada en Italia por D-Editore
"Éste es un mundo en el que enormes cantidades de datos, junto con la matemática aplicada, reemplazan cualquier otra herramienta que se podría usar. ¡Fuera todas las teorías del comportamiento humano, desde la lingüística hasta la sociología! Olvidaos de la taxonomía, la ontología y la psicología. ¿Quién sabe por qué la gente hace lo que hace? El punto es que lo hacen, y podemos monitorizarlo y medirlo con una fidelidad sin precedentes. Con suficientes datos, los números hablan por sí mismos ".
Así profetizó en 2008 Chris Anderson, en ese momento editor de Wired, en un bien conocido y ampliamente debatido editorial de la revista con el título "El final de la teoría: el aluvión de datos hace que el método científico sea obsoleto". Diez años después, inmersos como estamos en una retórica triunfal en torno a inteligencia artificial, los algoritmos y el big data, la profecía se ha realizado solo en apariencia. Lo que se ha abierto es un campo de batalla.
"El hombre [sic], desde que existe, interactúa con la realidad externa de dos maneras, percibiéndola y transformándola, es decir, con la observación y la tecnología." Así comienzan Alessandro Della Corte y Lucio Russo su valioso librito de introducción al método científico. "La novedad esencial que caracteriza a la ciencia" siguen " es la creación de << teorías científicas >>. Esto crea un segundo nivel de discurso, << teórico >>, junto con el que describe los objetos concretos". Si asumimos esta definición operativa, la profecía de Anderson apunta a la muerte de la ciencia, más que al final de la teoría. En el típico estilo tecnolibertario de la revista californiana, anuncia el fin del imperio de la autoridad -de la Teoría sobre la realidad, de los expertos sobre la gente común- y el nacimiento de un mundo nuevo que, a través del prisma digital, se revela por lo que es a quien lo observa. Pero, como siempre, lo que el profeta guarda en silencio siempre es más oscuro de lo que dice.
En 2009, aparece en Science un artículo-manifiesto escrito por David Lazer y otras estrellas del jet set científico titulado "La vida en red: la próxima era de las ciencias sociales computacionales". En la introducción podemos leer:
"La capacidad de recopilar y analizar grandes cantidades de datos ha transformado inequívocamente campos como la biología y la física. La aparición de una "ciencia social computacional" basada en datos ha sido mucho más lenta, impulsada en gran medida por unos pocos intrépidos científicos informáticos, físicos y científicos sociales. Si tuviéramos que examinar las principales revistas disciplinarias en economía, sociología y ciencias políticas, habría una evidencia mínima de una ciencia social computacional emergente dedicada a la creación de modelos cuantitativos de estos nuevos tipos de rastros digitales [los que dejan los usuarios en redes sociales, portales de correo electrónico, sitios de comercio electrónico, etc. - N. de R.]. Sin embargo, la ciencia social computacional está sucediendo, y en gran escala, en lugares como Google, Yahoo y la Agencia de Seguridad Nacional. La ciencia social computacional podría convertirse fácilmente en el dominio exclusivo de las empresas privadas y las agencias gubernamentales. Alternativamente, puede surgir un modelo a lo "Rollos del Mar Muerto", con un conjunto privilegiado de investigadores académicos sentados sobre datos privados a partir de los cuales producen artículos científicos que no pueden ser criticados o replicados. Ninguno de los dos escenarios servirá al interés público a largo plazo en la acumulación, verificación y diseminación del conocimiento ".
En términos más prosaicos y menos utópicos, este artículo apuntaba a un futuro muy alejado de la realidad de Anderson-Wired y más cercano al campo de batalla en el que nos encontramos hoy (la referencia a la NSA cuatro años antes de las filtraciones de Snowden es premonitoria) .
Los términos del enfrentamiento, que como hemos visto son explícitos desde hace al menos una década, son muchos y variados. Esquemáticamente, podemos decir:
- Existe una cuestión metodológica, resumida por la declaración perentoria y liberadora "los datos hablan por sí mismos".
- Hay una pregunta que se presenta como deontológica, vinculado a la reproducibilidad de los resultados científicos en un mundo de datos privados y al consentimiento del sujeto humano de investigación en un mundo de plataformas privativas.
- Existe una cuestión de identidad alrededor de la figura del investigador: ¿quién es y qué puede hacer un científico o una científica (en general o en tanto que científico o científica de datos)?
Estas preguntas conciernen todos los campos de la investigación (tecno-)científica - volveré más adelante sobre este término - pero se vuelven más evidentes en lo que se ha llamado ciencia social computacional, que podemos tomar como representante de una tendencia general. Lo que hay detrás es la vieja cuestión de la neutralidad de la ciencia, tanto en su dimensión epistemológica como en la más directamente material relacionada con la financiación de la investigación.
Una cuestión de método: dos ejemplos.
Aunque después de 10 años, tal vez nadie repetiría la afirmación de la muerte de la teoría en los mismos términos ingenuos de Anderson, el debate metodológico sobre la relación entre los datos y los modelos sigue vivo. Todo es y ha de ser data driven - impulsado por datos - para tener retorno (léase ser publicable) en el mercado de la investigación científica.
Desde el punto de vista de la práctica científica como sistematización de la experiencia, existe, según los sacerdotes del análisis del big data, solo una cuestión de cantidad. El método científico, dicen, es algo residual de un mundo dominado por la escasez de datos. Los modelos son solo "toscas aproximaciones de la realidad" que nos permiten llenar los vacíos que dejan los pocos datos producidos en el laboratorio o recopilados en el campo por investigadores y que los conectan causalmente. En un mundo en el que cada interacción deja un rastro digital o puede grabarse digitalmente, estos vacíos ya no existen, por lo cual ya no es necesario aproximar la realidad.
Lo que tenemos que hacer es identificar patrones y correlaciones. Estos no explican por qué sucede lo que sucede (fenómeno observado), pero son suficientes para predecir cuándo volverá a ocurrir. Desde el punto de vista académico, sin embargo, lo que nació como socio-física y luego se convirtió en lo que llamamos ciencias sociales computacionales, tenía un programa basado en el programa clásico de física estadística: identificar las pocas reglas simples que rigen las interacciones entre objetos en el nivel micro (el átomo para la materia inerte, los agentes para los sistemas sociales) que dan lugar a patrones emergentes complejos en la escala macro.
El caso Google Flu Trend (GTF) es bastante ejemplificador para identificar los dos enfoques y sus implicaciones. GFT fue un proyecto para la predicción de la actividad de la gripe basado en la agregación de las claves de búsqueda utilizadas por los millones de usuarios de Google lanzado por la empresa en 2008 y que se dejó morir a partir de 2014. La idea, bastante sencilla, sobre la cual se basaba el GFT se explicó en un artículo publicado en la revista Nature en 2009: las personas con síntomas parecidos a la gripe suelen usar Google para realizar búsquedas relacionadas con la gripe. Debido a que Google tiene una gran cantidad de datos de búsquedas y la capacidad de computación para procesarlos rápidamente, puede predecir picos de gripe al momento.
En una primera fase, se procesaron cientos de miles de millones de claves de búsqueda personales para definir un conjunto de claves de búsqueda relacionadas con la actividad de la gripe, donde la relación se debe entender como una correlación. El número de búsquedas que contienen estas claves se usó luego como entrada para un modelo que predecía casos de influenza. Aquí el modelo se concibe como un modelo estadístico, es decir, una fórmula que, dados el número de búsquedas con las claves del conjunto considerado y ciertos parámetros, devuelve la probabilidad de tener un cierto número de casos de gripe. A lo largo de su historia hasta 2013, las predicciones de GFT alternaron eficacia y velocidad con errores bastante relevantes, lo que requirió varias recalibraciones sucesivas del modelo estadístico. En 2013, se produce el colapso definitivo: GFT sobreestimó el pico de gripe por más del doble.
En un artículo en Science 2014 publicado por Lazer y sus coautores, la investigación académica se tomó su revancha al criticar varios puntos del método Google que lo condujo al desastre. El primer blanco fue la fiabilidad de Google Search como herramienta de investigación.
A diferencia de las herramientas de laboratorio tradicionales, el algoritmo de búsqueda no fue construido para recopilar datos sobre el fenómeno en estudio. Los datos son solo un subproducto de su función principal. Por lo tanto, los cambios continuos aplicados al algoritmo para mejorar el rendimiento (devolver resultados de búsqueda "buenos") retroalimentan el proceso de producción de datos, lo que genera errores, incluso groseros, y la necesidad de recalibrar constantemente los modelos estadísticos. El segundo blanco fue la transparencia y, por consiguiente, la reproducibilidad de los resultados de GFT. Google nunca ha revelado los términos de búsqueda incluidos en el conjunto utilizado para las predicciones, por lo que no hay posibilidad de replicar el experimento de forma independiente.
Otro gran caso de debate fue el experimento realizado por Facebook sobre el contagio emocional, cuyos resultados aparecieron en la revista PNAS en un artículo de 2014. La novedad en este caso es que la plataforma social Facebook se utilizó directamente como entorno experimental y no solo como un productor de datos.
La teoría del contagio emocional establece que los estados emocionales pueden infectarse de persona a persona por la sola exposición, como un virus, generando lo que denomina "efecto de red": los sujetos vinculados por una relación social tienden a mostrar estados emocionales correlacionados.
Facebook dibuja un experimento para resolver la controversia sobre esta teoría e ir más allá de la simple medición de correlaciones. Para hacerlo, modifica apropiadamente el News Feed de más de 600,000 usuarios, mostrando a algunos mensajes predominantemente positivos, a otros mensajes predominantemente negativos y midiendo después el contenido emocional de estos, comparándolos entre sí y con un grupo de control al que se les muestra las noticias de forma normal. De esta manera se quiso confirmar la existencia del contagio emocional.
El experimento generó un gran debate en torno a dos puntos principales: una vez más, el de la reproducibilidad, y el asunto ético del consentimiento informado.
La imposibilidad de reproducir los resultados del experimento de Facebook es patente: nadie, excepto los investigadores de la casa, tiene la posibilidad de realizar el mismo experimento y es imposible siquiera pensar diseñar una plataforma ad hoc que reproduzca las mismas condiciones experimentales en el misma escala. La pregunta ética está tan presente que la misma revista acompañó el artículo con una "declaración editorial de preocupación" que concluyó:
"Obtener el consentimiento informado y permitir que los participantes renuncien son buenas prácticas en la mayoría de los casos bajo las líneas de conducta del Departamento de Salud y Servicios Humanos de los Estados Unidos para la protección de sujetos humanos de investigación (la Common Rule). El cumplimiento de la Common Rule es la política de PNAS, pero como empresa privada, Facebook no tenía la obligación de cumplir con las disposiciones de la Common Rule cuando recopilaba los datos utilizados por los autores, y la Common Rule no impide el uso de estos datos. Basándonos en la información proporcionada por los autores, los editores de PNAS consideramos apropiado publicar el artículo. Sin embargo, existe la preocupación de que la recopilación de datos de Facebook pueda haber involucrado prácticas que no eran totalmente consistentes con el principio de obtener el consentimiento informado y permitir a los participantes de dejar de participar ".
Era el 2014, el escándalo de Cambridge Analytica estaba aun porvenir.
El debate sobre la cuestión ética también destacó otro problema muy sentido por los investigadores académicos que, al tener que someterse a las normas sobre el consentimiento informado, son desfavorecidos en comparación con los investigadores comerciales a los que no se aplican estas reglas, aquí un ejemplo.
Con el caso del experimento de Facebook, sin embargo, emerge también otro aspecto fundamental: el de la anarquía metodológica. Por un lado la retórica sobre el análisis del big data se basa en la afirmación de que la "correlación es suficiente" y, por tanto, en el mero análisis estadístico de datos recopilados en la naturaleza, por el otro, los científicos de datos de las empresas comerciales no tienen reparos en recurrir a prácticas experimentales antiguas, diseñadas para descubrir conexiones causales cuando sea necesario.
Notas a modo de conclusiones.
Desde el punto de vista de las ciencias sociales computacionales, la era del big data es, en realidad, la era del capitalismo de plataforma tecnosocial (Facebook, Twitter, Airbnb, ...). Al igual que la radioastronomía, microbiología u otras ciencias, las ciencias sociales computacionales son posible solamente a partir de un dispositivo: las plataformas sociales en la web. Éstas, en última instancia, cubren tanto el papel de la herramienta de observación como el de fenómeno observado. Como dije, no es una especificidad de esta disciplina, sino que representa un caso particular de una tendencia general que algunos autores, como Marcello Cini, ya han llamado el punto de inflexión tecnocientífico.
Desde una fase de "subordinación de la tecnología a la ciencia" - la segunda es lo que permite el diseño de la primera que a su vez estimula nuevas preguntas científicas - con el nuevo siglo hemos entrado en una fase de entrelazamiento indisoluble entre ciencia y tecnología, representado por las así llamadas tecnociencias. En esta fase, surgen bajo una nueva luz cuestiones tanto metodológicas como éticas, y también directamente políticas. Trataré de delinear algunas de ellas sin dejar de utilizar el prisma de las ciencias sociales computacionales.
El momento del análisis - de los datos producidos en plataformas tecno-sociales privativas - no puede separarse del momento de la crítica. El instrumento de observación, de hecho, no es inerte ni en el sentido determinista clásico ni en el sentido probabilístico cuántico, sino que contribuye a producir la realidad observada y, en la mayoría de los casos, cualquier posibilidad de modificarlo está fuera del alcance tanto del investigador como del sujeto de investigación. Este asunto se traduce en el de la no neutralidad del algoritmo.
Éste es solo uno de los problemas metodológicos que deben abordarse. Si la liquidación del método científico a lo Anderson se ha revelado engañosa, aseverar a la Lazer que nada ha cambiado y el big data es solo una herramienta más para continuar haciendo ciencia como siempre es un truco retórico útil solo para mantener un posición privilegiada de interlocución con las instituciones del poder político y económico.
El objetivo práctico de plataformas como Facebook en su investigación es establecer un mercado para la predicción y modificación del comportamiento humano.En este marco, el sujeto humano de la investigación, la persona usuaria, es tanto un recurso a partir del cual extraer la materia prima-datos, como un objetivo sobre el que explotar la información producida a partir de los datos extraídos. La cuestión de la propaganda política computacional es su máxima expresión, hasta el punto de que, antes del experimento mencionado arriba, Facebook realizó y publicó un experimento similar sobre el comportamiento electoral de sus usuarios y usuarias.
En este contexto, la no neutralidad de la ciencia, en el sentido de la naturaleza contextual y socialmente determinada de las preguntas a las cuales la investigación científica busca respuestas, adquiere una forma más inmediata.
La oposición llevada a cabo por la investigación académica, la cual, en función de la continuidad metodológica, propone al investigador como interlocutor de las instituciones públicas en calidad de experto, mientras que por un lado frena la arrogancia de big data (Big Data hubris, en palabras de Lazer y coautores), por el otro no cambia la posición pasiva de la sociedad de usuarios.
La cuestión deontológica, en resumen, es directamente política.
Published by: heuristica in Debates
Etiquetas: BigData, Ciencia Social Computacional, Plataformas