Un análisis esclarecedor sobre uno de los grandes temas de ...

Unanálisisesclarecedorsobreunodelosgrandestemasdenuestrotiempo,y sobre el inmenso impacto que tendrá en la economía, la ciencia y lasociedadengeneral.Losdatosmasivosrepresentanunarevoluciónqueyaestá cambiando la forma de hacer negocios, la sanidad, la política, laeducaciónylainnovación.Dosgrandesexpertosenlamateriaanalizanquéson losdatosmasivos, cómonospuedencambiar la vida, y quépodemoshacerparadefendernosdesusriesgos.Ungranensayo,únicoenespañol,pionero en su campo, y que se adelanta a una tendencia que crece a unritmofrenético.

www.lectulandia.com-Página2

ViktorMayer-Schönberger&KennethCukier

BigData.Larevolucióndelosdatosmasivos

ePubr1.0Titivillus16.06.16


Títulooriginal:BigData.ARevolutionThatWillTransformHowWeLive,Work,andThinkViktorMayer-Schönberger&KennethCukier,2013Traducción:AntonioIriarte

Editordigital:TitivillusePubbaser1.2


ParaByvV.M.S.

Paramispadres


I

AHORA

En 2009 se descubrió un nuevo virus de la gripe. La nueva cepa, que combinabaelementosdelosviruscausantesdelagripeaviarylaporcina,recibióelnombredeH1N1 y se expandió rápidamente. En cuestión de semanas, los organismos desanidadpúblicadetodoelmundotemieronqueseprodujeraunapandemiaterrible.Algunoscomentaristasalertarondeunbrotesimilarenescalaaldelagripeespañolade1918,queafectóaquinientosmillonesdepersonasycausódecenasdemillonesdemuertes. Además, no había disponible ninguna vacuna contra el nuevo virus. Laúnicaesperanzaqueteníanlasautoridadessanitariaspúblicaseraladeralentizarsupropagación. Ahora bien, para hacerlo, antes necesitaban saber dónde se habíamanifestadoya.

EnEstadosUnidos,losCentrosdeControlyPrevencióndeEnfermedades(CDC)pedían a losmédicos que les alertaran ante los casos nuevos de gripe.Aun así, elpanoramade lapandemiaque salía a la luz llevaba siempreunaodos semanasderetraso. Había gente que podía sentirse enferma durante días antes de acudir almédico.La transmisiónde la informacióna lasorganizacionescentrales tomaba sutiempo,ylosCDCsólotabulabanlascifrasunavezporsemana.Conunaenfermedadquesepropagacadavezmásdeprisa,undesfasededossemanasesunaeternidad.Este retraso ofuscó por completo a los organismos sanitarios públicos en losmomentosmáscruciales.

Unas cuantas semanas antes de que el virusH1N1ocupase los titulares, dio lacasualidaddequeunosingenierosdeGoogle[1],elgigantedeinternet,publicaronunartículonotableen la revistacientíficaNature.Estapiezacausósensaciónentre losfuncionariosdesanidadyloscientíficosdelacomputación,pero,porlodemás,pasóengeneralinadvertida.LosautoresexplicabanenellacómoGooglepodía“predecir”la propagación de la gripe invernal en EstadosUnidos, no sólo en todo el ámbitonacional,sinohastaporregionesespecíficas,e inclusoporestados.Lacompañíaloconseguíaestudiandoquébuscabalagenteeninternet.DadoqueGooglerecibemásdetresmilmillonesdeconsultasadiarioylasarchivatodas,teníamontonesdedatosconlosquetrabajar.

Google tomó los cincuenta millones de términos de búsqueda más corrientesempleados por los estadounidenses y comparó esa lista con los datos de los CDCsobre propagación de la gripe estacional entre 2003 y 2008. La intención eraidentificar a los afectados por el virus de la gripe a través de lo que buscaban eninternet. Otros ya habían intentado hacer esto con los términos de búsqueda de


internet,peronadiedisponíade tantosdatos,capacidaddeprocesarlosyknow-howestadísticocomoGoogle.

AunqueelpersonaldeGoogle[2]suponíaquelasbúsquedaspodríancentrarseenobtenerinformaciónsobrelagripe—tecleandofrasescomo“remediosparalatosylafiebre”—,noeraésalacuestión:comonolesconstaba,diseñaronunsistemaalqueno le importaba. Lo único que hacía este sistema era buscar correlaciones entre lafrecuenciadeciertasbúsquedasdeinformaciónylapropagacióndelagripealolargodeltiempoydelespacio.Procesaronuntotalapabullantedecuatrocientoscincuentamillones de modelos matemáticos diferentes para poner a prueba los términos debúsqueda, comparando sus predicciones con los casos de gripe registrados por losCDCen2007y2008.Asídieronconunfilón:susoftwarehallóunacombinacióndecuarentaycinco términosdebúsquedaque, alusarseconjuntamenteenunmodelomatemático, presentaba una correlación fuerte entre su predicción y las cifrasoficialesdelaenfermedadalolargodelpaís.ComolosCDC,podíandeciradóndesehabíapropagado lagripe,pero,adiferenciade losCDC,podíanhacerloen tiempocasireal,nounaodossemanasdespués.

Así pues, en 2009, cuando estalló la crisis del H1N1, el sistema de Googledemostróserunindicadormásútilyoportunoquelasestadísticasgubernamentales,con su natural desfase informativo. Y los funcionarios de la sanidad públicaconsiguieronunaherramientadeinformaciónincalculable.

Lo asombroso delmétodo deGoogle es que no conlleva distribuir bastoncitosparahacerfrotisbucales,niponerseencontactoconlasconsultasdelosmédicos.Porelcontrario,sebasaenlosbigdata,los“datosmasivos”:lacapacidaddelasociedaddeaprovecharlainformacióndeformasnovedosas,paraobtenerpercepcionesútilesobienesyserviciosdevalorsignificativo.Conellos,cuandoseproduzcalapróximapandemia, elmundodispondrádeunaherramientamejorparapredecir, ypor endeprevenir,supropagación.

Lasanidadpúblicanoesmásqueunadelasáreasenlasquelosdatosmasivosestánsuponiendoungrancambio.Haysectoresdenegociocompletosqueseestánviendoasimismo reconfigurados por los datosmasivos.Un buen ejemplo nos lo brinda lacompradebilletesdeavión.[3]

En2003,OrenEtzioniteníaquevolardeSeattleaLosÁngelesparaasistiralabodadesuhermanopequeño.Mesesantesdelgrandía,entróeninternetycompróunbillete,creyendoquecuantoantesreserves,menospagas.Enelvuelo,lacuriosidadpudomásqueél,ylepreguntóalocupantedelasientocontiguocuántohabíacostadosu billete, y cuándo lo había comprado. Resultó que el hombre hacía pagadoconsiderablementemenosqueEtzioni,auncuandohabíacompradoelbilletemuchomástarde.Furioso,Etzionilepreguntóaotropasajero,yluegoaotromás.Lamayorpartehabíanpagadomenosqueél.


A la mayoría, la sensación de haber sido traicionados económicamente se noshabría disipado antes de plegar las bandejas y colocar los asientos en posiciónvertical.Etzioni, sinembargo,esunode losprincipalescientíficosestadounidensesde la computación. Ve el mundo como una serie de problemas de datos masivos:problemas que puede resolver. Y ha estado dominándolos desde el día en que selicencióenHarvard,en1986,siendoelprimerestudiantequesegraduabaencienciasdelacomputación.

DesdesupuestoenlauniversidaddeWashington,Etzioniimpulsóunmontóndecompañías de datos masivos antes incluso de que se diese a conocer el término.Ayudóacrearunodelosprimerosbuscadoresdelared,MetaCrawler,queselanzóen 1994 y acabó siendo adquirido por InfoSpace, por entonces una firma onlineimportante.FuecofundadordeNetbot, laprimeragranpáginawebdecomparacióndeprecios,que luegovendióaExcite.Su firmastartup,oemergente,paraextraersentido de los documentos de texto, llamada ClearForest, fue posteriormenteadquiridaporReuters.

Unavezen tierra,Etzioni estabadecididoaencontrar la formadeque lagentepudiesesabersielpreciodelbilletedeaviónqueveeninternetesbuennegocioono.Unasientoenunaviónesunproducto:cadaunoesbásicamenteindistinguibledelosdemásenelmismovuelo.Sinembargo, lospreciosvaríandeformabrutal,alestarbasados en una multitud de factores que, esencialmente, sólo conocen las líneasaéreas.

Etzioni llegó a la conclusión de que no necesitaba descifrar la causa última deesasdiferencias.Lebastabaconpredecirsielpreciomostrado teníaprobabilidadesdeaumentarodisminuirenelfuturo.Esoesalgoposible,aunquenofácildehacer.Bastaconanalizartodaslasventasdebilletesdeaviónparaunarutadeterminadayexaminarlospreciospagadosenfuncióndelnúmerodedíasquefaltanparaelviaje.

Si el preciomedio de un billete tendiese a disminuir, tendría sentido esperar ycomprarlo más adelante. Si el precio medio aumentase habitualmente, el sistemarecomendaríacomprarelbilletedeinmediato.Enotraspalabras,loqueseprecisabaeraunaversiónpotenciadadelaencuestainformalqueEtzionihabíallevadoacaboa9000metrosdealtitud.Pordescontado,setratabadeotroproblemadescomunalparala ciencia informática, pero también de uno que podía resolver.Así que se puso atrabajar.

Usandounamuestradedocemilregistrosdepreciosdevuelos,recabadaatravésdeunawebdeviajesalolargodeunperiododecuarentayundías,Etzionicreóunmodelo predictivo que ofrecía a sus pasajeros simulados un ahorro estimable. Elmodelonoofrecíaningunaexplicacióndelporqué,sólodelqué.Esdecir,noconocíaningunadelasvariablesqueintervienenenlafijacióndepreciosdelaslíneasaéreas,como el número de asientos sin vender, la estacionalidad, o si de alguna formamágicalapernoctacióndurantelanochedelsábadopodríareducirelimporte.Basabasupredicciónenloquesísabía:probabilidadesrecopiladasdedatosacercadeotros


vuelos.“Compraronocomprar,esaeslacuestión”,sedijoEtzioni.Porconsiguiente,denominóHamletasuproyecto.[4]

Ese pequeño proyecto evolucionó hasta convertirse en una empresa start upfinanciadaconcapital-riesgoydenombreFarecast.Alpredecirsieraprobablequesubieraobajaraelpreciodeunbilletedeavión,ycuánto,Farecastlesatribuyóalosconsumidores el poder de elegir cuándo hacer clic en el botón de “comprar”. Losarmóconunainformaciónalaquenuncaanteshabíantenidoacceso.Ensalzandolasvirtudes de la transparencia a sus expensas, Farecast incluso puntuaba el grado deconfianza que le merecían sus propias predicciones y les brindaba a los usuariostambiénesainformación.

Parafuncionar,elsistemanecesitabamontonesdedatos,asíqueEtzioni intentómejorarlo haciéndose con una de las bases de datos de reservas de vuelos de laindustriaaérea.Conesainformación,elsistemapodíahacerprediccionesbasadasentodos los asientos de todos los vuelos, en la mayoría de las rutas de la aviacióncomercialestadounidense,eneltranscursodeunaño.Farecastestabaprocesandoyacercadedoscientosmilmillonesderegistrosdepreciosdevuelospara realizarsuspredicciones.Y,conello,estabapermitiéndolesalosconsumidoresahorrarseunbuendinero.

Consucabellocastañoarenoso,sonrisadentonaybellezadequerubín,Etzioninoparecíaprecisamentelaclasedepersonaquelenegaríaalaslíneasaéreasmillonesdedólaresde ingresospotenciales.Pero,dehecho,sepropusohaceraúnmásqueeso.Llegado el año 2008, estaba planeando aplicar elmétodo a otros bienes, como lashabitaciones de hotel, las entradas de conciertos y los coches de segunda mano:cualquier cosa que presentase una diferenciación reducida de producto, un gradoelevado de variación en el precio y toneladas de datos. Pero, antes de que pudierallevarsusplanesalapráctica,Microsoftllamóasupuerta,sehizoconFarecast[5]poralrededorde cientodiezmillonesdedólares,y lo integróenelmotordebúsquedaBing.Para el año2012, el sistema acertaba el 75por 100de las veces y le estabaahorrandounamediadecincuentadólaresporbilletealosviajeros.

Farecasteselmodeloperfectodelacompañíadebigdata,yunbuenejemplodehaciadóndeseencaminaelmundo.Cincoodiezañosantes,Etzioninopodríahabercreadolaempresa.“Habríasidoimposible”,afirma.Lacapacidaddecomputaciónyalmacenamientoqueprecisabaresultabademasiadocara.Aunque loscambiosen latecnología resultaron un factor crucial a la hora de hacerlo posible, algo másimportante cambió asimismo, algo sutil: se produjo una modificación en laperspectivaacercadelposibleusodelosdatos.

Los datos ya no se contemplaban como algo estático o rancio, cuya utilidaddesaparecíaencuantosealcanzabaelobjetivoparaelquehabíansidorecopilados,esdecir, nadamás aterrizar el avión (o, en el caso de Google, una vez procesada labúsquedaencurso).Porelcontrario,losdatosseconvirtieronenunamateriaprimadelnegocio,enunfactorvital,capazdecrearunanuevaformadevaloreconómico.


En la práctica, con la perspectiva adecuada, los datos pueden reutilizarseinteligentementeparaconvertirseenunmanantialdeinnovaciónyserviciosnuevos.Los datos pueden revelar secretos a quienes tengan la humildad, el deseo y lasherramientasparaescuchar.


DEJARHABLARALOSDATOS

Los frutos de la sociedad de la información están bien a la vista, con un teléfonomóvilencadabolsillo,unordenadorportátilencadamochila,ygrandessistemasdetecnología de la información funcionando en las oficinas por todas partes.Menosllamativa resulta la información en sí misma. Medio siglo después de que losordenadoressepropagarana lamayoríade lapoblación, losdatoshanempezadoaacumularsehastaelpuntodequeestásucediendoalgonuevoyespecial.Nosóloesqueelmundoestésumergidoenmásinformaciónqueenningúnmomentoanterior,sino que esa información está creciendo más deprisa. El cambio de escala haconducido a un cambio de estado. El cambio cuantitativo ha llevado a un cambiocualitativo.Fueencienciascomolaastronomíaylagenética,queexperimentaronporprimeravezesaexplosiónenladécadade2000,dondeseacuñóeltérminobigdata,“datosmasivos”[6].Elconceptoestá trasladándoseahorahacia todas lasáreasde laactividadhumana.

Noexisteningunadefinición rigurosade losdatosmasivos.Enunprincipio, laidea era que el volumen de información había aumentado tanto que la que seexaminabayanocabíaenlamemoriaquelosordenadoresempleanparaprocesarla,por lo que los ingenieros necesitaban modernizar las herramientas para poderanalizarla.Eseeselorigende lasnuevas tecnologíasdeprocesamiento,comoMap-Reduce, de Google, y su equivalente de código abierto, Hadoop, que surgió deYahoo.Conellossepuedenmanejarcantidadesdedatosmuchomayoresqueantes,yesosdatos—estoesloimportante—noprecisanserdispuestosenfilasordenadasnienlasclásicastabulacionesdeunabasededatos.Otrastecnologíasdeprocesamientodedatosqueprescindendelasjerarquíasrígidasydelahomogeneidaddeantañosevislumbranasimismoenelhorizonte.Almismotiempo,dadoquelascompañíasdeinternet podían recopilar vastas cantidades de datos y tenían un intenso incentivofinancieroporhallarlesalgúnsentido,seconvirtieronen lasprincipalesusuariasdelastecnologíasdeprocesamientomásrecientes,desplazandoacompañíasdefueradelaredque,enalgunoscasos,teníanyadécadasdeexperienciaacumulada.

Unaformadepensarenestacuestiónhoyendía—laqueaplicamosenestelibro—eslasiguiente:losbigdata,losdatosmasivos,serefierenacosasquesepuedenhaceragranescala,peronoaunaescalainferior,paraextraernuevaspercepcionesocrear nueva formas de valor, de tal forma que transforman los mercados, lasorganizaciones,lasrelacionesentrelosciudadanosylosgobiernos,etc.

Peroestonoesmásqueelprincipio.Laeradelosdatosmasivosponeencuestiónla forma en que vivimos e interactuamos con el mundo. Y aún más, la sociedadtendráquedesprendersedepartedesuobsesiónporlacausalidadacambiodemerascorrelaciones: ya no sabremos por qué, sino sólo qué. Esto da al traste con lasprácticasestablecidasdurantesiglosychocaconnuestracomprensiónmáselemental


acercadecómotomardecisionesyaprehenderlarealidad.Losdatosmasivosseñalanelprincipiodeunatransformaciónconsiderable.Como

tantasotrastecnologíasnuevas,ladelosdatosmasivosseguramenteacabarásiendovíctimadelconocidohypecycle[ciclodepopularidad]deSiliconValley:despuésdeser festejada en las portadas de las revistas y en las conferencias del sector, latendencia se verá arrinconada y muchas de las start ups nacidas al socaire delentusiasmopor losdatossevendránabajo.Pero tantoelencaprichamientocomolacondena suponen malinterpretar profundamente la importancia de lo que estáocurriendo.Delamismaformaqueeltelescopionospermitióvislumbrareluniversoy el microscopio nos permitió comprender los gérmenes, las nuevas técnicas derecopilaciónyanálisisdeenormesvolúmenesdedatosnosayudaránaverelsentidodenuestromundodeunaformaqueapenasintuimos.Enestelibronosomostantolosevangelistasdelosdatosmasivoscuantosussimplesmensajeros.Y,unavezmás,laverdaderarevoluciónnosecifraenlasmáquinasquecalculanlosdatos,sinoenlosdatosmismosyencómolosusamos.

Para apreciar hasta qué punto está ya enmarcha la revolución de la información,considérense las tendencias que semanifiestan en todo el espectro de la sociedad.Nuestro universo digital está en expansión constante. Piénsese en la astronomía.[7]CuandoelSloanDigitalSkySurveyarrancóen2000,sóloenlasprimerassemanassutelescopiodeNuevoMéxicorecopilómásdatosdelosquesehabíanacumuladoen toda la historia de la astronomía. Para 2010, el archivo del proyecto estaba arebosar, con unos colosales 140 terabytes de información. Sin embargo, un futurosucesor,elGranTelescopioSinópticodeInvestigacióndeChile,cuya inauguraciónestáprevistapara2016,acopiaráesacantidaddedatoscadacincodías.

Similarescantidadesastronómicaslastenemostambiénmásamano.Cuandoloscientíficos descifraron por primera vez el genomahumano en 2003, secuenciar lostresmilmillonesdeparesdebaseslesexigióunadécadadetrabajointensivo.Hoyendía, diez años después, un solo laboratorio es capaz de secuenciar esa cantidad deADNenundía.Enelcampodelasfinanzas,enlosmercadosdevaloresdeEstadosUnidos, a diario cambian demanos sietemilmillones de acciones[8], dos terceraspartes de las cuales se negocian mediante algoritmos de ordenador basados enmodelosmatemáticos que procesanmontañas de datos para predecir ganancias, altiempoqueintentanreducirlosriesgos.

Las compañías de internet se han visto particularmente abrumadas. Googleprocesamás de 24 petabytes de datos al día, un volumen que representamiles deveces la totalidad del material impreso que guarda la Biblioteca del Congreso deEstadosUnidos.AFacebook,unaempresaquenoexistíahaceunadécada,sesubenmásdediezmillonesdefotosnuevascadahora.Sususuarioshacenclicenelbotónde “me gusta” o insertan un comentario casi tres mil millones de veces diarias,


dejando un rastro digital que la compañía explota para descubrir sus preferencias.Entretanto,losochocientosmillonesdeusuariosmensualesdelservicioYouTubedeGoogle subenmásdeunahoradevídeo cada segundo.El númerodemensajes deTwitteraumentaalrededordeun200por100alaño,yen2012sehabíansuperadoloscuatrocientosmillonesdetuitsdiarios.

Delascienciasalaasistenciamédica,delabancaainternet,lossectorespuedenser muy distintos, pero en conjunto cuentan una historia parecida: la cantidad dedatos que hay en el mundo está creciendo deprisa, desbordando no sólo nuestrasmáquinas,sinotambiénnuestrapropiaimaginación.

Sonmuchos quienes han intentadodeterminar la cifra exacta de la cantidad deinformaciónquenosrodea,ycalcularaquévelocidadcrece.Loconseguidohasidoirregular,porquehanmedidocosasdiferentes.UnodelosestudiosmáscompletosesobradeMartinHilbert,delaAnnenbergSchooldecomunicaciónyperiodismodelauniversidaddelSurdeCalifornia.Hilbertsehaesforzadoporcifrar todocuantohasido producido, almacenado y comunicado, lo cual comprendería no sólo libros,cuadros,correoselectrónicos,fotografías,músicayvídeo(analógicoydigital),sinotambiénvideojuegos, llamadas telefónicas,hastanavegadoresdevehículosycartasenviadasporcorreopostal.Tambiénincluyómediosdeemisióncomolatelevisiónylaradio,basándoseensuscifrasdeaudiencia.

Según el cómputo de Hilbert, en 2007 existían más de 300 exabytes de datosalmacenados. Para entender lo que esto representa en términos ligeramente máshumanos,piénsesequeunlargometrajeenteroenformatodigitalpuedecomprimirseenunarchivode1gigabyte.Unexabytesonmilmillonesdegigabytes.Enresumidascuentas:unabarbaridad.Lointeresanteesqueen2007sóloentornoal7por100delosdatos eran analógicos (papel, libros, copiasde fotografías, etcétera); el restoyaerandigitales.Sinembargo,nohacedemasiado,elpanoramaeramuydiferente.Peseaquelosconceptosde“revolucióndelainformación”y“eradigital”existendesdeladécada de 1960, apenas acaban de convertirse en realidad de acuerdo con ciertasmedidas. Todavía en el año 2000, tan sólo una cuarta parte de la informaciónalmacenada en elmundo era digital: las otras tres cuartas partes estaban en papel,película,discosLPdevinilo,cintasdecassetteysimilares.

La masa total de la información digital de entonces no era gran cosa, lo quedebería inspirar modestia a los que llevan mucho tiempo navegando por la red ycomprandolibrosonline.(Dehecho,en1986cercadel40por100delacapacidaddecomputación general delmundo revestía la forma de calculadoras de bolsillo, querepresentaban más poder de procesamiento que la totalidad de los ordenadorespersonales del momento). Como los datos digitales se expanden tan deprisa —multiplicándoseporalgomásdedoscadatresaños,segúnHilbert—,lasituaciónseinvirtiórápidamente.Lainformaciónanalógica,encambio,apenascreceenabsoluto.Asíqueen2013seestimaquelacantidad[9] totalde informaciónalmacenadaenelmundo es de alrededor de 1200 exabytes, de los que menos del 2 por 100 es no


digital.No hay manera fácil de concebir lo que supone esta cantidad de datos. Si

estuvieran impresos en libros, cubrirían la superficie entera de Estados Unidos,formandounascincuentaydoscapas.SiestuvierangrabadosenCD-ROMsapilados,tocarían la Luna formando cinco pilas separadas. En el siglo III a. de C., cuandoTolomeoIIdeEgiptoseafanabaporconservarunejemplardecadaobraescrita, lagran biblioteca de Alejandría representaba la suma de todo el conocimiento delmundo.Eldiluviodigitalqueestábarriendoahoraelplanetaeselequivalenteadarlehoyacadapersonade laTierra trescientasveinteveces lacantidadde informaciónque,seestima,almacenabalabibliotecadeAlejandría.

Las cosas se están acelerando de verdad. La cantidad de información almacenadacrececuatrovecesmásdeprisaquelaeconomíamundial,mientrasquelacapacidaddeprocesamientodelosordenadorescrecenuevevecesmásdeprisa.Notienenadade raro que la gente se queje de sobrecarga informativa.A todos nos abruman loscambios.

Tómese laperspectivaa largoplazo,comparandoelactualdiluviodedatosconunarevolucióndelainformaciónanterior,ladelaimprentadeGutenberg,inventadahacia1439.Enloscincuentaañosquevande1453a1503,seimprimieronunosochomillonesde libros[10], según la historiadoraElizabethEisenstein.Esto se consideramás que lo producido por todos los escribas de Europa desde la fundación deConstantinopla, unos mil doscientos años antes. En otras palabras, hicieron faltacincuentaañosparaquelasexistenciasdeinformacióncasiseduplicaranenEuropa,encontrasteconloscercadetresañosquetardaenhacerlohoyendía.

¿Qué representa este incremento? A Peter Norvig, experto en inteligenciaartificialdeGoogle,legustapensaralrespectoconunaanalogíagráfica.Enprimerlugar, nos pide que pensemos en el caballo icónico de las pinturas rupestres deLascaux, en Francia, que datan del Paleolítico, hace unos diecisiete mil años. Acontinuación, pensemos en una fotografía de un caballo: o aún mejor, en losgarabatos dePicasso, que no son demasiadodistintos de las pinturas rupestres.Dehecho,cuandose lemostraronaPicasso las imágenesdeLascaux[11], comentó conmordacidad:“Nohemosinventadonada”.

LaspalabrasdePicassoeranciertasdesdeunpuntodevista,peronodesdeotro.Recuérdese la fotografía del caballo.Mientras que antes hacía faltamucho tiempoparadibujaruncaballo,ahorapodíaconseguirseunarepresentacióndeuno,muchomásdeprisa,medianteunafotografía.Esosuponeuncambio,peropuedequenoseaelmásesencial,dadoquesiguesiendofundamentalmentelomismo:unaimagendeuncaballo.Sinembargo,ruegaNorvig,considéreseahoralaposibilidaddecapturarla imagendeuncaballoyacelerarlahasta losveinticuatrofotogramasporsegundo.El cambio cuantitativo ha producido uno cualitativo. Una película es


fundamentalmente diferente de una fotografía estática. Lo mismo ocurre con losdatosmasivos:alcambiarlacantidad,cambiamoslaesencia.

Considérese una analogía procedente de la nanotecnología, donde las cosas sevuelvenmáspequeñas,nomásgrandes.Elprincipioquesubyacealananotecnologíaesque,cuandosealcanzaelnivelmolecular,laspropiedadesfísicaspuedenalterarse.Conocer esas nuevas características supone que se pueden inventarmateriales quehagancosasantesimposibles.Ananoescala,porejemplo,sepuedendarmetalesmásflexiblesycerámicasexpandibles.Alainversa,cuandoaumentamoslaescaladelosdatos con los que trabajamos, podemos hacer cosas nuevas que no eran posiblescuandosólotrabajábamosconcantidadesmáspequeñas.

Aveces las restriccionescon lasquevivimos,yquepresumimos idénticasparatodo, son, en realidad, únicamente funciones de la escala a la que operamos.Pensemosenunaterceraanalogía,denuevodelcampodelasciencias.Paralossereshumanos, la ley físicamás importante de todas es la de la gravedad: impera sobretodo cuanto hacemos. Pero, para los insectos minúsculos, la gravedad esprácticamenteinmaterial.Paraalgunos,comoloszapaterosdeagua,laleyoperativadeluniversofísicoeslatensióndelasuperficie,quelespermitecruzarunestanquesincaerseenél.

En la información, como en la física, el tamaño sí importa. Por consiguiente,Googlemostróqueeracapazdedeterminar laprevalenciade lagripecasi igualdebien que los datos oficiales basados en las visitas de pacientes almédico. Googlepuede hacerlo peinando cientos de miles de millones de términos de búsqueda, ypuedeobtenerunarespuestacasien tiemporeal,muchomásrápidoque lasfuentesoficiales.Delmismomodo,elFarecastdeEtzionipuedepredecir lavolatilidaddelpreciodeunbilletedeavión,poniendoasíunpodereconómicosustancialenmanosde los consumidores.Pero ambos sólopuedenhacerlo bienmediante el análisis decientosdemilesdemillonesdepuntosdedatos.

Estos dos ejemplos demuestran el valor científico y societario de los datosmasivos, y hasta qué punto pueden estos convertirse en una fuente de valoreconómico.Reflejandosformasenqueelmundodelosdatosmasivosestáapuntoderevolucionarlotodo,desdelasempresasylascienciashastalaatenciónmédica,laadministración, la educación, la economía, las humanidades y todos los demásaspectosdelasociedad.

Aunque sólo nos hallamos en los albores de la era de los datos masivos, nosapoyamos en ellos a diario. Los filtros de spam están diseñados para adaptarse amedida que cambian las clases de correo electrónico basura: no sería posibleprogramarelsoftwareparaquesupierabloquear“via6ra”osuinfinidaddevariantes.Losportalesdeencuentrosemparejana lagentebasándoseenlacorrelacióndesusnumerososparámetrosconlosdeanterioresemparejamientosfelices.Lafunciónde“autocorrección” de los teléfonos inteligentes rastrea nuestras acciones y añadepalabras nuevas a su diccionario ortográfico basándose en lo que tecleamos. Sin


embargo,esosusosnosonmásqueelprincipio.DesdeloscochescapacesdedetectarcuándogirarofrenarhastaelordenadorWatsondeIBMquederrotaalaspersonasenelconcursotelevisivoJeopardy!,elenfoquerenovarámuchosaspectosdelmundoenelquevivimos.

Esencialmente,losdatosmasivosconsistenenhacerpredicciones.Aunqueselosengloba en la ciencia de la computación llamada inteligencia artificial y, másespecíficamente, en el área llamada aprendi zaje automático o de máquinas, estacaracterización induce a error. El uso de datos masivos no consiste en intentar“enseñar” a un ordenador a “pensar” como un ser humano.Más bien consiste enaplicar las matemáticas a enormes cantidades de datos para poder inferirprobabilidades: la de que unmensaje de correo electrónico sea spam; la de que lacombinacióndeletras“lso”correspondaa“los”;ladequelatrayectoriayvelocidaddeunapersonaquecruzasinmirarsuponenqueledarátiempoaatravesarlacalle,yel coche autoconducido sólo necesitará aminorar ligeramente la marcha. La claveradicaenqueestossistemasfuncionanbienporqueestánalimentadosconmontonesdedatossobre losquebasarsuspredicciones.Esmás, lossistemasestándiseñadospara perfeccionarse solos a lo largo del tiempo, al estar pendientes de detectar lasmejoresseñalesypautascuandoselessuministranmásdatos.

Enelfuturo—yantesdeloquepensamos—,muchosaspectosdenuestromundoque hoy son competencia exclusiva del juicio humano se verán incrementados osustituidos por sistemas computerizados. No sólo conducir un coche o ejercer decasamentero, sino tareas aún más complejas. Al fin y al cabo, Amazon puederecomendar el libro ideal, Google puede indicar la página web más relevante,Facebook conoce nuestros gustos, y LinkedIn adivina a quién conocemos. Lasmismas tecnologías se aplicarán al diagnósticode enfermedades, la recomendaciónde tratamientos, tal vez incluso a la identificación de “delincuentes” antes de quecometandehechoundelito.Delamismaformaqueinternetcambióradicalmenteelmundo al añadir comunicación a los ordenadores, los datos masivos modificarándiversosaspectos fundamentalesde lavida,otorgándoleunadimensióncuantitativaquenuncahabíatenidoantes.


MÁS,DESOBRA,YABASTA

Losdatosmasivosseránunafuentedeinnovaciónydenuevovaloreconómico.Perohay aúnmás en juego.El augede los datosmasivos representa tres cambios en laforma de analizar la información que modifican nuestra manera de comprender yorganizarlasociedad.

El primer cambio se describe en el capítulo II. En este nuevomundo podemosanalizarmuchosmás datos. En algunos casos, incluso podemos procesar todos losrelacionados con un determinado fenómeno. Desde el siglo XIX, la sociedad hadependidode lasmuestrascuandoha tenidoquehacer frenteacifraselevadas.Sinembargo, la necesidad del muestreo es un síntoma de escasez informativa, unproductodelasrestriccionesnaturalessobrelainteracciónconlainformacióndurantela era analógica. Antes de la prevalencia de las tecnologías digitales de altorendimiento, no veíamos en el muestreo una atadura artificial: normalmente lodábamos por supuesto sin más. El emplear todos los datos nos permite apreciardetalles que nunca pudimos ver cuando estábamos limitados a las cantidades máspequeñas.Losdatosmasivosnosofrecenunavistaparticularmentedespejadade logranular:subcategoríasysubmercadosquelasmuestras,sencillamente,nopermitenestimar.

El considerar unnúmero ampliamentemás vasto de datos nos permite tambiénrelajarnuestroanhelodeexactitud,yeseeselsegundocambio,queidentificamosenel capítulo III. Se llega así a un término medio: con menos errores de muestreo,podemosasumirmáserroresdemedida.Cuandonuestra capacidaddemedicióneslimitada,sólocontamoslascosasmásimportantes.Loqueconvieneesesforzarseporobtenerelresultadoexacto.Denadasirvevenderresescuandoelcompradornoestásegurode si en el rebañohaycien cabezaso sóloochenta.Hastahacepoco, todasnuestrasherramientasdigitalespartíandelapremisadelaexactitud:asumíamosquelos motores de búsqueda de las bases de datos darían con los archivos que seajustabanalaperfecciónanuestraconsulta,igualqueunahojadecálculotabulalosnúmerosenunacolumna.

Estaformadepensarresultabadeunentornode“datosescasos”:contanpocascosas que medir, teníamos que tratar de la forma más precisa posible lo que nosmolestábamosencuantificar.Enciertomodo,estoesobvio:al llegar lanoche,unatienda pequeña puede contar el dinero que hay en la caja hasta el último céntimo,pero no haríamos lomismo—de hecho, no podríamos— en el caso del productointerior bruto de un país. Conforme va aumentando la escala, también crece elnúmerodeerrores.

Laexactitudrequieredatoscuidadosamenteseleccionados.Puedefuncionarconcantidadespequeñasy,pordescontado,haysituacionesqueaún larequieren:unoobien tienedinero suficienteenelbancoparaextenderuncheque,ono.Peroenun


mundodedatosmasivos,acambiodeemplearseriesdedatosmuchomásextensaspodemosdejardeladopartedelarígidaexactitud.

A menudo, los datos masivos resultan confusos, de calidad variable, y estándistribuidos entre innumerables servidores por todo el mundo. Con ellos, muchasvecesnosdaremosporsatisfechosconunaideadelatendenciageneral,enlugardeconocer un fenómeno hasta el último detalle, céntimo o molécula. No es querenunciemosalaexactitudporentero;sóloabandonamosnuestradevociónporella.Loqueperdemosenexactitudenelnivelmicro,loganamosenpercepciónenelnivelmacro.

Estosdoscambiosconducenaun tercero,queexplicamosenel capítulo IV: unalejamientode la tradicionalbúsquedadecausalidad.Comosereshumanos,hemossido condicionados para buscar causas, aun cuando la búsqueda de la causalidadresulte a menudo difícil y pueda conducirnos por el camino equivocado. En unmundodedatosmasivos,encambio,nonecesitamosconcentrarnosenlacausalidad;por el contrario, podemos descubrir pautas y correlaciones en los datos que nosofrezcan perspectivas nuevas e inapreciables. Puede que las correlaciones no nosdiganprecisamenteporqué estáocurriendoalgo,peronosalertandequealgoestápasando.

Y en numerosas situaciones, con eso basta. Si millones de registros médicoselectrónicosrevelanquelosenfermosdecáncerquetomandeterminadacombinaciónde aspirina y zumo de naranja ven remitir su enfermedad, la causa exacta de lamejoríapuederesultarmenosimportantequeelhechodequesobreviven.Delmismomodo,sipodemosahorrarnosdinerosabiendocuáleselmejormomentodecomprarunbilletedeavión,aunquenocomprendamoselmétodosubyacentealalocuradelastarifas aéreas, con eso basta. Los datosmasivos tratan delqué, no del porqué. Nosiempre necesitamos conocer la causa de un fenómeno; preferentemente, podemosdejarquelosdatoshablenporsímismos.

Antesdelosdatosmasivos,nuestroanálisisselimitabahabitualmenteasometerapruebaunreducidonúmerodehipótesisquedefiníamosconprecisiónantesinclusode recopilar los datos. Cuando dejamos que hablen los datos, podemos establecerconexionesquenuncahubiésemossospechado.Enconsecuencia,algunosfondosdeinversión libre analizanTwitter para predecir la evolución delmercado de valores.Amazon y Netflix basan sus recomendaciones de productos en una miríada deinteracciones de los usuarios de sus páginas web. Twitter, LinkedIn y Facebooktrazanla“gráficasocial”derelacionesdelosusuariosparaconocersuspreferencias.

Por descontado, los seres humanos llevan milenios analizando datos. La escrituranació en la antigua Mesopotamia porque los burócratas querían un instrumentoeficientepararegistrarlainformaciónyseguirlelapista.Desdetiemposbíblicos,losgobiernoshanefectuadocensospararecopilarenormesconjuntosdedatossobresus


ciudadanos,eigualmentedurantedoscientosañoslosanalistasdeseguroshanhechograndesacopiosdedatosacercadelosriesgosqueesperanentender;o,porlomenos,evitar.

Sin embargo, en la era analógica la recopilación y el análisis de esos datosresultabaenormementecostosayconsumíamuchotiempo.Elhacernuevaspreguntasamenudosuponíarecogerlosdatosdenuevoyempezarelanálisisdesdeelprincipio.

El gran avance hacia la gestión más eficiente de los datos llegó con eladvenimientode ladigitalización:hacerque la informaciónanalógica fuese legiblepor los ordenadores, lo que también la vuelve más fácil y barata de almacenar yprocesar. Este progreso mejoró drásticamente la eficiencia. La recopilación y elanálisisde información,queen tiemposexigíaaños,podíaahorahacerseendías,oinclusomenos.Perocambiópocomás.Losencargadosdelosdatosmuyamenudoestaban versados en el paradigma analógico de asumir que los conjuntos de datosteníanpropósitosespecíficosdelosquedependíasuvalor.Nuestrosmismosprocesosperpetuaronesteprejuicio.Porimportantequeresultaseladigitalizaciónparapermitirel cambio a los datos masivos, la mera existencia de ordenadores no los hizoaparecer.

No existe un término adecuado para describir lo que está sucediendo ahoramismo, pero uno que ayuda a enmarcar los cambios esdatificación, concepto queintroducimos en el capítulo V. Datificar se refiere a recopilar información sobrecuantoexistebajoelsol—incluyendocosasqueenmodoalgunosolíamosconsiderarinformaciónantes,comolalocalizacióndeunapersona,lasvibracionesdeunmotoro la tensión que soporta un puente—, y transformarla a formato de datos paracuantificarla. Esto nos permite usar la información de modos nuevos, como en elanálisispredictivo:detectarqueunmotoresprocliveaunfallomecánicobasándonosenelcaloroenlasvibracionesqueemite.Loqueseconsigueasíesliberarelvalorlatenteeimplícitodelainformación.

Estamosenplena cazadel tesoro, una caza impulsadapor lasnuevaspercepcionesque podrían extraerse de los datos y el valor latente que podría liberarse si nosdesplazamosdesdelacausalidadalacorrelación.Peronosetratadeunúnicotesoro.Cada serie de datos probablemente tenga algún valor intrínseco y oculto, aún nodesvelado,yhaempezadolacarreraparadescubrirlosycapturarlostodos.

Los datos masivos alteran la naturaleza de los negocios, los mercados y lasociedad, como describimos en los capítulos VI y VII. En el siglo XX, el valor sedesplazódelasinfraestructurasfísicas,comolatierraylasfábricas,alosintangibles,comolasmarcasylapropiedadintelectual.Estosseexpandenahoraalosdatos,queseestánconvirtiendoenunactivocorporativoimportante,unfactoreconómicovital,y el fundamento de nuevosmodelos económicos. Aunque los datos todavía no seregistranenlosbalancesdelasempresas,probablementeseasólocuestióndetiempo.


Aunque hace mucho que existen algunas de las técnicas de procesamiento dedatos, antes sólo podían permitírselas los organismos de seguridad del estado, loslaboratoriosdeinvestigaciónylasmayorescompañíasdelmundo.Alfinyalcabo,WalmartyCapitalOnefueronpionerosenelempleodedatosmasivosenlaventaalpor menor y en la banca, y con ello cambiaron sus respectivas industrias. Ahora,muchasdeestasherramientassehandemocratizado(aunquenoasílosdatos).

El efecto sobre los individuos acaso suponga la mayor sorpresa de todas. Elconocimientoespecialistaenáreasespecíficasimportamenosenunmundoenelquelaprobabilidadylacorrelaciónlosontodo.EnlapelículaMoneyball,losojeadoresdebéisbolseveíandesplazadosporlosestadísticoscuandoelinstintovisceralcedíaelpasoalanálisismássofisticado.Igualmente,losespecialistasenunamateriadadanodesaparecerán,perotendránquecompetirconloquedetermineelanálisisdedatosmasivos.Elloforzaráaajustarsealasideastradicionalesacercadelagestión,latomadedecisiones,losrecursoshumanosylaeducación.

Lamayorpartedenuestrasinstitucioneshansidocreadasbajolapresuncióndequelasdecisioneshumanassebasanenunainformacióncontada,exactaydenaturalezacausal. Pero la situación cambia cuando los datos son enormes, pueden procesarserápidamente y admiten la inexactitud. Es más, debido al vasto tamaño de lainformación,muyamenudolasdecisionesnolastomaránlossereshumanos,sinolasmáquinas.ConsideraremoselladooscurodelosdatosmasivosenelcapítuloVIII.

La sociedad cuenta con milenios de experiencia en lo que a comprender ysupervisarelcomportamientohumanoserefiere,pero,¿cómoseregulaunalgoritmo?Enlosalboresdelacomputación,loslegisladoresadvirtieronquelatecnologíapodíausarseparasocavarlaprivacidad.Desdeentonces,lasociedadhaerigidounconjuntodereglasparaprotegerlainformaciónpersonal.Sinembargo,enlaeradelosdatosmasivos,esasleyesconstituyenunalíneaMaginotenbuenamedidainútil.Lagentecomparte gustosamente información online: es una característica central de losserviciosenred,nounavulnerabilidadquehayaqueevitar.

Entretanto, el peligro que se cierne sobre nosotros en tanto que individuos sedesplazadelámbitodeloprivadoaldelaprobabilidad:losalgoritmospredeciránlaprobabilidaddequeunosufraunataquealcorazón (y tengaquepagarmásporunseguromédico), deje de pagar la hipoteca (y se le niegue un crédito) o cometa undelito(ytalvezseadetenidoantesdeloshechos).Elloconduceaunaconsideraciónética del papel del libre albedrío frente a la dictadura de los datos. ¿Deberíaimponerselavoluntaddelindividuoalosdatosmasivos,auncuandolasestadísticasargumentenlocontrario?Igualquelaimprentapreparóelterrenoparalasleyesquegarantizaban la libertad de expresión —que no existían antes, al haber tan pocaexpresión escrita que proteger—, la era de los datos masivos precisará de nuevasreglasparasalvaguardarlainviolabilidaddelindividuo.


Nuestra forma de controlar ymanejar los datos tendrá que cambiar demuchasmaneras.Estamosentrandoenunmundodeconstantesprediccionessustentadaspordatos, en el que puede que no seamos capaces de explicar las razones de nuestrasdecisiones. ¿Qué significará que el doctor no pueda justificar una intervenciónmédica sin pedirle al paciente que se pliegue al dictamen de algún tipo de “cajanegra”, como no tiene más remedio que hacer cuando se basa en un diagnósticosustentado por datos masivos? ¿Necesitará cambiarse la norma judicial de “causaprobable”por lade“causaprobabilística”?Y,deserasí,¿qué implicaciones tendráestoparalalibertadyladignidadhumanas?

Son precisos unos principios nuevos para la era de los datos masivos, y losexponemos en el capítulo IX. Y, aunque estos principios se construyen sobre losvaloresquesedesarrollaronyconsagraronenelmundodelosdatosescasos,nosetrata simplemente de refrescar viejas reglas para las nuevas circunstancias, sino dereconocerlanecesidaddecrearlasdenuevoydesdecero.

Los beneficios para la sociedad resultaránmuy numerosos, conforme los datosmasivos se conviertan en parte de la solución de ciertos tico, erradicar lasenfermedadesyfomentarelbuengobiernoyeldesarrolloeconómico.Perolaeradelosdatosmasivostambiénnosinvitaaprepararnosmejorparalasformasenqueelaprovechamientodelastecnologíascambiaránuestrasinstitucionesynoscambiaráanosotros.

Losdatosmasivossuponenunpaso importanteenelesfuerzode lahumanidadporcuantificarycomprenderelmundo.Unainmensacantidaddecosasqueantesnuncapudieron medirse, almacenarse, analizarse y compartirse están convirtiéndose endatos. El aprovechamiento de vastas cantidades de datos en lugar de una pequeñaporción,yelhechodepreferirmásdatosdemenorexactitud,abrelapuertaanuevasformasdecomprender.Lleva la sociedadal abandonode su tradicionalpreferenciaporlacausalidad,yenmuchoscasosaprovechalosbeneficiosdelacorrelación.

Elidealdelaidentificacióndelosmecanismoscausalesnodejadeserunailusiónautocomplaciente: los datos masivos dan al traste con ella. Una vez más nosencontramosenuncallejónsinsalidaenelque“Dioshamuerto”.Valedecir,quelascertezasenlasquecreíamosestáncambiandounavezmás,peroestavezestánsiendoreemplazadas, irónicamente, por pruebas más sólidas. ¿Qué papel les queda a laintuición,lafe,laincertidumbre,elobrarencontradelaevidencia,yelaprenderdelaexperiencia?Mientraselmundosemuevedelacausalidadalacorrelación,¿cómopodemos seguir adelante pragmáticamente sin socavar losmismos cimientos de lasociedad, la humanidad y el progreso fundado en la razón? Este libro pretendeexplicardóndenoshallamos,explicarcómollegamoshastaaquí,yofrecerunaguía,denecesidadurgente,sobrelosbeneficiosypeligrosquenosacechan.


II

MÁS

Losdatosmasivosconsistenenverycomprender las relacionesenel senoyentredistintosfragmentosdeinformaciónque,hastahacemuypoco,nosesforzábamosporcaptarplenamente.JeffJonas[12],elexpertoendatosmasivosdeIBM,sostienequehayquedejarque losdatos“lehablenauno”.Enciertomodo,estopuedeparecerobvio,porque los sereshumanoshemosprestadoatencióna losdatospara intentarconocerelmundodesdehacemucho tiempo,bienenel sentido informal, elde lasinnumerablesobservacionesquehacemosadiarioo,fundamentalmentealolargodelúltimo par de siglos, en el sentido formal de unidades cuantificadas que puedenmanipularseconalgoritmospoderosos.

Puedequelaeradigitalhayavueltoelprocesamientodedatosmássencilloymásrápido, para calcularmillones de números en un latido, pero cuando hablamos dedatos que hablan nos referimos a algomás, y distinto.Como se ha señalado en elcapítulo I, los datos masivos tienen que ver con tres importantes cambios dementalidad, que al estar interrelacionados se refuerzan entre sí. El primero es lacapacidad de analizar enormes cantidades de información sobre un tema dado, enlugardeverseunoforzadoaconformarseconconjuntosmáspequeños.Elsegundoesladisposiciónaaceptarlaimprecisiónyeldesorden—muydelmundoreal—delosdatos,enlugardeanhelarlaexactitud.Eltercercambiopasaporempezararespetarlas correlaciones, en vez de buscar constantemente la elusiva causalidad. Estecapítuloexaminaelprimerodeestoscambios:elusodecasitodoslosdatosenlugarde,únicamente,unapequeñaporcióndeellos.

Hace tiempo que nos acompaña el reto de procesar de forma precisa grandesmontones de datos.Durante lamayor parte de la historia, hemos usadomuy pocainformaciónporquenuestrasherramientaspararecogerla,organizarla,almacenarlayanalizarlaeranmuypobres.Trillábamoslaqueteníamoshastalamínimaexpresión,para examinarla luego con más facilidad. Esta era una forma de autocensurainconsciente: tratábamos la dificultad de interactuar con datos como una realidaddesafortunada,enlugardeverlaporloqueera,unarestricciónartificialimpuestaporla tecnología de la época. Hoy en día, el entorno técnico ha dado un giro de 179grados.Aúnexiste,y siempre lohará,una limitaciónsobrecuántosdatospodemosmanejar,peroesmuchomenosestrechaqueantes,yloirásiendocadavezmenosconeltiempo.

De algún modo, aún no hemos apreciado del todo nuestra nueva libertad derecopilar y explotar conjuntos más amplios de datos. La mayor parte de nuestras


experiencias, y el diseño de nuestras instituciones, han dado por supuesto que lainformación disponible es limitada. Contábamos con poder recopilar pocainformación,asíqueesoeraloquehacíamoshabitualmente,yesoseconvirtióenunfin en sí mismo. Hasta desarrollamos técnicas complejas para emplear tan pocosdatos como fuese posible. Uno de los fines de la estadística, al fin y al cabo, esconfirmar el resultadomás rico empleando lamenor cantidadposible dedatos.Dehecho, en nuestras normas, procedimientos y estructuras de incentivos codificamosnuestra práctica de amputar la cantidad de información que empleábamos. Parahacerse cabal idea de lo que implica el cambio a los datos masivos, la historiaempiezamirandoatrás.

Ha sido sólo hace poco cuando las firmas privadas, y hoy en día incluso losparticulares, han sido capaces de recoger y clasificar información a escalamasiva.Antes,esatarearecaíaeninstitucionesmáspoderosascomolaiglesiayelestado,queenmuchas sociedades venían a ser una cosa y lamisma. El registro contablemásantiguoqueseconservaesdealrededordelaño5000a.deC.,cuandolosmercaderessumeriosutilizabanpequeñascuentasdearcillapararepresentarlosbienesenventa.Contaraescalasuperior,sinembargo,eraprerrogativadelestado.Alolargodelosmilenios,losgobiernoshantratadodevigilarasussúbditosrecogiendoinformación.

Tomemos por ejemplo el censo. Se supone que los antiguos egipcios llevabancensosacabo,igualqueloschinos.SelosmencionaenelAntiguoTestamento,yelNuevo Testamento nos cuenta que un censo impuesto por César Augusto —“unedictodeempadronamientoparatodoelorbe”(Lucas2:1)—llevóaJoséyaMaríaaBelén, donde nació Jesús. El Domesday Book de 1086, uno de los tesoros másveneradosdeGranBretaña,fueensudíaunregistro,sinprecedentesyexhaustivo,delpuebloinglés,sustierrasypropiedades.Loscomisariosrealesrecorrierontodoelpaís recopilando información para el libro, que más tarde recibiría el nombre deDomesday,o“Díadecuentas”,porqueelprocesoeracomoeldeljuiciofinalsegúnlocuentalaBiblia,cuandosesometeríanacuentatodoslosactosdelavidadeunapersona.

Elaborarcensosresultaaltiempocostosoylento;elreyGuillermoIdeInglaterra,queencargóelDomesdayBook,novivióparaverloterminado.Sinembargo,laúnicaalternativaatamañacargaerarenunciararecogerlainformación.Einclusodespuésde tanto tiempo y gasto, la información era sólo aproximativa, dado que losfuncionariosdelcensonopodíancontara todoelmundoperfectamente.Lamismapalabracensoprocededeltérminolatinocensere,quesignifica“estimar”.

Hacemásdetrescientosaños,unmercerobritánicollamadoJohnGraunttuvounaideanovedosa.Grauntquería saber lapoblacióndeLondresen laépocade lagranpeste.Enlugardecontarunaaunaatodaslaspersonas,desarrollóunaaproximación—lo que hoy llamaríamos estadística— que le permitió inferir el tamaño de lapoblación. Su planteamiento era tosco, pero sentó la idea de que a partir de unapequeñamuestra se podían extrapolar conocimientos útiles acerca de la población


general.Peroloimportanteescómosehace.Graunt,sencillamente,extrapolóhaciaarribaapartirdesumuestra.

Susistemarecibiógrandesparabienes,auncuandosesupieramástardequesuscifras eran razonables por pura chiripa. Durante generaciones, el muestreo siguiópresentandotremendosfallos.Asípues,enelcasodeloscensosysimilaresempresasdedatosmasivos,seimpusoelenfoquedelafuerzabruta:tratardecontartodoslosnúmeros.

Como los censos eran tan complejos y costosos, y requerían tanto tiempo, sellevabanacaboaintervaloslargos.Losantiguosromanos,quedurantemuchotiempopresumierondeunapoblacióndecientosdemilesdehabitantes,realizabanuncensocada cinco años.La constitución deEstadosUnidos[13] dispuso que se hiciera unocadadécada,conformeelpaíscrecíayempezabaamedirsepormillones.Peroparafinales del siglo XIX, hasta eso empezaba a resultar problemático. Los datossobrepasabanlacapacidaddeabsorcióndelaoficinadelcenso.

El censo de 1880 precisó un pasmoso plazo de ocho años para llegar a suconclusión.Lainformaciónsequedóobsoletaantesinclusodeestardisponible.Aúnpeor, los funcionarios estimaron que el censo de 1890 habría requerido trece añosenterosparasu tabulación:unasituaciónridícula,ademásdeanticonstitucional.Sinembargo,comoelprorrateodelosimpuestosydelarepresentaciónparlamentariaenel congreso se basaba en la población, resultaba esencial no sólo conseguircuantificarlaconprecisión,sinoatiempo.

Elproblemaalqueseenfrentólaoficinadelcensoestadounidenseessimilaralaluchadeloscientíficosyloshombresdenegociosenlosalboresdelnuevomilenio,cuando quedó claro que los datos los desbordaban: la cantidad de informaciónrecogidahabíaanegadoliteralmentelasherramientasempleadasparaprocesarla,yseprecisaban técnicas nuevas.En la décadade1880, la situación era tan abrumadoraque la oficina del censo firmó un contrato con Herman Hollerith, un inventorestadounidense, para aplicar tarjetas perforadas y máquinas tabuladoras de suinvenciónalcensode1890.

Congranesfuerzo,Hollerithlogróreducirelplazodetabulacióndeochoañosaalgo menos de uno. Fue una hazaña asombrosa, que señaló el principio delprocesamiento automatizado de datos (y estableció los fundamentos de lo quedespués sería IBM). Pero, como método para adquirir y analizar datos masivos,seguía siendomuycostoso.Al finyalcabo, todas laspersonasdeEstadosUnidosteníanquerellenarunimpreso,cuyainformaciónhabíadesertrasladadaaunatarjetaperforada, que se empleaba para la tabulación. Con esos métodos tan onerosos,resultabadifícilimaginaruncensoconperiodicidadinferioraladécada,auncuandoel desfase le resultara tan perjudicial a una nación que estaba creciendo a pasosagigantados.

En ello radicaba la tensión: ¿debíanusarse todos losdatos, o sólounospocos?Conseguirtodoslosdatosacercadeloqueseestámidiendo,sealoquefuere,essin


dudaelmétodomássensato.Loqueocurreesquenosiempreresultaprácticocuandola escala es vasta. Pero, ¿cómo escoger una muestra? Algunos sostuvieron queconstruirapropósitounamuestraquefuerarepresentativadelconjuntoseríaelmodomás adecuado de seguir adelante. Ahora bien, en 1934, Jerzy Neyman[14], unestadísticopolaco,demostródeformatajantequeesoconduceaerroresenormes.Laclaveparaevitarlosesapostarporlaaleatoriedadalescogeraquiénmuestrear.

Los estadísticos han demostrado que la precisión de la muestra mejoraacusadamente con la aleatoriedad, no con el mayor tamaño de la muestra. Enrealidad, aunque pueda parecer sorprendente, una muestra aleatoria de 1100observacionesindividualessobreunapreguntabinaria(síono,conaproximadamentelas mismas probabilidades de darse) es notablemente representativa de toda lapoblación.En19decada20casos,presentaunmargendeerrorinferioral3por100,tantosieltamañodelapoblacióntotalesdecienmilcomosiesdecienmillones.Larazónresultaalgocomplicadadeexplicarentérminosmatemáticos,peroenresumenlo que ocurre es que, superado cierto punto, al principio, conforme las cifras vanhaciéndosemayores, lacantidadmarginaldeinformacionesnuevasqueseconsiguedecadaobservaciónescadavezmenor.

Elhechodequelaaleatoriedadseimpusieraaltamañodelamuestrasupusounarevelaciónsorprendente.Allanóelcaminoparaunnuevoenfoquedelarecolecciónde información. Los datos que usan muestras aleatorias podían recopilarse a bajocoste y, sin embargo, extrapolarse para el conjunto con gran exactitud. Enconsecuencia, los gobiernos podían acometer versiones reducidas del censoempleandomuestrasaleatoriascadaañoenvezdeunasolacadadiez.Yesofue loquehicieron.Laoficinadelcensoestadounidense,porejemplo,llevaacabocadaañomásdedoscientosestudioseconómicosydemográficosbasadosenelmuestreo,porañadidura al censo, además del censo decenal que pretende contabilizar a todo elmundo.Elmuestreoveníaasolucionarelproblemadelasobrecargainformativadelaeraanterior,cuandolarecopilaciónyelanálisisdelosdatosresultabanenverdadmuydifícilesdehacer.

Laaplicacióndeestenuevométodoseextendiórápidamentemásalládelámbitodel sector público y de los censos. En esencia, el muestreo aleatorio reduce elproblemadelosdatosmasivosaunasdimensionesmásmanejables.Enelterrenodelosnegocios,seutilizóparaasegurarlacalidaddelasmanufacturas,alhacerquelasmejorasresultaranmásfácilesymenoscostosas.Originalmente,elcontroldecalidadexhaustivoexigíaexaminartodosycadaunodelosproductosquesalíandelacadenademontaje;ahora,bastaríaconunaspruebassobreunamuestraaleatoriadeungrupode productos. Del mismo modo, el nuevo método introdujo las encuestas aconsumidoresenlaventaalpormenorylasencuestassobreintencionesdevotoenlapolítica.Yasí,transformóunabuenapartedeloqueantesllamábamoshumanidadesencienciassociales.

Elmuestreo aleatorio ha constituido un tremendo éxito, y es el espinazo de la


mediciónaescalamoderna.Peronodejadeserunatajo,unaalternativadesegundoorden a recopilar y analizar el conjunto enterodedatos.Trae consigouna serie dedebilidades inherentes. Su exactitud depende de que se haya garantizado laaleatoriedad al recopilar los datos de lamuestra, pero el logro de esa aleatoriedadresultapeliagudo.Seproducensesgossistemáticosenlaformaderecopilarlosdatosquepuedenhacerquelosresultadosextrapoladosseanmuyincorrectos.

Las encuestas electorales efectuadas por teléfono fijo dan fe, por ejemplo, dealgunosdeestosproblemas.Lamuestraestásesgadaencontradelagentequesólousateléfonosmóviles[15] (quesuelensermás jóvenesymásprogresistas),comohaseñaladoelestadísticoNateSilver.Estosehaconstatadoenpronósticoselectoraleserróneos.En laelecciónpresidencialde2008entreBarackObamayJohnMcCain,las principales empresas de sondeos electorales deGallup,PewyABC/WashingtonPost hallaron diferencias de entre uno y tres puntos porcentuales al efectuar lasencuestas, con y sin ajuste a los usuarios de teléfonomóvil: unmargen excesivo,considerandoloajustadodelacontienda.

De forma aún más preocupante, el muestreo aleatorio no resulta sencillo deextrapolar para incluir subcategorías, por lo que al parcelar los resultados ensubgruposcadavezmenoresaumentalaposibilidaddellegaraprediccioneserróneas.Esfácilcomprenderporqué:supongamosqueselepreguntaaunamuestraaleatoriademilpersonasporsuintencióndevotoenlassiguienteselecciones.Silamuestraeslo suficientemente aleatoria, existen posibilidades de que los pareceres de toda lapoblaciónesténrecogidosconunmargendeerrordel3por100enlasopinionesdelamuestra.Pero,¿quéocurresimásomenos3por100noeslobastantepreciso?¿Osidespuéssequieredividirelgrupoensubgruposmáspequeños,porsexo,localidad,onivelderenta?

¿Yquépasasisedeseacombinaresossubgruposparadeterminarunnichodelapoblación?Enunamuestraglobaldemilpersonas,unsubgrupocomoelde“mujeresricas votantes del nordeste” tendrámenosde cienmiembros.Usar sólounaspocasdocenas de observaciones para pronosticar las intenciones de voto de todas lasmujeres pudientes en el nordeste resultará impreciso, aun con una aleatoriedadcuasiperfecta.Yestospequeñossesgosenlamuestraglobalharánqueloserroresdelossubgruposseanmáspronunciados.

Porconsiguiente,elmuestreodejadeserútil encuantosequiereahondarmás,paraescrutarminuciosamentealgunasubcategoríadedatosquenosllamelaatención.Loquefuncionaenelnivelmacrosevieneabajoenelmicro.Elmuestreoescomounacopia fotográficaanalógica.Aciertadistancia, sevemuybien,perocuandosemiramásdecerca,enfocandoalgúndetalleparticular,sevuelveborrosa.

El muestreo requiere, además, una planificación y ejecución cuidadosas.Normalmentenoselespuede“pedir”alosdatosdelamuestracuestionesnuevasquenosehayancontempladodesdeelprincipio.Asípues,aunquecomoatajoresultaútil,elcostedeoportunidadesprecisamenteeldeque,alfinal,sóloesunatajo.Ysiendo


unamuestraen lugardeun todo,elconjuntodedatoscarecede laextensibilidadomaleabilidadqueseríannecesariasparaquelosmismosdatospudieranseranalizadosotra vez con un propósito enteramente distinto de aquél para el que fueronrecopiladosenorigen.

ConsidéreseelcasodelanálisisdelADN.Elcostedesecuenciarelgenomadeunindividuoeradecercademildólaresen2012,loqueloacercabamásaunatécnicadeconsumomasivoquepuede llevarseacaboagranescala.Enconsecuencia,estásurgiendounanuevaindustriadesecuenciacióndegenesindividuales.Desde2007,laempresastartup de SiliconValley 23andMe se ha dedicado a analizar elADNdequienlosolicitaporapenasunpardecientosdedólares.Sutécnicapermiterevelaren el código genético ciertos rasgos, como el de ser más susceptible a ciertasenfermedades:porejemplo,elcáncerdepechoolasafeccionescardíacas.Alagregarla información sobre elADNy la saludde sus clientes, 23andMeesperadescubrircosasnuevasquedeotromodonopodríanseradvertidas.

Perohayunpero.Lacompañíanosecuencianadamásqueunapequeñaporcióndel código genético de una persona: lo que ya sabe que son marcadores dedeterminadas debilidades genéticas.Entretanto,miles demillones de pares base deADNpermanecensinsecuenciar.Asípues,23andMesólopuededarrespuestaalaspreguntasacercadelosmarcadoresquetomaencuenta.Cadavezquesedescubreunmarcadornuevo,elADNdeunapersona(o,conmayorprecisión,laparterelevantedelmismo)hadeser secuenciadadenuevo.Trabajarconunsubconjunto,en lugardeltodo,implicauncoste:lacompañíapuedeencontrarloquebuscamásdeprisayde forma más barata, pero no puede contestar a interrogantes que no hubiesecontempladodeantemano.

El legendario director general de Apple, Steve Jobs[16], adoptó un enfoquecompletamente diferente en su lucha contra el cáncer. Se convirtió en una de lasprimeraspersonasdelmundoensecuenciartodosuADN,aligualqueeldesutumor.Y pagó por ello una suma de seis dígitos: muchos cientos de veces la tarifa de23andMe.Acambio,norecibióunamuestra,unmerojuegodemarcadores,sinounarchivodedatosconsuscódigosgenéticoscompletos.

Al prescribir lamedicación para un enfermode cáncer cualquiera, losmédicostienenqueconfiarenqueelADNdelpacientesealobastantesimilaraldequieneshayan participado en las pruebas del fármaco para que éste dé resultado. Sinembargo,elequipomédicodeSteveJobspodíaelegirunasterapiasenfuncióndesuespecíficaconstitucióngenética.Cuandountratamientoperdíaefectividad,porqueelcáncerhabíamutadoyproseguíasuataque,losmédicospodíancambiardefármaco:“saltardeunahojadelirioaotra—comolodescribióJobs—.Obienseréunodelosprimerosenvencerauncáncercomoeste,oseréunodelosúltimosenmorirdeél”,bromeó.Sibien,pordesgracia,supredicciónnosecumplió,elmétodo—disponerdetodoslosdatos,nosólodeunoscuantos—leprolongólavidavariosaños.


DEALGUNOSATODOS

Elmuestreoesproductodeunaépocaderestriccionesenelprocesamientodedatos,cuandopodíamosmedirelmundoperocarecíamosdelasherramientasparaanalizarlo recogido. En consecuencia, es asimismo un vestigio de ese tiempo. Lasdeficienciasalcontaryaltabularyanoexistenhastaelmismopunto.Lossensores,losGPSdelosteléfonosmóviles,losclicsenlaredyenTwitterrecopilandatosdeformapasiva;losordenadoresprocesanlainformaciónconmayorfacilidadcadavez.

El concepto delmuestreo no tiene ya elmismo sentido cuando resulta posibleexplotar grandes cantidades de datos. El instrumental técnico para manejarinformación ha cambiado drásticamente, pero nuestros métodos ymentalidades sevanadaptandomásdespacio.

Además,elmuestreoacarreauncostedelqueseesconscientedesdehacemucho,y que se ha dejado de lado. Se pierde detalle. En algunos casos, no queda másremedio que proceder por muestreo; en muchas áreas, sin embargo, se estáproduciendo un cambio de orientación, de la recogida de algunos datos a larecopilacióndetodoslosposibles,ycuandoesfactible,deabsolutamentetodos:N=todo.

Como se ha visto, usar N = todo implica que podemos ahondarconsiderablementeen losdatos; lasmuestrasnopermitenhacerlo igualdebien.Ensegundolugar,recuérdesequeennuestroanteriorejemplodemuestreo,alextrapolaralapoblaciónenterateníamosunmargendeerrordesóloel3por100.Enalgunassituaciones, ese margen de error es estupendo, pero se pierden los detalles, lagranularidad, la capacidad de estudiar de cerca determinados subgrupos. Unadistribución normal, en fin, no es más que normal. A menudo, las cosasverdaderamente interesantes de la vida aparecen en lugares que las muestras noconsiguencaptarporcompleto.

Porconsiguiente,GoogleFluTrends[17],elindicadordetendenciasdelagripedeGoogle,nosebasaenunapequeñamuestraprobabilística,sinoqueutilizamilesdemillonesdebúsquedaseninternetenEstadosUnidos.Usartodosestosdatosenlugarde una muestra perfecciona el análisis hasta el extremo de poder predecir lapropagación de la gripe a una ciudad determinada en lugar de a un estado o a lanaciónentera.OrenEtzionideFarecastusóalprincipiodocemilpuntosdedatos,unamuestraapenas,ylefuncionóbien.Ahorabien,conformefueañadiendomásdatos,lacalidaddelasprediccionesmejoró.Coneltiempo,Farecastutilizabalosregistrosde vuelos nacionales en lamayoría de las rutas durante todo un año. “Se trata dedatostemporales:siguesrecopilándolosalolargodeltiempo,yasívasadquiriendomayorpercepcióndelospatrones”,afirmaEtzioni.

En consecuencia, amenudonosdarámejor resultadodejar de lado el atajodelmuestreoaleatorioytenderarecopilardatosmásexhaustivos.Parahacerloseprecisa


unaampliacapacidaddeprocesamientoyalmacenaje,yherramientasde tecnologíapunta para analizarlo todo. También se necesitan formas sencillas y baratas derecopilar los datos. Hasta ahora, cada una de estos procesos suponía un problemaeconómico, pero hoy en día el coste y complejidad de todas las piezas delrompecabezashandisminuidodrásticamente.Loqueantesnoestabaalalcancemásquedelasmayoresempresas,hoyresultaposibleparalamayoría.

Elempleodelatotalidaddelosdatoshaceposibleadvertirconexionesydetallesquedeotromodoquedanoscurecidosenlavastedaddelainformación.Porejemplo,ladetecciónde losfraudescon tarjetadecréditofuncionamediante labúsquedadeanomalías,ylamejorformadehallarlasesprocesartodoslosdatosenlugardesólounamuestra.Losvaloresatípicosofrecen la informaciónmás interesante,ysóloselospuedeidentificarencomparaciónconlamasadetransaccionesnormales.Heaquíunproblemadebigdata.Como las transaccionesde tarjetadecrédito seproduceninstantáneamente,elanálisisdeberíarealizarsetambiénentiemporeal.

Xoomesunafirmaespecializadaentransferenciasinternacionalesdedinero,ylarespaldan nombres importantes en el área de los datosmasivos. Analiza todos losdatos asociados con las transaccionesque trata.El sistemahizo sonar la alarmaen2011cuandoadvirtióunnúmeroligeramentesuperioralamediadeoperacionescontarjeta Discover con origen en Nueva Jersey. “Vimos un patrón donde no deberíahaberninguno”,explicabaeldirectorgeneraldeXoom,JohnKunze.[18]Tomadasunaauna,todaslastransaccionesparecíanlegítimas,peroresultaronserobradeungrupodedelincuentes.Laúnicaformadedetectarlaanomalíaeraexaminartodoslosdatos:unamuestrapodríanohaberloadvertido.

Empleartodoslosdatosnotieneporquéserunatareaenorme.Losdatosmasivosno son necesariamente grandes en términos absolutos, aunque a menudo lo sean.Google Flu Trends afina sus predicciones basándose en cientos de millones deejerciciosdemodelizaciónmatemáticaqueempleanmilesdemillonesdepuntosdedatos.Lasecuenciacompletadeungenomahumanorepresentatresmilmillonesdeparesbase.Sinembargo,noessóloelvalorabsolutodepuntosdedatos,eltamañodelconjuntodedatos,loquehacequeestosseanejemplosdedatosmasivos.Loquelosconvierteencasosdedatosmasivoseselhechodeque,enlugardeusarelatajodeunamuestraaleatoria,tantoFluTrendscomolosmédicosdeSteveJobshicieronuso,enloposible,delconjuntoíntegrodedatos.

El descubrimiento de combates amañados en el deporte nacional de Japón, elsumo, esunbuenejemplodeporquéutilizarN= todono tieneporqué significar“grande”.Quehaycombatestrucadoshasidounaacusaciónconstanteeneldeportedelosemperadores,siempreenérgicamentenegada.StevenLevitt,economistadelauniversidad deChicago, buscó indicios de corrupción en los registros de todos loscombatesalolargodemásdeunadécada.EnunartículodeliciosoaparecidoenelThe American Economic Review, y luego recogido en el libro Freakonomics, uncolegayéldescribieronlautilidaddelexamendetantosdatos.


Analizaron once años de encuentros de sumo, más de 64000 combates, yencontraronunfilón.Enefecto,seamañabancombates,peronodondelamayoríadelagentesospechaba.Enlugardeenlosencuentrosquepuntúanparaelcampeonato,que pueden estar amañados o no, los datos revelaron que ocurría algo raro en loscombates finales de los torneos,muchomenos populares.Al parecer, hay poco enjuego,yaquelosluchadoresnotienenposibilidaddeobteneruntítulo.

Pero una peculiaridad del sumo es que los luchadores necesitan obtener unamayoríadevictoriasenlostorneosde15combatesparapodermantenersurangoysu nivel de ingresos. Esto conduce a veces a asimetrías de interés, cuando unluchador con un palmarés de 7-7 hace frente a un oponente con uno de 8-6o aúnmejor. El resultado del combate supone mucho para el primer luchador yprácticamentenadaparael segundo.En talescasos, revelóelprocesamientode losdatos,esmuyprobablequevenzaelluchadorquenecesitalavictoria.

¿Pudiera serque los sujetosqueprecisanganarpeleenconmásdeterminación?Tal vez; sin embargo, los datos sugieren que ocurre algomás. Los luchadores quemás se juegan ganan alrededor de un 25 por 100más amenudo de lo normal. Esdifícilatribuirunadiscrepanciatangrandeúnicamentealaadrenalina.Alanalizarlosdatos con más detenimiento, se vio que en el enfrentamiento siguiente de esosmismos dos luchadores, el perdedor del encuentro anterior tenía muchas másprobabilidades de vencer que cuandodisputaban los combates finales.Así pues, laprimera victoria parece ser un “obsequio” de un oponente al otro, dado que en elmundodelsumoloquesesiembrasecosecha.

Estainformaciónsiempreestuvoaplenavista.Peroelmuestreoprobabilísticodelosencuentrospodríanohaberlogradorevelarla.Auncuandosebasaenestadísticaselementales,sinsaberquéesloquehayquebuscarnosehubierapodidosaberquétamañonecesitabalamuestra.Porelcontrario,Levittysucolegalasacaronalaluzusandounconjuntodedatosmuchomayor, esforzándosepor examinar el universoenterodelosencuentros.Unainvestigaciónqueusadatosmasivosescasicomoirdepesca:alempezarnosólonoestáclarosialguienvaapescaralgo:esquenosesabequépuedepescaruno.

Elconjuntodedatosnonecesitamedirterabytes.Enelcasodelsumo,elconjuntoíntegrodedatosconteníamenosbitsquelatípicafotodigitalquesehacehoyendía.Perodesdeelpuntodevistadelanálisiscondatosmasivos,examinabamásqueunamuestra aleatoria.Cuandohablamosdedatosmasivos, nos referimos al tamañonotantoentérminosabsolutoscomorelativos:relativosalconjuntoexhaustivodedatos.

Durantemuchotiempo,elmuestreoaleatorioresultóunbuenatajo.Hizoposibleelanálisisdeproblemasconunelevadonúmerodedatosen laerapredigital.Pero,igualquesucedecuandoseguardaunaimagenounacancióndigitalesenunficheromás pequeño, al muestrear se pierde información. Disponer del conjunto de datoscompleto(oprácticamentecompleto)ofrecemuchamáslibertadparaexplorar,paraestudiar los datos desde diferentes perspectivas, o para examinar más de cerca


determinadosaspectos.UnaanalogíaadecuadalabrindalacámaraLytro,quenocapturaunúnicoplano

de luz, como las cámaras convencionales, sino haces de todo el campo luminoso,unos once millones.[19] El fotógrafo puede decidir más tarde qué elemento delarchivodigitaldeseaenfocar.Noesnecesarioenfocarparahacer la foto,yaqueelrecoger toda la informaciónde entrada hace posible hacerloaposteriori. Como seincluyen haces de todo el campo de luz, están todos los datos: N = todo. Enconsecuencia, la información es más “reutilizable” que la de las fotografíascorrientes, en las que el fotógrafo tiene que decidir qué quiere enfocar antes deapretarelbotón.

Igualmente,yaque losdatosmasivossebasanen toda la información,opor lomenosentodalaposible,nospermitenexaminardetallesoexplorarnuevosanálisissin correr el riesgodeque sevuelvanborrosos.Podemos someter apruebanuevashipótesis a muchos niveles distintos de granularidad. Esta cualidad es la que nospermitedetectarelamañodecombatesenelsumo,seguirlapropagacióndelvirusdela gripe región a región, y luchar contra el cáncer centrándonos en una porciónprecisa del ADN del paciente. Nos permite trabajar con un nivel asombroso declaridad.

Pordescontado,nosiempreesnecesarioutilizartodoslosdatosenlugardeunamuestra. Seguimos viviendo en unmundo de recursos limitados. Pero usar toda lainformación que tengamos a mano sí tiene sentido cada vez en más casos; y elhacerloeshoyfactible,cuandoantesnoloera.

UnadelasáreasqueseestáviendomásacusadamentetransformadaporN=todoes la de la ciencias sociales.[20] Estas ciencias han perdido sumonopolio sobre lainterpretacióndelosdatossocialesempíricos,mientraselanálisisdedatosmasivossustituyealosexpertosdelpasado.Lasdisciplinasdelascienciassocialesdependíanfundamentalmentedeestudiosdemuestrasycuestionarios.Perocuandolosdatosserecogen de forma pasiva, mientras la gente sigue haciendo lo que hace de todasmaneras encondicionesnormales, los antiguos sesgos asociados conelmuestreoyloscuestionariosdesaparecen.Hoyendía,podemosrecopilarinformaciónqueantesnoestabaanuestroalcance,seanrelacionesreveladasporllamadasdeteléfonomóvilo sentimientos expresados mediante tuits. Y, aún más importante: desaparece lanecesidaddeelaborarmuestras.

Albert-LászlóBarabási,unadelasprincipalesautoridadesmundialesenlacienciadelateoríaderedes,quisoestudiarlasinteraccionesdelaspersonasaescaladetodala población. Para ello, él y sus colegas examinaron los registros anónimos de lasllamadasdetelefoníamóvilatravésdeunoperadorinalámbricoqueatendíaacercade una quinta parte de la población de un país europeo sin identificar: todos losregistros de un periodo de cuatro meses. Fue el primer análisis de redes a nivelsocietario usando un conjunto de datos que respetaba el espíritu de N = todo. Elactuar a una escala tan grande, examinando todas las llamadas entre millones de


personasalolargodeltiempo,diopieanuevaspercepcionesque,probablemente,nohabríansalidoalaluzdeningunaotramanera.

Curiosamente,yencontrasteconestudios similares, el equipodescubrióque siunoretiradelaredapersonasconmuchosvínculosenelsenodesucomunidad,laredsocialresultantesedegrada,peronofalla.Porotraparte,cuandoseretirade laredapersonasconvínculosalmargendesucomunidad inmediata, la redsocial sedesintegra repentinamente, como si su estructura se hubiese venido abajo. Fue unresultado importante, pero un tanto inesperado. ¿Quién habría pensado que laspersonasconmuchosamigosasualrededorresultanhartomenosimportantesparalaestabilidaddelaredqueaquéllasconvínculoscongentemásdistante?Estosugiereque existe una prima a la diversidad en el seno de un grupo, y en la sociedad engeneral.

Tendemosapensarenelmuestreoestadísticocomounaespeciedefundamentoinmutable, como los principios de la geometría o las leyes de la gravedad. Sinembargo, el concepto tiene menos de un siglo de vida, y fue desarrollado pararesolverunproblemaparticularenunmomentodado,bajorestriccionestecnológicasespecíficas.Esas restriccionesyano existen con elmismoalcance.Echarmanodeunamuestraaleatoriaenlaeradelosdatosmasivosescomoaferrarseaunafustadecaballoen la eradelmotordeexplosión.Todavíapodemos recurrir almuestreoenalgunos contextos, pero no tiene por qué ser —y de hecho, no será— la formapredominantequeemplearemosparaelanálisisdegrandesconjuntosdedatos.Cadavezmás,podremosiraportodos.


III

CONFUSIÓN

Elusodetodoslosdatosdisponiblesresultafactiblecadavezenmáscontextos,peroimplicauncoste.Elincrementodelacantidadlefranquealapuertaalainexactitud.Pordescontado,siempresehandeslizadocifraserróneasyfragmentoscorrompidosenlosconjuntosdedatos,perolaclaveestabaentratarloscomoproblemaseintentardeshacerse de ellos, en parte porque podíamos. Lo que nunca quisimos fueconsiderarlos inevitables y aprender a vivir con ellos. Este es uno de los cambiosfundamentalesdepasaralosdatosmasivosdesdelosescasos.

Enunmundodedatosescasos,reducir loserroresygarantizarlabuenacalidadera un impulso natural y esencial. Puesto que sólo recogíamos un poco deinformación,nosasegurábamosdequeesascifrasquenosmolestábamosenrecopilarfueran lo más exactas posible. Generaciones de científicos optimizaron susinstrumentos para hacer sus medidas cada vez más y más precisas, ya fuese paradeterminarlaposicióndeloscuerposcelestesoeltamañodelosobjetosenlalentedeunmicroscopio.Enunmundodemuestreo, laobsesióncon laexactitudsehizoaúnmáscrucial.Analizarsólounnúmerolimitadodepuntosdedatosimplicaqueloserrores pueden verse ampliados, reduciendo potencialmente la exactitud de losresultadostotales.

Durante lamayorparte de la historia, losmayores logrosde la humanidadhansurgidodedominarelmundomidiéndolo.Labúsquedade laexactitudse inicióenEuropaamediadosdelsigloXIII,cuandolosastrónomosylossabiosseencargarondelacuantificaciónprecisadeltiempoydelespacio:de“lamedidadelarealidad”,enpalabrasdelhistoriadorAlfredCrosby.[21]

La creencia implícita rezaba que quien podía medir un fenómeno, podíaentenderlo. Más adelante, la medición se vinculó al método científico de laobservación y la explicación: la capacidad de cuantificar, registrar y presentarresultadosreproducibles.“Mediressaber”,pronunciólordKelvin.[22]Seconvirtióenun respaldo de autoridad. “El conocimiento es poder”, enseñaba Francis Bacon.Paralelamente, losmatemáticos, y lo quemás adelante llegarían a ser analistas desegurosycontables,desarrollaronmétodosquehicieronposiblerecopilar,registrarygestionarconexactitudlosdatos.

Llegado el siglo XIX, Francia—por entonces la principal nación científica delplaneta— había desarrollado un sistema de unidades de medida, definidas conprecisión,paracapturarelespacio,eltiempoydemás,yhabíaempezadoalograrqueotrasnacionesadoptasenlosmismosestándares.Esteprocesollegóhastaelpuntode


establecer en tratados internacionales unos prototipos de unidades de medida deaceptaciónuniversalquesirviesendepatrón.Fueelculmendelaedaddelamedida.Apenas medio siglo después, en la década de 1920, los descubrimientos de lamecánica cuántica destruyeron para siempre el sueño de lamedición exhaustiva yperfecta. Y aun así, al margen de un círculo relativamente pequeño de físicos, lamentalidad que inspiró el impulso humano de medir sin fallos persistió entre losingenierosyloscientíficos.Enelámbitodelosnegociosinclusoseexpandió,cuandolas ciencias racionales (estadística, matemáticas) empezaron a ejercer influenciasobretodaslasáreasdelcomercio.

Sin embargo, ennumerosas situacionesnuevasqueestán surgiendohoyendía,tolerar la imprecisión —la confusión— puede resultar un rasgo positivo, no unadeficiencia.Esunaespeciede términomedio.Acambiode tolerar larelajacióndelnúmerodeerrorespermisibles,sepuedenobtenermuchosmásdatos.Nosetratasólodeque“másesmejorquealgo”,sinodeque,enlapráctica,aveces“másesmejorquemejor”.

Son varias las clases de confusión a las que hay que enfrentarse. El término“confusión”puedereferirsealmerohechodequelaprobabilidaddeerroraumentaamedidaqueseañadenmáspuntosdedatos.Porconsiguiente,multiplicarpormilelnúmerodemedicionesde la tensióndeunpuente incrementa laposibilidaddequealgunas puedan ser erróneas. Pero puede aumentarse asimismo la confusión alcombinardiferentes tiposde informacióndefuentesdistintas,quenosiempreestánperfectamente alineadas. Por ejemplo, usar un software de reconocimiento de vozparacaracterizarlasquejasrecibidasenuncentrodellamadas,ycompararesosdatosconeltiempoqueprecisanlosoperadoresparagestionarlasllamadas,puedepermitirobtenerunafotoimperfecta,sibienútil,delasituación.Laconfusióntambiénpuedereferirsea ladisparidaddeformatos,por laque losdatosnecesitanser“limpiados”antesdesuprocesamiento.HayinnumerablesformasdereferirseaIBM[23],apuntaelexperto en datosmasivosDJ Patil, desde IBM a International BusinessMachines,pasandoporT. J.WatsonLabs.Laconfusiónpuede surgir al extraeroprocesar losdatos, yaque con ello los estamos transformando, convirtiéndolos en algodistinto,igualquecuandollevamosacaboanálisisdesentimientosenlosmensajesdeTwitterpara predecir los resultados de taquilla en Hollywood. La confusión misma esconfusa.

Supongamosquenecesitamosmedirlatemperaturaenunviñedo.Sinotenemosnada más que un sensor para toda la parcela, debemos asegurarnos de que susmediciones son exactas y de que está funcionando todo el tiempo: no se permitenconfusiones.Pero,sidisponemosdeunsensorparacadaunadelascientosdevides,podremosusarsensoresmásbaratosymenossofisticados (mientrasno introduzcanun sesgo sistemático).Existe la posibilidad de que, en algunos puntos, unos pocossensores indiquen datos incorrectos, dando lugar a un conjunto de datos menosexacto,omás“confuso”,queelquenosbrindaríaunúnicosensorpreciso.Cualquier


medición aislada puede ser incorrecta, pero la agregación de tantas medicionesofreceráunaimagenmuchomásexhaustiva,porqueesteconjunto,alconsistirenmáspuntosdedatos,esmásvalioso,loqueprobablementecompensasuconfusión.

Supongamosahoraqueincrementamoslafrecuenciadelasmedicionesdelsensor.Siefectuamosunamediciónporminuto,podremosestaraceptablementesegurosdequelasecuenciaconlaquelleguenlosdatosseráperfectamentecronológica.Perosicambiamosadiezocienmedicionesporsegundo,laexactituddelasecuenciapuedetornarse menos segura. Mientras la información recorre una red, un registro dadopuededemorarse y llegar fuera de secuencia, o puede sencillamenteperderse en lariada.La información seráunpocomenosprecisa,pero sugranvolumenhacequevalgalapenarenunciaralaexactitudestricta.

Enelprimerejemplo,sacrificamoslaprecisióndecadapuntodedatosenarasdelaamplitud,yrecibimosacambioungradodedetallequenohabríamospodidoverdeotromodo.Enelsegundocaso,renunciamosalaexactitudporlafrecuencia,yacambio percibimos un cambio que de otra forma se nos habría escapado. Aunquepuedequeconsigamossuperarloserroressidedicamosaellorecursossuficientes—al fin y al cabo, en la Bolsa deNuevaYork[24], donde la secuencia correcta tienemucha importancia, tienen lugar treinta mil transacciones por segundo—, muchasvecesresultamásprovechosotolerarelerrorqueesforzarseenprevenirlo.

Porejemplo,podemosaceptarciertogradodeconfusiónacambiodeunaescalamayor.ComodicelaconsultoríatecnológicaForrester:“Aveces,2más2puedeseriguala3,9,yconesobasta”.Porsupuesto, losdatosnopuedensercompletamenteincorrectos, pero estamos dispuestos a sacrificar un poco de exactitud si a cambiodescubrimos la tendencia general. Los datos masivos convierten los cálculosaritméticos en algomás probabilístico que preciso. Este es un cambio al que va acostarmuchoacostumbrarse,ytraesuspropiosproblemas,queconsideraremosmásadelanteeneste libro.Porahora,bastasimplementeconapuntarquemuchasvecesnecesitaremostolerarlaconfusióncuandoincrementemoslaescala.

Puede advertirse un cambio similar, comparando la importancia de tener másdatosenrelaciónconotrasmejoras,enelcampodelacomputación.Todoelmundosabe cuánto ha aumentado a lo largo de los años la capacidad de procesamiento,comopredijolaleydeMoore,queestipulaqueelnúmerodetransistoresenunchipvieneaduplicarsecadadosaños.Esteperfeccionamientocontinuohahechoquelosordenadoresseanmásrápidosyconmásmemoria.Peronotodoelmundosabequelaprestaciónde losalgoritmosque impulsanmuchosdenuestrossistemas tambiénhaaumentado:enmuchasáreas,másquelamejoradelosprocesadoressegúnlaleydeMoore.Muchosde losbeneficiospara la sociedadque traen losdatosmasivos, sinembargo,seproducennotantoporloschipsmásrápidosolosmejoresalgoritmos[25],sinoporquehaymásdatos.

Por ejemplo, los algoritmos de ajedrez han cambiadomuy poco en las últimasdécadas,puestoquelasreglasdelajedrezsonsobradamenteconocidasymuyrígidas.


Larazóndequelosprogramasinformáticosdeajedrezjueguenmejorhoyendíaqueantessedebe,entreotrascosas,aquejueganmejor lafasefinaldelapartida.Ylohacen sencillamente porque a los sistemas se les han suministrado más datos. Dehecho,lasfasesfinales,enlasquesóloquedaneneltableroseispiezasomenos,hansido analizadas por completo y todas las jugadas posibles (N = todo) han sidorepresentadas en una tablamasiva que, una vez descomprimida, ocupamás de unterabyte de datos.Eso permite que los programas de ajedrez jueguen sin fallos lasfases finales de las partidas de ajedrez, que son las cruciales. Ningún ser humanopodrásuperarnuncaalsistema.

El hecho de que más datos es preferible a mejores algoritmos ha quedadodemostrado de forma contundente en el campo del procesamiento del lenguajenatural:laformaenlaquelosordenadoresaprendenaanalizarlaspalabrassegúnlasusamos en el habla cotidiana.Hacia el año 2000, dos investigadores deMicrosoft,MicheleBankoyEricBrill, estabanbuscandounmétodoparamejorarelcorrectorgramaticalqueincorporaelprogramaWorddelacompañía.Noestabanmuysegurosdeaquéresultaríamásútildedicarsuesfuerzo:siamejorarlosalgoritmosexistentes,ahallarnuevas técnicas,oaañadircaracterísticasmássofisticadas.Antesdeelegirunadeesasvías,decidieroncomprobarquéocurriríasiintroducíanmuchosmásdatosenlosmétodosexistentes.Lamayoríadelosalgoritmosdeaprendizajedemáquinassebasanenuncorpustextualdeuntotaldeunmillóndepalabrasomenos.BankoyBrilltomaroncuatroalgoritmoscorrientesylesintrodujeronmásdatosenhastatresórdenesdemagnitud:diezmillonesdepalabras, luegocienmillones,y,porúltimo,milmillonesdepalabras.

Los resultados fueron asombrosos. Conforme iban entrando más datos, elrendimiento de los cuatro tipos de algoritmosmejoró drásticamente.De hecho, unalgoritmo simple, que era el que peor funcionaba con medio millón de palabras,operaba mejor que ningún otro en cuanto procesaba mil millones de palabras. Sugrado de precisión pasó del 75 por 100 a más del 95 por 100. A la inversa, elalgoritmoquemejor funcionabaconpocosdatos fue el quepeor resultadodio congrandes cantidades, aunque, al igual que los demás, mejoró mucho, pasando dealrededor del 86 por 100 a casi el 94 por 100 de exactitud. “Estos resultados nosllevanapensarquequizádebamos reconsiderar ladisyuntivaentregastar tiempoydineroeneldesarrollodealgoritmos frenteagastarloeneldesarrollodel corpus”,escribieronBankoyBrillenunodesusartículoscientíficossobreeltema.

Asíquemáscantidadesmejorquemenos,yavecesmáscantidadesmejorquemás inteligencia.¿Quépasaentoncescon laconfusión?PocosañosdespuésdequeBanko y Brill recogieran todos esos datos, los investigadores de la empresa rival,Google,pensabanenalgosimilar,peroaunaescalaaúnmayor.Enlugardeprobarlosalgoritmosconmilmillonesdepalabras,emplearonunbillón.Googlenolohizoparadesarrollaruncorrectorgramatical,sinoparacascarunanuezaúnmáscompleja:latraduccióndeidiomas.


La llamada traducción automática ha sido un objetivo de los pioneros de lainformática desde el alba de los ordenadores, en la década de 1940, cuando losaparatosestabanhechosdelámparasdevacíoyocupabanunahabitaciónentera.Laidea cobró particular urgencia durante la Guerra Fría, cuando Estados Unidoscapturabaingentescantidadesdematerialescritoyhabladoenrusoperocarecíadelafuerzalaboralparatraducirlorápidamente.

Al principio, los informáticos optaron por una combinación de reglasgramaticalesyundiccionariobilingüe.UnordenadordeIBMtradujosesentafrasesrusas al inglés en 1954, usando doscientos cincuenta pares de palabras[26] en elvocabulario del ordenador y seis reglas de gramática. Los resultados fueron muyprometedores. Se introdujo “Mi pyeryedayem mislyi posryedstvom ryechyi” en elordenador IBM 701 por medio de tarjetas perforadas, y salió: “Transmitimospensamientospormediodelhabla”.Lassesenta frasesse tradujeronsinproblemas,según una nota de prensa de la empresa, celebrando su logro. El director delprograma de investigación, Leon Dostert, de la universidad de Georgetown,pronosticó que la traducción automática sería un “hecho acabado” en un plazo de“cinco,puedequetresaños”.

Peroeléxitoinicialresultóserunespejismo.Yaen1966uncomitédeexpertosentraducciónautomáticatuvoquereconocersufracaso.Elproblemaeramásarduode lo que habían pensado. Enseñar a un ordenador a traducir tiene que ver conenseñarlenosólolasreglas,sinotambiénlasexcepciones.Latraducciónnoconsisteúnicamenteenmemorizaryrecordar;tambiénsetratadeelegirlaspalabrascorrectasdeentremuchasopciones.¿Esbonjourrealmente“buenosdías”?¿Oes“buendía”,“hola”,o“quétal”?Larespuesta:depende…

Afinalesde ladécadade1980, los investigadoresde IBMdieronconuna ideanovedosa. En vez de tratar de introducir en un ordenador las reglas lingüísticasexplícitasjuntoconundiccionario,decidieronpermitirqueelcomputadorempleaselaprobabilidadestadísticaparacalcularquépalabraofrasedeunidiomadadoeralamásadecuadaenotro.Enladécadade1990,elprogramaCandidedeIBM[27]utilizóelequivalenteadiezañosdetranscripcionesdesesionesdelParlamentodeCanadápublicadasenfrancésyeninglés:unostresmillonesdeparesdefrases.Altratarsededocumentosoficiales,lastraduccioneserandealtísimacalidady,paralosestándaresde la época, la cantidaddedatos era enorme.La traducción estadística automática,comollegóaserconocidalatécnica,convirtióhábilmenteeldesafíodelatraducciónenungranproblemamatemático.Ypareciódarresultado.Derepente,latraducciónpor ordenador mejoró mucho. Tras el éxito que supuso ese salto conceptual, sinembargo,IBMsólologrópequeñasmejoras,peseainvertirmontonesdedinero.Yalalarga,acabócerrandoelgrifo.

Peromenosdeunadécadadespués,en2006,Googleselanzóatraducir,dentrode su objetivo de “organizar la información del mundo y hacerla universalmenteaccesibleyútil”.Enlugardepáginasdetextobientraducidasendosidiomas,Google


utilizó un conjunto de datosmás vasto, pero tambiénmuchomás confuso: todo elcontenido global de internet. Su sistema absorbió todas las traducciones que pudoencontrar, para entrenar al ordenador. Así, entraron páginas web corporativas enmúltiples idiomas, traducciones idénticas de documentos oficiales e informes deorganismosintergubernamentalescomolasNacionesUnidasylaUniónEuropea.SeincluyeronhastatraduccionesdelibrosdelproyectodeescaneodelibrosdeGoogle.MientrasqueCandidehabíausadotresmillonesdefrasescuidadosamentetraducidas,elsistemadeGoogleaprovechómilesdemillones[28]depáginasdetraduccionesdecalidadmuyvariable,segúneldirectordeGoogleTranslate,FranzJosefOch,unadelas autoridades punteras en este campo. Su corpus de un billón de palabrasrepresentaba noventa y cinco mil millones de frases en inglés, aunque fueran dedudosacalidad.

Pesealoconfusodelainformaciónqueseleaportó,elserviciodeGoogleeselquemejorfunciona.Sustraduccionessonmásprecisasquelasdelosdemássistemas(auncuando siguen siendomuy imperfectas).Yesmucho,muchísimomás rico.Amediados de 2012, su base de datos cubríamás de sesenta idiomas. Incluso podíaaceptarentradasdevozencatorceidiomasparaefectuartraduccionesfluidas.Comotrata el lenguaje sencillamente como un conjunto de datos confusos con los queestimar probabilidades, puede incluso traducir entre idiomas para los que existenescasastraduccionesdirectasqueañadirle,porejemplo,elhindiyelcatalán.Enesoscasos, recurre al inglés como puente. Y es mucho más flexible que otrasaproximaciones, puesto que puede añadir y retirar palabras conforme vayanintroduciéndoseycayendoendesuso.

La razón por la que el sistema de traducción de Google funciona bien no esporque disponga de un algoritmo más inteligente. Funciona bien porque suscreadores,comohicieronBankoyBrillenMicrosoft,loabastecierondemásdatos,ynosólodealtacalidad.Google fuecapazdeusarunconjuntodedatosdecenasdemiles de vecesmayor que el del Candide de IBM porque aceptó la confusión. ElcorpusdeunbillóndepalabrasqueGoogledioaconoceren2006serecopilóapartirdetodoelaluvióndecontenidodeinternet;“datossalvajes”,porasídecir.Esefueel“conjunto de datos de entrenamiento”mediante el cual el sistema pudo calcular laprobabilidad, por ejemplo, de que una palabra siguiese a otra en inglés. Era muydistintodesuabueloenestecampo,elcélebrecorpusdeBrown[29]deladécadade1960,quesuponíauntotaldeunmillóndepalabrasinglesas.Elusarelconjuntodedatos más amplio permitió grandes avances en el procesamiento de lenguajesnaturales,sobreelquesebasanlossistemasparatareascomoelreconocimientodevozylatraducciónporordenador.“Losmodelossimplesyconunmontóndedatosvencen a los sistemas más elaborados basados en menos datos”, escribió PeterNorvig,gurúdelainteligenciaartificialdeGoogle,juntoconunoscolaboradoresenunartículotitulado“Laefectividadirrazonabledelosdatos”.

Como explicaronNorvig y sus coautores, la clave estaba en la confusión: “De


algunaforma,estecorpussuponeunpasoatrásrespectoalcorpusdeBrown:procedede páginas web sin depurar, por lo que contiene oraciones truncadas, erroresortográficos,gramaticalesydetodotipo.Nosehaanotado,etiquetadonicorregidocuidadosamenteamanolasdistintaspartesdelaoración.Aunasí,elhechodeserunmillóndevecesmásamplioqueelcorpusdeBrowncompensaesasdesventajas”.


MÁSESMEJORQUEMEJOR

Alosanalistasconvencionalesdemuestras,quesehanpasadolavidacentradosenprevenir y erradicar la imprecisión, les resulta difícil aceptarla. Se esfuerzan conahíncoenreducirlastasasdeerroralrecogersusmuestras,yensometerlasapruebaparadetectarsesgospotencialesantesdeanunciarsushallazgos.Recurrenamúltiplesestrategiasdereduccióndeerror,entreellasladeasegurarsedequesusmuestraslashanrecogido,siguiendounprotocolopreciso,unosexpertosespecialmenteformadosconesefin.Talesestrategiasresultancarasdeimplementar,inclusoparaunnúmerolimitadodepuntosdedatos,ycasiimposiblesparadatosmasivos.Nosóloresultaríandemasiadocostosas,sinoquenohabríaformadegarantizarlosestándaresexigentesderecogidadedatosatamañaescala.Nisiquieraeliminandolainteracciónhumanaseresolveríaelproblema.

Entrarenunmundodedatosmasivosrequeriráquecambiemosnuestraformadepensar acerca de los méritos de la exactitud. Aplicar la mentalidad de mediciónclásicaalmundodigitalyconectadodelsigloXXIsuponecometerunerrordebulto.Como ya se ha mencionado, la obsesión con la exactitud es un resabio de la eraanalógica privada de información. Cuando los datos eran escasos, cada punto dedatosresultabacrucial,porloqueseponíagrancuidadoenevitarquevinieraunoasesgarelanálisis.

Hoyendíanovivimosyaesasituacióndecarestíadeinformación.Altratarconconjuntosdedatoscadavezmásamplios,quecaptannosólounpequeñofragmentodel fenómeno en cuestión, sinomuchasmás partes delmismo, ya no necesitamospreocuparnos tanto por unos puntos de datos individuales que puedan sesgar elanálisisglobal.Másqueaspiraraerradicartodoatisbodeinexactitudauncostecadavezmáselevado,calculamosconlaconfusiónenmente.

Considéreselaformaenquelossensoressevanabriendocaminoenlasfábricas.EnlarefineríaCherryPointdeBPenBlaine(Washington)sehaninstaladosensoresinalámbricos por toda la planta, formando una red invisible que recaba grandescantidades de datos en tiempo real. El ambiente de calor intenso y la maquinariaeléctrica a veces distorsionan las mediciones, y producen datos confusos. Sinembargo, la enorme cantidad de información que generan los sensores, tanto loscableadoscomo los inalámbricos, compensa sobradamenteesosescollos.Bastaconincrementar la frecuencia y el número de localizaciones de las medidas de lossensoresparaqueelresultadomerezcalapena.Almedirlatensióndelastuberíasatodashoras,envezdea intervalosprecisos,BP[30]descubrióquealgunasclasesdecrudodepetróleosonmáscorrosivasqueotras,unacualidadquenopodíadetectar,niporconsiguientesolucionar,cuandosuconjuntodedatoseramáspequeño.

Cuando la cantidad de datos es enormemente mayor y de un tipo nuevo, laexactitudyanosiguesiendoelobjetivoenalgunoscasos,siempreycuandopodamos


captarlatendenciageneral.Pasaraunaescalagrandecambianosólolasexpectativasdeprecisión,sinotambiénlacapacidadprácticadealcanzarlaexactitud.Aunqueenun primer momento pueda parecer contraintuitivo, tratar los datos como algoimperfectoeimprecisonospermiteafinarenlospronósticos,yasícomprendermejornuestromundo.

Merecelapenaseñalarquelaconfusiónnoesalgoinherentealosdatosmasivos.Setrata,porelcontrario,deunafuncióndelaimperfeccióndelasherramientasqueusamosparamedir,registraryanalizarlainformación.Silatecnologíallegaraaserperfecta, el problema de la inexactitud desaparecería. Pero mientras siga siendoimperfecta,laconfusiónesunarealidadprácticaconlaquetenemosquecontar.Yesprobable que nos acompañe durante mucho tiempo. En muchos aspectos, losesfuerzos agónicos por incrementar la exactitud no tendrán sentido económico,puesto que nos importará más el valor de disponer de conjuntos de datos muchomayores.Aligualquelosestadísticosdeotrasépocasdejarondeladosuinterésporlasmuestras demayor tamaño en aras demás aleatoriedad, podemos vivir con unpocodeimprecisiónacambiodemásdatos.

ElProyectodelosMilMillonesdePrecios[31]constituyeunejemplocuriosodeesto.Todoslosmeses,laoficinadeestadísticaslaboralesdeEstadosUnidospublicael índice de precios al consumo, o CPI, que se emplea para calcular la tasa deinflación. Este dato resulta crucial para los inversores y las empresas. La reservafederallotieneencuentaparadecidirsisubeobajalostiposdeinterés.Lasempresasbasan los sueldosen la inflación.Elgobierno federal lautilizapara indexarpagos,comolaspensionesdelaseguridadsocial,yelinterésquepagasobredeterminadosbonos.

Paraobtenerelporcentaje,laoficinadeestadísticaslaboralesutilizaacientosdesus empleados que llaman, envían faxes, y visitan tiendas y oficinas en noventaciudadesportodalanación,informandoluegodeunosochentamilpreciosdetodaslascosas,desdelostomateshastalascarrerasdetaxi.Elaborarlocuestaalrededorde250 millones de dólares al año. Por ese precio, los datos son nítidos, limpios yordenados.Pero,paracuandosedifundenlascifras,yatienenunassemanas.Comodemostrólacrisisfinancierade2008,unaspocassemanaspuedensuponerundesfaseterriblementelargo.Losquetomanlasdecisionesnecesitanunaccesomásrápidoalas cifras de la inflación para poder reaccionar mejor a ellas, pero con métodosconvencionales,centradosenlaprecisióndelmuestreoydelafijacióndeprecios,nolotienen.

Dos economistas del Massachusetts Institute of Technology (MIT), AlbertoCavalloyRobertoRigobon,seenfrentaronaesteproblemahallandounaalternativabasada en datos masivos que seguía un rumbo mucho menos preciso. Empleandoprogramasdebúsquedaenlared,recopilaronmediomillóndepreciosdeproductosvendidos en su país a diario.La información es confusa, y no todos los puntos dedatosrecogidossonfácilmentecomparables.Sinembargo,alcompararlarecolección


dedatosmasivosconunanálisisinteligente,elproyectofuecapazdedetectarungirodeflacionario en los precios inmediatamente después de que Lehman Brothers sedeclaraseenquiebraenseptiembrede2008,mientrasquequienessebasabanenlosdatosoficialesdelCPItuvieronqueaguardarhastanoviembreparaobservarlo.

ElproyectodelMIThadadolugaraunaempresacomercialllamadaPriceStats,alaquerecurrenlabancayotrasinstitucionesantesdetomardecisioneseconómicas.PriceStatsrecopilamillonesdeproductosvendidosadiarioporcientosdeminoristasenmásde setentapaíses.Por supuesto, las cifras requierenuna interpretaciónmuycuidadosa, pero son mejores que las estadísticas oficiales a la hora de indicar lastendencias de la inflación.Comohaymásprecios y las cifras estándisponibles entiempo real, les ofrecen a los que tienen que tomar decisiones una ventajasignificativa. (Elmétodo también sirve como comprobación externa creíble de losorganismos estadísticos nacionales.[32] Por ejemplo, The Economist desconfía delmétodoqueempleaArgentinaparacalcularlainflación,asíquesebasaenlascifrasdePriceStatsparaello).


LACONFUSIÓNENACCIÓN

Ennumerosasáreasdelatecnologíaylasociedad,nosestamosinclinandoafavordelomásabundanteyconfuso,antesquemenosyexacto.Pensemosenelcasode lacategorización de contenidos. A lo largo de los siglos, los seres humanos hemosdesarrolladotaxonomíaseíndicesconelfindepoderalmacenaryrecuperarmaterial.Estossistemasjerárquicossiemprehansidoimperfectos,comopodráatestiguarconpesar cualquiera que esté familiarizado con el sistema de catalogación de unabiblioteca;pero,cuandolosdatoseranescasos,funcionabanaceptablementebien.Sinembargo,siseaumentalaescalaenmuchosórdenesdemagnitud,estossistemas,quepartendelsupuestodelaperfectacolocacióndetodoloquehayenellos,sevienenabajo.Porejemplo,en2011,lawebFlickr,dedicadaacompartirfotos,conteníamásdeseismilmillonesdefotosdemásdesetentaycincomillonesdeusuarios.Habríasidoinútilintentaretiquetarcadafotodeacuerdoconunascategoríaspreestablecidas.¿Realmentehabríaexistidounatitulada“GatosqueseparecenaHitler”?

Envezdeeso,lastaxonomíasestrictasestándejandoelsitioaunosmecanismosmás imprecisos pero eminentemente más flexibles y adaptables a un mundo queevolucionaycambia.CuandosubimosfotosaFlickr[33],las“etiquetamos”.Esdecir,que les asignamos un número cualquiera de etiquetas textuales, y las usamos paraorganizarelmaterialybuscarenél.Lasetiquetaslascreanycolocanlosusuariosdeforma ad hoc: no hay categorías estándar predefinidas, ninguna taxonomíapreexistente a la que haya que ceñirse.Más bien, cualquiera puede añadir nuevasetiquetas,tags,consóloescribirlas.Eletiquetadosehaimpuestocomoelestándardefactoparalaclasificacióneninternet,yseempleaenlasredessocialescomoTwitter,enblogs,etc.Hacequeseamásnavegableelvastocontenidodelared,especialmentepor lo que se refiere a contenidos como imágenes, vídeos y música que no estánbasadosentexto,paralosquelasbúsquedasporpalabrasnodanresultado.

Por supuesto, puede que algunas etiquetas estén mal escritas, y esa clase deerroresintroduceimprecisión:noenlosdatosmismos,perosíencómoseorganizan.Estopuedemolestaraquienesestabanacostumbradosa laexactitud.Ahorabien,acambiodeciertaimprecisiónenlaformadeorganizarnuestrascoleccionesdefotos,adquirimosununiversodeetiquetasmuchomásrico,y,porextensión,unaccesomásprofundo y amplio a nuestras fotos. Podemos combinar las etiquetas de búsquedaparafiltrarlasfotosdemanerasqueantesnoeranposibles.Laimprecisióninherenteal etiquetado implica aceptar el desorden natural del mundo. Es un antídoto parasistemasmásprecisosqueintentanimponerunaesterilidadfalazsobreeltumultodelavidareal,fingiendoquetodocuantohaybajoelsolpuededisponerseenunasfilasycolumnasordenadas.Haymáscosasenelcieloyenlatierradelasquesueñaesafilosofía.

Muchasdelaspáginaswebmáspopularesdelaredhacengaladesuadmiración


por la imprecisiónen lugarde aspirar a la exactitud.Si se fijaunoenun iconodeTwitter o enunbotón “Megusta”deFacebooken cualquierpáginaweb,veráquemuestran el número de personas que han hecho clic en ellos. Cuando la cifra espequeña,seventodoslosclics,“63”,porejemplo.Peroconformevanaumentando,elnúmeroquesemuestraesunaaproximación,como“4K”.Noesqueelsistemanoconozcael totalexacto:esque,conformevaaumentandolaescala,mostrar lacifraexactaresultamenosimportante.Además,lascantidadespuedencambiartandeprisaqueunacifradadapodríaquedardesfasadanadamásaparecer.Igualmente,elcorreoelectrónico Gmail de Google presenta la hora de llegada de los mensajes másrecientescontodaexactitud,como“hace11minutos”,perodespachalasduracionesmáslargasconundisplicente“hace2horas”,comotambiénhacenFacebookyotros.

La industria de la inteligencia empresarial y el software analítico se levanta deantiguo sobre la promesa a los clientes de “una única versión de la verdad”: elpopularclichéalrededordelaño2000enlabiosdelosvendedoresdetecnologíadeestas áreas.Los ejecutivosusaban la frase sin intención irónica.Algunos lo siguenhaciendo.Conella,loquequierendeciresquecualquieraqueaccedaalossistemasdetecnologíadelainformacióndeunaempresapuededisponerdelosmismosdatos;queelequipodemarketingyeldeventasnotienenquepelearseporquiéntienelascifrasdeventasodeclientescorrectasantesdequeempiecelareunión.Susinteresespodríanestarmásenlíneasiloshechosfuerancoherentes,suelepensarse.

Pero la ideade “unaúnicaversiónde la realidad” está por cambiar departido.Estamosempezandoacomprendernosóloquealomejoresimposiblequeexistaunaúnicaversióndelarealidad,sinotambiénqueperseguirlaesunapérdidadetiempo.Para acceder a los beneficios de la explotación de los datos a escala, tenemos queaceptarque la imprecisiónes lonormalyesperable,noalgoquedebamos tratardeeliminar.

Inclusoestamosempezandoavercómoelespíritudelainexactitudinvadeunadelas áreas más intolerantes con la imprecisión: el diseño de bases de datos. Losmotorestradicionalesdebasesdedatosrequeríanquelosdatosfuesenmuyprecisosyestructurados. Los datos no se almacenaban sinmás: se partían en “archivos” quecontenían campos. Cada campo incluía información de un tipo y longituddeterminados.Porejemplo,siuncamponuméricoteníasietedígitosdelongitud,nopodíaarchivarseenélunasumadediezmillonesomás.Siunoqueríaintroducir“Nodisponible” en un campo para números telefónicos, no se podía hacer. Para daracomodo a estas entradas había que alterar la estructura de la base de datos. Aúnseguimos peleando contra estas restricciones cuando el software de nuestrosordenadoresyteléfonosinteligentesnoaceptalosdatosquedeseamosintroducir.

Tambiénlosíndicestradicionalesestabanpredefinidos,yesolimitabaloqueunopodía buscar. Para añadir un índice nuevo había que crearlo desde cero, lo querequería tiempo. Las bases de datos clásicas, las llamadas relacionales, estánpensadas para un mundo en el que los datos son escasos, por lo que pueden


seleccionarseconmuchocuidado.Esesemundolaspreguntasparalasqueunobuscarespuesta tienen que estar claras de entrada, y la base de datos está diseñada paradarlesrespuesta—ysóloaellas—deformaeficiente.

Peroesteconceptodelalmacenamientoyanálisisestácadavezmásreñidoconlarealidad. Ahora disponemos de grandes cantidades de datos, de clase y calidadvariables.Rarasvecesencajanenalgunadelascategoríasdefinidasconprecisiónqueseconocendeantemano.Ylaspreguntasquequeremoshaceramenudosurgensólocuandorecogemoslosdatosyempezamosatrabajarconellos.

Estasrealidadeshandadopieadiseñosnovedososdebasesdedatosquerompencon los principios de antaño: principios de archivos y campos predefinidos quereflejannítidas jerarquíasde información.El lenguajemáscorrienteparaaccederalas bases de datos ha sido desde hace mucho tiempo el SQL, Structured QueryLanguageo“LenguajedePreguntaEstructurado”.Sumismonombreevocarigidez.Peroelgrancambioenañosrecientessehaproducidohaciaalgollamado“noSQL”,que no requiere una estructura de archivo predeterminada para operar. El no SQLaceptadatosdeclasesydimensionesvariablesypermiteefectuarbúsquedasenellos.Acambiodetolerareldesordenestructural,estosdiseñosdebasesdedatosrequierenmáscapacidaddeprocesamientoyalmacenaje.Peroesuncompromisoquepodemosaceptaralavistadelacaídaenpicadodeesoscostes.

PatHelland[34],unadelasprimerasautoridadesmundialesendiseñodebasesdedatos, describe este cambio fundamental en un artículo titulado “Cuando se tienendemasiadosdatos,‘Conesobasta’esbastante”.Despuésdeidentificaralgunosdelosprincipiosnuclearesdeldiseñotradicionalquesehanvistoerosionadosporlosdatosdesestructuradosdeprovenienciayexactituddiversas,exponelasconsecuencias:“Yano podemos fingir que vivimos en un mundo limpio”. El procesamiento de datosmasivos ocasiona una inevitable pérdida de información—Helland lo llama “conpérdida”—,perolocompensaconunresultadorápido.“Nopasanadasiobtenemosrespuestasconpérdida;muchasveces,esoes loquenecesitaelnegocio”,concluyeHelland.

Eldiseñotradicionaldebasesdedatosprometesuministrarresultadoscoherentesenel tiempo.Porejemplo, siunopidesusaldobancario,espera recibir lacantidadexacta.Y si vuelve a preguntar unos segundosmás tarde, espera que el sistema leofrezcaelmismoresultado,suponiendoquetodosigaigual.Sinembargo,conformeaumentan la cantidad de datos recogidos y el número de usuarios que acceden alsistema,resultamásdifícilmanteneresacoherencia.

Los grandes conjuntos de datos no existen en un único lugar: tienden a estarrepartidos entre múltiples discos duros y ordenadores. Para garantizar fiabilidad yrapidez,unregistropuedeestararchivadoenodosotresemplazamientosdistintos.Cuando se actualiza el registro en un lugar, los datos en las demás localizacionesdejan de ser correctos hasta que se actualizan a su vez. Así pues, los sistemastradicionales experimentarían un retraso hasta que se completaran todas las


actualizaciones, y eso no resulta práctico cuando los datos están ampliamentedistribuidos,yelservidorrecibeelbombardeodedecenasdemilesdeconsultascadasegundo.Porelcontrario,aceptareldesordenesunaespeciedesolución.

Estecambioloejemplifica lapopularidaddeHadoop,unrivaldefuenteabiertadelsistemaMapReducedeGoogle,queesmuybuenoalahoradeprocesargrandescantidades de datos. Esto lo consigue fragmentando los datos en porciones máspequeñas,yrepartiéndolasporotrosordenadores.Cuentaconqueelhardwarepuedafallar, así que la redundancia ya va incorporada. También da por supuesto que losdatos no están limpios ni ordenados; de hecho, asume que la cantidad de datos esdemasiado enorme para poder limpiarlos antes de procesarlos. Mientras que elanálisisdedatostípicorequiereunaoperaciónllamada“extraer, transferirycargar”[extract, transfer, and load, o ETL], para desplazar los datos al lugar donde seránanalizados,Hadoopprescindede tantas finezas.Encambio,dapor supuestoque lacantidad de información es tan increíblemente enorme que resulta imposibledesplazarla,yquehadeseranalizadaahídondeestá.

La producción de Hadoop no es tan precisa como la de las bases de datosrelacionales: no es de fiar para lanzar un cohete al espacio ni para certificar losmovimientos de una cuenta bancaria. Sin embargo, para muchas tareas deimportanciamenoscrucial,dondenoserequiereunarespuestaultraprecisa,cumplesu cometido mucho más rápido que las demás acciones. Piénsese en tareas comosegmentar una lista de clientes para hacer a algunos de ellos destinatarios de unacampaña específica demarketing. Usando Hadoop[35], la compañía de tarjetas decréditoVISAfuecapazdereducireltiempodeprocesamientodedosañosenterosderegistrosdeprueba,unas73000millonesdetransacciones,deunmesatreceminutosescasos. Esa suerte de aceleración del procesamiento es la que transforma losnegocios.

LaexperienciadeZestFinance,unacompañíafundadaporelantiguodirectordesistemasinformáticosdeGoogle,DouglasMerrill,refuerzaelmismoargumento.Sutecnología ayuda a los prestamistas a decidir si deben ofrecer o no préstamosrelativamente pequeños y a corto plazo a personas que aparentemente tienen pococrédito.Sinembargo,mientrasquelavaloracióncrediticiahabitualsebasasóloenunpuñadodeseñalesfuertes,comoanterioresatrasosenlospagos,ZestFinanceanalizaunacantidadenormedevariables“másdébiles”.En2012,podíapresumirdeunatasadeimpagoinferiorenuntercioalamediadelsector.Ahorabien,laúnicamaneradehacerquefuncioneelsistemaesincorporandolaconfusión.

“Una de las cosas interesantes—diceMerrill— es que nadie rellena todos loscampos: siempre falta un buen montón de datos”. La matriz de la informaciónrecopilada por ZestFinance es increíblemente escasa: un archivo de base de datosrepleto de celdas vacías. Así que la compañía “imputa” los datos que faltan. Porejemplo,alrededordel10por100delosclientesdeZestFinanceestánlistadoscomomuertos,peroresultaquedevuelvenelpréstamoigual.“Asíque,obviamente,cuando


tocaprepararseparaelapocalipsiszombi,lamayorpartedelagenteasumequenosepagará ninguna deuda. Ahora bien, de acuerdo con nuestros datos, parece que loszombisliquidansusdeudas”,añadeMerrillconironía.

Acambiodevivirconeldesorden,obtenemosserviciostremendamentevaliososque resultarían imposibles a esa escala y alcance con los métodos e instrumentostradicionales. Según algunas estimaciones, sólo el 5 por 100 de todos los datosdigitalesestán“estructurados”,esdecir,enunaformaqueencajalimpiamenteenunabasededatos[36] tradicional.Sinoseaceptalaconfusión,el95por100restantededatos sin estructurar, como páginas web y vídeos, permanecen en la oscuridad.Tolerando la imprecisión, abrimos una ventana a un universo de perspectivas porexplotar.

Nuestra sociedad ha aceptado dos acuerdos implícitos que han llegado aintegrarse de tal manera en nuestra forma de actuar que ya ni siquiera losreconocemoscomotales,sinocomoelestadonaturaldelascosas.Enprimerlugar,presuponemosque no podemosutilizarmuchosmás datos, así que no lo hacemos.Pero esa restricción resulta cada vezmenos importante, y haymuchas ventajas enusaralgoqueseaproximeaN=todo.

El segundo acuerdo tiene que ver con la calidad de la información. Resultabaracional dar prioridad a la exactitud en una época de pocos datos, porque cuandorecogíamos información limitada su precisión tenía que ser la mayor posible. Enmuchos casos, puede que esto todavía importe. Pero, para muchas otras cosas, laexactitudrigurosaresultamenosimportantequeobtenerunapercepciónrápidadesucontornogeneralodesuprogresoeneltiempo.

Cómo pensamos en usar la totalidad de la información en vez de pequeñosfragmentos,ycómolleguemosaapreciareldescuidoenlugardelaprecisión,tendránprofundasconsecuenciasennuestrainteracciónconelmundo.Conformelastécnicasde datos masivos vayan convirtiéndose en parte habitual de la vida cotidiana,nosotros en tanto que sociedad podremos empezar a esforzarnos en comprender elmundodesdeunaperspectivamásamplia e integralqueantes,unaespeciedeN=todomental.Ypodremostolerarloborrosoyloambiguoenáreasenlasquesolíamosexigirclaridadycerteza,auncuandosetratasedeunaclaridadfalsaydeunacertezaimperfecta.Podremosaceptarlo,siempreycuandoobtengamosacambiounsentidomáscompletodelarealidad:eselequivalentedeuncuadroimpresionista,enelquecadapinceladaresultaconfusasiselaexaminadecerca,perobastaconapartarseunodelcuadroparacontemplarunaimagenmajestuosa.

Elenfoquedelosdatosmasivos,queponeelacentoenlosconjuntosdedatosdegran extensión y en la confusión, nos ayuda a acercarnos a la realidad más quenuestra antigua dependencia de los datos escasos y la exactitud. El atractivo detérminos como “algunos” y “ciertos” resulta comprensible. Puede que nuestracomprensión del mundo fuese incompleta y ocasionalmente errónea cuando lasposibilidades de análisis eran limitadas, pero existía una confortable seguridad en


ello, una estabilidad tranquilizadora. Además, como estábamos constreñidos encuantoalosdatosquepodíamosrecopilaryexaminar,nohacíamosfrentealamismacompulsiónporconseguirlotodo,verlotododesdetodoslosángulosposibles.Enlosestrechos confines de los datos escasos, podíamos enorgullecernos de nuestraprecisión…aun cuando, almedir lasminucias hasta el infinito, los árboles no nosdejaranverelbosque.

Enúltima instancia, losdatosmasivospuedenexigirnoscambiar, sentirnosmáscómodosconeldesordenylaimprecisión.Lasestructurasdeexactitudqueparecenproporcionarnos coordenadas en la vida—que la pieza redonda va en el agujerocircular;quehayunaúnicarespuestaacadapregunta—sonmásmaleablesdeloqueadmitimos;ysinembargo,reconocerestaplasticidadyaceptarlanosacercamásalarealidad.

Pormuyradicalquesealatransformaciónquesuponenestasmodificacionesenlaformadepensar,conducenademásauntercercambioconpotencialparatirarabajounaconvenciónsocialaúnmásfundamental:laideadecomprenderlasrazonesquehaydetrásdecuantosucede.Porelcontrario,comoexplicaelcapítulosiguiente,conencontrarasociacionesentre losdatosyactuarenfuncióndeellasamenudopuedesermásquesuficiente.


IV

CORRELACIÓN

GregLindenteníaveinticuatroañosen1997,cuandosetomóalgúntiempolibreenlas investigaciones para su doctorado en inteligencia artificial en la universidad deWashingtonysepusoatrabajarenunastartup localde internetdenuevacreaciónque vendía libros online. La empresa sólo llevaba dos años abierta, pero estabahaciendomuybuennegocio.“Meencantólaideadevenderlibrosyconocimiento,yde ayudar a la gente a encontrar cualquier trocito de sabiduría que quisierandisfrutar”,recuerda.LatiendaeraAmazon.com,ycontratóaLindencomoingenierodeprogramasparaqueseocupasedequelapáginawebfuncionarasintropiezos.

Amazonnosóloteníajóvenesinformáticosenlaplantilla.Porentonces,tambiénempleabaentornoaunadocenadecríticosyeditoresliterariosparaescribirreseñasysugerirnuevostítulos.AunquelahistoriadeAmazonlesresultaconocidaamuchaspersonas, son menos las que recuerdan que su contenido era al principio obrahumana.Loseditoresyloscríticosevaluabanyescogíanlostítulosqueaparecíanenlas páginas web de Amazon. Eran responsables de lo que se llamaba “la voz deAmazon”[37],consideradaunade las joyasde lacoronade laempresayunade lasfuentes de su ventaja competitiva. Por esas fechas, un artículo enTheWall StreetJournalloscelebrócomoloscríticosliterariosmásinfluyentesdelanación,yaqueimpulsabanventasenormes.

Entonces, Jeff Bezos, fundador y director general de Amazon, empezó aexperimentar con una idea poderosa: ¿y si la compañía pudiese recomendar títulosespecíficos a sus clientes basándose en sus preferencias de compra individuales?Desdesu inicio,Amazonhabíacapturadoresmasdedatossobre todossusclientes:qué compraban, qué libros miraban pero no compraban, cuánto tiempo pasabanmirándolosyquélibroscomprabanalmismotiempo.

Lacantidaddedatoseratanconsiderableque,alprincipio,Amazonlaprocesódelaformaconvencional:tomandounamuestrayanalizándolaparabuscarsimilitudesentre los clientes.Las recomendaciones resultantes fueron toscas.Si unocomprabaun libro sobre Polonia, se veía bombardeado con literatura de Europa del este. Siadquiría uno sobre bebés, le inundaban de libros similares. “Tendían a ofrecerteminúsculas variaciones sobre tu compra anterior, ad infinitum —recordaba JamesMarcus[38], quehizo reseñasde librosparaAmazonde1996a2001, en su ensayoAmazonia—.Parecíacomosihubierassalidodecomprasconeltontodelpueblo”.

Greg Linden vio una solución. Cayó en la cuenta de que el sistema derecomendaciones no tenía por qué comparar a unas personas con otras, tarea


técnicamentecompleja.Loúnicoquenecesitabahacererahallarasociacionesentrelos propios productos.En 1998,Linden y sus colegas presentaron una solicitud depatentesobrefiltradocolaborativo“artículoaartículo”,comoesconocidalatécnica.Elcambiodeenfoquesupusounagrandiferencia.

Comoloscálculospodíanhacerseporadelantado,lasrecomendacionessalíanalavelocidadde la luz.Elmétodo tambiéneraversátil,ycapazde funcionarcruzandocategoríasdeproductos.AsíquecuandoAmazonsediversificóyempezóavenderartículos distintos de libros, pudo aconsejar asimismo películas o tostadoras.Y lasrecomendacioneseranmejoresqueantes,porqueelsistemaempleabatodoslosdatos.“Labromaennuestrogrupoeraque,sifuncionabaalaperfección,Amazondeberíamostrarleaunounsololibro,queseríaelsiguientequecompraría”,recuerdaLinden.

Ahora,laempresateníaquedecidirquédeberíaaparecerenlaweb.¿Contenidogenerado automáticamente como recomendaciones personales y listas de másvendidos, o reseñas escritas por el equipo editorial de la casa? ¿Lo que los clicsdecían,oloqueopinabanloscríticos?Erauncombatedehombrescontraratones.

CuandoAmazonllevóacabountestcomparandolasventasqueconseguíanloseditores tradicionales con las producidas por textos generados por ordenador, losresultadosestabanaañosluz.Elmaterialderivadodelosdatosgenerabamuchísimasmásventas.Puedequeelordenadorno supieseporquéuncliente lectordeErnestHemingwaypodríaquerercomprartambiénaF.ScottFitzgerald,peroesonoparecíaimportar. La caja registradora sonaba. Al final, a los editores se les comunicó elporcentaje exacto de ventas al queAmazon tenía que renunciar cuando presentabasusreseñasonline,ysedesmantelóelequipo.“Meentristeciómuchoqueelequipoeditorialdesapareciera—recuerdaLinden—,perolosdatosnomienten,yelcosteeramuyelevado”.

Hoy en día, se dice que una tercera parte de todas las ventas de Amazon sonresultadode sus sistemasde recomendaciónypersonalización.Con estos sistemas,Amazonhadejado fueradelnegocioanumerososcompetidores:no sóloamuchasgrandeslibreríasytiendasdemúsica,sinotambiénaloslibreroslocalesquepensaronquesutoquepersonallosaislaríadelosvientosdecambio.Enrealidad,eltrabajodeLindenrevolucionóelcomercioelectrónico,yaqueelmétodohasidoadoptadoporcasi todoelmundo.ParaNetflix,unacompañíadealquilerdepelículasonline, lastres cuartas partes de los pedidos nuevos surgen de las recomendaciones[39].SiguiendoelejemplodeAmazon,milesdepáginaswebsoncapacesderecomendarproductos, contenidos, amigos y grupos, sin saber por qué es probable que leinteresenalagente.

Seríaagradablesaberéseporqué,perocarecedeimportanciaparaestimularlasventas. Saber el qué, sin embargo, impulsa los clics. Esta percepción tiene lacapacidad de reconfigurarmuchas industrias, no sólo el e-commerce. Hacemuchotiempo que se les ha dicho a los comerciales de todos los sectores que necesitancomprender quémotiva a los clientes y averiguar así las razones que hay tras sus


decisiones. El talento profesional y los años de experiencia siempre han sidomuyvalorados.Eldelosdatosmasivosdemuestraqueexisteotroenfoque,enciertomodomáspragmático.LosinnovadoressistemasderecomendacióndeAmazonsacaronalaluzunascorrelacionesvaliosascuyascausassubyacentesnoseconocen.Saberelqué,noelporqué,esmásquesuficiente.


PREDICCIONESYPREDILECCIONES

Lascorrelacionessonútilescuandolosdatosescasean,peroesenelcontextodelosdatos masivos donde realmente destacan. Mediante ellas podemos cobrar nuevaspercepcionesconmayorfacilidad,másrápidoyconmásclaridadqueantes.

Enesencia,unacorrelacióncuantificalarelaciónestadísticaentredosvaloresdedatos. Una correlación fuerte significa que, cuando cambia uno de los valores dedatos,esaltamenteprobablequecambietambiénelotro.Hemosvistocorrelacionesfuertes en el caso deGoogleFluTrends: cuantamás gente de un lugar geográficodeterminadobusqueunostérminosconcretosenGoogle,másvecinosdeallítendránlagripe.Ala inversa,unacorrelacióndébilsignificaque,cuandounvalordedatoscambia,apenasleocurrenadaalotro.Porejemplo,podríamosbuscarcorrelacionesentrelalongituddeloscabellosylafelicidad,ydescubriríamosquelalongituddelpelonoresultaespecialmenteinformativasobreeseaspecto.

Lascorrelacionesnospermitenanalizarunfenómenodado,noaclarandocuálesson sus mecanismos internos, sino encontrando alguna aproximación útil. Pordescontado, ni siquiera las correlaciones fuertes son siempre perfectas. Es bastanteposiblequedoscosas se comportendelmismomodo sólopor coincidencia.Puedeque, simplemente, nos dejemos “engañar por la aleatoriedad”[40], como dice elempiristaNassimNicholasTaleb.Conlascorrelacionesnoexistelacerteza,sólolaprobabilidad. Pero si una correlación es fuerte, la probabilidad de que exista unvínculo es elevada.Numerosos clientesdeAmazonpuedendar fe de esto, con susestanteríascargadasderecomendacionesdelacompañía.

Alpermitirnosidentificarunaaproximaciónrealmentebuenadeunfenómeno,lascorrelacionesnosayudanacapturarelpresenteypredecirelfuturo:siAtienelugaramenudo junto conB, tendremos que estar pendientes deB para predecir que va aocurrir con A. Usar a B de aproximación nos ayuda a interpretar lo queprobablemente esté ocurriendo con A, aunque no podamos medir A ni observarlodirectamente. Y lo importante es que nos ayuda asimismo a predecir qué podríaocurrir conA en el futuro. Por supuesto, las correlaciones no pueden vaticinar elfuturo, sólo predecirlo con cierta probabilidad. Pero esa cualidad resultaextremadamentevaliosa.

PensemosenelcasodeWalmart,lamayorcadenaminoristadelmundo,conmásdedosmillonesdeempleadosyunasventasanualesquerozanlos450000millonesdedólares,másqueelPIBdelascuatroquintaspartesdelospaísesdelmundo.Antesde que internet sacase a la luz tantos datos, la compañía tenía tal vez el mayorconjunto de datos del sector privado de Estados Unidos. En la década de 1990,WalmartrevolucionólaventaalpormenorregistrandocadaproductocomoundatomedianteunsistemallamadoRetailLink,quepermitíaalosproveedoresmonitorizarlatasayelvolumendeventasyexistencias.Establecerestatransparenciapermitióa


laempresaforzarasussuministradoresaocuparseellosmismosdelalmacenaje.Enmuchoscasos,Walmartnoasume la“propiedad”deunproductohastaqueéstenollegaalpuntodeventa,conloquesedeshacedelriesgodeinventariosyreducesuscostes.Walmart se valió de los datos para convertirse, en la práctica, en lamayortiendadeconsignacióndelmundo.

¿Qué podrían revelar todos esos datos históricos si se analizasen de formacorrecta? La cadena trabajó con analistas expertos de Teradata, antes la venerableNationalCashRegisterCompany, sacando a la luz unas correlaciones interesantes.En2004,Walmartechóunvistazoalcontenidodesusgigantescasbasesdedatosdeantiguastransacciones:quéartículohabíacompradocadaclienteysucostetotal,quémáshabíaenelcarritodelacompra,lahoradeldía,einclusoeltiempoquehacía.Así,observóqueantesdeunhuracánnosóloaumentabanlasventasdelinternas,sinotambién las de Pop-Tarts, un dulce para el desayuno. Desde entonces, cuando seavecinaba una tormenta, para hacerles la vida más fácil a los clientes con prisa,WalmartcolocabacajasdePop-Tarts[41]enlapartefrontaldelastiendas,juntoalosbásicosparahuracanes,yaumentómuchosusventas.

En el pasado, alguien de la dirección habría tenido que tener la inspiración deantemano,paraluegoreunirlainformaciónysometerapruebalaidea.Hoyendía,aldisponerdetantísimosdatosydemejoresherramientas, lascorrelacionessalena lasuperficiemás deprisa y sin coste. (Dicho esto, conviene ser precavido: cuando elnúmero de puntos de datos crece en orden demagnitud, también se aprecianmáscorrelacionesespurias, fenómenosqueparecenestar conectadosauncuandono seaasí. Esto obliga a tener especial cuidado, como estamos empezando apenas aadvertir).

Muchoantesdeladvenimientodelosdatosmasivos,elanálisisdecorrelacionesya había demostrado su valía. El concepto fue definido en 1888 por sir FrancisGalton,primodeCharlesDarwin,despuésdeobservarquelaestaturadeunhombreguardaba relación con la longitud de sus antebrazos. El cálculo matemáticosubyacente es relativamente sencillo y robusto, lo cual resulta ser una de suscaracterísticas esenciales, y ha contribuido a convertirlo en una de las medidasestadísticas de más amplia utilización. Ahora bien, antes de la era de los datosmasivos, la utilidad era limitada. Como los datos eran escasos y recopilarlos salíacaro, los estadísticos a menudo escogían una aproximación, recogían entonces losdatosrelevantesyprocedíanalanálisisdecorrelaciónparadescubrirlacalidaddeesesustituto.Pero,¿cómoseelegíaesaaproximación?

Para orientarse, los expertos utilizaron hipótesis basadas en teorías: ideasabstractas acerca de cómo funciona algo. Basándose en esas hipótesis, recopilarondatos y usaron análisis de correlación para comprobar si las aproximacionesresultaban adecuadas. Cuando no lo eran, los investigadores a menudo volvían aprobar, testarudamente, por si acaso se hubiesen recogido mal los datos, antes deacabar reconociendo que la hipótesis de partida, o incluso la teoría en la que se


apoyaba, era imperfecta y requería modificaciones. El conocimiento progresómediante estemétodo de ensayo y error, impulsado por hipótesis. Fue un procesolento,puestoquenuestrosprejuiciosindividualesycolectivosofuscabanlashipótesisque desarrollábamos, cómo las aplicábamos y, por ende, las aproximaciones queescogíamos.Unprocesoengorroso,peropracticableenunmundodedatosescasos.

Enlaeradelosdatosmasivos,yanoresultaeficientetomardecisionesacercadequévariables examinarbasándoseúnicamente enhipótesis.Los conjuntosdedatossonexcesivosentamañoyeláreaaconsiderarprobablementedemasiadocompleja.Porsuerte,muchasdelaslimitacionesquenosobligaronaadoptarelenfoquebasadoen hipótesis ya no existen en lamismamedida.Ahora tenemos tantísimos datos anuestra disposición, y tanta capacidad de procesamiento, que ya no tenemos queescoger laboriosamente una aproximación o un pequeño puñado de ellas yexaminarlasunaauna.Ahora,unsofisticadoanálisiscomputacionalpuedeidentificarla aproximación óptima, como hizo paraGoogle Flu Trends después de someter apruebacasiquinientosmillonesdemodelosmatemáticos.

Ya no precisamos necesariamente de una hipótesis sustantiva válida sobre unfenómeno para empezar a entender nuestro mundo. Así pues, no tenemos quedesarrollar una noción acerca de qué términos busca la gente cuando y donde sepropaga la gripe. No necesitamos tener ni la menor idea de cómo fijan las líneasaéreas los precios de sus billetes. No necesitamos preocuparnos de los gustosculinarios de los clientes deWalmart. Por el contrario, podemos someter los datosmasivos a análisis de correlación y dejar que éste nos cuente qué búsquedas serelacionancon lagripe, siesprobablequesedispareuna tarifaaérea,oquépuedeapetecerle comer a una familia preocupada durante una tormenta. En lugar delenfoquesustentadoporhipótesispodemosemplearunosustentadopordatos.Puedequenuestrosresultadosseanmenossesgadosymásprecisos,yescasiseguroquelosobtendremosmuchomásdeprisa.

Lasprediccionesbasadasencorrelaciones sonel corazónde losdatosmasivos.Losanálisisdecorrelaciónseusancontantafrecuenciahoyendíaque,aveces,novaloramosbienelavancequehansupuesto.Ysususosnovanadejardeaumentar.

Porejemplo,seestánempezandoausar lascalificacionesfinancierasdel riesgocrediticioparapredecircomportamientospersonales.LaFairIsaacCorporation,hoydíaconocidacomoFICO[42],inventólascalificacionesderiesgodecréditoafinalesde la década de 1950. En 2011, FICO creó la “calificación de adherencia a lamedicación”. Para determinar la probabilidad de que una persona tome sumedicación, FICO analiza una plétora de variables, incluidas algunas que puedenparecer irrelevantes, como cuánto tiempo lleva viviendo esa persona en el mismodomicilio, si está casada, cuánto tiempo lleva en el mismo trabajo, y si posee uncoche. La calificación se ha desarrollado para ayudar a los profesionales de laatenciónsanitariaaahorrardinero indicándolesaquépacientesdeberíandirigirsusrecordatorios.Nohayrelacióncausalentreposeerunautomóvilytomarantibióticos


de acuerdo con la prescripción; el vínculo entre las dos cosas es pura correlación.Pero algunos hallazgos como éstos bastaron para inspirarle al director general deFICOlasiguientedeclaraciónorgullosaen2011:“Sabemosloqueustedvaahacermañana”.

Otros brokers de datos están apuntándose al juego de la correlación, como hamostradolaseriepionera“Quésaben”enTheWallStreetJournal.ExperiandisponedeunproductollamadoIncomeInsight[PercepcióndeRenta]queestimaelnivelderentadelagentebasándose,entreotrascosas,ensuhistorialcrediticio.Estesistemade calificación se desarrolló a partir del análisis de su enorme base de datos dehistoriales crediticios respecto a datos fiscales anónimos del Servicio de RentaInterna(IRS)deEstadosUnidos.Aunaempresalesupondríauncostedeunosdiezdólaresporunidadconfirmarlarentadealguienapartirdesusdeclaracionesfiscales,mientras que Experian vende su estimación por menos de un dólar. En ejemploscomoeste,usarunaaproximaciónresultamásrentablequepasarportodoeltráfagode lograr el producto original. Existe otra oficina de crédito, Equifax, quecomercializaun“Índicedelacapacidaddepago”yun“Índicedegastodiscrecional”capaces,segúnellos,depercibirlorellenaquetienealguienlacartera.

Los usos de las correlaciones están ampliándose inclusomás. Aviva, una granaseguradora, ha contemplado la idea de emplear informes crediticios y datos demarketing de consumo como aproximación a los análisis de sangre y orina paradeterminados solicitantes. La idea es identificar a aquéllos con mayor riesgo depadecer enfermedades como hipertensión arterial, diabetes o depresión. Elmétodoutiliza datos acerca del estilo de vida del sujeto que incluyen cientos de variables:aficiones,páginaswebquevisita,horasdetelevisiónqueve,ademásdeestimacionesdeniveldeingresos.

El modelo predictivo de Aviva, desarrollado por Deloitte Consulting, hademostradobuenos resultadoscuandose tratade identificar riesgosde salud.Otrascompañíasde seguros comoPrudential yAIGhanexaminado iniciativas similares.Laventajadeestemétodoesquepermitea lagente solicitar seguros sin tenerqueentregar muestras de sangre y orina, algo que a nadie le gusta, y que a lasaseguradoras les cuesta dinero. Las pruebas de laboratorio salen por unos cientoveinticincodólaresporcabeza,mientrasqueelenfoquepuramentebasadoendatossequedaenunoscincodólares.

Aalgunaspersonaspuedequeelmétodolesespanteunpoco,porquesevaledecomportamientosaparentementesinrelación:escomosi lasempresastuvieranauncibersoplón que les informase de cada clic que hacemos en la pantalla. La gentepodríapensárselodosvecesantesdevisitarpáginaswebsobredeportesextremososeguir series de televisión que ensalzan al teleadicto sedentario si creyeran quepodríansuponerlesprimasdesegurosmáselevadas.Porotraparte,laventajaesque,al hacer más fácil y más barato contratar seguros, podría subir el número deasegurados,loqueesbeneficiosoparalasociedad,nosóloparalasaseguradoras.


Sinembargo,elparadigma,otalvezelchivoexpiatorio,delascorrelacionesdedatosmasivos son las tiendas de descuento estadounidensesTarget, que se apoyandesdehaceañosenprediccionesbasadasencorrelacionesdedatosmasivos.Enunaextraordinaria demostración de periodismo, Charles Duhigg, un corresponsal denegociosdeTheNewYorkTimes,explicócómoTargetsabecuándoestáencintaunamujer sin que la futura madre lo haya hecho explícito. Básicamente, su métodoconsisteenrecogertodoslosdatosquepuede,yendejarquelascorrelacionessaquensuspropiasconclusiones.

Sabersiunaclientasehallaenestadoesimportanteparaloscomercios,porqueelembarazomarcaunantesyundespuésenlasparejas,yesprobablequesushábitosde compra cambien. Pueden empezar a ir a otras tiendas y desarrollar nuevaslealtades de marca. Los responsables de marketing de Target se dirigieron a sudivisióndeanálisisparaversihabíaformadedescubrirelembarazodesusclientaspormediodesuspatronesdecompra.

Elequipoanalíticoexaminóelhistorialdecomprasdelasmujeresquesehabíanapuntado en su registro de regalos para bebés. Se dieron cuenta de que habíancompradomontonesdecremas sinperfumeen tornoal tercermesdelembarazo,yque unos meses más tarde tendían a adquirir suplementos nutricionales comomagnesio,calcioycinc.Elequipoacabóporidentificaralrededordedosdocenasdeproductosquelepermitíancalcularuna“prediccióndeembarazo”paracadaclientaquepagabacontarjetadecrédito,ousabaunatarjetadefidelidadoenviabacuponesdedescuentoporcorreo.Lascorrelacionesinclusopermitieronalamarcaestimarlafecha de parto con un estrecho margen de error, de forma que podía enviar loscuponesmásadecuadosacadafasedelembarazo.

EnsulibroThePowerofHabit,Duhiggcuentalasiguienteanécdota.Undía,unhombrefuriosoentróentrombaenunatiendaTargetdelasafuerasdeMinnesotayexigióveraldirector.

—¡Mihijaharecibidoestoporcorreo!—gritó—.Todavíaestáenelinstituto,¿yustedessededicanamandarlecuponespararopadebebéycunas?¿Intentananimarlaaquesequedeembarazada?[43]

Cuando el director llamó al hombre unos días después para disculparse, seencontróconunavozmásconciliadora.

—Heestadohablandoconmihija—dijoelhombre—.Resultaqueenmicasahantenidolugarciertasactividadesdelasqueyonoestabadeltodoinformado.Mihijasaledecuentasenagosto.Soyyoelquelesdebeunadisculpa.

Encontraraproximacionesencontextossocialesesunadelasaplicacionesdelastécnicas de datos masivos. Igualmente poderosas resultan las correlaciones connuevostiposdedatosparasolucionarnecesidadescotidianas.

Una de estas técnicas es la llamada analítica predictiva, que está empezando ausarse ampliamente en los negocios para predecir acontecimientos antes de que seproduzcan.Puedeser,porejemplo,unalgoritmoquepermitadetectarunacanciónde


éxito:muyusadoenlaindustriamusicalparaofrecerlesalossellosdiscográficosunaideamásprecisasobredóndecolocarsusapuestas.Latécnicaseempleatambiénparaprevenirgrandesfallosmecánicosoestructurales:colocarsensoresenlamaquinaria,motores o infraestructuras, como los puentes, permite monitorizar los patrones dedatosqueemiten,entreelloselcalor,lavibración,latensiónyelsonido,ydetectarcambiosquequizáindiquenproblemasenelfuturo.

El concepto subyacente es que cuando las cosas se vienen abajo, no suelenhacerlo de golpe, sino gradualmente. Pertrechados con datos de los sensores, elanálisis de correlaciones y métodos similares pueden identificar los patronesespecíficos, los signos delatores que se presentan a menudo antes de que algo seestropee:elzumbidooelcalentamientoexcesivodeunmotor,porejemplo.Apartirdeahí,unosólonecesitaestarpendientedelaaparicióndeesepatrónparasaberquealgovamal.Advertirelpatrónanormaldesdeelprimermomentopermitealsistemaemitir un aviso, de forma que se pueda instalar una pieza nueva y resolver elproblemaantesdequelaaveríaseproduzcaenrealidad.Lafinalidadesidentificaryluegovigilaresaaproximación,yasípredecirloshechosvenideros.

La compañía de transportes UPS lleva usando la analítica[44] predictiva desdefinales de la década de 2000 para monitorizar su flotilla de 60000 vehículos enEstadosUnidos, y así saber cuándo debe llevar a cabomantenimiento preventivo.Unaaveríaenlacarreterapuedecausarestragos,retrasandolasentregasyrecogidas.Asíque,porprecaución,UPScambiabaciertaspiezasalcabodesólodosotresaños.Ahorabien,esoresultabaineficiente,porquealgunasestabantodavíaenbuenestado.Desde que se pasó a la analítica predictiva, se ha ahorradomillones de dólares almedir y monitorizar las piezas individuales y reemplazarlas sólo cuando eranecesario.En un caso, los datos revelaron que todo un grupo de vehículos nuevostenía una pieza defectuosa que podría haber acarreado serios problemas si no sehubieradetectadoantesdequeentraseenservicio.

También se fijan sensores en puentes y edificios para poder detectar signos dedesgaste. Se emplean asimismo en grandes plantas químicas y refinerías, donde laroturadeunapiezadelequipopodríaparalizarlaproducción.Elcostederecogeryanalizarlosdatosqueindicancuándoactuarpreventivamenteesinferioraldepararlaproducción.Téngaseencuentaquelaanalíticapredictivanoexplica lacausadeunproblema;tansóloindicaqueexiste.Tealertarácuandounmotorserecaliente,peronopodrádecirtesisedebeaunacorreadeventiladordeshilachadaoauncasquetemalatornillado.Lascorrelacionesmuestranelqué,noelporqué;pero,comoyasehavisto,amenudoconsaberquéresultasuficiente.

Lamismaclasedemetodologíaseusayaen laatenciónsanitariaparapreveniraveríasdelamáquinahumana.Cuandounhospitallecolocaunentramadodetubos,cables e instrumentos a un paciente, se genera un vasto torrente de datos. Sólo elelectrocardiograma registra mil medidas por segundo. Sin embargo,sorprendentemente, en la actualidad sólo se usa y conserva una fracción de esos


datos. La mayor parte se descarta, aun cuando podrían brindar pistas importantesacercadelestadodelpacienteysurespuestaalostratamientos.Siseconservasenlosdatos y se agregasen a los de otros pacientes, podrían ofrecer perspectivasextraordinariassobrequétratamientostiendenaserefectivosycuálesno.

Descartar datos quizá resultase apropiado cuando el coste y la complejidad derecopilarlos,almacenarlosyanalizarloseraelevado,peroyanoeselcaso.LadoctoraCarolynMcGregoryun equipode investigadoresdel InstitutodeTecnologíade launiversidaddeOntarioydeIBMestántrabajandojuntoconunaseriedehospitaleseneldesarrollodeprogramasqueayudenalosmédicosatomarmejoresdecisionesdiagnósticasenlaatencióndelosbebésprematuros[45].Elsoftwarecaptayprocesalos datos de los pacientes en tiempo real, monitorizando dieciséis flujos de datosdiferentes,talescomoritmocardíaco,frecuenciarespiratoria,temperatura,tensiónyniveldeoxígenoen sangre,que, enconjunto, representancercade1260puntosdedatosporsegundo.

Elsistemaconsiguedetectarcambiossutilesenelestadodelosprematuros,quepodrían indicar el principio de una infección veinticuatro horas antes de que semanifiesten los síntomas. “Nosotros no podemos verlo a simple vista, pero unordenadorsí”,explicaladoctoraMcGregor.Elsistemanosebasaenlacausalidad,sinoencorrelaciones;dicequé,noporqué.Perocumplesupropósito.Elavisoprevioles permite a los médicos tratar antes la infección por medio de intervencionesmédicas más livianas, o los alerta antes si un tratamiento parece inefectivo. Ellomejoralasperspectivasdelospacientes.Resultadifícilcreerqueestatécnicanovayaaseraplicadaamuchísimosmáspacientesyenfermedadesenelfuturo.Puedequeelalgoritmomismonotomelasdecisiones,perolasmáquinashacenloquesabenhacermejor,yayudaránaloscuidadoresahacerloquetambiénellossabenhacermejor.

Curiosamente,elanálisisdedatosmasivosdeladoctoraMcGregorfuecapazdeidentificar correlaciones que, en cierto modo, ponen en cuestión abiertamente laciencia convencional de los galenos. Descubrió, por ejemplo, que a menudo sedetectansignosvitalesmuyconstantesantesdeunainfeccióngrave.Estoesextraño,puestoquecabríapensarqueundeteriorodelascondicionesvitalesprecederíaaunainfección en toda regla. Podemos imaginar a generaciones de doctores queterminaban su jornada echándole un vistazo al portapapeles al lado de la cuna,comprobandoque las constantesvitalesdelprematuro seestabilizaban,ypensandoquepodíanmarcharseacasasinproblemas…pararecibiramedianocheunallamadafrenéticadelamaternidadinformándolosdequealgohabíaidotrágicamentemal,ysuimpresiónfueerrónea.

LosdatosdeMcGregorsugierenqueenlosprematuroslaestabilidad,másqueunsignodemejoría,escomolacalmaqueprecedealatempestad;comosielcuerpodelbebé estuviese ordenándole a sus minúsculos órganos que se preparen para hacerfrente a la tormenta que se avecina. No podemos estar seguros: lo que los datosindicanesunacorrelación,nounarelacióndecausalidad.Loquesísabemosesque


hicieron faltamétodos estadísticos aplicados a una enorme cantidad de datos paradesvelarestaasociaciónoculta.Quenoquedeningunaduda:losdatosmasivossalvanvidas.


ILUSIONESEILUMINACIONES

Antes,cuandoeranescasos losdatosdisponibles, tanto las investigacionescausalescomo los análisis de correlación empezaban con una hipótesis, que se sometía apruebaparadesmentirlaoconfirmarla.Sinembargo,comoambosmétodosrequeríandeunahipótesisdepartida, losdoseran igualmentesusceptiblesalprejuicioya laintuiciónerrónea.Yademás,losdatosnecesariosnosolíanestardisponibles.Hoyendía,contantosdatosanuestroalrededor,ylosquequedanporvenir,lashipótesisyanoresultancrucialesparaelanálisiscorrelacional.

Existe otra diferencia que está empezando a cobrar importancia. Antes deladvenimiento de los datosmasivos, y con la escasa capacidad de computación deentonces,lamayorpartedelosanálisisdecorrelaciónqueusabangrandesconjuntosdedatosseveíanlimitadosalabúsquedaderelacioneslineales.Enrealidad,muchasrelaciones son infinitamente más complejas. Con unos análisis más sofisticados,podemosidentificarrelacionesnolinealesentrelosdatos.

Porponerunejemplo,durantemuchosañosloseconomistasylosespecialistasencienciaspolíticascreyeronque la felicidadyelnivelde rentaestabandirectamentecorrelacionados: si se incrementa su renta, el individuo serámás feliz por términomedio.Observarlosdatosenunatabla,sinembargo,revelaqueladinámicaresultamuchomás compleja. Para niveles de renta por debajo de un determinadoumbral,cada incremento de renta se traduce en un crecimiento sustancial de felicidad;[46]pero, por encima de ese límite, ya apenas mejora la felicidad de la persona. Sitrasladáramosestoaunagráfica,lalínearesultantepareceríaunacurvamásqueesalínearectaquesededucíadelanálisislineal.

El hallazgo fue importante para los políticos. Si habláramos de una relaciónlineal, tendría sentido elevar la renta de todo elmundo para aumentar la felicidadglobal. Ahora bien, una vez identificada la naturaleza no lineal de la relación, larecomendacióncambióparacentrarseenincrementarlarentadelospobres:losdatosmostrabanqueasíseconseguiríanmejoresresultados.

Y la cosa se complica incluso más, cuando la relación de correlación es másmultifacética.Porejemplo,unosinvestigadoresdeHarvardydelMITexaminaronladisparidadenlacoberturadelainmunizacióncontraelsarampión:algunosgrupossevacunanyotrosno.Alprincipio,estadisparidadparecíaestarcorrelacionadaconlascantidadesquecadaunoinvierteenatenciónsanitaria.Sinembargo,unexamenmásminuciosorevelóquelacorrelaciónnoesunalíneanítida,sinounacurvadeformaextraña. Conforme la gente va gastando más dinero en atención sanitaria, ladisparidadenlainmunizacióndisminuye(comocabíaesperar);pero,cuandogastanaún más, vuelve a aumentar, curiosamente: entre los más acomodados, algunosparecen reacios a ponerse la vacuna del sarampión. Para los funcionarios de lasanidad pública resulta crucial conocer este dato, pero el simple análisis de


correlaciónlinealnolohabríarevelado.Los expertos están empezando a desarrollar los instrumentos necesarios para

identificarycompararlascorrelacionesnolineales.Almismotiempo,alastécnicasdeanálisiscorrelacionallesestásirviendodeayudaydepotenciaciónunconjuntodeenfoques y programas nuevos de rápido desarrollo que pueden sacar a la luz unasrelaciones no causales en los datos desdemuchos ángulos distintos, comopintorescubistas captando la imagen de una mujer desde perspectivas múltiplessimultáneamente.Unode losmétodosnuevosmásvitales sehallaenel florecientecampodelanálisisderedes,quehaceposiblecartografiar,medirycalcularnodosyenlacesparatodo:desdelosamigosquetieneunoenFacebookhastaquiénllamaaquién por el teléfono móvil, pasando por qué fallos de qué tribunales citandeterminadosprecedentes.Enconjunto,estosinstrumentosayudanadarrespuestaapreguntasempíricasynocausales.

En última instancia, en la era de los datos masivos, estos análisis novedososconduciránaunaoleadadepercepcionesyprediccionesútiles.Veremosvínculosquenunca habíamos advertido antes. Entenderemos complejas dinámicas técnicas ysocialesqueduranteañoshanescapadoanuestracomprensión,peseatodosnuestrosesfuerzos.Pero lomás importanteesqueestosanálisisnocausalesnosayudaránacomprenderelmundopreguntandoquéenlugardeporqué.

Al principio, esto puede parecer contradictorio. Al fin y al cabo, como sereshumanos,deseamosdarlesentidoalmundomedianterelacionescausales:queremoscreer que todo efecto tiene una causa, si lo analizamos bien. ¿No debería ser ésanuestramayoraspiración,ladeconocerlasrazonesquesubyacenalmundo?

Ciertamente,desdehacesiglosexisteundebatefilosóficoacercadelaexistenciamismadelacausalidad.Sitodaslascosasfuerancausadasporotras,lalógicadictaentonces que no seríamos libres de decidir nada.No existiría la voluntad humana,puestoquecualquierdecisiónquetomáramos,cualquierpensamientoquetuviéramos,serían causados por algo que, a su vez, sería el efecto de otra causa, y asísucesivamente.Latrayectoriadecualquiervidaseveríadeterminadaporlasucesióndeunascausasqueconducenaunosefectos.Deahíquelosfilósofoshayanporfiadosobreelpapeldelacausalidadennuestromundo,oponiéndolaenocasionesallibrealbedrío.Esedebateabstracto,sinembargo,noesloqueaquínosinteresa.

Cuando afirmamos que los seres humanos ven el mundo a través de lascausalidades, nos estamos refiriendo,más bien, a las dos formas fundamentales enqueexplicamosyentendemoselmundo:mediantelarápidaeilusoriacausalidad,oatravésdeexperimentoscausaleslentosymetódicos.Losdatosmasivostransformaránelpapeldeambas.

Lo primero es nuestro deseo intuitivo de ver conexiones causales. Tenemos elprejuiciodeasumirlapresenciadecausasinclusodondenoexisteninguna.Estonoes debido a la cultura, formación ni nivel educativo; más bien, según indican lasinvestigaciones,esqueasífuncionaelconocimientohumano.Cuandovemosocurrir


dos hechos, uno después del otro, nuestras mentes sienten una gran necesidad decontemplarlosentérminoscausales.

Tómense las tres frases siguientes: “Lospadres deFred llegaron tarde.Losdelcatering iban a llegar enseguida. Fred estaba enfadado”. Al leerlas, intuimosinstantáneamenteporquéestabaenfadadoFred:noporquefueranallegarprontolosdelcatering, sinopor la tardanzade suspadres.En realidad,no tenemos formadesaberlo por la información que se nos ha suministrado.Aun así, nuestramente nopuedeevitarcrearloqueasumimossonhistoriascoherentesycausalesapartirdeloshechosquesenosproporcionan.

Daniel Kahneman[47], profesor de psicología en Princeton y premio Nobel deEconomíaen2002,usaesteejemploparasugerirquetenemosdosformasdepensar:unaesrápidayexigepocoesfuerzo,dejándonossacarconclusionesprecipitadasencuestióndesegundos;laotraeslentaytrabajosa,ynosobligaapensarafondosobreunacuestióndeterminada.

La forma rápida de pensar se inclina poderosamente a “ver” vínculos causalesaunque no haya ninguno. Está prejuiciada para confirmar nuestro conocimiento ycreenciaspreexistentes.En la antigüedad, esta forma rápidadepensarnos ayudóasobrevivir en un entorno peligroso, en el que a menudo necesitábamos decidirrápidamente y a partir de una información limitada, aunque muchas veces no sepudieraestablecerlaverdaderacausadeunefectodado.

Desgraciadamente, argumenta Kahneman, muy a menudo nuestro cerebro esdemasiado vago para pensar lenta ymetódicamente. Al contrario, dejamos que seimponga el modo rápido. En consecuencia, con frecuencia “vemos” causalidadesimaginariasy,asípues,malinterpretamoselmundoenlofundamental.

Lospadresamenudolesdicenasushijosquehancogidolagripepornoponersegorrooguantescuandohacefrío.Sinembargo,noexisterelacióncausaldirectaentreel no abrigarse y la gripe. Si vamos a un restaurante y luego nos ponemosmalos,tendemosde forma intuitivaaecharle la culpaa loqueahí comimos (ypuedequeevitemosvolveraeserestauranteenelfuturo),auncuando,posiblemente,lacomidanada tuviese que ver con nuestra indisposición. Podíamos haber cogido un virusgástricodemuchasmaneras,quizádándolelamanoaunapersonainfectada.Elladode pensamiento rápido de nuestro cerebro está programado para llegarprecipitadamente a cualesquiera conclusiones causales que consiga elaborar. Asípues,amenudonoshacetomardecisionesequivocadas.

Alcontrariodelasabiduríaconvencional,estaintuiciónhumanadelacausalidadnoacrecientanuestracomprensióndelmundo.Enmuchoscasos,espocomásqueunatajocognitivoquenosdeparaunailusióndepercepción,cuandoenrealidadnosdejaenlainopiarespectoalmundoquenosrodea.Delamismaformaqueelmuestreoeraun atajo que empleábamos porque no podíamos procesar todos los datos, lapercepción de la causalidad es un atajo que usa nuestro cerebro para evitar pensardespacioyafondo.


En la época de datos escasos, demostrar lo equivocadas que estaban lasintuiciones causales tomaba mucho tiempo. Esto va a cambiar. En el futuro, lascorrelaciones de datos masivos se utilizarán para desmentir nuestras intuicionescausales,mostrando que, amenudo, haymuy poca o ninguna conexión estadísticaentreelefectoysusupuestacausa.Apartirdeahora,nuestromodode“pensamientorápido”tendráquevérselasconlarealidad.

Quizá esa lección nos haga pensar con más ahínco (y más despacio) cuandointentemos comprender el mundo. Pero incluso nuestro pensamiento lento —lasegunda forma de averiguar causalidades— verá transformado su papel por lascorrelacionesdedatosmasivos.

Ennuestravidadiariapensamostanamenudoentérminoscausalesquepodemosllegaracreerquelacausalidadesfácildedemostrar.Laverdadresultamuchomenoscómoda. A diferencia de las correlaciones, en las que el cálculo matemático esrelativamente directo, no existe ninguna forma matemática obvia de “probar” lacausalidad. Ni siquiera podemos expresar con facilidad las relaciones causales enforma de ecuaciones normales. De ahí que, incluso pensando despacio ydetenidamente, resulte difícil encontrar relaciones causales concluyentes. Comonuestras mentes están acostumbradas a la escasez de información, nos sentimostentados a razonar con datos limitados, aun cuandomuy amenudo están en juegodemasiadosfactoresparapoderreducirsimplementeunefectoaunacausaparticular.

Pensemosenelcasodelavacunadelarabia.El6dejuliode1885,lepresentaronalquímicofrancésLouisPasteur[48]alniñodenueveañosJosephMeister,quehabíasidoatacadoporunperrohidrófobo.Pasteurhabíainventadolavacunaciónyhabíatrabajado en una vacuna experimental contra la rabia. Los padres de Meister lesuplicaron a Pasteur que usara la vacuna con su hijo. Lo hizo, y Joseph Meistersobrevivió.Enlosperiódicos,sehacíanloasaPasteurporhabersalvadoalpequeñodeunamuerteseguraydolorosa.

Pero,¿eraasí?Resultaque,por términomedio,sólounadecadasietepersonasmordidasporunperrorabiosocontraelaenfermedad.AunasumiendoquelavacunadePasteur fuese efectiva, sólohabría supuestounadiferencia enunode cada sietecasos. Había una probabilidad de aproximadamente el 85 por 100 de que el niñohubierasobrevividoencualquiercaso.

En este ejemplo, la administración de la vacuna fue considerada la causa de lacuracióndeJosephMeister.Ahorabien,haydosconexionescausalesenjuego:una,entre la vacuna y el virus de la rabia; la otra, entre que lomuerda a uno un perrorabiosoyquedesarrollelaenfermedad.Auncuandolaprimeraseacierta,lasegundasóloloesenunaminoríadecasos.

Loscientíficoshansuperadoesteretodedemostrar lacausalidad[49]a travésdeexperimentosen losque la supuestacausapuede ser cuidadosamente introducidaosuprimida. Si los efectos corresponden a que la causa fuese aplicada o no, quedasugerida una conexión causal. Cuanto más cuidadosamente se controlen las


circunstancias,máselevadaserálaprobabilidaddequeelvínculoseacorrecto.Porconsiguiente,igualquesucedeconlascorrelaciones,lacausalidadraravez—

o ninguna— puede ser demostrada, sólo mostrada con un elevado grado deprobabilidad.Sinembargo, adiferenciade las correlaciones, los experimentosparaconfirmarconexionescausalesamenudonoresultanprácticososuscitancuestioneséticaspeliagudas.¿Cómopodríamosrealizarunexperimentocausalpara identificarlacausadequedeterminadostérminosdebúsquedaprediganmejorlagripe?Y,enelcaso de la vacuna antirrábica, ¿podríamos someter a docenas, tal vez cientos depacientesaunamuertedolorosa—comointegrantesdel“grupodecontrol”alquenoseleadministralavacuna—,aunteniendovacunasparaellos?Einclusocuandolosexperimentosresultanprácticos,nodejandesercarosyrequierenmuchotiempo.

Encambio, losanálisisnocausalescomo lascorrelacionessuelenser rápidosybaratos, y para ellos sí disponemos de losmétodosmatemáticos y estadísticos quepermiten analizar las relaciones, y de las herramientas digitales para demostrar susolidezconconfianza.

Esmás,lascorrelacionesnosólosonvaliosasporsímismas:tambiénlesindicanel camino a las investigaciones causales. Al decirnos que dos cosas estánpotencialmente conectadas, nos permiten seguir investigando para ver si aparecealgunarelacióncausaly,deserelcaso,porqué.Estemecanismodefiltración,baratoy expeditivo, reduce el coste de hacer un análisis causal con experimentoscontroladosespecialmente.Atravésdelascorrelaciones,podemosalcanzarunatisbodelasvariablesimportantesqueluegousamosenlosexperimentosparainvestigarlacausalidad.

Pero hay que tener cuidado. Las correlaciones son poderosas no sólo porqueofrecenperspectivas,sontambiénporquelasqueofrecenestánrelativamenteclaras.Esas perspectivas a menudo se oscurecen en cuanto volvemos a introducir lacausalidadenlafoto.Porejemplo,Kaggle,unaempresaqueorganizacompeticionesempresariales de datamining (minería de datos) abiertas a cualquier participante,organizó un concurso en 2012 en torno a la calidad de los coches usados. Unvendedordecochesdesegundamanosuministródatosalosestadísticosparticipantesparaconstruirunalgoritmoquepredijeracuálesdelosvehículosdisponiblesenunasubasta eran susceptibles de sufrir fallos mecánicos. Un análisis de correlaciónmostróqueloscochespintadosdecolornaranjateníanmenosprobabilidadesdetenerdefectos:aproximadamentelamitaddelatasaalcanzadaporlamediadelosdemáscoches.

Enelmismomomentodeleeresto,yapensamosenporquépodríaserasí.¿Seráque es más probable que las personas propietarias de coches naranjas[50] seanentusiastas de los automóviles y cuidenmejor su vehículo? ¿Será porque un colororiginal significa que el coche se ha construido de forma más cuidadosa ypersonalizada, también en otros aspectos? ¿O tal vez los coches naranja son másvisiblesenlacarretera,yporellotienenmenosprobabilidadesdeverseenvueltosen


accidentes,yasíestánenmejorescondicionescuandosevendendesegundamano?Nosvemosrápidamenteenvueltosenunareddehipótesiscausalescompetidoras,

pero querer aclarar las cosas por esta vía sólo sirve para oscurecerlas más. Lascorrelacionesexisten:podemosmostrarlasmatemáticamente.Noresultafácilhacerlopropioconlosvínculoscausales.Asípues,haríamosbienenabstenernosdeintentarexplicarlarazónquesubyacealascorrelaciones:elporquéenlugardelqué.Deotromodo, podríamos acabar aconsejándoles a los propietarios de automóviles quepintaran sus coches viejos de naranja para que losmotores fallasenmenos, lo queseríaunaidearidícula.

Tomando en consideración estos hechos, resulta bastante comprensible que elanálisisdecorrelaciónylosdemásmétodosnocausalesbasadosendatosconcretosseansuperioresalamayoríadelasconexionescausalesintuidas,resultadode“pensarrápido”.Perocadavezenmáscasos,eseanálisisresultatambiénmásútilyeficienteque el lento pensamiento causal propio de los experimentos controladoscuidadosamente,yporellolargosycostosos.

Últimamente,loscientíficoshanintentadoreducirloscostesdelosexperimentospara investigar causas, por ejemplo, combinando hábilmente diversas encuestasapropiadasparaasícrear“cuasiexperimentos”.Ellopuedehacermásfácilesalgunasinvestigacionescausales,perolaeficienciadelosmétodosnocausalesresultadifícilde superar. Además, los propios datos masivos fomentan las búsquedas causalesporque orientan a los expertos hacia causas probables que investigar. En muchoscasos, labúsquedaprofundade lacausalidad tendrá lugardespuésdeque losdatosmasivos hayan hecho su trabajo, cuando deseemos específicamente investigar elporqué,ynosóloapreciarelqué.

Lacausalidadnovaapasara lahistoria,peroestásiendoderribadadesupedestalcomo fuente primaria de sentido. Los datos masivos potencian enormemente losanálisis no causales, reemplazando a menudo a las investigaciones causales. ElacertijodelastapasderegistroexplosivasenManhattanvieneaquíalpelo.


ELHOMBRECONTRALASTAPASDEREGISTRO

En Nueva York, todos los años, unos cuantos centenares de tapas de registroeléctrico[51]empiezanaecharhumocuandosusentrañasseincendian.Aveces,esastapasdehierrocolado,quepuedenllegarapesarcasi140kilos,saltanporlosairesyalcanzanvariospisosdealturaantesdeestrellarsecontraelsuelo.Esonopuedeserbueno.

ConEdison, lacompañíapúblicaqueproveedeelectricidadalaciudad, llevaacaboinspeccionesylaboresdemantenimientodelosregistrostodoslosaños.Antes,básicamenteconfiabaenlasuerte,esperandoqueunatapacuyainspecciónestuvieseprogramada fueseunade lasqueestabanapuntodeestallar: comométodo,noeramuchomejor que el de darse unpaseo sin rumboWallStreet abajo.En2007ConEdison se dirigió a los estadísticos del norte de la ciudad, en la universidad deColumbia[52], con la esperanzadequepudieranusar susdatoshistóricos, como laslistas de problemas previos y de qué infraestructura está conectada con qué, parapredecir qué tapas teníanmás probabilidades de sufrir problemas, de forma que lacompañíasupiesedondeconcentrarsusrecursos.

Se trata de un problema de datos masivos complejo. Hay más de 150000kilómetrosdecables subterráneosen laciudaddeNuevaYork, los suficientesparadarletresvecesymedialavueltaalaTierra.SóloManhattancuentaconalrededorde51000 pozos y cajas de acometida: parte de esta infraestructura se remonta a lostiemposdeThomasEdison,elhomónimodelacompañía.Unodecadaveintecableshasidoinstaladoantesde1930.Aunquelaempresahabíaconservadoarchivosdesdela década de 1880, éstos estaban en un batiburrillo de formatos y nunca se habíanpensadoparaelanálisisdedatos.Proveníandeldepartamentodecontabilidadodelos supervisores de emergencias encargados de redactar a mano los “partes deincidencias”.Decirquelosdatoseranconfusosseríaquedarsemuycorto.Pordarunsoloejemplo,losestadísticosseñalaronqueeltérmino“cajadeacometida”[ServiceBox],unapiezadelomáscorriente,presentabaporlomenos38variantes,entreellas:SB,S,S/B,S.B,S?B,S.B.,SBX,S/BX,SB/X,S&BX,S?BX,SBX,S/B/X,SBOX,SVBX,SERVBX,SERV-BOX,SERV/BOXySERVICEBOX.Huboque usar unalgoritmodeordenadorparaidentificarlastodas.

“Losdatosestabanincreíblementedesorganizados—rememoraCynthiaRudin,laestadísticayrecolectoradedatos,actualmenteenelMIT,quedirigióelproyecto—.Tengo una copia impresa de las diferentes tablas de cables. Si la desenrollas, nisiquierapuedessostenerelpapelenlamanosinquearrastreporelsuelo.Yhabíaqueconseguirencontrarlesentidoatodoeso;excavarparadarconeloro,conseguircomofueraunmodelopredictivorealmentebueno”.

Rudin y su equipo tuvieron que usar todos los datos disponibles, no sólo unamuestra,puestoquecualquieradelasdecenasdemilesdetapaspodríaserunabomba


derelojería.AsíqueelproyectorequeríaN=todo.Y,aunquehabríaestadobiendarconrazonescausales,sehubieratardadounsiglo,parallegaraunasíaunresultadoerróneo o incompleto. La mejor forma de cumplir la tarea era encontrar lascorrelaciones.ARudinleimportabamenosporquéquecuál—aunqueeraconscientede que cuando tuvieran que sentarse con los ejecutivos de Con Edison, losestadísticosnecesitaríanjustificarmuybienlosrankingsquepresentaran.Puedequelasprediccioneslashubieseelaboradounamáquina,perolosconsumidoreseransereshumanos,ylagentetiendeaquererrazones,yaquererentenderlas.

El trabajo dedatamining sacó a la luz las pepitas de oro queRudin esperabahallar. Después de depurar los datos confusos para que los pudiera procesar unordenador,elequiposepusomanosalaobracon106indicadoresquepredecíanunacatástrofeenelsubsuelo.Acontinuación,condensaronesalistahastadejarlareducidaaunpuñadodelasseñalesmásfuertes.EnunapruebadelaredeléctricadelBronx,analizaron todos losdatosdequedisponíanhastamediadosde2008.Luegousaronesosdatosparapredecirpuntosproblemáticosen2009.Yfuncionó.El10por100delastapasencabezadesulistaincluíanunasombroso44por100delasqueacabaronprotagonizandoincidentesconsiderables.

Alfinal,losfactoresfundamentalesresultaronserlaantigüedaddeloscablesyelquelastapashubiesenexperimentadoproblemasanteriormente.Dalacasualidaddeque esto fue útil, porque significó que los directivos de Con Edison pudieroncomprender fácilmente la base del ranking. Ahora bien, un momento, por favor.¿Antigüedadyproblemasprevios?¿Noparecebastanteobvio?Bueno, síyno.Porunaparte, como legustadecir al teóricode las redesDuncanWatts, “Todo resultaobviounavezqueseconocelarespuesta”(eseltítulodeunodesuslibros).Porotra,es importante recordarque en elmodelooriginal había106 factoresdepredicción.No era tan evidente cómo ponderarlos, y luego poner en orden varias decenas demilesdetapas,cadaunaconinnumerablesvariablesque,agregadas,dabanmillonesde puntos de datos; datos que ni siquiera estaban en un formato que permitiese suanálisis.

El casode las tapasde registro explosivasponede relieve el hechodeque losdatosseestánaplicandoanuevosusospararesolverproblemasdifícilesdelmundoreal. Sin embargo, huboque cambiar deoperativa.Tuvimosque emplear todos losdatos,tantoscomopudiésemosrecopilar,ynosólounaporción.Necesitamosaceptarla confusión en vez de considerar la exactitud comouna prioridad.Y tuvimos quedepositar nuestra confianza en las correlaciones sin conocer del todo las basescausalesdelaspredicciones.


¿ELFINDELATEORÍA?

Losdatosmasivostransformannuestraformadecomprenderyexplorarelmundo.Enlaeradelosdatosescasos,nosguiábamosporlashipótesissobrecómofuncionabaelmundo,queluegointentábamosvalidarrecopilandoyanalizandodatos.Enelfuturo,nuestro entendimiento será guiado más por la abundancia de datos que por lashipótesis.

Estashipótesisamenudoderivandeteoríasdelascienciasnaturalesosociales,loque a su vez ayuda a explicar y/o a predecir el mundo que nos rodea. Mientrasrecorremos la transición desde un mundo dirigido por las hipótesis a un mundodirigidopor losdatos,puedequenos tientepensarque tampoconecesitamosya lasteorías.

En 2008, Chris Anderson[53], director de la revista Wired, proclamó que “eldiluvio de datos vuelve obsoleto el método científico”. En el artículo de portada,titulado “La era de los petabytes”, proclamóque representaba pocomenos que “elfinalde las teorías”.Elproceso tradicionaldeldescubrimientocientífico—elde lahipótesis puesta a prueba contra la realidad usando un modelo de causalidadessubyacentes— está extinguiéndose, afirmaba Anderson, sustituido por el análisisestadísticodecorrelacionespurascarentedeteoría.

Para apoyar su argumento, Anderson describía cómo la física cuántica se haconvertido en un campo casi puramente teórico, porque los experimentos sondemasiado caros, demasiado complejos y demasiado grandes para resultar viables.Hayteorías—sugirió—quenadatienenqueveryaconlarealidad.Comoejemplosdelnuevométodo, se refirió almotordebúsquedadeGoogley a la secuenciacióngenética. “Este es un mundo en el que las cantidades masivas de datos y lasmatemáticas aplicadas sustituyen a cualquier otra herramienta —escribió—. Consuficientesdatos,lascifrashablanporsímismas.Lospetabytesnospermitendecir:‘Lacorrelaciónbasta’”.

Este artículo desencadenó un debate furibundo e importante, aun cuandoAnderson[54] dio rápidamente marcha atrás en su afirmación más osada, pero suargumentaciónmereceserexaminada.Enesencia,Andersonsostieneque,hastahacepoco, mientras intentábamos analizar y comprender el mundo que nos rodea,necesitábamos teorías que poner a prueba. Por el contrario, en la era de los datosmasivos,segúnrezasutesis,nonecesitamosteorías:podemoslimitarnosaexaminarlosdatos.Desercierto,estosugeriríaque todas las reglasgeneralizablesacercadecómo funciona elmundo, cómo se comportan los sereshumanos, qué compran losconsumidores,cuándoserompenlaspiezas,etcétera,puedenvolverseirrelevantesalimponerseelanálisisdelosdatosmasivos.

El“finaldelateoría”pareceimplicarque,mientrasquelasteoríashanexistidoencampos sustantivos como la física o la química, el análisis de datos masivos no


precisadeningúnmodeloconceptual.Yestoesridículo.El propio enfoque de los datosmasivos está basado en la teoría. Por ejemplo,

empleateoríasestadísticasymatemáticasy,enocasiones,recurretambiénalateoríadelascienciasinformáticas.Sí,éstasnosonteoríasacercadelasdinámicascausalesdeunfenómenodeterminadocomolagravedad,peronoporesodejandeserteorías.Y,comoyasehadicho,losmodelosbasadosenellastienenunpoderdepredicciónmuy útil. De hecho, los datos masivos pueden ofrecer una perspectiva fresca yenfoques nuevos precisamente porque no están lastradas por el pensamientoconvencional ni por el sesgo inherente implícito en las teorías de un campodeterminado.

Esmás,dadoqueelanálisisdedatosmasivosestábasadoenteorías,nopodemoshuir de ellas: conforman tanto nuestros métodos como nuestros resultados. Todoempieza por cómo seleccionamos los datos. Nuestras decisiones pueden venirdictadasporlaconveniencia(¿sonfácilmenteaccesibleslosdatos?)opormotivosdeeconomía (¿pueden recogerse por poco dinero?). Nuestras elecciones[55] se vendictadas por la teoría. Lo que escogemos influye en lo que hallamos, como hanargumentado danah boyd y Kate Crawford. Después de todo, Google empleótérminos de búsqueda, no la longitud del cabello, como aproximación a la gripe.Igualmente, cuando analizamos los datos escogemos instrumentos que se basan enteorías.Ycuandointerpretamoslosresultados,aplicamosteoríasdenuevo.Estáclaroquelaeradelosdatosmasivosnocarecedeteorías:estánportodaspartes,contodoloqueelloimplica.

Hay que reconocerle a Anderson el mérito de haber planteado las preguntascorrectas,y,loqueesmásimportante,dehaberlohechoantesquenadie.Elenfoquede datos masivos puede no suponer el “fin de la teoría”, pero sí que transformaradicalmentenuestraformadeexplicarelmundo.Vaacostarmuchoacostumbrarseaestecambio.Suponeundesafíoparamuchasinstituciones.Sinembargo,eltremendovalorquenosbrindaloconvertiránosóloenuntruequeventajoso,sinoinevitable.

Peroantesdequelleguemosaesepunto,merecelapenaseñalarcómolohicimos.Amuchas personas en el ámbito de la industria tecnológica les gusta atribuirle elmérito de la transformación a las nuevas herramientas digitales, desde los chipsrápidoshastaelsoftwareeficiente,porquesonellaslascreadorasdelasherramientas.Labrujeríatécnicatienesuimportancia,peronotantacomounopudierapensar.Larazónprofundadeestatendenciaesqueahoratenemosmuchosmásdatos.Ylarazónde que dispongamos de más datos es que estamos plasmando más aspectos de larealidadenformatodedatos,queeseltemadelsiguientecapítulo.


V

DATIFICACIÓN

Matthew Fontaine Maury[56] era, en 1839, un prometedor oficial de la armadaestadounidense, de camino a su nuevo destino en el bergantínConsort, cuando sudiligenciasesaliórepentinamentedelcamino,volcóylolanzóporlosaires.Maurycayómal,fracturándoseelfémurydislocándoselarodilla.Unmédicodelavecindadlevolvióaponerlaarticulaciónensusitio,perolafracturanocerróbienyhuboquevolver a romper el hueso unos días después. Las lesiones dejaron a Mauryparcialmente tullido e incapacitado para navegar, con sólo treinta y tres años.Después de casi tres años recuperándose, la armada lomandó a undespacho, paradirigir el Depósito de Cartas de Navegación e Instrumentos, de nombre pocoinspirado.

Pero aquél resultó ser el destino perfecto para él.De joven, aMaury lo dejabaperplejoquelosbarcosnavegaranenzigzagporelmarenvezdeseguirunarutamásdirecta. Cuando le preguntaba a los capitanes al respecto, le contestaban que eramuchomejorseguiruncursofamiliarquearriesgarseporunomenosconocidoyconposiblespeligrosocultos.Contemplabanelocéanocomounreinoimpredecibleenelquelosmarinosseenfrentabanaloinesperadoconcadavientoycadaola.

PeroMaurysabíaporsusviajesqueestonoeraenteramentecierto.Éladvertíapatrones en todas partes.Durante una escala prolongada enValparaíso (Chile), fuetestigodecómolosvientosfuncionabancomounreloj.Unvendavalaúltimahoradelatardecesababruscamentealponerseelsolyseconvertíaenunasuavebrisa,comosialguienhubiesecerradoungrifo.Enotroviajeatravesólascálidasaguasazulesdela corriente del Golfo al paso de ésta entre los muros oscuros de las aguas delAtlántico, tan distinguible y fija como si fuera el río Mississippi. De hecho, losportugueses habían navegado por el Atlántico durante siglos apoyándose en losvientosuniformesdelevanteyponienteconocidoscomo“alisios”.

CadavezqueelguardiamarinaMauryllegabaaunpuertonuevo,sededicabaabuscaraantiguoscapitanesretiradosparabeneficiarsedesuconocimiento,basadoenexperienciastransmitidasalolargodelasgeneraciones.Aprendióacercademareas,vientosycorrientesmarinasquefuncionabanconregularidadyquenoaparecíanenloslibrosymapasquelaArmadafacilitabaasusmarinos.Alcontrario,estoslibrosse basaban en cartas que a veces tenían cien años,muchas de ellas con omisionesimportantesomuyinexactas.EnsunuevopuestocomosuperintendentedelDepósitodeCartasdeNavegacióneInstrumentos,Maurysepropusoarreglaresto.

Al asumir el puesto, hizo inventariar los barómetros, brújulas, sextantes y


cronómetrosdelacoleccióndeldepósito.Asimismolevantóactadelosinnumerableslibros náuticos, mapas y cartas que almacenaba. Halló cajas mohosas llenas deantiguos cuadernos de bitácora de remotos viajes de capitanes de la Armada. Susantecesoresenelpuesto loshabíanconsideradobasura.Consusocasionalesversosjocosos o dibujos en los márgenes, a veces aquellos cuadernos parecían más unaescapatoriadeltediodelatravesíaqueunregistrodelaposicióndelosnavíos.

PeroconformeMauryibadesempolvandoloslibrosmanchadosdeaguasaladayrevisandosucontenido,empezóaemocionarsemucho.Ahíestabalainformaciónquenecesitaba:anotacionesacercadelviento,elaguayeltiempoenlugaresespecíficosyen fechas concretas.Aunque algunosde los cuadernos carecíande interés,muchosrebosabande informacionesútiles.Siserecopilabantodas—comprendióMaury—,resultaríaposiblecrearunaformaenteramentenuevadecartadenavegación.Mauryysusdoce“computadores”—asísellamabaelpuestodequienescalculabandatos—iniciaron el proceso laborioso de extractar y tabular la información encerrada enaquelloscuadernosdebitácoramediopodridos.

MauryagrególosdatosydividiótodoelAtlánticoenbloquesdecincogradosdelongitudylatitud.Luego,anotólatemperatura,lavelocidadyladireccióndelvientoydeloleajeencadasegmento,asícomoelmes,puestoqueesascondicionesvariabansegún la época del año. Una vez combinados, los datos revelaron patrones yapuntaronunasrutasmáseficientes.

Losconsejossecularesdelosantiguosnavegantesavecesmandabanalosbarcosdirectamente a zonas de calma chicha o los arrojaban contra vientos y corrientescontrarios.Enunarutanormal,deNuevaYorkaRíodeJaneiro,hacíamuchoquelosmarinos tendían a combatir los elementos en lugar de apoyarse en ellos. A loscapitanesestadounidensesseleshabíaenseñadoaevitarlospeligrosdelarutadirectarumbosurhaciaRío.Asípues,susbarcosseguíanunoscilanterumbosudeste,antesde virar hacia el sudoeste, tras cruzar el ecuador.La distancia navegada amenudorepresentabatrestravesíascompletasdelAtlántico.Esarutatortuosanoteníaningúnsentido.Funcionabamejorunrumboaproximadamenterectoendirecciónsur.

Paramejorar laexactitud,Maurynecesitabamásinformación.Entoncescreóunimpreso estándar para registrar los datos de los barcos y consiguió que todos losbuquesdelaArmadaestadounidenselousaranyloentregaranalvolverapuerto.LosbarcosmercantessemostraronansiososporhacerseconlascartasdeMaury,quien,porsuparte,insistíaenqueacambioleentregasentambiénsuscuadernosdebitácora(amododeprecozredsocialviral).“Cadabarcoquenavegaenaltamar—proclamó— puede ser considerado de ahora en adelante como un observatorio flotante, untemplo de la ciencia”. Para perfeccionar las cartas náuticas, buscó otros puntos dedatos (igual que Google perfeccionó el algoritmo de PageRank para incluir másseñales).Logróqueloscapitanesarrojasenalmar,cadaciertadistancia,unasbotellascon notas indicando el día, la posición, el viento y la corriente dominante, y querecogieranlasbotellasdeestetipoquesetopasen.Muchosbarcoslucíanunaenseña


especialparaindicarquecolaborabanenelintercambiodeinformación(presagiandolosiconosdecompartirenlacesquehoyfiguranenalgunaspáginasweb).

Apartirdelosdatos,serevelaronunoscaminosmarinosnaturales,enlosquelosvientosylascorrienteseranparticularmentefavorables.LascartasnáuticasdeMauryredujeron la duración de los viajes largos normalmente en una tercera parte,ahorrándoles buen dinero a los comerciantes. “Hasta que seguí su trabajo, habíacruzadoelocéanoaciegas”,leescribióuncapitánagradecido.Hastalosviejoslobosde mar que rechazaban las cartas novedosas y seguían confiando en los métodostradicionalesoensuintuicióncumplíanunpropósitoútil:sisustravesíasexigíanmástiempooacababanendesastre,demostrabanlautilidaddelsistemadeMaury[57].Para1855,cuandopublicósuobramagistralThePhysicalGeographyof theSea,Mauryhabíatrazado1,2millonesdepuntosdedatos.“Deestamanera,eljovenmarino,envezdeabrirsecaminoa tientashastaque loalumbraran las lucesde laexperiencia[…]encontraráaquí,deunasolavez,queyadisponedelaexperienciadeunmillardenavegantesparaguiarlo”,escribió.

Sutrabajoresultóesencialparatenderelprimercabletelegráficotransoceánico.Además, después de una trágica colisión en altamar, puso a punto rápidamente elsistemaderutasdenavegaciónquehoyesdeusocorriente.Hastaaplicósumétodoala astronomía: cuando el planetaNeptuno fue descubierto en 1846,Maury tuvo labrillante ideadepeinar los archivos enbuscade referencias equivocadas almismocomounaestrella,loquepermitiócalcularsuórbita.

Mauryhasidoampliamenteignoradoenloslibrosdehistoriaestadounidense,talvez porque presentó la dimisión de la Armada de la Unión durante la guerra deSecesión,yejerciódeespíaparalaconfederaciónenInglaterra.Perounosañosantes,cuandollegóaEuropabuscandorecabarapoyointernacionalparasuscartas,cuatropaíses lo hicieron caballero y recibiómedallas de oro de otros ocho, entre ellos laSanta Sede. Al alumbrar el siglo XXI, las cartas de navegación publicadas por laArmadaestadounidensetodavíallevabansunombre.

El comandanteMaury, el “explorador de losmares”, fue de los primeros en darsecuenta de que existe unvalor especial en un cuerpode datos enorme, que falta encantidades más pequeñas: un principio central del enfoque de datos masivos. Deforma aúnmás esencial, comprendió que losmohosos cuadernos de bitácora de laArmada constituían en realidad “datos”[58] quepodían extraersey tabularse.Yconello seconvirtióenunode lospionerosde ladatificación,dedesenterrardatosdelmaterialalquenadieconcedíaelmenorvalor.AligualqueOrenEtzionideFarecast,queusó las informacionesantiguassobrepreciosdel transporteaéreoparacrearunnegociolucrativo,oquelosingenierosdeGoogle,queaplicaronbúsquedasantiguasalacomprensióndelasepidemiasdegripe,Maurytomóunainformacióngeneradaparaunpropósitoylaconvirtióenalgodistinto.


Sumétodo, similar en líneas generales a las técnicas de datosmasivos de hoy,resultaasombroso, teniendoencuentaque loelaboróconpapely lápiz.Suhistoriaponederelieveenquégradoelempleodedatosmasivosprecedealadigitalización.Hoyendía tendemosafusionar losdos,peroes importantemantenerlosseparados.Para adquirir una comprensión plena de cómo se extraen datos de los lugaresmásinsospechados,veamosahoraunejemplomásmoderno.

ShigeomiKoshimizu,unprofesordelInstitutoAvanzadodeTecnologíaIndustrialde Japón, sito enTokio, se dedica al arte y la ciencia de analizar el trasero de losdemás. Pocos pensarían que la forma de sentarse de una persona constituyeinformación,peropuedeserlo.Cuandoalguienestásentado,elcontornodelcuerpo,laposturayladistribucióndelpesopuedencuantificarseytabularse.Koshimizuysuequipo de ingenieros convirtieron los traseros en datos, midiendo con sensores lapresiónen360puntosdiferentesdelasientodeuncoche,eindexandocadapuntoenunaescalade0a256.El resultadoesuncódigodigitalúnicoparacada individuo.Durante una prueba, el sistema se mostró capaz de distinguir entre un grupo depersonasconun98por100deacierto.

Estainvestigaciónnoesningunanecedad.Setratabadedesarrollarlatecnologíaparaunsistemaantirroboenvehículos.Uncocheequipadoconélpodríadetectarsiestabaalvolante alguiendistintodel conductor autorizado,y exigirunacontraseñapara poder seguir conduciendo, o incluso detener el motor. La transformación deposicionesendatoscreaunservicioviableyunnegociopotencialmentelucrativo.Ysuutilidadpuedeirmásalládeimpedirelrobodevehículos.Porejemplo,losdatosagregados podrían brindar pistas acerca de la relación entre la postura de losconductores al volante y la seguridad vial si, por ejemplo, se dan una serie decambios reveladoresen laposicióndelconductorantesdeunaccidente.El sistematambiénpodríasercapazdedetectarcuándounconductorsevenceligeramentehaciaunladoporelcansancio,yenviarunaalertaoaplicarautomáticamentelosfrenos.Ypodríanosóloprevenirel robodeuncoche,sino identificaral ladrónpordonde laespaldapierdesunombre.

ElprofesorKoshimizutomóalgoquenuncahabíasidotratadocomodatos—nisiquierasehabíapensadoquepudieratenercalidadinformativa—ylotransformóenunformatocuantificadonuméricamente.Demodosimilar,elcomodoroMaurytomóunmaterialqueparecíadeescasautilidadyleextrajoinformación,convirtiéndoloendatoseminentementeútiles.Yconello,consiguióqueseutilizaralainformacióndeformanovedosayquecobraraunvalorúnico.

Lapalabralatinadatasignifica“dado”,enelsentidode“hecho”.EstetérminoseconvirtióeneltítulodeunaobraclásicadeEuclides,enlaqueexplicalageometríaapartir de loque se sabe, o sepuedemostrar que se sabe.Hoyendía, pordatos seentiende una descripción de algo que permite ser registrado, analizado yreorganizado.Aúnnoexisteuntérminoadecuadoparalaclasedetransformacionesproducidas por el comodoro Maury y el profesor Koshimizu. Así pues, vamos a


llamarlas datificación. “Datificar” un fenómeno es plasmarlo en un formatocuantificadoparaquepuedasertabuladoyanalizado.

Ahorabien,estoesalgomuydiferentedeladigitalización,oprocesoporelqueseconviertelainformaciónanalógicaenlosunosycerosdelcódigobinarioparaquelosordenadorespuedanmanejarla.Ladigitalizaciónno fue loprimeroquehicimoscon losordenadores.Laera inicialde la revolución informática fuecomputacional,como sugiere la etimología de la palabra.Usamosmáquinas para efectuar cálculosque losmétodosanterioreshacíanmásdespacio,como las tablasde trayectoriasdemisiles, los censos y las predicciones meteorológicas. Lo de tomar contenidoanalógico y digitalizarlo vino después. De ahí que, en 1995, cuando NicholasNegroponte, del laboratorio de medios del MIT, publicó su sobresaliente librotituladoSerdigital,unodesusprincipalestemaseraelpasodelosátomosalosbits.En la década de 1990, fundamentalmente nos dedicamos a digitalizar textos.Másrecientemente,puestoquelacapacidaddealmacenaje,lapotenciadeprocesamientoyelanchodebandahanaumentado,lohemoshechotambiénconotrosformatosdecontenido,comolasimágenes,losvídeosylamúsica.

Hoyendía,lostecnólogoscompartenlacreenciaimplícitadequeellinajedelosdatosmasivosseremontaalarevolucióndelsilicio.Esto,simplemente,noesasí.Escierto que losmodernos sistemas de tecnología de la información (TI) ciertamentehanhechoposibleslosdatosmasivos,pero,enesencia,elpasoalosdatosmasivosesunacontinuacióndeesaantiguamisiónhumanaqueesmedir,registraryanalizarelmundo.LarevolucióndelaTIesevidenteentodoloquenosrodea,peroelénfasissehapuesto fundamentalmente en laT, la tecnología.Eshoradevolver lavistaparafijarnosenlaI,lainformación.

Parapoder capturar información cuantificable, para datificar, necesitamos sabercómo medirla y cómo registrar lo que medimos. Esto requiere instrumentosadecuados.Tambiénprecisadeldeseodecuantificaryregistrar.Ambossonrequisitospara ladatificación,y losbloquesdeconstrucciónnecesariosparaesemenester loshabíamosdesarrolladomuchossiglosantesdequeamanecieselaeradigital.


CUANTIFICARELMUNDO[59]

Lacapacidaddearchivarinformaciónesunadelaslíneasqueseparanlassociedadesprimitivasdelasavanzadas.Lacontabilidadylasmedidasdelongitudypesobásicasse hallan entre las herramientas conceptuales más antiguas de las civilizacionestempranas.Paraeltercermilenioa.deC.,laideadelainformaciónregistradahabíaprogresado significativamente en el valle del Indo, en Egipto y en Mesopotamia.Aumentólaexactitud,aligualqueelempleodelasmedicionesenlavidacotidiana.Aparte, laevolucióndelaescrituraenMesopotamiaaportóunmétodoprecisoparallevar la cuenta de la producción y de las transacciones de negocios. El lenguajeescritolespermitióalasprimerascivilizacionesmedirlarealidad,tomarnotadeellayrecuperarlamástarde.Alapar,losactosdemediryregistrarfacilitaronlacreacióndelosdatos.Fueronloscimientosprimerosdeladatificación.

Asísehizoposiblecopiarlaactividadhumana.Losedificios,porejemplo,podíanser reproducidos a partir de los registros de sus dimensiones y de los materialesempleados. Asimismo, se daba pie a la experimentación: un arquitecto o unconstructorpodíanalterardeterminadasdimensionesmanteniendolasdemásintactas,creando así un nuevo diseño… que luego podía ser archivado a su vez. Lastransacciones comerciales podían anotarse, de forma que constara cuánto grano sehabíaobtenidoentalcosechaocampo(ycuántosellevaríaelestadoenimpuestos).Lacuantificaciónpermitiópredeciry,porconsiguiente,planificar,auncuandofuesealgo tan pedestre como suponer que la cosecha del año venidero sería igual deabundantequeladelosanteriores.Ahora,laspartesdeunatransacciónpodíansabercuántoseadeudabanentresí.Sinmediryarchivarnopodríahaberdinero,porquenohabríahabidodatosenquébasarlo.

Alolargodelossiglos,lamediciónseextendiódelalongitudyelpesoalárea,elvolumen y el tiempo. A principios del primer milenio de nuestra era, lascaracterísticas principales de la medición ya estaban implantadas en Occidente.Ahora bien, la forma demedir de las primeras civilizaciones tenía una desventajasignificativa: no estaba optimizada para los cálculos, ni siquiera para losrelativamente sencillos. El sistema de cómputo de los numerales romanos no seajustaba bien al análisis numérico. Sin un sistema de numeración “posicional” debasediez,nidecimales,lamultiplicaciónyladivisióndenúmerosgrandesresultabauna tareacomplicada inclusopara losexpertos,y las simples sumasy restas se lesresistíanalamayoríadelosdemás.

EnlaIndia,alrededordelsigloI,sedesarrollóunsistemaalternativodenúmeros.DeahíllegóaPersia,dondefuemejorado,yluegopasóalosárabes,quelorefinaronconsiderablemente.Es labasede losnúmerosarábigosqueusamoshoy.Puedequelas Cruzadas asolasen las tierras invadidas por los europeos, pero durante ellas elconocimientoemigródelestealoeste,yquizáel trasplantemásrelevantefueelde


losguarismosarábigos.ElpapaSilvestre II,que loshabíaestudiado, abogópor suuso a finales del primer milenio. Llegado el siglo XII, varios textos árabes quedescribíanelsistemasetradujeronallatínysedifundieronportodaEuropa.Yasíseprodujoeldespeguedelasmatemáticas.

PeroantesinclusodequelosnúmerosarábigosllegasenaEuropa,elcálculosehabía visto mejorado mediante el empleo de tableros de recuento, es decir, unastablaslisassobrelasquesecolocabanfichasquerepresentabancantidades.Almoverlas fichas a determinadas áreas del tablero, se sumaba o restaba. El método, sinembargo, presentaba serios inconvenientes.Resultaba difícil calcular númerosmuygrandesymuypequeñosalmismotiempo.Peoraún:losnúmerossobrelostableroserantransitorios.Unmovimientoenfalsooungolpepordescuidopodíancambiarundígitoyllevararesultadosincorrectos.Lostablerosderecuentoerantolerablesparahacer cálculos, pero no servían para registrar nada. La única forma de registrar yarchivarlosnúmerosqueaparecíaneneltableropasabaporconvertirlosdenuevoenineficientesnúmerosromanos.(Loseuropeosnuncasevieronexpuestosalábaco[60]oriental;retrospectivamente,quizáfueseunaventaja,porqueeseinstrumentopodríahaberprolongadoelusodelosnúmerosromanosenOccidente).

Las matemáticas dieron un nuevo sentido a los datos: ahora éstos podían seranalizados, no sólo registrados y recuperados. La adopción generalizada de lanumeración arábiga en Europa tardó cientos de años, desde su introducción en elsigloXII hasta finales del sigloXVI. Para entonces, losmatemáticos se jactaban depoder calcular seis vecesmás deprisa con guarismos arábigos que con tableros derecuento. Lo que finalmente ayudó a consolidar los números arábigos fue laevolucióndeotraherramientadedatificación:lacontabilidadporpartidadoble.

Laescritura la inventaron loscontablesenel tercermilenioa.deC.Aunque lacontabilidadevolucionóalolargodelossiglossiguientes,enlíneasgeneralessiguiósiendo un sistema para registrar una transacción económica en un soportedeterminado.Loquenohacíaeramostrardeformasencilla,encualquiermomento,loquemáslesimportabaaloscontablesyasusjefes,losmercaderes:siunacuentadeterminadaounaoperacióncomercialcompletaeranrentablesono.EsoempezóacambiarenelsigloXIV,cuandoloscontablesitalianosregistraronporprimeravezlastransaccionesempleandodosasientos:unoparaloscréditosyotroparalosdébitos,de forma que las cuentas en conjunto quedaran equilibradas. La belleza de estesistema radicaba en que hacía fácil advertir las pérdidas y las ganancias.Y así, derepente,losdatosmudosempezaronahablar.

Hoy en día, sólo le damos valor a la contabilidad por partida doble por susconsecuencias para la contabilidad y las finanzas, en general, pero su apariciónrepresentóunhitoenelempleodelosdatos.Permitióregistrarlainformaciónbajolaformade“categorías”quevinculabanlascuentas.Funcionabamedianteunaseriedereglas sobre cómo anotar los datos: uno de los primeros ejemplos del registronormalizadodeinformación.Uncontablecualquierapodíamirarloslibrosdeotroy


comprenderlos. Estaba organizada de forma que un tipo específico de consulta dedatos—el cálculo de pérdidas o ganancias para cada cuenta— resultase rápido ysencillo.Yofrecíaademásunrastrode transaccionesquesepodíaseguir,deformaque los datos resultaban más fáciles de localizar. Los maniáticos de la tecnologíapuedenapreciarlobienhoyendía:eldiseñoincorporabadefábricala“correccióndeerrores”.Siunodelosladosdellibromayorparecíaestarmal,sepodíacomprobarlaentradacorrespondiente.

Contodo,igualquelosnúmerosarábigos,lacontabilidaddedobleasientonofueunéxitoinmediato.Doscientosañosdespuésdequeseinventara,aúnhicieronfaltaun matemático y una familia de mercaderes para cambiar la historia de ladatificación.

El matemático fue un monje franciscano llamado Luca Pacioli, que en 1494publicó un manual, dirigido al lector profano, acerca de las matemáticas y suaplicaciónalcomercio.Laobrafueungranéxitoyseconvirtió,dehecho,enellibrodetextodematemáticasdesuépoca.Fueasimismoelprimeroqueempleódeformasistemática la numeración arábiga, y supopularidad facilitó la adopciónde ésta enEuropa.Sumayorymásduraderacontribución,sinembargo,fuelaseccióndedicadaa la teneduría de libros, en la que Pacioli explicaba claramente el sistema decontabilidadporpartidadoble.Alolargodelasdécadassiguientes,estapartesobrecontabilidadsepublicóporseparadoenseisidiomas,ydurantesiglossiguiósiendoeltextodereferenciasobrelamateria.

En cuanto a la familia de mercaderes, se trataba de los Médici, famososcomerciantesymecenas.EnelsigloXVI,losMédiciseconvirtieronenlosbanquerosmásinfluyentesdeEuropa,ennopocamedidaporqueempleabanunmétodosuperiorderegistrodedatos,elsistemadedobleasiento.Juntos,ellibrodetextodePacioliyeléxitodelosMédicialaplicarlo,sellaronlavictoriadelacontabilidadporpartidadobley,porextensión,establecieronelusodelosnúmerosarábigosenOccidente.

Enparaleloalosavancesenelregistrodedatos,lasformasdemedirelmundo—en tiempo, distancia, área, volumen y peso— siguieron ganando cada vez mayorprecisión.Elceloporentenderlanaturalezaatravésdelacuantificacióncaracterizóala ciencia del siglo XIX, a medida que los investigadores iban inventando nuevasherramientasyunidadesparamediryregistrarcorrienteseléctricas,presióndelaire,temperatura, frecuencia del sonido, y demás. Fue una era en la que absolutamentetodo teníaque serdefinido, diferenciadoy explicado.La fascinación llegóhasta elextremodemedirelcráneode lagentecomoaproximaciónasucapacidadmental.Afortunadamente, la pseudociencia de la frenología ha desaparecido casi porcompleto,peroeldeseodecuantificarnohahechosinointensificarse.

Lamediciónyelregistrodelarealidadprosperarondebidoalacombinacióndeherramientasdisponiblesylamentalidadreceptiva.Esamezclaeslatierrafértilenlaque ha arraigado la datificación moderna. Los ingredientes para datificar estabanpreparados,aunqueenunmundoanalógicolacosaresultabaaúncostosayconsumía


muchotiempo.Enmuchoscasos,exigíaunapaciencia,alparecer,infinita,ocuandomenosladedicacióndetodaunavida,comolasfastidiosasobservacionesnocturnasde estrellas y planetas que hacía Tycho Brahe a principios del siglo XVI. En loscontadoscasosenquetriunfóladatificacióndurantelaeraanalógica,comoeldelascartas náuticas del comodoro Maury, se debió a una afortunada serie decoincidencias:Maury,porejemplo,sevioconfinadoauntrabajodedespacho,peroconaccesoatodountesoroenformadecuadernosdebitácora.Sinembargo,enloscasos en que la datificación sí tuvo éxito, aumentó enormemente el valor de lainformaciónsubyacente,yselograronunaspercepcionesextraordinarias.

El advenimiento de las computadoras trajo consigo equipos de medida yalmacenaje que hicieron sumamente más eficiente el proceso de datificación.También facilitó en gran medida el análisis matemático de los datos, permitiendodescubrirsuvaloroculto.Enresumen,ladigitalizaciónpropulsaladatificación,peronolasustituye.Elactodedigitalizar—convertirinformaciónanalógicaaunformatolegibleporelordenador—nodatificaporsímismo.


CUANDOLASPALABRASSECONVIERTENENDATOS

La diferencia entre la digitalización y la datificación se torna evidente cuando seexamina un terreno en el que se han producido ambas, y se comparan susconsecuencias. Pensemos en los libros. En 2004, Google anunció un proyecto deincreíbleosadía:ibaahacersecontodaslaspáginasdecuantoslibrospudiera,y—enlamedidaposibleenelmarcode las leyessobrepropiedad intelectual—permitiracualquierpersonadelmundoaccederaesoslibrosporinternet,yrealizarbúsquedasen ellos gratis. Para lograr esta hazaña, la compañía se asoció con algunas de lasmayoresymásprestigiosasbibliotecasuniversitariasdelmundoypusoapuntounasmáquinas de escanear que pasaban automáticamente las páginas, demanera que elescaneadodemillonesdelibrosfuesealtiempofactibleyeconómicamenteviable.

Primero, Google digitalizó el texto: todas y cada una de las páginas fueronescaneadas y guardadas en archivos de imagen digital de alta resolución que sealmacenaronenlosservidoresdelaempresa.Cadapáginahabíasidotransformadaenuna copia digital, que podría ser fácilmente recuperada a través de la red porcualquier persona. Sin embargo, para recuperar esa información hacía falta, o biensaberquélibrolacontenía,obienleermuchohastadarconelpasajecorrecto.Unonopodíabuscarunaspalabrasdeterminadaseneltexto,nianalizarlo,porqueeltextono había sido datificado. Google disponía sólo de unas imágenes que los sereshumanospodíanconvertireninformaciónútilúnicamenteleyéndolas.

Aunque esto habría supuesto una gran herramienta de todas maneras —unabiblioteca de Alejandría digital, más exhaustiva que ninguna otra antes—,Googlequeríamás.Lacompañíacomprendíaquelainformaciónencerrabaunvalorquesólose haría evidente una vez datificado. Así que Google empleó un programa dereconocimientoópticodecaracteresquepodíatomarunaimagendigitaleidentificarlas letras, palabras y párrafos.El resultado fue un texto datificado en lugar de unaimagendigitalizadadeunapágina.

Ahora, la informaciónde lapáginaerautilizablenosólopor lectoreshumanos,sino tambiénpor losordenadores,quepodíanprocesarla;ypor losalgoritmos,quepodían analizarla. La datificación hizo que pudiera indexarse el texto y que, porconsiguiente, pudieran hacerse búsquedas en él.Y permitió un flujo inacabable deanálisis textual: ahora podemos descubrir cuándo se utilizaron por primera vezdeterminadaspalabrasofrases,ocuándosevolvieronpopulares,conocimientosquearrojannuevaluzsobreladiseminacióndelasideasylaevolucióndelpensamientohumanoatravésdelossiglos,yenmuchosidiomas.

El lector puede hacer la prueba por sí mismo. El Ngram Viewer de Google(http://books.google.com/ngrams)generaráunagráficadelusodepalabrasofrasesalo largodel tiempo, empleando el índice íntegrodeGoogleBooks como fuentededatos.Encuestióndesegundos,descubrimosquehasta1900eltérmino“causalidad”


http://www.books.google.com/ngrams

seusabaconmayorfrecuenciaqueelde“correlación”,peroluegoseinvirtiólaratio.Podemos comparar estilos de escritura y dilucidar ciertas disputas de autoría. Ladatificaciónhaceasimismomuchomásfácildetectarelplagioenobrascientíficas;araíz de ello, una serie de políticos europeos, entre ellos un ministro de defensaalemán,sehanvistoforzadosadimitir.

Seestimaquesehanpublicadounos130millonesdelibrosindividualesdesdelainvenciónde la imprenta amediadosdel sigloXV. En 2012, siete años después deiniciarGooglesuproyectobibliográfico,habíaescaneadomásdeveintemillonesdetítulos,másdel15por100dellegadoescritodelahumanidad,esdecir,unaporciónconsiderable. Esto ha originado una nueva disciplina académica llamada“culturonomía”: la lexicología informática que intenta comprender elcomportamientohumanoylastendenciasculturalesmedianteelanálisiscuantitativodetextos.

Enunestudio,varios investigadoresdeHarvard[61] revisaronmillonesde libros(querepresentabanmásde500000millonesdepalabras)ydescubrieronquemenosdelamitaddelaspalabrasinglesasqueaparecenenloslibrosestánrecogidasenlosdiccionarios.Alcontrario,escribieron,lamayorabundanciadepalabras“consisteen‘materiaoscura’léxicasindocumentarenlasobrasdereferenciaestándar”.Esmás,al analizar algorítmicamente las referencias al pintor Marc Chagall, cuyas obrasfueron prohibidas en la Alemania nazi por su origen judío, los investigadoresdemostraronquelasupresiónocensuradeunaideaopersonadeja“huellasdactilarescuantificables”.Laspalabrassoncomofósilesincrustadosenlaspáginasenvezdeenlarocasedimentaria;quienessededicanalaculturonomíapuedenexcavarlascomosifuesenarqueólogos.Pordescontado,eseconjuntodedatostraeconsigounacantidadastronómicadeprejuiciosimplícitos:¿constituyenacasoloslibrosdelasbibliotecasunreflejofieldelmundoreal,osimplementedelmundoquelesgustaalosautoresya los bibliotecarios? Aún y con todo, la culturonomía nos ha facilitado una lenteenteramentenuevaconlaqueintentarentendernosanosotrosmismos.

La transformación de las palabras en datos da rienda suelta a numerosos usos.Ciertamente,losdatospuedenserusadosporlossereshumanosparalalecturayporlas máquinas para el análisis. Pero, como modelo perfecto de compañía de datosmasivos,Google sabe que la información tienemúltiples objetivos potenciales quepuedenjustificarsurecopilaciónydatificación.Asíque,astutamente,utilizóeltextodatificadodesuproyectodeescaneodelibrosparamejorarsuserviciodetraducciónautomática.ComosehaexplicadoenelcapítuloIII,elsistemaidentificabaquélibroseran traducciones, y analizaba qué palabras y frases usaban los traductores comoalternativasentreunidiomayotro.Sabiéndolo,podíatratarluegolatraduccióncomosi fuese un gigantesco problema de matemáticas, con el ordenador calculandoprobabilidades para determinar qué palabra es lamejor sustituta de otra entre dosidiomas.

Porsupuesto,Googlenohasidolaúnicaorganizaciónquehasoñadoconllevarla


riquezadellegadoescritodelmundoalaeradelosordenadores,nimuchomenoslaprimera en intentarlo. Ya en 1971, el proyecto Gutenberg, una iniciativa devoluntariosparaponeronlineobrasdedominiopúblico,aspirabaahacerdisponibleslostextosparasulectura,peronovalorabalosusossecundariosdetratarlaspalabrascomodatos.Setratabadeleer,nodereutilizar.Igualmente,loseditoresllevanañosexperimentandoconversioneselectrónicasdesuslibros:tambiénellosconsiderabanqueelvalorfundamentaldeloslibroseraelcontenido,nolosdatos,porqueéseessumodelo de negocio.Así pues, nunca usaron, ni permitieron a otros usar, los datosinherentesal textodel libro.Nuncavieronesanecesidad,niapreciaronelpotencialquetenía.

Muchas compañías rivalizan ahora para conquistar el mercado del libroelectrónico.Amazon,consuslectoreselectrónicosKindle,parecehabertomadounabuena delantera. En este área, sin embargo, las estrategias de Amazon y Googledifierenconsiderablemente.

Amazontambiénhadatificadolibros,pero,adiferenciadeGoogle,nohasabidoexplotarlosposiblesusosnuevosdeltextoentantoquedatos.JeffBezos,fundadorydirector general de la empresa, convenció a centenares de editoriales para quepublicasen sus títulos en formato Kindle. Los libros Kindle no están hechos deimágenes de páginas. Si lo estuvieran, no sería posible cambiar el tamaño de lafuente,nimostrar lapágina tantoenunapantallaacolorcomoenunaenblancoynegro.Eltextonosóloesdigital:estádatificado.Enrealidad,Amazonhahechoconmillones de libros nuevos lo queGoogle está intentando conseguir esforzadamenteconmuchosantiguos.

Sin embargo, aparte del brillante servicio de “palabras estadísticamentesignificativas”,Amazon—queempleaalgoritmosparahallarvínculosentrelostemasde los libros que de otromodopodrían no resultar aparentes—,noha utilizado suriquezaenpalabrasparaelanálisisdedatosmasivos.Consideraquesunegociodelibrossebasaenelcontenidoqueleenlossereshumanosantesqueenelanálisisdeltextodatificado.Y,paraserdeltodojustos,probablementetengaquehacerfrentearestricciones de las editoriales conservadoras sobre el uso que puede dar a lainformacióncontenidaensuslibros.Google,comochicomalodelosdatosmasivos,dispuestoasuperartodosloslímites,nosesienteconstreñidodeesamanera:supanlo gana con los clics de los usuarios, no por su acceso a los catálogos de laseditoriales. Quizá no resulte injusto decir que, por lo menos por ahora, Amazonentiendeelvalordedigitalizarel contenido,mientrasqueGooglecomprendeeldedatificarlo.


CUANDOLALOCALIZACIÓNSECONVIERTEENDATOS

Unode loselementosde informaciónmásbásicosquehayenelmundoes,porasídecir, elmundomismo.Sinembargo,durante lamayorpartede lahistoria, el áreaespacial nunca se cuantificó ni se usó en forma de datos. Por supuesto, lageolocalizaciónde lanaturaleza, losobjetosy laspersonas constituye información.Lamontaña está allí; la persona, aquí. Pero, para resultar lomás útil posible, esainformación necesita ser transformada en datos. Datificar una localización exigeciertosrequisitos.Necesitamosunmétodoparamedircadacentímetrocuadradodelárea terrestre. Necesitamos un procedimiento estandarizado para anotar lasmediciones. Necesitamos un instrumento para monitorizar y registrar los datos.Cuantificación, estandarización, recopilación. Sólo entonces podremos archivar yanalizarlalocalizaciónnocomounsitioperse,sinoenformadedatos.

EnOccidente,lacuantificacióndelalocalizaciónempezóconlosgriegos.Haciael 200 a. de C., Eratóstenes inventó un sistema de retícula similar al de latitud ylongitud para demarcar una localización. Sin embargo, como tantas otras buenasideas de la Antigüedad, la práctica se perdió con el tiempo. Mil quinientos añosdespués,alrededordelaño1400,unejemplardelaGeographiadePtolomeollegóaFlorencia desde Constantinopla, justo cuando el Renacimiento y el comerciomarítimoestabanavivandoelinterésenlacienciaylasabiduríadelosantiguos.Eltratado causó sensación, y sus viejas lecciones se aplicaron a la resolución de losmodernosdesafíosdelanavegación.Desdeentonces,losmapassiemprehanincluidolongitud, latitud y escala.El sistema fuemejorado posteriormente, en 1570, por elcartógrafo flamenco Gerardus Mercator, permitiéndoles a los marinos trazar unrumborectoenunmundoesférico.

Aunqueparaentoncesexistieseuna formade registrar la localización,nohabíaningún formato aceptado universalmente para compartir esa información. Seprecisaba un sistema de identificación común, de lamismamanera que internet sebeneficiaría de los nombres de dominios para hacer que cosas como el correoelectrónico funcionaran en todo el mundo. La normalización de longitud y latitudtomó mucho tiempo. Quedó finalmente consagrada en 1884 en la ConferenciaInternacional del Meridiano en Washington, donde veinticinco naciones eligieronGreenwich,enInglaterra,comomeridianoprincipalypuntocerodelalongitud(losfranceses, que se consideraban los líderes de los estándares internacionales, seabstuvieron). En la década de 1940 se creó el sistema de coordenadas UniversalTransversaldeMercator(UTM),quedividióelmundoensesentazonasparamayorexactitud.

Lalocalizacióngeoespacialyapodíaseridentificada,registrada,contramarcada,analizada y comunicada en un formato numérico estándar. La posición podía serdatificada, pero debido al elevado coste demedir y registrar la información en un


entornoanalógico,rarasvecessehacía.Ladatificacióntendríaqueesperaraqueseinventasen herramientas para medir localizaciones de forma asequible. Hasta ladécada de 1970, la única forma de determinar la localización física pasaba por elempleo de puntos de referencia, las constelaciones astronómicas, a estima, o latecnologíalimitadaderadioposición.

En 1978 tuvo lugar un gran cambio, al lanzarse el primero de los veinticuatrosatélitesqueformanelSistemadePosicionamientoGlobal(GPS).Losreceptoresentierrapuedentriangularsuposiciónanotandolasdiferenciaseneltiempoquetardanenrecibirunaseñaldelossatélitesquegirana20278kmporencimadesuscabezas.DesarrolladoporeldepartamentodedefensadeEstadosUnidos,elsistemaseabrióporprimeravezausosnomilitaresen ladécadade1980, llegóaestarplenamenteoperativo en los 90 y su precisión se aquilató para aplicaciones comerciales unadécada más tarde. Con un margen de error de sólo un metro, el GPS señaló elmomento en que un método de medir la localización, el sueño de navegantes,cartógrafosymatemáticosdesdelaAntigüedad,seuníaporfinaunmediotécnicodelograrlo rápidamente, de forma (relativamente) barata, y sin necesidad deconocimientosespecializados.

Perolainformaciónhadegenerarsedehecho.NadalesimpedíaaEratóstenesyaMercator estimar su paradero a cadaminuto del día, si lo hubiesen deseado. Pero,aunque era factible, resultaba impracticable. Del mismo modo, los primerosreceptoresdeGPSerancomplejosycostosos,adecuadosparaunsubmarino,peronoparatodoelmundoyentodomomento.Todoestocambiaríagraciasalaubicuidaddeloschipsbaratosincorporadosalosartilugioselectrónicos.ElcostedeunmóduloGPScayódecientosdedólaresenlos90acosadeundólarhoyendíaparagrandescantidades. Normalmente, bastan unos segundos para que el GPS fije unalocalización, y las coordenadas estén normalizadas. Así que 37°14′06″N,115°48′40″wsólopuedesignificarqueunosehallaenlasupersecretabasemilitarestadounidensesitaenunremotolugardeNevadaconocidocomo“Área51”,donde(quizá)seretieneaseresalienígenas.

Hoy en día, el GPS no esmás que un sistema entremuchos de determinar lalocalización. Hay sistemas de satélites rivales en curso de instalación en China yEuropa. Se puede alcanzar incluso mayor exactitud triangulando entre torres detelefoníamóvilorouterswifiparadeterminarlaposiciónbasándoseenlaintensidadde laseñal,yaque losGPSnofuncionanenel interiornientreedificiosaltos.Esoayuda a explicar por qué algunas empresas como Google, Apple yMicrosoft hanestablecidosuspropiossistemasdegeolocalizaciónparacomplementarelGPS.LosvehículosdelStreetViewdeGoogle recogían informaciónderouterswifimientrassacaban fotos, y el iPhone era un teléfono “espía” que recopilaba datos sobrelocalizaciónywifi y la remitía aApple sin que los usuarios fuesen conscientes deello. (Los teléfonos Android de Google y el sistema operativo de los móviles deMicrosofttambiénrecogíanestaclasededatos).


Ahoranosólosepuederastrearalagente,sinoalosobjetos.Conlainstalaciónde módulos inalámbricos[62] en los vehículos, la datificación de la localizacióntransformaráelconceptodelosseguros.Losdatosofrecenunavistapormenorizadadelostiempos,localizacionesydistanciasdeconducciónrealquepermitenunpreciomejor en función del riesgo. En Estados Unidos y Gran Bretaña, los conductorespueden ajustar el precio del seguro del coche dependiendo de a dónde y cuándoconducenefectivamente,enlugardepagarunapólizaanualbasadaensuedad,sexoehistorial. Esta aproximación al precio de los seguros crea incentivos al buencomportamiento.Transforma lanaturalezamismadel seguro: antes sebasabaenelriesgo agrupado y ahora se basa en la actuación individual. Seguir la pista de losindividuospormediodesusvehículostambiénalteralanaturalezadeloscostesfijos,comolascarreterasydemásinfraestructuras,alvincularelusodeesosrecursosalosconductoresyotraspersonasquelos“consumen”.Estoeraimposibledehacerantesdepoderseexpresarlageolocalizaciónenformadedatos,demaneracontinua,paratodosyparatodo;asíeselmundohaciaelquenosencaminamos.

LaempresademensajeríaUPS,porejemplo,utilizadatosdegeolocalizacióndemúltiples maneras. Sus vehículos están equipados con sensores, módulosinalámbricosyGPS,demodoqueel cuartelgeneralpuedepredecir las averíasdelmotor, como vimos en el capítulo anterior. Es más, ello permite a la compañíaconocerelparaderodesusfurgonesencasoderetrasos,monitorizaralosempleadosy analizar sus itinerarios para optimizar los trayectos. La ruta más eficiente sedeterminaenpartemercedalosdatosdeentregasanteriores,igualquelascartasdeMaurysebasaronentravesíasmarítimasprevias.

Esteprogramaanalíticohasurtidoextraordinariosefectos.En2011,UPSeliminóla impresionante cantidad de 48 millones de kilómetros de las rutas de susconductores, ahorrandoasímásde11,3millonesde litrosdecombustibley 30000toneladasdeemisionesdedióxidodecarbono,segúnJackLevis,directordegestiónde procesos de la compañía. Asimismo mejoró la seguridad y la eficiencia: elalgoritmo recopila rutas que no obliguen a pasar por cruces con tráfico, porquetiendenacausaraccidentes,pérdidasde tiempoymásconsumodecombustible,yaquelosfurgonesamenudotienenqueesperarconelmotoralralentíantesdepodergirar.

“La predicción nos trajo el conocimiento —afirma Levis, de UPS[63]—, perodetrásdelconocimientohayalgomás:sabiduríayclarividencia.Enalgúnmomentofuturo,elsistemaserátanlistoqueserácapazdepredecirlosproblemasycorregirlosantesdequeelusuariocaigasiquieraenlacuentadequealgovamal”.

La localización datificada a lo largo del tiempo se está aplicando de formaparticularmente notable a las personas. Durante años, los operadores de telefoníamóvilhanrecogidoyanalizadoinformaciónparamejorarelniveldeserviciodesusredes.Estosdatosestán siendousadoscadavezmásparaotros finesy recopiladospor terceros para nuevos servicios. Algunas aplicaciones para teléfono inteligente,


porejemplo,recogeninformaciónacercadelocalizacionesconindependenciadequelapropiaappdispongadealgunafunciónbasadaenlalocalización.Enotroscasos,lamisma razón de ser de una app es crear negocio a partir del conocimiento de laslocalizacionesdelosusuarios.UnejemplolobrindaFoursquare,quelepermitealagente “registrarse” en sus lugares favoritos. Esta app deriva sus ingresos de loaprogramas de fidelidad, las recomendaciones de restaurantes y otros serviciosrelacionadosconlalocalización.

La capacidad de recopilar los datos de geolocalización de los usuarios estáconvirtiéndose en algo extremadamente valioso. A escala individual permite lapublicidadpersonalizadaallídondeestéosepreveavayaaestarunapersona.Esmás,la información puede ser agregada para revelar tendencias. Por ejemplo, acumulardatosdelocalizaciónpermitealasempresasdetectaratascosdetráficosinnecesidadde ver los coches: la información la proporcionan el número y velocidad de losteléfonosquesedesplazanporunacarretera.LacompañíaAirSageprocesaadiario15000millonesderegistrosdegeolocalizaciónde losdesplazamientosdemillonesdeusuariosdetelefoníamóvil,paracrearinformesentiemporealacercadeltráficoen más de cien ciudades de todo Estados Unidos. Otras dos empresas degeolocalización, Sense Networks y Skyhook, usan datos de localización paradeterminar cuáles son las zonas de la ciudad con la vida nocturnamás animada, oparaestimarcuántosasistenteshahabidoenunamanifestación.

Sin embargo, puede que los usos no comerciales de la geolocalización acabensiendolosmásimportantes.SandyPentland[64],directordelLaboratoriodeDinámicaHumana delMIT, yNathanEagle fueron ambos pioneros de lo que llaman realitymining,“mineríade la realidad”.Serefiereaprocesarenormescantidadesdedatosprocedentes de teléfonos móviles para extraer inferencias y predicciones sobre elcomportamientohumano.Enunodesusestudios,elanálisisdelosmovimientosylospatronesdellamadaslespermitióidentificarapersonasquehabíancontraídolagripeantesdequeellasmismassupiesenqueestabanenfermas.Encasodeunaepidemiamortaldegripe,estacapacidadpodríasalvarmillonesdevidas,alpermitirlesa losfuncionariosde lasanidadpúblicasabercuálesson lasáreasmásafectadasen todomomento.Ahora bien, enmanos irresponsables, el poder del realitymining podríatenerconsecuenciasterribles,comoveremosmásadelante.

Eagle, fundador de la start up de datos inalámbricos Jana, ha usado datosagregadosdetelefoníamóvildemásdedoscientosoperadoresenmásdecienpaíses—unos3500millonesdepersonas enAméricaLatina,África yEuropa—paradarrespuestaapreguntascrucialesparalosejecutivosdemarketing,comocuántasvecesa la semana hace la colada una familia. También ha usado los datosmasivos paracontemplar cómo prosperan las ciudades, por ejemplo.Un colega y él combinarondatosdelocalizacióndesuscriptoresdemóvilesdeprepagoenÁfricaconlacantidadde dinero que gastaban cuando recargaban sus cuentas. El valor muestra unacorrelaciónfuerteconelniveldeingresos:laspersonasricascompranmásminutos


deuna solavez.Ahorabien,unode loshallazgos inesperadosdeEagle esque lossuburbios,envezdesersólocentrosdepobreza, tambiénactúancomotrampolineseconómicos.La cosa está enque estosusos indirectosde losdatosde localizaciónnadatienenqueverconlasrutasdelascomunicacionesmóviles,queeraelpropósitopara el que se generó inicialmente la información. Al contrario, una vez se hadatificadolalocalización,surgenusosnuevosysepuedecrearunvalornuevo.


CUANDOLASINTERACCIONESSECONVIERTENENDATOS

Las próximas fronteras de la datificación sonmás personales: nuestras relaciones,experienciasyestadosdeánimo.Laideadeladatificaciónconstituyeelespinazodemuchas de las compañías de medios sociales de la red. Las plataformas de redessocialesnonosofrecenmeramenteunaformadelocalizarymantenerelcontactoconamigosycolegas: tambiéntomanelementosintangiblesdenuestravidadiariaylostransformanendatosquepuedenusarseparahacercosasnuevas.Facebookdatificólas relaciones; siempre existieron y constituyeron información, pero nunca fuerondefinidas formalmente como datos hasta la “gráfica social” de Facebook. Twitterpermitió ladatificacióndelossentimientosalcrearunaformafácildequelagenteanotaseycompartiesesuspensamientosinconexos,quepreviamenteseperdíanenlasbrumasdel tiempo.LinkedIndatificónuestrasexperienciasprofesionalespretéritas,igual que Maury transformó los antiguos cuadernos de bitácora, convirtiendo esainformaciónenprediccionesacercadenuestropresenteyfuturo:aquiénconocemos,oquétrabajopuedeinteresarnos.

Estos usos de los datos se hallan aún en estado embrionario. En el caso deFacebook, lafirmahasabidomostrarsepacienteyastuta,conscientedequerevelardemasiado pronto demasiadas finalidades nuevas para los datos de sus usuariospodríaespantarlos.Además,laempresatodavíaestáajustandosumodelodenegocio(y su política de privacidad) a la cantidad y clase de recogida de datos que deseadesarrollar.Deahíquebuenapartedelascríticasqueharecibidosecentrenmásenqué informaciónescapazderecopilarqueen loquehahechoenrealidadconesosdatos. En 2012, Facebook[65] tenía alrededor de mil millones de usuarios,interconectadosmediantecienmilmillonesdeamistades.Lagráficasocialresultanterepresenta más del 10 por 100 de la población total del mundo, datificada y adisposicióndeunasolacompañía.

Los usos potenciales son extraordinarios. Una serie de empresas de nuevacreación han estudiado adaptar la gráfica social para utilizarla como señales quepermitanestablecervaloracionescrediticias.Laideaesque“Diosloscríayellossejuntan”: las personas prudentes hacen amistad con gente de mentalidad parecida,mientras que los derrochadores incurren juntos en impago. Si sale bien, FacebookpodríaconvertirseenelpróximoFICO,elorganismodecalificacióncrediticia.Losricosconjuntosdedatosde las firmasdemediossocialesbienpodríanconstituir labase de unos negocios nuevos que vayan más allá de compartir superficialmentefotos,actualizacionesdeestadoy“megustas”.

TambiénTwitterhavistocómoseusabansusdatosdemanera interesante.Paraalgunaspersonas, loscuatrocientosmillonesdesucintostuitsqueenviaroncadadíade2012másdecientocuarentamillonesdeusuariosalmesparecenpocomásqueparloteo irreflexivo. Y de hecho, a menudo eso es exactamente lo que son. Sin


embargo, la compañíapermite la datificacióndepensamientos, estadosde ánimoeinteraccionesde lagente,queanteriormentenuncahabíanpodidoseraprehendidos.Twitterhallegadoaacuerdoscondosempresas,DataSiftyGnip,paracomercializarel accesoa losdatos. (Sibien todos los tuits sonpúblicos, el accesoal firehose,el“grifo de datos” de Twitter tiene un coste). Muchas empresas analizan los tuits,recurriendo a veces a una técnica llamada análisis de sentimientos, para almacenarcomentariosdeclientesovalorarelimpactodelascampañasdemarketing.

Dos fondos de inversión, Derwent Capital de Londres y MarketPsych deCalifornia,empezaronaanalizareltextodatificadodelostuitscomoindiciosparalainversión en el mercado de valores. (Sus estrategias comerciales reales fueronmantenidasensecreto;enlugardeinvertirenfirmasalasquesedabamuchobombo,puedequeapostaranensucontra).Ambosfondosvendenahoralainformaciónalosinversores.EnelcasodeMarketPsych,seasocióconThomsonReutersparaofrecernomenosde18864índicesparacientodiecinuevepaíses,actualizadoscadaminuto,sobreestadosemocionalescomoeloptimismo,lamelancolía,laalegría,elmiedo,lacólera,yhasta temascomola innovación,el litigioyelconflicto.Losdatosno losutilizantantolaspersonascuantolosordenadores:loscerebritosmatemáticosdeWallStreet,conocidoscomoquants, insertan losdatosensusmodelosalgorítmicosparabuscar correlaciones inadvertidas que puedan traducirse en beneficios. La propiafrecuenciade los tuits sobreun temadeterminadopuedeservirparapredecirvariascosas,como los ingresosen taquilladeun filmedeHollywood[66], segúnBernardoHuberman,unodelospadresdelanálisisderedessociales.HubermanyuncolegadeHPdesarrollaronunmodeloqueescrutabalatasadeaparicióndenuevostuits.Unavez listo, fueron capaces de pronosticar el éxito de una película mejor que otrosmodelosdepredicciónyahabituales.

Pero lasposibilidadesnoacabanahí.LosmensajesdeTwitterestán limitadosaunosescasos140caracteres,perolosmetadatos—esdecir,la“informaciónacercadelainformación”—quellevaasociadoscadatuitsonmuyricos.Incluyen33elementosespecíficos.Algunosnoparecendemasiadoútiles,comoelfondodeescritoriodelapágina del usuario de Twitter, o el programa que emplea para acceder al servicio,perootrosresultanextremadamenteinteresantes,comoelidiomadelosusuarios,sugeolocalización,ylacantidadylosnombresdelaspersonasalosquesiguenoquelossiguenaellos.Enunestudioacercadeesosmetadatos,mencionadoenScienceen2011,elanálisisde509millonesdetuitsenviadosalolargodemásdedosañospor2,4millonesdepersonasdeochentaycuatropaísesmostróquelosestadosdeánimode la gente siguen patrones diarios y semanales similares en todas las culturas delmundo;algoquehabíasidoimposibleadvertiranteriormente.Losestadosdeánimohanquedadodatificados.

La datificación no sólo tiene que ver con expresar las actitudes y estados deánimoenuna formaanalizable, sino tambiénconel comportamientohumano.Esteresultadifícildeseguirdeotromodo,especialmenteenelcontextodelacomunidad


másampliaydelossubgruposquecontiene.Medianteelanálisisdetuits,elbiólogoMarcelSalathé,delauniversidadestataldePensilvania,yelingenierodeprogramasShashank Khandelwal descubrieron que la actitud de las personas ante lasvacunaciones era igual a la probabilidad de que se pusieran la vacuna de la gripe.Aúnmás importante: su estudio utilizaba losmetadatos de quién estaba conectadoconquiénenTwitter[67] para ir todavía un pasomás allá. Se dieron cuenta de quepodrían existir subgrupos de personas sin vacunar. Lo que hace destacable estainvestigación es que, mientras que otros estudios, como Google Flu Trends,empleabandatosagregadosparaconsiderarel estadode saludde los individuos, elanálisis de sentimientos de Salathé predijo en la práctica los comportamientosrelacionadosconlasalud.

Estos primeros hallazgos indican hacia dónde se dirigirá seguramente ladatificación.Al igual queGoogle, una bandada de redes demedios sociales comoFacebook, Twitter, LinkedIn, Foursquare y otras están apostadas encima de unenorme cofre del tesoro lleno de información datificada que, una vez sometida aanálisis,arrojaráluzsobreladinámicasocialatodoslosniveles,desdeelindividuohastalasociedadensuconjunto.


LADATIFICACIÓNDETODO

Conunpocode imaginación, unaplétora de cosas pueden expresarse en formadedatos, sorprendiéndonos de paso. Siguiendo el espíritu del trabajo del profesorKoshimizusobrelostraserosenTokio,IBMobtuvoen2012unapatenteenEstadosUnidossobre“Seguridaddelasoficinasmediantetecnologíadecomputaciónbasadaenlasuperficie”.Esoesjergadeabogadodelapropiedadintelectualparareferirseaun revestimiento del suelo sensible al tacto, algo en cierto modo parecido a unapantalla gigante de teléfono inteligente. Sus usos potenciales sonmuy numerosos.Seríacapazdeidentificarlosobjetosquetuvieraencima.Ensuformabásica,sabríacuándoencenderlaslucesdeunahabitación,ocuándoabrirlaspuertasalentrarunapersona.Aúnmásimportante,sinembargo,esquepodríaidentificaralosindividuosporsupeso,suposturaosuformadecaminar.Podríasabersialguiensehacaídoynosehavueltoalevantar,detalleimportanteenelcasodelaspersonasdeedad.Losminoristaspodríanconocerelflujodeclientesporsustiendas.Cuandosedatificaelsuelo,nohaytechoparalosusosposibles.

Datificar todo lo posible no es tan disparatado como parece. Piénsese en elmovimientodel“sercuantificado”[68].Serefiereaungrupovariopintodefanáticosdelaformafísica,maniáticosdelamedicinayyonquistecnológicosquemidencadaelemento de sus cuerpos y vidas para vivirmejor o, cuandomenos, para aprendercosasnuevasquenopodríanhabersabidoantesdeformaenumerativa.Elnúmerode“automedidores”espequeñoporelmomento,perovacreciendo.

Gracias a los teléfonos inteligentes y a la tecnología de computación barata,nunca ha sido tan fácil la datificación de los actos más esenciales de la vida. Unmontóndestartupspermitenquelagenteregistresuspatronesdesueñomediantelamediciónde susondasmentalesdurante lanoche.Una firma,Zeo,yahacreado lamayor base de datos del mundo sobre la actividad del sueño y ha descubiertodiferencias en las cantidades de sueño REM que experimentan los hombres y lasmujeres. La firmaAsthmapolis ha incorporado un sensor conGPS a un inhaladorpara el asma; al agregar las informaciones, la compañía consigue discernir losfactores ambientales que disparan los ataques de asma, como la proximidad adeterminadoscultivos,porejemplo.

Las firmasFitbity Jawbone facilitanque lagentemidasuactividad físicaysusueño.Otraempresa,Basis,permitequelosusuariosdesubrazaletemonitoricensusconstantesvitales,entreellaselritmocardíacoylaconductividaddelapiel,quesonmedidasdelestrés.Obtener losdatosseestávolviendomásfácilymenos invasivoquenunca.En2009lefueconcedidaaAppleunapatentepararecopilardatossobreoxigenación de la sangre, ritmo cardíaco y temperatura corporal a través de susauricularesdeaudio.

La datificación tiene mucho que enseñarnos acerca de cómo funciona nuestro


cuerpo. Unos investigadores del colegio universitario de Gjøvik, enNoruega, y laempresaDerawiBiometrics[69]handesarrolladounaapppara teléfonos inteligentesqueanalizaelpasodeunindividuoalandaryusaesainformacióncomosistemadeseguridadparadesbloquearelteléfono.Mientrastanto,dosprofesoresdelInstitutodeInvestigaciónTecnológicadeGeorgia,RobertDelanoyBrianParise,estánponiendoa punto otra app llamada iTrem que utiliza el acelerómetro del teléfono paramonitorizar los tremores corporales de una persona en busca de Parkinson y otrasenfermedades neurológicas. La app es una bendición tanto para losmédicos comopara los pacientes. A éstos les permite ahorrarse costosos tests en la consulta delmédico; a los profesionales de la medicina les permite monitorizar a distancia laincapacidad de las personas y su respuesta a los tratamientos. Según unosinvestigadores de Kyoto, un teléfono inteligente es solamente un poquito menoseficazalahorademedirlostremoresqueelacelerómetrotriaxialqueusaunequipomédico especializado, por lo que puede utilizarse con confianza.Una vezmás, unpocodedesordenespreferiblealaexactitud.

Enlamayoríadeestoscasos,estamoscapturandoinformaciónydándoleformade datos que permiten reutilizarla. Esto puede ocurrir casi en cualquier lugar yprácticamenteconcualquiercosa.Green-Goose,unafirmastartupdeSanFrancisco,vende diminutos sensores de movimiento que pueden colocarse en objetos paracontrolarcuántoseusan.Ponerelsensorenunpaquetedehilodental,unaregaderaounpaquetedearenaparagatoshaceposibledatificarlahigienedentalyelcuidadodelasplantasy lasmascotas.Elentusiasmoporel“internetde lascosas”—implantarchips,sensoresymódulosdecomunicaciónenobjetoscotidianos—tienequeverenparteconelnetworkingolasredesdecontactos,perocasitantoomáscondatificartodocuantonosrodea.

Unavezquesehadatificadoelmundo,losusospotencialesdelainformaciónnotienenmáslímitequeelingeniopersonal.Maurydatificólastravesíasdenavegantesanterioresmedianteunaconcienzudatabulaciónmanual,yconellosacóalaluzunasperspectivasextraordinariasyvaliosas.Hoyendíadisponemosde lasherramientas(estadísticas y algoritmos) y del equipo necesario (procesadores y almacenamientodigitales)parallevaracabounastareassimilaresmuchomásdeprisa,aescala,yenmuchoscontextosdiferentes.Enlaeradelosdatosmasivos,hastalostraserostienensuutilidad.

Nos hallamos inmersos en un gran proyecto de infraestructura que, de algunamanera,rivalizaconlosdelpasado:delosacueductosromanosalaEncyclopédiedela Ilustración.No llegamos a advertirlo con claridad porque el proyecto de hoy esdemasiadonuevo,porqueestamosenmitaddeél,yporque,adiferenciadelaguaquefluyeporlosacueductos,elproductodenuestraslaboresesintangible.Elproyectoesla datificación. Como aquellos otros avances infraestructurales, traerá consigocambiosfundamentalesenlasociedad.

Los acueductos hicieron posible el crecimiento de las ciudades; la imprenta


facilitó la Ilustración; losperiódicospermitieronelaugedelestado-nación[70].Peroestasinfraestructurasestabanenfocadashaciaflujos:deagua,deconocimiento.Otrotantocabedecirdel teléfonoyde internet.Encambio, ladatificaciónrepresentaunenriquecimiento esencial de la comprensión humana. Con la ayuda de los datosmasivos,nuestromundodejarádeparecernosuna sucesióndeacontecimientosqueexplicamos como fenómenosnaturales o sociales: veremosununiverso constituidoesencialmenteporinformación.

Durantemásdeunsiglo,losfísicoshanvenidosugiriendoalgoparecido:queelfundamento de cuanto existe no son los átomos, sino la información. Esto,reconozcámoslo, puede sonar esotérico. Mediante la datificación, sin embargo, enmuchoscasospodemosahoracapturarycalcularaunaescalamuchomásamplialosaspectosfísicoseintangiblesdelaexistencia,yactuarsobreellos.

Verelmundocomoinformación,comoocéanosdedatosquepuedenexplorarsecadavezmás lejosymáshondo,nosofreceunnuevopanoramade la realidad.Esunaperspectivamentalquepuedepenetrartodaslasáreasdelavida.Hoyformamosuna sociedad aritmética porque presumimos que el mundo se puede comprendermediantelosnúmerosylasmatemáticas.Ydamosporsupuestoqueelconocimientose puede transmitir a través del tiempo y del espacio porque el concepto de laescrituraestámuyarraigado.Puedequeeldíademañanalasgeneracionessiguientestenganuna“concienciadedatosmasivos”:lapresuncióndequehayuncomponentecuantitativoentodocuantohacemos,ydequelosdatossonindispensablesparaquela sociedad aprenda.La noción de transformar las innumerables dimensiones de larealidad en datos probablemente le parezca novedosa por ahora a lamayoría de lagente.Peroenelfuturo,seguramentelatrataremoscomoalgodado(locual,deformaagradable,nosretrotraealorigenmismodeltérmino“dato”).

Con el tiempo, puede que el impacto de la datificación deje pequeño el de losacueductos y los periódicos, rivalizando acaso con el de la imprenta e internet alfacilitarnos las herramientas para cartografiar el mundo mediante datos. Por elmomento,sinembargo,losusuariosmásavanzadosdeladatificaciónsehallanenelmundodelosnegocios,dondelosdatosmasivosseestánusandoparacrearnuevasformasdevalor:eseltemadelcapítulosiguiente.


VI

VALOR

Afinalesdeladécadade1990,laredestabaconvirtiéndoseamarchasforzadasenunlugar ingobernable, inhóspito y hostil. Los spambots inundaban los buzones deentradadeloscorreoselectrónicosyempantanabanlosforosonline.Enelaño2000,LuisvonAhn[71],unjovendeveintidósañosqueacababadeobtenersulicenciaturauniversitaria, tuvo una idea para resolver el problema: obligar a los que seinscribieranaprobarqueeranhumanos.Asíquebuscóalgoquelesresultasefácildehaceralossereshumanos,perolescostaramuchoalasmáquinas.

Seleocurriólaideadepresentarletrasgarabateadasydifícilesdeleerduranteelprocesoderegistro.Laspersonasseríancapacesdedescifrarlasyreproducirlasenelordencorrectoenunossegundos,perolosordenadoressequedaríanatascados.Yahooimplementósumétodoyredujoelflagelodelosspambotsenellapsodeveinticuatrohoras.VonAhnllamóasucreaciónCaptcha(por lassiglas inglesasdeCompletelyAutomatedPublicTuringTest toTellComputersandHumansApart,o testpúblicodeTuringcompletamenteautomatizadoparadiferenciara los sereshumanosde lascomputadoras).Cincoañosdespués,setecleabanadiarioalrededorde200millonesdeCaptchas.

Captcha levalió aVonAhnuna famaconsiderableyun trabajodeprofesordeinformática en la universidad Carnegie Mellon después de obtener el doctorado.También resultódecisivoa lahoradequese leotorgase,a los27años,unode losprestigiosospremios“genio”delafundaciónMacArthur,dotadoconmediomillóndedólares.Pero cuando cayó en la cuenta deque era responsable dequemillonesdepersonasperdiesenmontonesdetiempoadiariotecleandotediosasletrastemblonas—vastascantidadesdeinformaciónquesencillamentesedescartabadespués—,nosesintiótanlisto.

Buscandoformasdedarleunusomásproductivoatodoesepodercomputacionalhumano,VonAhninventóunsucesor,quebautizóapropiadamentecomoReCaptcha.En lugarde introducir letras aleatorias, lagente tecleadospalabrasprocedentesdeproyectos de escaneo de textos que el programa de reconocimiento óptico decaracteres de un ordenador no podría entender. La primera palabra sirve paraconfirmarloquehanintroducidootrosusuarios,yes,porconsiguiente,unaseñaldequeelusuarioeshumano;laotraesunapalabranuevaqueprecisadesambiguación.Para garantizar la exactitud, el sistema le presenta lamisma palabra borrosa a unamediadecincopersonasdistintas,queladebeninsertarcorrectamenteantesdedarlaporválida.Losdatos teníanunusoprimario—demostrarqueelusuarioeraunser


humano—,pero también tenían un propósito secundario: descifrar palabras que noestuviesenclarasentextosdigitalizados.

Elvalorqueproduceestoesinmenso,siseconsideraloquecostaríacontratarapersonasque lohicieranensu lugar.Conaproximadamentediezsegundosporuso,200millones deReCaptchas diarios ascienden amediomillón de horas diarias.ElsalariomínimoenEstadosUnidos erade7,25dólaresbrutosporhora en2012.Siunotuvieraquedirigirsealmercadoparadesambiguarlaspalabrasqueunordenadorno había conseguido descifrar, costaría alrededor de cuatro millones de dólaresdiarios, omás demilmillones de dólares al año.En su lugar,VonAhn diseñó unsistema para hacerlo de forma efectiva, y gratis. Y Google lo pone gratis adisposicióndecualquierwebquedeseeusarlo;hoyendíaestáincorporadoenunas200000páginasweb,entreellasFacebook,TwitteryCraigslist.

LahistoriadeReCaptchaponederelievelaimportanciadelareutilizacióndelosdatos. Con el advenimiento de los datos masivos, el valor de los datos estácambiando.Enlaeradigital,yanosonsólounapoyodelastransacciones,sinoquemuchasvecesseconviertenenelbienmismoobjetodelintercambio.Enunmundodedatosmasivos,lascosascambiandenuevo.Elvalordelosdatossedesplazadesuuso primario a sus potenciales usos futuros. Esto tiene profundas consecuencias:afecta a cómo valoran las empresas los datos que poseen y a quién le permitenaccederaellos.Lespermitealascompañías,ypuedequelasobligue,acambiarsusmodelosdenegocio.Modificacómopiensanenlosdatoslasorganizacionesycómolosusan.

Lainformaciónsiemprehasidoesencialparalastransaccionesdemercado.Losdatospermitendescubrir elprecio,por ejemplo,quees la señalde cuántohayqueproducir. Esta dimensión de los datos ya está bien captada. Ciertas clases deinformación llevan mucho tiempo negociándose en los mercados: el contenido delibros,artículos,músicaypelículasconstituyeunejemplo,igualquelainformaciónfinanciera, o los precios bursátiles.En las últimas décadas, los datos personales sehan unido a éstos. En Estados Unidos hay agentes especializados en datos comoAcxiom, Experian y Equifax que facturan importes considerables por unosexpedientes exhaustivos de información personal sobre cientos de millones deconsumidores. Con Facebook, Twitter, LinkedIn y otras plataformas de mediossociales, nuestras conexiones, opiniones y preferencias personales, los patrones denuestra vida diaria, se han unido al conjunto de información personal que estádisponibleacercadenosotros.

En resumen, aunque hace mucho que los datos son valiosos, o bien seconsideraban algo secundario, que servía a las operaciones centrales de llevar unnegocio, o bien se limitaban a categorías relativamente específicas, como lapropiedad intelectual o la información personal. Por el contrario, en la era de losdatosmasivos,todoslosdatosseránconsideradosvaliosos,enyporsímismos.

Cuando decimos “todos los datos”, queremos decir incluso los pedacitos de


informaciónmásbrutos,másaparentementetriviales.Piénseseenlasmedicionesdeunsensordetemperaturadelamáquinadeunafábrica.OenelflujoentiemporealdecoordenadasdeGPS,lecturasdeacelerómetroynivelesdecombustibledeunsolovehículodereparto,odeunaflotillade60000.Opiénseseenlosmilesdemillonesdeantiguasbúsquedasdeinformación,oenelpreciode,prácticamente,cadaasientodecadavuelocomercialenEstadosUnidosremontándoseañosatrás.

Hasta hacemuy poco, no había forma fácil de recopilar, almacenar y analizarestos datos, lo que restringía severamente las oportunidades de extraer su valorpotencial.EnelcélebreejemplodeAdamSmithdelfabricantedealfileres[72],conelque ilustraba la división del trabajo en el siglo XVIII, hubiera hecho falta tener aobservadoresvigilandoatodoslostrabajadores,nosóloparaunestudiodeterminado,sino todos los días y tomandomedidas detalladas, y contando la producción sobrepapelgruesoconplumasdeave.Inclusomedirel tiemporesultabadifícilentonces,yaqueaúnnosehabíangeneralizadolosrelojesfiables.Laslimitacionesdelentornotécnico condicionaban las opiniones de los economistas clásicos acerca de laconstitucióndelaeconomía,algodeloqueapenaseranconscientes,delmismomodoqueelpeznosedacuentadequeestámojado.Porestarazón,cuandoconsiderabanlos factores de producción (tierra, trabajo y capital), el papel de la informaciónnormalmente brillaba por su ausencia. Aunque el coste de recopilar, almacenar yutilizardatoshadisminuidoalolargodelosúltimosdossiglos,hastahacemuypocoaúnresultabarelativamenteelevado.

Loquedistingueanuestraépocaesquemuchasdelaslimitacionesinherentesalarecopilacióndedatosyanoexisten.Latecnologíahallegadoaunpuntoenelqueescapazdecapturaryalmacenarunascantidadesinmensasdeinformaciónporpocodinero.Resultafrecuenterecopilardatosdeformapasiva,sinmuchoesfuerzoosinqueseanconscientessiquieraaquellosqueestánsiendoregistrados.Ycomoelcostedelalmacenamientohacaídotanto,esmásfáciljustificarlaconservacióndelosdatosqueeldeshacersedeellos.Todoestohacequehayamuchosmásdatosdisponiblesya menor coste que nunca antes. A lo largo del pasado medio siglo, el coste delalmacenamiento digital se ha dividido por lamitad cada dos años,mientras que ladensidaddelalmacenajesehaincrementadocincuentaveces.Alavistadefirmasdeinformación como Farecast o Google—en las que los datos brutos entran por unextremodelacadenademontajedigital,yporelotrosalelainformaciónprocesada—,losdatosestánempezandoaparecerunnuevofactordeproducción.

Elvalorinmediatodelamayorpartedelosdatosresultaevidenteparaquieneslosrecopilan.Dehecho,probablementelosrecogenconunobjetivoespecíficoenmente.Lastiendasreúnencifrasdeventasparallevarunacontabilidadcorrecta.Lasfábricasmonitorizansuproducciónparaasegurarsedequeestacumplelasnormasdecalidad.Laspáginaswebtomannotadecadaclicdelosusuarios—yaveces,inclusodepordóndepasaelcursordelratón—paraanalizaryoptimizarelcontenidoqueofrecenalos visitantes. Estos usos primarios de los datos justifican su recopilación y


procesamiento.CuandoAmazonregistranosóloloslibrosqueadquierensusclientes,sinolaspáginaswebquesimplementemiran,sabequeusaráesosdatosparaofrecerrecomendaciones personalizadas. Igualmente, Facebook sigue los cambios en las“actualizaciones de estado” y los “me gusta” de sus usuarios para establecer quéanunciossonlosmásadecuadosensupáginaygeneraringresos.

Adiferenciadelascosasmateriales—losalimentosquecomemos,unavelaquearde—, el valor de los datos no disminuye cuando éstos se usan; pueden volver aprocesarseunayotravez.Losdatosconstituyen loque los economistas llamanunbien“norival”:suusoporunapersonanoimpidequelosuseotra.Ylainformaciónnosedesgastaconeluso,comosílohacenlosbienesmateriales.DeahíqueAmazonpuedarecurriradatosdetransaccionesanterioresparahacerrecomendacionesasusclientes;yusarlos repetidamente,nosóloparaelclientequegeneró losdatos, sinoparaotrosmuchostambién.

Asimismo —lo que es más relevante—, los datos pueden ser explotados conpropósitosmúltiples.Estepuntoesimportantealahoradeintentarentendercuántovalor tendráparanosotros la informaciónenlaerade losdatosmasivos.Yahemosvistoconcretarsepartedeestepotencial,cuandoWalmartrevisósubasededatosderecibosantiguosyadvirtióaquellalucrativacorrelaciónentreloshuracanesylaventadePop-Tarts.

Todoestosugierequeelvalorplenodelosdatosesmuchomayorqueelqueseobtienedesuprimeruso.Significatambiénquelascompañíaspuedenexplotardatosdeformaefectivainclusocuandoelprimeruso,ocadausosubsiguiente,sóloaportenunapequeñacantidaddevalor,siempreycuandoutilicenlosdatosmuchasveces.


EL«VALORDEOPCIÓN»DELOSDATOS

Parahacerseunaideadeloqueimplicalareutilizacióndedatosdecaraadefinirsuvalorúltimo,piénseseenloscocheseléctricos[73].Elquetenganéxitocomomododetransportedependedeunavertiginosavariedaddefacetaslogísticasquetienentodasalgo que ver con la duración de la batería. Los conductores necesitan recargar lasbaterías de sus coches de forma rápida y cómoda, y las compañías eléctricasnecesitangarantizarquelaenergíaconsumidaporestosvehículosnodesequilibrelared de suministro. Hoy en día, tenemos una distribución bastante efectiva de lasgasolineras, pero todavía no sabemos cuáles serán las necesidades de recarga y lalocalizacióndelasestacionesdeservicioparavehículoseléctricos.

Sorprendentemente,estonosupone tantounproblemade infraestructuracuantode información. Y los datos masivos forman parte importante de la solución. En2012, IBM colaboró en una prueba con la Pacific Gas and Electric Company deCaliforniayelfabricantedeautomóvilesHondaparalarecogidadevastascantidadesde información que respondieran a algunas preguntas fundamentales acerca decuándo y dónde se surtirían los coches eléctricos, y lo que ello implicaría para elsuministro de energía. IBM desarrolló un complejo modelo predictivo basado ennumerososfactores:elniveldelabateríadelcoche,sulocalización,lahoradeldíaylas tomas disponibles en las estaciones de recargamás próximas.Luego, emparejóesosdatosconelconsumoactualdelared,porunaparte,yporotraconlospatronesdeconsumohistóricodeenergía.Elanálisisdelosenormesflujosdedatos,históricosy en tiempo real, procedentes demúltiples fuentes, permitió a IBMdeterminar losmomentos y lugares óptimos para que los conductores cargaran la batería de suvehículo.Tambiénrevelódóndeseríamejorconstruirlasestacionesderecarga.Alalarga,elsistemanecesitarátomarencuentalasdiferenciasdepreciosentreestacionesderecargapróximas.Hastalasprevisionesmeteorológicashabrándesercomputadas:por ejemplo, si el día es soleadoyuna estación cercanade recarga alimentadaporenergíasolarestáhastalostopesdeelectricidad,peroseprevéunasemanadelluviadurantelacuallospanelessolaresquedaráninactivos.

El sistema toma informacióngeneradaparaunpropósito concretoy la reutilizapara otro: en otras palabras, los datos pasan de unos usos primarios a otrossecundarios,loquelosvuelvemuchomásvaliososalolargodeltiempo.Elindicadorde carga de la batería del coche les dice a los conductores cuándo tienen que“llenarla”.Lacompañíaeléctricarecopilalosdatosdeusodelaredparagestionarsuestabilidad.Esos son losusosprimarios.Losdosconjuntosdedatos alcanzanusossecundarios—y generan nuevo valor— cuando se aplican a un propósito del tododiferente: determinar dónde y cuándo recargar, y dónde construir estaciones deservicio para vehículos eléctricos. Por añadidura, se incorpora informaciónsecundaria,comopuedeserlalocalizacióndelcocheyelhistorialdeconsumodela


red eléctrica. IBM procesa esos datos no una vez, sino una y otra y otra segúnactualiza de forma continua su perfil del consumo de energía por parte de losvehículoseléctricosylapresiónqueejercensobrelaredeléctrica.

Elauténticovalordelosdatosescomounicebergqueflotaenelocéano.Sólosedistingueaprimeravistaunaminúsculaporción:lamayorpartequedaocultabajolasuperficie. Las empresas innovadoras que entienden esto pueden extraer ese valoroculto y obtener beneficios potencialmente enormes. En resumen, el valor de losdatos ha de verse a la luz de las muchas formas distintas en que pueden serempleadosenelfuturo,nosolamenteporcómoseusanahoramismo,comoseextraedemuchosdelosejemplosquehemosresaltadoantes.Farecastexplotódatosacercadelaventadebilletesdeaviónparapredecirelpreciofuturodelpasajeaéreo.Googlevolvió a utilizar términos de búsqueda para revelar la prevalencia de la gripe. EldoctorMcGregorvigilólosindicadoresvitalesdeunniñoparapredecireliniciodeunainfección.Mauryleotorgóotrafinalidadaunosantiguoscuadernosdebitácora,desvelandolascorrientesoceánicas.

Con todo, la importancia de la reutilización de los datos no es apreciada porenteroen la sociedad,ni enel ámbitode losnegocios.Pocos son losdirectivosdeConEdisonquehabríanpodidoimaginarquelainformaciónsobreelcableadoylosregistros de mantenimiento con siglos de antigüedad podrían prevenir futurosaccidentes.Hizofaltaunanuevageneracióndeestadísticos,yunanuevageneraciónde métodos y herramientas, para sacar a la luz el valor de los datos. Muchascompañías tecnológicas y de internet se han mostrado incapaces, hasta hace muypoco,deadvertircuánvaliosapuedeserlareutilizacióndelosdatos.

Quizá resulte útil considerar los datos de la misma forma que los físicoscontemplanlaenergía“almacenada”o“potencial”queexisteenelsenodeunobjeto,ensuspenso.Piénseseenunresortecomprimidooenunapelotaquesehallaen loaltodeunmonte.Laenergíacontenidaenesosobjetospermanecelatente—potencial—hastaqueselibera,digamoscuandosedisparaelresorteoseledaunempujónalapelotaparaqueruedeladeraabajo.Ahora,laenergíadeesosobjetossehavuelto“cinética”,porqueestánenmovimiento,ejerciendosufuerzasobreotrosobjetosenelmundo. Después de su uso primario, el valor de los datos aún existe, pero yacedurmiente,almacenandosupotencialcomoelresorteolapelota,hastaquelosdatossonaplicadosaunusosecundarioysupoderseveliberadodenuevo.Enlaeradelosdatosmasivos, por fin disponemos de lamentalidad, el ingenio y los instrumentosnecesariosparaextraerelvalorocultodelosdatos.

Enúltimainstancia,elvalordelosdatosesloqueunopuedeganardetodaslasformas posibles en que los emplee. Estos usos potenciales aparentemente infinitossoncomolasopciones:noenelsentidofinanciero,sinoenelsentidoprácticodelasopcionesquebrindan.Elvalordelosdatoseslasumadeesaselecciones:su“valordeopción”,porasídecir.Antes,unavezcompletadoelusoprincipaldelosdatos,sepensabaqueéstoshabíancumplidosupropósito,yestábamoslistosparaeliminarlos,


odejarqueseperdiesen.Despuésdetodo,yaseleshabíaextraídoelvalorprincipal.En la era de los datos masivos, la información es como una mina de diamantesmágicaquesigueproduciendomuchodespuésdehaberseagotadosuvetaprincipal.Existen tres vías poderosas para desencadenar el valor de opción de los datos: lareutilizaciónbásica,lafusióndeconjuntosdedatosyelhallazgodecombinaciones“dosporuno”.

LAREUTILIZACIÓNDEDATOS

Unejemploclásicode reutilización innovadoradedatos loofrecen los términosdebúsqueda.Aprimeravista,lainformaciónparececarecerdevalordespuésdehabercumplidosuusoprimario.Lainteracciónmomentáneaentreelconsumidoryelmotorde búsqueda produjo una relación de páginas web y anuncios que cumplieron unpropósitoespecíficoexclusivodeesemomento.Perolasbúsquedasantiguaspuedenresultarextraordinariamentevaliosas.UnacompañíacomoHitwise,quesededicaamedir el tráfico en la red, propiedad del agente de datos Experian, permite a susclientes investigar el tráfico de búsquedas para descubrir las preferencias de losconsumidores. Los profesionales de la distribución, por ejemplo, pueden recurrir aHitwiseparahacerseunaideadesielrosavolveráaestardemodaenprimavera,osihavueltoelnegro.Googleponeadisposicióndelpúblicounaversióndesusistemaanalíticodetérminosdebúsquedaparasuexamensinrestricciones,yhalanzadounservicio de pronósticos de negocios con el BBVA, el segundo mayor banco deEspaña,paraexaminarelsectorturísticoycomercializarindicadoreseconómicosentiemporealsegúnlasbúsquedas.ElBankofEnglandusalasbúsquedasrelacionadascon lapropiedad inmobiliariaparaconseguirunapercepciónmásajustadadesi lospreciosdelaviviendaestánsubiendoobajando.

Las empresas que no supieron apreciar la importancia de reutilizar datos hanaprendido la lección por las malas. Por ejemplo, en sus inicios Amazon firmó unacuerdo conAOLpara suministrarle la tecnología necesaria a suwebde comercioelectrónico. A la mayor parte de la gente le pareció un vulgar acuerdo deexternalización, pero lo que a Amazon le interesaba de verdad—explica AndreasWeigend,antiguocientífico jefedeAmazon—erahacersecondatosacercadequémiraban y compraban los usuarios de AOL[74], lo que le permitiría mejorar elrendimientodesumotorderecomendaciones.LapobreAOLnuncacayóenlacuentadeesto:sóloveíaelvalordelosdatosentérminosdesupropósitofundamental,lasventas.LaastutaAmazonsabíaquepodíaobtenerréditosaplicandoesosdatosaunusosecundario.

Considérese, si no, el caso de la entrada de Google en el terreno delreconocimiento de voz con su GOOG-411 para búsquedas de listados locales, queestuvo operativo de 2007 a 2010. El gigante de las búsquedas no tenía tecnología


propia de reconocimiento de voz, así que tuvo que subcontratarla. Alcanzó unacuerdoconlafirmalíderenesecampo,Nuance[75],queseentusiasmóalconseguiruncliente tanprestigioso.PeroenNuancenoeranmuylistosen loquea losdatosmasivosserefiere:elcontratonoespecificabaaquiénlecorrespondíanlosregistrosdetraduccióndevoz,yGoogleselosquedó.Elanálisisdelosdatoslepermiteaunoestimarlaprobabilidaddequeunpequeñofragmentodevozdigitalizadacorrespondaa una palabra determinada. Esto resulta esencial para mejorar la tecnología dereconocimientodevoz,ocrearun servicioenteramentenuevo.Poraquel entonces,Nuance consideraba que su negocio era licenciar software, no procesar datos. Encuanto se dio cuenta de su error, empezó a cerrar acuerdos con operadores detelefoníamóvilyfabricantesdemicroteléfonosparaquehicieranusodesuserviciodereconocimientodevoz,paraasípoderrecogerlosdatos.

El valor presente en la reutilizacióndedatos constituyeunabuenanoticia paraaquellasorganizacionesque recopilanocontrolangrandesconjuntosdedatos,perohacen poco uso de ellos en estos momentos, como pueden ser las empresasconvencionales que, esencialmente, operan offline. Puede que estén sentadas sobreauténticos géiseres de información sin explotar. Otras compañías pueden haberrecogidodatos,haberlosempleadounavez(siacaso),yconservadosóloporsubajocostedealmacenamientoen“tumbasdedatos”,comollamanlosespecialistasa loslugaresdonderesideesetipodeinformaciónantigua.

Las compañías tecnológicas y de internet se hallan a la vanguardia de laexplotacióndeldiluviodedatos,dadoquerecopilanmuchísimainformaciónsóloporestaronline,y le llevanventajaal restode la industriaa lahoradeanalizarla.Perotodas las empresas están en condiciones de obtener ganancias. La consultoraMcKinsey&Company cita el caso de una empresa logística —cuya identidadmantiene en el anonimato— que advirtió que en el transcurso de sus entregas demercancíaestabaamasando toneladasde informaciónsobreenvíosdeproductosentodo el mundo. Olfateando una oportunidad, la empresa estableció una divisiónespecialparavenderesosdatosagregadosbajolaformadeprevisioneseconómicasyde negocios. En otras palabras, creó una versión offline del negocio de antiguasbúsquedas de información de Google. O tómese el caso de SWIFT, el sistemabancario mundial de transferencias electrónicas. Observó que los pagos secorrelacionan con la actividad económica mundial, así que SWIFT ofrecepredicciones sobre la evolución del PIB basadas en los datos de transferencia defondosquecirculanporsured.

Algunasfirmas,porsuposiciónenlacadenadevalordelainformación,puedenhallarse en situación de recopilar enormes cantidades de datos, aun cuando tenganpocanecesidad inmediatadeellosonoesténmuyversadasensureutilización.Porejemplo, los operadores de telefonía móvil reúnen información acerca de lalocalización de sus clientes con el objeto de encaminar las llamadas. Para esascompañías, tal información sólo tieneusos técnicos limitados.Ahorabien, se torna


más valiosa cuando la reutilizan empresas[76] que distribuyen publicidad ypromocionespersonalizadasbasadasenlalocalización.Aveces,elvalornosurgedepuntosdedatos individuales,sinode loquerevelanagregados.Deahíquealgunasempresas de geolocalización, como AirSage y Sense Networks, que vimos en elcapítuloanterior,puedanvender informaciónsobredóndesecongrega lagenteunanochede viernes, o la velocidad a la que semueven los coches en el tráfico.Estamasadedatospuedeusarseparadeterminarelvalordelaspropiedadesinmobiliariasoelpreciodelasvallaspublicitarias.

Hastalainformaciónmáscorrientepuedetenerunvalorespecialsiseaplicadelaformacorrecta.Pensemosnuevamente en losoperadoresde telefoníamóvil: tienenregistrossobredóndeycuándoseconectanlosteléfonosalasestacionesbase,yconquéintensidaddeseñal.Losoperadoresllevanmuchotiempousandoesosdatosparaajustarelrendimientodesusredes,ydecidirdóndehayqueampliaromodernizarlainfraestructura.Perolosdatostienenotrosmuchosusospotenciales.Losfabricantesdeteléfonosmóvilespodríanusarlosparaaveriguarquéinfluyeenlaintensidaddelaseñal, por ejemplo,mejorando así la calidad de recepción de sus dispositivos. Losoperadores de telefonía móvil han sido mucho tiempo reacios a vender esainformación,pormiedoa infringir normas sobre laproteccióndedatosde carácterpersonal. Sin embargo, están empezando a cambiar de actitud al ver zozobrar susfinanzas, y contemplar sus datos como una fuente potencial de ingresos. En 2012,Telefónica, lagrancompañíade telecomunicaciones española e internacional, llegóincluso al extremo de establecer una empresa independiente, llamada TelefónicaDigital Insights, para vender datos anónimos y agregados de localización desuscriptoresaempresasdedistribuciónyotrossectores.

DATOSRECOMBINANTES

Enocasiones,elvalordurmientesólopuedeserliberadoalcombinarunconjuntodedatos con otro, tal vezmuy distinto. Podemos hacer cosas innovadoras almezclardatosdemanerasnuevas.Unejemplonoslobrindauninteligenteestudiopublicadoen2011sobresi los teléfonosmóviles incrementan laprobabilidadde tenercáncer.Conalrededorde seismilmillonesdemóviles en elmundo, casi unopor cada serhumanodelaTierra,lacuestiónescrucial.Muchosestudioshanintentadoencontrarunarelación,perosehanvistomenoscabadosporciertasdeficiencias:lostamañosdelasmuestraserandemasiadopequeños,olosperiodosconsideradoserandemasiadocortos,osebasabanendatosdeelaboraciónpropiaqueestabanllenosdeerrores.Sinembargo, un equipo de investigadores de la Asociación Danesa contra el Cáncerdesarrollóunenfoqueinteresantebasadoendatosrecopiladospreviamente.

De los operadores de telefonía móvil[77] se obtuvieron datos sobre todos losabonadosdesdelaintroduccióndelosteléfonosmóvilesenDinamarca.Elestudiose


centró en aquellos que teníanmóviles entre 1987 y 1995, con la excepción de losteléfonos de empresa y de otros para los que no se disponía de datossocioeconómicos.Eltotalascendíaa358403personas.Dinamarcadisponía,además,de un registro nacional de todos los pacientes de cáncer, que recogía a 10729personasquepadecierontumoresdelsistemanerviosocentralentre1990y2007,elperiododeseguimiento.Porúltimo,elestudiohizousodeunregistronacionalconinformaciónsobreelniveleducativoylarentadisponibledecadaciudadanodanés.

Despuésdecombinarlostresconjuntosdedatos,losinvestigadoresestudiaronsilosusuariosdemóvilmostrabanunamayorincidenciadecasosdecáncerquelosnoabonados. Entre los primeros, ¿tenían más posibilidades de desarrollar un cáncerquieneshabíantenidoteléfonomóvilduranteuntiempomáslargo?

Apesarde la escaladel estudio, losdatosnoeranenabsolutodesordenadosniimprecisos: losconjuntosdedatos sehabíanestablecidobajoestándaresdecalidadexigentes por razonesmédicas, comerciales o demográficas. La información no sehabíarecopiladodeningunaformaquepudieraintroducirsesgosrelacionadosconeltemadelestudio.Enrealidad,losdatossehabíangeneradovariosañosantes,yporrazones que nada tenían que ver con este proyecto de investigación. Lo másimportante era que el estudio no se basaba en una muestra, sino en algo que seacercabamuchoaN=todo:casitodosloscasosdecánceryprácticamentetodoslosusuarios de teléfonos móviles, que ascendían a 3,8 millones de años-persona depropiedaddecelulares.Elhechodequecontuviesecasi todos loscasossignificabaque los investigadorespodíanbuscarsubpoblaciones,comoladequienes teníanunniveldeingresoselevado.

Alfinal,elgruponodetectóningúnincrementoenelriesgodecáncerasociadoconelusodeteléfonosmóviles.Poresarazón,loshallazgosapenastuvieronecoenlosmediosdecomunicacióncuandosepublicaronenoctubrede2011en la revistamédicainglesaBMJ.Perosisehubiesedescubiertotalvínculo,elestudiohabríasidonoticia de primera página en todo el mundo, y la metodología de los “datosrecombinantes”habríaexperimentadoungranespaldarazo.

Con datos masivos, la suma es más valiosa que sus partes, y cuandorecombinamos juntas las sumasdemúltiples conjuntosdedatos, tambiénesa sumavalemásquesuscomponentesindividuales.Hoyendía,losusuariosdeinternetestánfamiliarizadosconlosmashups[revoltijos]básicosquecombinandosomásfuentesdedatosde formanovedosa.Porejemplo, lapáginawebdepropiedad inmobiliariaZillow superpone información y precios de bienes inmuebles sobre un mapa devecindarios en Estados Unidos. Asimismo, procesa toneladas de datos, como, porejemplo, las transacciones recientes en el vecindario y la descripción de laspropiedades, para pronosticar el valor de las casas específicas en un área. Lapresentaciónvisualhacemásaccesibleslosdatos.Sinembargo,condatosmasivossepuede ir más allá. El estudio danés sobre el cáncer nos ofrece una pista de susposibilidades.


DATOSEXTENSIBLES

Una forma de hacer posible la reutilización de los datos es incorporar laextensibilidadensudiseñodesdeelprincipio,deformaqueseanadecuadosparausosmúltiples.Aunqueestonosiempreresultaposible—yaqueunopuedeidentificarlosusos posibles sólo mucho después de haber recogido los datos—, hay formas deincentivar losusosmúltiplesdeunmismoconjuntodedatos.Porejemplo,algunosminoristas instalan las cámaras de vigilancia en sus tiendas de forma que no sólopermitandetectaralosladrones,sinotambiénseguirelflujodeclientesatravésdellocaly tomarnotadedóndeseparanmásamirar.Loscomerciospuedenusarestaúltimainformaciónparadiseñarlamejordistribuciónposibledelatienda,asícomopara valorar la efectividad de las campañas de marketing. Antes de esto, lasvideocámarasúnicamenteseusabanporseguridad;ahoraseconsideranunainversiónquepuedeincrementarlosingresos.

Noresultasorprendentequeunade lasmejoresempresasa lahoraderecopilardatos con miras a su extensibilidad sea Google. Sus controvertidos coches StreetView recorrían las ciudades tomando fotos de casas y calles, pero tambiénabsorbiendo datos de GPS[78], comprobando información cartográfica e inclusochupandonombresderedeswifi(y,deformatalvezilegal,elcontenidoquefluíaporlasredesinalámbricasabiertas).UnmerotrayectodeGoogleStreetViewamasabaencadamomentounaenormidaddeflujosdedatosdiscretos.LaextensibilidadapareceporqueGoogleaplicabalosdatosnosóloaunusoprimario,sinoamontonesdeusossecundarios. Por ejemplo, los datos que recogía de los GPSmejoraron el serviciocartográficodelaempresa,yresultaronindispensablesparaelfuncionamientodesucocheautoconducido.

Elcosteadicionalderecopilarmúltiplesflujosomuchosmáspuntosdedatosdecadaflujonosuelesermuyalto.Asípues, tienesentidorecogercuantosmásdatossea posible, y hacerlos extensibles considerando de partida los potenciales usossecundarios.Elloincrementaelvalordeopcióndelosdatos.Lacuestiónestribaenbuscar “dos por uno”, en que un único conjunto de datos puede ser usado enmúltiplesocasionessiseharecopiladodeunaformadeterminada.Deestemodo,losdatospuedenhacerdobleservicio.

LADEPRECIACIÓNDELVALORDELOSDATOS

Dadoque el coste de archivar los datos digitales ha caído en picado, las empresastienenunamotivacióneconómicafuerteparaconservarlosdatosdecaraavolverausarlosconunfinidénticoosimilar.Existe,sinembargo,unlímiteasuutilidad.

Porejemplo,cuandoempresascomoNetflixyAmazonconvierten lascompras,visitas y reseñas de sus clientes en recomendaciones de nuevos productos, puedensentirse tentadas a usar los registros muchas veces a lo largo de muchos años.


Teniendo esto presente, podría argumentarse que mientras una empresa no se veaconstreñidaporlímiteslegalesyregulatorios,comolasleyesdeprivacidad,deberíausar sus archivos digitales siempre, o por lomenos,mientras sea económicamenteviable.Sinembargo,larealidadnoestansencilla.

Lamayoría de losdatospierdeparte de suutilidad con el pasodel tiempo.Entales circunstancias, seguir apoyándose en datos antiguos no sólo deja de aportarvalor,sinoqueacabapordestruirdehechoelvalordelosdatosmásfrescos.Pienseen un libro que compró en Amazon hace diez años, y que puede que ya nocorrespondaa sus intereses.SiAmazonempleaesacompradehacediezañosparaaconsejarle otros títulos, resulta menos probable que los compre usted, o que leimporten siquiera las subsiguientes recomendaciones que lemanden.Dado que lasrecomendacionesdeAmazonsebasansimultáneamenteeninformacióndesfasadaydatosmásrecientes,aúnvaliosos,lapresenciadelosdatosviejosdisminuyeelvalordelosmásrecientes.

Asíque laempresa tieneun tremendo incentivoparausar losdatosúnicamentemientras sigan siendo productivos. Necesita cuidar de sus hallazgos de formacontinua y desechar la información que se ha quedado sin valor. El reto es sabercuálessonesosdatosqueyanoresultanútiles.Basaresadecisiónúnicamenteeneltiempo transcurrido raras veces resulta adecuado. De ahí que Amazon y otrasempresashayanpuestoapuntounosmecanismossofisticadosparaayudarseasepararlosdatosútilesdelosirrelevantes.Porejemplo,siunclientemiraocompraunlibroque le ha sido recomendado en función de una compra anterior, las compañías decomercio electrónico pueden inferir que la adquisición más antigua todavíarepresenta las preferencias actuales del comprador. De ese modo, son capaces devalorar lautilidadde losdatosmásantiguos,ydefinir“tasasdedepreciación”másprecisasparalainformación.

No todos los datos ven depreciarse su valor al mismo ritmo o de la mismamanera.Esto permite explicar por qué algunas firmas creen necesario conservar lainformación durante el mayor tiempo posible, aun cuando los reguladores o elpúblicoprefieranverlaeliminadaoanonimizadatranscurridociertoplazo.DeahíqueGoogle siempre se haya resistido a obedecer las peticiones de borrar del todo lasdireccionesdeprotocolode internetde losusuariosen lasantiguasbúsquedas. (Loquehace,alcabodenuevemeses,esborrarsólolosdígitosfinalesparaanonimizarcasiporcompletolaconsulta.Así,puedeseguircomparandolosdatosdeunañoparaotro,como,porejemplo,lasconsultasdecomprasnavideñas,perosóloenelámbitoregional,nodescendiendoaldetalledelindividuo).Además,conocerlalocalizaciónde losquebuscanalgopuedeayudaramejorar la relevanciade los resultados.Porejemplo, si muchas personas en Nueva York buscan “Turkey” —y hacen clic enpáginas web relacionadas con el país (Turquía), y no con el ave (pavo)—, elalgoritmo clasificará en lugares superiores esas páginas para otras consultasneoyorquinas. Aun cuando el valor de los datos disminuya para algunos de sus


propósitos,suvalordeopciónpuedeseguirsiendoelevado.


ELVALORDELOSDESECHOSDIGITALES

Lareutilizacióndedatospuedecobrarenocasionesunaformaastutaydisimulada.Lasempresasdeinternetpuedencapturardatossobre todas lascosasquehacenlosusuarios,yluegotratarcadainteracciónenparticularcomounaseñalquesirvaparapersonalizar la página web, mejorar un servicio o crear un producto digitalenteramente nuevo.Tenemos un ejemplomuy brioso de esto en el siguiente relatosobredoscorrectoresortográficos.

A lo largo de veinte años,Microsoft desarrolló un sólido corrector ortográficoparasuprogramaWord.Elsistemafuncionabacomparandoelflujodecaracteresquetecleabaelusuarioconundiccionariodetérminosdegrafíacorrectayactualizaciónfrecuente. El diccionario establecía cuáles eran palabras conocidas, y el sistematrataba aquellas variantes no incluidas en el diccionario comoerratas, y procedía acorregirlas.Debidoalesfuerzonecesariopararecopilaryactualizareldiccionario,elcorrector ortográfico[79] de Word sólo estaba disponible para los idiomas máscorrientes.Alacompañíalecostómillonesdedólarescrearloymantenerlo.

Considérese ahora el caso de Google. Podría sostenerse que tiene el correctorortográficomáscompletodelmundo,yenprácticamentetodaslaslenguasvivas.Elsistemaestásiendocontinuamentemejoradoyenriquecidoconnuevaspalabras:eselresultadoincidentaldequelagenteuseelmotordebúsquedaadiario.¿Tecleaunomal “iPad”?Se incorpora. ¿“Obamacare” [elPlandeSanidadparaEstadosUnidospropuestoporObama]?Otrotanto.

Además, Google obtuvo su corrector ortográfico de forma gratuita al parecer,reutilizando las palabras de ortografía errónea que se introducen en su motor debúsquedaconlostresmilmillonesdeconsultasquegestionaadiario.Uninteligentebucle de retroalimentación le explica al sistema exactamente qué palabra habíanquerido escribir en realidad los usuarios. Estos le “indican” explícitamente larespuestaaGoogle,cuandoesteplantealapreguntaenlapartesuperiordelapáginade resultados.—¿Queríausteddecir“epidemiología”?—,alhacerclicencimaparainiciarunanuevabúsquedaconeltérminocorrecto.Osino,lapáginawebalaquelos usuarios son dirigidos les muestra la ortografía correcta, puesto queprobablemente tengaunacorrelaciónmásalta con lapalabradeortografía correctaque con la incorrecta. (Esto esmás importante de lo que puedeparecer: según ibamejorandoelcorrectorortográficodeGoogle,lagentedejódemolestarseenescribircorrectamentesusconsultas,puestoqueaunasíGoogleconseguíaprocesarlasbien).

El sistemade correcciónortográfica deGooglemuestra que los datos “malos”,“incorrectos”o“defectuosos”puedenseguirsiendomuyútiles.LointeresanteesqueGooglenofuelaprimeraentenerestaidea.Alrededordelaño2000,Yahooadvirtiólaposibilidaddecrearuncorrectorortográficoapartirde lasconsultasdeusuariosmalescritas.Sinembargo,laideanuncallegóaabrirsecamino.Losdatosdeantiguas


consultaseranengeneralconsideradosbasura.Deigualmodo,InfoseekyAltaVista,anterioresmotoresdebúsquedapopulares, tuvieroncadauno,en sudía, labasededatosmásampliadelmundodepalabrasmalescritas,peronosupieronvalorarlo.Sussistemas, en un proceso invisible para los usuarios, trataban las erratas como“términos relacionados” y llevaban a cabo una búsqueda. Pero se basaban endiccionariosqueleindicabanexplícitamentealsistemaquéeralocorrecto,noenlasumavivayactivadeinteraccionesdelosusuarios.

SóloGooglesupoverquelosdesechosdelasinteraccionesdelosusuarioseranenrealidadpolvodeoroquepodíarecogerseyfundirseparaformarunlingote.Unode los principales ingenieros de Google estimó que su corrector ortográficofuncionaba mejor que el de Microsoft en por lo menos un orden de magnitud(aunque, al insistirle, admitió que esto no lo habíamedido de forma fiable). Y seburló de la idea de que resultase “gratis” desarrollarlo. La materia prima —laspalabrasmalescritas—podíannohabersupuestoningúncostedirecto,peroGooglehabíagastadoprobablementemuchomásqueMicrosoftparadesarrollarel sistema,confesóconunaampliasonrisa.

Losdiferentesenfoquesde lasdoscompañías sonextremadamente reveladores.Microsoftsóloleveíavaloralcorrectorortográficoparaunúnicopropósito:procesartexto.Google,porsuparte,entendíasuutilidadmásprofunda.Laempresanosólousó laserratasparadesarrollarelmejorymásactualizadocorrectorortográficodelmundoconelfindemejorarlasbúsquedas,sinoqueaplicóelsistemaaotrosmuchosservicios,comolafunción“autocompletar”enlasbúsquedas,Gmail,GoogleDocs,yhastaensusistemadetraducción.

Hasurgidountérminoespecíficoparadescribirelrastrodigitalquelagentedejatrasdesí:“desechosdedatos”,esosquesurgencomosubproductodelasaccionesymovimientosdelagenteenelmundo.Eninternet,eltérminoseusaparadescribirlasinteracciones online de los usuarios: dónde hacen clic, cuánto tiempo miran unapágina,dóndepermanecemás tiempoa la espera el cursordel ratón,qué escriben,etc. Muchas compañías diseñan sus sistemas para recoger desechos de datos yreciclarlos de cara a mejorar un sistema preexistente o desarrollar alguno nuevo.Google, el líder indiscutido, aplica a muchos de sus servicios el principio de“aprenderdelosdatos”deformarecurrente.Cadaacciónquellevaacabounusuarioesconsideradaunaseñalquehadeseranalizadayvueltaaincorporaralsistema.

Porejemplo,Googleesmuyconscientedelasmuchasvecesquelagentebuscóuntérminodadoasícomootrosrelacionados,ydecuánamenudohicieronclicenunenlace,paraluegoregresaralapáginadebúsqueda,descontentosconloquehabíanencontrado, y lanzar otra búsqueda.Sabe si hicieron clic en el octavo enlace de laprimera página, o en el primer enlace de la octava página, o si abandonaron labúsqueda del todo. Puede que la compañía no haya sido la primera en tener estapercepción,perolallevóalaprácticaconextraordinariaefectividad.

Estainformaciónesaltamentevaliosa.Simuchosusuariostiendenahacerclicen


unresultadodebúsquedaalpiedelapáginaderesultados,esodaaentenderqueesmásrelevantequelosquetieneporencima,yelalgoritmodeclasificacióndeGooglesabe que ha de situarlo automáticamente en una posición más elevada para lasbúsquedassubsiguientes.(Lomismohaceparalosanuncios).“Nosgustaaprenderdeconjuntosdedatosampliosy‘ruidosos’”,afirmaunmiembrodeGoogle.

Losdesechosdedatosconstituyenelmecanismoquesubyaceamuchosservicioscomo el reconocimiento de voz, los filtros de spam, la traducción de idiomas ydemás.Cuandolosusuariosleindicanaunprogramadereconocimientodevozquehamalinterpretadoloquehandicho,enlaprácticaestán“entrenando”alsistemaparaquefuncionemejor.

Muchosnegociosestánempezandoaprogramarsussistemaspararecogeryusarla información de esta forma. En los primeros tiempos de Facebook, su primer“científicodedatos”,JeffHammerbacher[80] (quesecuentaentre laspersonasa lasqueseatribuyelaacuñacióndel término)examinólaricaacumulacióndedesechosde datos. Él y su equipo descubrieron que un indicador potente de si la genteacometería una acción determinada (subir contenido, hacer clic sobre un icono,etcétera) era si habían visto a sus amigos hacer eso mismo. Así que Facebookrediseñósusistemaparaponermayorénfasisenhacermásvisibleslasactividadesdelos amigos, lo que dio lugar a un círculo virtuoso de nuevas contribuciones a lapáginaweb.

Laideaseestáextendiendomuchomásalládelsectordeinternet,hastacualquierempresaquedispongadealgunaformaderecogerlasopinionesdelosusuarios.Loslibroselectrónicos,porejemplo,capturancantidadesmasivasdedatosacercadelaspreferenciasliterariasyhábitosdelecturadelaspersonasquelosusan:cuántotardanen leer una página o sección, dónde leen, si pasan la página tras una ojeada oabandonan la lectura del todo. Las máquinas registran todas las veces que losusuarios subrayan un pasaje o toman notas en los márgenes. La capacidad derecopilar esta clase de información transforma la lectura, que durante tanto tiempofueunactosolitario,enunasuertedeexperienciacomunitaria.

Unavezagregados,losdesechosdedatospuedendecirlesaloseditoresyautorescosas que antes nunca pudieron conocer de forma cuantificable: las preferencias,rechazos y patrones de lectura de la gente. Esta información es valiosa desde unpunto de vista comercial: cabe imaginar a los fabricantes de libros electrónicosvendiéndoselaa laseditorialesparamejorarel contenidoyestructurade los libros.Por ejemplo, el análisis deBarnes&Noble sobre losdatosprocedentesde su libroelectrónicoNook[81]revelóquelagentetiendeadejaralamitadloslibroslargosdeno ficción. Ese descubrimiento le inspiró a la compañía la creación de una seriellamada “Nook Snaps”: ensayos breves sobre cosas como la salud o los temas deactualidad.

OconsidérensesinolosprogramasdeeducaciónonlinecomoUdacity,CourserayedX.Estos rastrean las interaccionesde losestudiantesen la redparaverquéda


mejorresultadodesdeunpuntodevistapedagógico.Lasdimensionesdelalumnadohansidodelordendedecenasdemilesdeestudiantes,produciendoextraordinariascantidades de datos. Los profesores pueden ahora comprobar si el porcentaje deestudiantesquehanvueltoaverunpasajedeunaconferenciaesalto,loquepodríasugerirque talvezno teníanclarociertopunto.AldarunaclaseCourserasobreelaprendizajeautomáticoelprofesordeStanfordAndrewNgobservóquealrededordedosmil estudiantes contestaronmal a unapregunta determinadade sus tareas paracasa;perotodospresentaronexactamentelamismarespuestaincorrecta.Claramente,todosestabancometiendoelmismoerror.Ahorabien,¿cuáleraéste?

Investigando un poco, descubrió que estaban invirtiendo dos ecuacionesalgebraicas en un algoritmo. Así que ahora, cuando otros estudiantes cometen esemismo error, el sistema no sólo les comunica simplemente que están equivocados,sinoquelesdaunapistaparaqueverifiquensuscálculos.Elsistemahaceusodelosdatosmasivos, también, al analizar todos losmensajes de foros que han leído losestudiantes,ysiacabansustareasdeformacorrecta,parapredecirlaprobabilidaddeque un estudiante que ha leído determinadomensaje obtenga resultados correctos,determinando así qué mensajes de los foros resultan de lectura más útil para losestudiantes.Estassoncosasqueerandeltodoimposiblesdesaberhastaahora,yquepodríancambiarparasiemprelaformadeenseñarydeaprender.

Losdesechosdedatospuedensuponerunaenormeventajacompetitivapara lasempresas, y también pueden transformarse en una poderosa barrera para evitar laentrada de rivales. Piénsese: si una compañía recién establecida desarrollase unapágina web de comercio electrónico, una red social o un motor de búsqueda quefueran mucho mejores que los de los líderes actuales, como Amazon, Google oFacebook,severíaendificultadesparacompetirnosóloacausadelaseconomíasdeescalaylosefectosderedomarca,sinoporqueunapartetangrandedelrendimientode esas firmas punteras se debe a los desechos de datos que recopilan de lasinteraccionesdelosconsumidoresyluegovuelvena incorporaralservicio.¿Podríaunapáginawebnuevadeeducaciónonlinedisponerdelknow-howparacompetirconelqueyahadesarrolladounamonstruosacantidaddedatosquelepermitensaberquéfuncionamejor?


ELVALORDELOSDATOSABIERTOS

Hoy en día, es probable que pensemos que páginasweb comoGoogle yAmazonfueronlospionerosdelfenómenodelosdatosmasivospero,pordescontado,fueronlos gobiernos los acopiadores originales de información a escalamasiva, y todavíapuedencompetir concualquierempresaprivadaporelmerovolumendedatosquecontrolan.Laprincipaldiferenciaconlostenedoresdeinformacióndelsectorprivadoestribaenquelosgobiernosmuchasvecespuedenforzaralagenteasuministrarlesinformación, en lugar de tener que persuadirlos u ofrecerles algo a cambio. Porconsiguiente,losgobiernosseguiránamontonandovastostesorosdedatos.

Lasleccionesdelosdatosmasivossontanaplicablesalsectorpúblicocomoalasentidadescomerciales:elvalordelosdatosgubernamentaleseslatenteyprecisadeunanálisisinnovadorparasaliralaluz.Peseasuventajosasituaciónparacapturardatos, los gobiernos a menudo se han mostrado ineficaces a la hora de usarlos.Últimamentehacobradorelievela ideadequelamejormaneradeextraervalordelosdatosgubernamentalesesfacilitarleelaccesoalosmismosalsectorprivadoyalasociedad en general. Un principio subyace a esto: cuando el estado reúneinformación,lohaceennombredesusciudadanos,porloquedeberíaproporcionarleacceso a la sociedad (salvo en el contado número de casos en que con ello podríacausarperjuicioalaseguridadnacionalovulnerarelderechoalaintimidaddeotros).

Esta idea ha dado lugar a incontables iniciativas a favor de los “datosgubernamentalesabiertos”portodoelmundo.Argumentandoquelosgobiernossontansólocustodiosdelainformaciónquereúnen,yqueelsectorprivadoylasociedadserán más innovadores, los defensores de los datos abiertos elevan peticiones adiversos organismospúblicos para quedifundanpúblicamente esosdatos con finestanto cívicos como comerciales. Para que esto resulte operativo, por supuesto, losdatos tienen que presentarse en un formato estandarizado e interpretable por lasmáquinas,deformaquesefacilitesuprocesamiento.Deotromodo,lainformaciónnotendríadepúblicamásqueelnombre.

LaideadelosdatosgubernamentalesabiertosrecibióungranimpulsocuandoelpresidenteBarackObamahizopúblico,durantesuprimerdíacompletoenelcargo,el21deenerode2009,unmemorandopresidencialordenandoa losdirigentesde losorganismos federalesquedivulgaran tanta informacióncomo les fueraposible.“Encasodeduda,hadeprevalecerlaapertura”,instruyó.Fueunadeclaraciónadmirable,particularmente en comparación con la actitud de su predecesor, quien había dadoinstrucciones de que se hiciera justamente lo contrario. La orden de Obama[82]propició la creación de la páginaweb data.gov, un repositorio de información delgobierno federal de acceso abierto.Esta página creció rápidamente de 47 bases dedatosen2009acercade450000,repartidaspor172organismos,alcumplirsuterceraniversarioenjuliode2012.


http://www.data.gov

Hasta en la reticente Gran Bretaña, donde un montón de informacióngubernamental está bajo llave por ser los derechos de propiedad intelectual de laCorona, y resulta complicado y oneroso licenciar su uso (como es el caso de loscódigos postales para compañías de mapas online), se han dado progresossustanciales.ElgobiernodelReinoUnidohapromulgadonormaspara fomentar lainformación abierta y ha apoyado la creación de un Instituto de Datos Abiertos,codirigido por Tim Berners-Lee, el inventor de la World Wide Web, parapromocionarlosusosnovedososdelosdatosabiertosylasformasdeliberarlosdelasgarrasdelestado.

LaUniónEuropeatambiénhaanunciadoiniciativasdedatosabiertosqueprontopodríanllegaraserdeámbitocontinental.Otrospaíses,comoAustralia,Brasil,ChileyKenia,hancreadoe implementadoestrategiasdedatosabiertos.Unpeldañomásabajo, son cada vez más las ciudades y municipios de todo el mundo que hanabrazadolacausadelosdatosabiertos,igualquealgunosorganismosinternacionalescomo el BancoMundial, abriendo al público cientos de conjuntos de datos sobreindicadoreseconómicosysocialesqueanteserandeaccesorestringido.

Paralelamente,sehanidoformandoentornoalosdatos,paraintentarsacarleselmayorpartidoposible,comunidadesdediseñadoresdewebsypensadoresvisionarioscomo Code for America y la fundación Sunlight en Estados Unidos, y la OpenKnowledgeFoundationenGranBretaña.

Unejemploprecozde lasposibilidadesde la información abierta loofreceunapágina web llamada FlyOnTime.us, donde los visitantes pueden averiguarinteractivamente (entre otrasmuchas correlaciones) qué probabilidad existe de quelas inclemenciasmeteorológicas retrasen los vuelos de un aeropuerto determinado.Esta página web combina información del tiempo y de vuelos a partir de datosoficialesdeaccesolibreygratuitoporinternet.Fuedesarrolladaporunosdefensoresde los datos abiertos para demostrar la utilidad de la información que amasaba elgobiernofederal.Inclusoelsoftwaredelapáginawebesdecódigoabierto,demodoqueotrospuedanaprenderdeélyvolverausarlo.

FlyOnTime.usdejaquehablen losdatos,yamenudodicecosas sorprendentes.Puede verse que en el caso de los vuelos deBoston al aeropuerto neoyorquino deLaGuardia, los viajeros han de estar preparados para unos retrasos dos vecesmáslargos cuando hay niebla que cuando nieva. Esto, probablemente, no es lo que lamayoría de la gente se habría imaginadomientras se arremolinaban en el área deembarque: lanieve leshabríaparecidouna razóndemáspesoparael retraso.Peroéste es el tipo de percepción que el uso de datosmasivos hace posible, cuando seprocesandatoshistóricosderetrasosdevuelodelaoficinafederaldetransporteconinformaciónaeroportuariaactualprocedentedelaadministraciónfederaldeaviación,juntoconlospasadospartesmeteorológicosoficialesylascondicionesrealessegúnelserviciometeorológiconacional.FlyOnTime.usponederelievecómounaentidadquenorecopilanicontrolaflujosdeinformación,comounmotordebúsquedaouna


http://www.FlyOnTime.us

gran empresa de distribución, puede, sin embargo, obtener y usar datos para crearvalor.


VALORARLOQUENOTIENEPRECIO

Tantoabiertosalpúblicocomoguardadosbajollaveencajasfuertescorporativas,elvalordelosdatosresultadifícildemedir.Piénseseenlosacontecimientosdelviernes18 de mayo de 2012. Ese día, el fundador de Facebook, Mark Zuckerberg, deveintiochoaños,hizosonar,deformasimbólica,lacampanaqueabríalasesióndelNASDAQdesde la sedede su compañía enMenloPark,California.Lamayor redsocial del mundo—que se preciaba de tener como miembro a uno de cada diezhabitantes del planeta— empezaba así su nueva vida como sociedad anónima. Elvalor de las acciones subió inmediatamente un 11 por 100, como ocurre connumerosas empresas tecnológicas nuevas en su primer día de cotización. Sinembargo,algoraropasóacontinuación:lasaccionesdeFacebookempezaronacaer.No ayudó que un problema técnico con los ordenadores de NASDAQ obligase asuspendertemporalmentelanegociación.Perohabíaunproblemamayorenciernesy,al detectarlo, los suscriptores del capital, encabezados por Morgan Stanley,apuntalarondehecholacotizacióndesfallecienteparaquesemantuvieraporencimadesupreciodesalida.

Latardeanterior,losbancosdeFacebookhabíanvaloradolaempresaarazónde38 dólares por acción, lo que se tradujo en una valoración global de 104000millones. (Por comparación, venía a ser aproximadamente la capitalización demercadodeBoeing,GeneralMotorsyDellComputersjuntas).¿QuévalíaenrealidadFacebook? En su contabilidad financiera de 2011, ya auditada, con la que losinversores le habían tomado el pulso a la compañía, Facebook declaró activos porvalor de 6300 millones de dólares. Eso representaba el valor de sus equiposinformáticos, mobiliario de oficina y otros bienes físicos. ¿Y qué hay del valorcontableatribuidoa lasvastascantidadesde informaciónqueFacebook teníaensucaja fuerte corporativa?Básicamente, nulo.No se incluía, aun cuando la compañíaprácticamentenoesnadamásquedatos.

Lasituaciónsevuelveaúnmásrara.DougLaney,vicepresidentedeinvestigaciónenGartner,unaempresadeanálisisdemercados,procesólosdatosduranteelperiodoprevioalaofertainicialalpúblico(OSP)yconcluyóqueFacebookhabíareunido2,1billones de unidades de “contenido monetizable” entre 2009 y 2011, como “megustas”,materialescritoenpostsycomentarios.ComparadaconsuvaloraciónOSP,esosignificaquecadaunidad,consideradacomounpuntodedatosindividual,teníaun valor de unos cinco centavos. Otra manera de verlo es que cada usuario deFacebookvalíaalrededordeciendólares,puestoquelosusuariossonlafuentedelainformaciónrecogidaporFacebook.

¿Cómo explicar la vasta divergencia entre el valor de Facebook[83] según lasnormascontablesestándar (6300millonesdedólares)y lavaloración inicialque ledioelmercado(104000millonesdedólares)?Nohayformacorrectadehacerlo.Al


contrario, lo que existe es un acuerdomuy extendido de que el método actual dedeterminacióndelvalorcorporativoapartirdel“valorcontable”delacompañía(estoes,básicamente,elvalordesusactivosfísicos)yanoreflejaadecuadamentesuvalorauténtico.Dehecho,eldesfaseentreelvalorcontableyel“valordemercado”—loque valdría la compañía si fuese adquirida directamente en Bolsa— llevaampliándosevarias décadas.En el año2000, elSenadodeEstadosUnidos inclusoorganizó unas audiencias públicas sobre la modernización de las normas deinformación financiera, cuyo origen se remontaba a la década de 1930, cuandoapenas existían negocios basados en la información. La cuestión afecta a bastantemás que el balance de una compañía: la incapacidad de estimar adecuadamente elvalor de una empresa podría suscitar riesgos para el negocio y volatilidad en elmercado.

Ladiferenciaentreelvalorcontableyelvalordemercadodeunacompañíasecontabilizacomo“activosintangibles”[84].EnEstadosUnidoshapasadodealrededordel40por100delvalordelasempresascotizadasenBolsa,amediadosdeladécadade1980,alastrescuartaspartesdesuvalor,alalbadelnuevomilenio.Estaesunadivergencia de bulto. Se considera que los activos intangibles comprendenmarcas,talentoyestrategia:cualquiercosaquenoseafísicaniformepartedelsistemaformalfinanciero y contable. Sin embargo, los activos intangibles están empezando areferirsecadavezmás,también,alosdatosquelascompañíasguardanyutilizan.

En última instancia, lo que esto indica es que hoy por hoy no existe ningunaformaobviadevalorar la información.El díaque salieron aBolsa las accionesdeFacebook, la diferencia entre sus activos formales y su valor intangible y noregistradoeradecasi100000millonesdedólares,locualesridículo.Sinembargo,desfasescomoéstetienenquecerrarse,yloiránhaciendoamedidaquelasempresasencuentrenformasdeanotarensusbalanceselvalordesusactivosendatos.

Sehanempezadoadarpasitosenesadirección.Unaltodirectivodeunodelosmayores operadores inalámbricos de Estados Unidos admitió que su empresaportadorareconocíaelinmensovalordesuinformación,yestudiabasitratarlacomoun activo corporativo en términos contables formales. En cuanto llegó a suconocimiento la iniciativa,sinembargo, losabogadosde lacompañía lapararonenseco.Registrarlosdatosenloslibrosdecuentaspodríahaceralaempresalegalmenteresponsable, argumentaron loshombresde leyes,yesono lesparecía, enabsoluto,unabuenaidea.

Entretanto, los inversores tambiénempezarána fijarseenelvalordeopcióndelos datos. Puede que aumente mucho el valor de las acciones de las firmas quedispongan de datos o puedan recogerlos con facilidad, en tanto que otras, enposicionesmenosafortunadas,acasoveandepreciarsesuvalordemercado.Nohacefalta que aparezcan formalmente los datos en el balance para que esto ocurra. Losmercadosylosinversorestendránencuentaesosactivosintangibles[85]alhacersusvaloraciones,sibiencondificultad,comodemuestranlosaltibajosenlacotizaciónde


las acciones de Facebook durante sus primeros meses. Pero, según vayanresolviéndoselosdilemascontablesylaspreocupacionesderesponsabilidadlegal,escasi seguro que el valor de los datos acabará por aparecer en los balancescorporativos,convirtiéndoseenunanuevaclasedeactivo.

¿Cómosevaloraránlosdatos?Calcularsuvaloryanosignificarámeramentesumarlo que se gana mediante su uso primario. Pero si la mayor parte del valor de lainformación está latente y surgirá de unos usos secundarios futuros que hoy aúndesconocemos,noresultaobviocómosepodríaprocederaestimarlo.EstoseparecealosobstáculosquehabíaparaponerlesprecioalosderivadosfinancierosantesdeldesarrollodelaecuacióndeBlack-Scholesenladécadade1970,oaladificultaddevalorarlaspatentes,cuandolassubastas,intercambios,ventasprivadas,acuerdosdelicencia y montones de litigios van creando lentamente un mercado para elconocimiento.Desdeluego,colgarleunaetiquetaconelprecioalvalordeopcióndelos datos representa, como mínimo, una espléndida oportunidad para el sectorfinanciero.

Podríamos empezar por examinar las distintas estrategias que aplican losposeedoresdedatosparaextraerleselvalor.Laposibilidadmásobviaesdestinarlosal usopropiode la firma.Resulta improbable, sin embargo, queuna compañía seacapazdedescubrirelvalorlatentedetodoslosdatos.Demaneramásambiciosa,portanto,sepodríalicenciaraterceroselusodelosdatos.Enlaeradelosdatosmasivos,muchos titulares de datos pueden querer optar por un acuerdo que les suponga unporcentajedelvalorextraídodelosdatosantesqueunimportefijo.Asílohacenlaseditoriales, que pagan a los autores e intérpretes un porcentaje sobre las ventas delibros,músicaopelículasatítulodederechosdeautor.Tambiénsucedealgosimilarenelcampodelabiotecnología,dondequienlicenciasupropiedadintelectualpuedepedirregalíassobrelasinvencionessubsiguientessurgidasdesutecnología.Deestaforma, todas las partes tienen un incentivo paramaximizar el valor obtenido de lareutilizacióndelosdatos.

Sin embargo, en lamedida en que quien compra una licencia puede no lograrextraer el valor de opción pleno, los titulares de los datos no desearán concederaccesoexclusivoasus tesorosde información.Antesbien, la“promiscuidadde losdatos” puede convertirse en la norma.De esamanera, los poseedores de los datoscompensansusapuestas.

Hanaparecidounaseriedemercadosvirtualesparaexperimentarconformasdeponerlesprecioalosdatos.DataMarket,creadaenIslandiaen2008,ofreceaccesoaconjuntos dedatos gratuitos deotras fuentes, como lasNacionesUnidas, elBancoMundialyEurostat,yobtieneingresosrevendiendodatosdeproveedorescomercialescomofirmasdeinvestigacióndemercados.Otrasstartupshantratadodeconvertirseenintermediariasdeinformación,plataformasparaqueterceraspartescompartansus


datos de forma gratuita o a cambio de una remuneración. La idea es permitir quecualquiera venda la información de sus bases de datos, igual que eBay aportó unaplataformaparaquelagentepuedavenderlascosasquetieneeneldesván.Import.ioanimaalasfirmasalicenciarsusdatos,quedeotromodopodríanser“rebañados”enla red y usados de forma gratuita. Factual, fundada por un antiguo miembro deGoogle,GilElbaz,hacedisponiblesunosconjuntosdedatosquesetomalamolestiaderecopilarporsucuenta.

Microsoft ha entrado en liza con Windows Azure Marketplace, aspirando acentrarseendatosdealtacalidadyasupervisarquéhayenoferta, igualqueApplecontrolalasofertasdesutiendadeapps.TalcomoloveMicrosoft,unadirectivademarketingqueestátrabajandoconunahojadecálculodeExcelpuedequerercruzartablascondatosinternosdesuempresaconprediccionesdecrecimientodelPIBdeunaconsultoríaeconómica.Asípues,haceclicenesemismomomentoparacompraresosdatos,yestosfluyeninstantáneamentealascolumnasquetieneenpantalla.

Hastaahora,noesposiblesabercómoresultaránlosmodelosdevaloración.Loqueestáclaroesqueestánempezandoacrearseeconomíasalrededordelosdatos,yque muchos nuevos actores van a beneficiarse, mientras que unos cuantos de losantiguosprobablementeconsiganunasorprendenteprórrogavital.“Losdatossonunaplataforma”, ha dicho Tim O’Reilly[86], editor de tecnología y voz autorizada deSiliconValley,yaquesetratadebloquesdeconstrucciónparafabricarnuevosbienesymodelosdenegocio.

Loesencialdelvalordelosdatosessupotencialdereutilizaciónaparentementeilimitado: su valor de opción. Recopilar la información resulta crucial, pero no losuficiente,yaquelamayorpartedelvalordelosdatossehallaensuuso,noensumera posesión. En el siguiente capítulo, examinaremos cómo se están usando losdatosenlapráctica,ylosgrandesnegociosdebigdataqueestánemergiendo.


http://www.Import.io

VII

IMPLICACIONES

En2011,unaavispadastartupdeSeattle llamadaDecide.com[87]abriósuspuertasonlineconambicionesfantásticamenteatrevidas:queríaconvertirseenunmotordeprediccióndepreciosparamillonesymillonesdeproductosdeconsumo.Perohabíaplaneado comenzar de forma relativamente modesta: con todos los artilugiostecnológicosposibles,de los teléfonosmóvilesy televisoresdepantallaplanaa lascámarasdigitales.Susordenadoresseconectarona lossistemasdealimentacióndedatosdelaspáginaswebdecomercioelectrónico,yempezaronarastrearlaredalacazadecualquierotrainformaciónquepudierahabersobrepreciosyproductos.

Losprecioseninternetvaríanconstantementealolargodeldía,actualizándosedeforma dinámica merced a innumerables e intrincados factores. Por lo tanto, lacompañíateníaquerecogerdatossobrepreciosentodomomento.Nosetratabasólodedatosmasivos, sino tambiénde “textomasivo”,puestoque el sistema teníaqueanalizarlaspalabrasparaidentificarcuándoseibaadejardefabricarunproducto,oalanzarunmodelonuevo,informacionesquelosconsumidoresdeberíanconoceryqueafectanalosprecios.

Unañomástarde,Decide.comanalizabacuatromillonesdeproductosempleandomásdeveinticincomilmillonesdeobservacionesdeprecios.Identificórarezasdelaventaminorista que nadie había sido capaz de “ver” antes, como el hecho de quecuando se introducenmodelos nuevos los precios de los antiguos pueden subir deformatemporal.Lamayoríadelagentecompraríaelmodeloantiguopensandoqueteníaque resultarmásbarato,pero,dependiendodelmomentoenquehiciesenclicsobreelbotónde“comprar”,podríaacabarcostándolesmás.Comolastiendasenlared usan cada vez más a menudo unos sistemas automatizados de fijación deprecios,Decide.compuededetectarrepuntesalgorítmicosantinaturalesdelospreciosypreveniralosconsumidoresparaqueaguarden.Lasprediccionesdelacompañía,según susmediciones internas, aciertan el 77 por 100 de las veces y ofrecen a loscompradores un ahorro potencial de alrededor de cien dólares por producto. Tansegura está la empresa que, en aquellos casos en que sus predicciones resultarenincorrectas,Decide.comreembolsaráladiferenciaalosusuariosdepagodelservicio.

A primera vista,Decide.com se parece a muchas empresas emergentesprometedorasqueaspiranaexplotarlainformacióndeformanuevayaobtenerunosbeneficios decentes por su esfuerzo.Loquehace especial aDecide.comno son losdatos:lacompañíasebasaeninformaciónquelicenciadepáginaswebdecomercioelectrónicoyquerecopilaporlared,dondeestágratuitamenteadisposicióndelque


http://Decide.com

http://Decide.com

http://Decide.com

http://Decide.com

http://Decide.com

http://Decide.com

la quiera.Tampoco es la capacidad técnica: la empresanohacenada tan complejoquelosúnicosingenierosdelmundocapacesdellevarloacaboseanlosquetieneensusoficinas.Antesbien, aunque la recoleccióndedatosy las capacidades técnicassean importantes, la esencia de lo que hace especial aDecide.com es la idea: lacompañía tiene “mentalidad de datos masivos”. Detectó una oportunidad y se diocuentadequelaexplotacióndedeterminadosdatospodíarevelarsecretosvaliosos.YsienDecide.comparecenexistirecosdeFarecast, lapáginawebdeprediccióndelpreciodelospasajesaéreos,esporalgo:lasdossoncreacióndeOrenEtzioni.

En el capítulo anterior señalamos que los datos se están convirtiendo en unanueva fuente de valor debido, en gran medida, a lo que hemos llamado valor deopción, cuando se dedica a fines novedosos. El énfasis se ponía en las firmas querecogenlosdatos.Ahoranosvamosacentrarenlasempresasqueusanlosdatos,yencómoencajanenlacadenadevalordelainformación.Consideraremosloqueestosignifica para las organizacionesy los individuos, tantopor lo que se refiere a suscarrerascomoasusvidascotidianas.

Hansurgidotrestiposdecompañíasdedatosmasivos,quepuedendiferenciarseen función del valor que ofrecen. Podemos pensar en ellas como datos, comocapacidadesocomoideas.

Primeroestán losdatos.Se tratade lascompañíasquedisponende losdatoso,cuandomenos,delaccesoaellos.Ahorabien,talveznoesténenelnegocioparaeso.Dichodeotromodo,nonecesariamentedisponende lascapacidadescorrectasparaextractarelvalordelosdatosniparagenerarideascreativassobrequévalelapenasacar. El mejor ejemplo lo constituye Twitter, que, obviamente, disfruta de uninmenso flujo de datos pasando por sus servidores, pero se dirigió a dos firmasindependientesalahoradelicenciarloaotrosparasuuso.

En segundo lugar están las capacidades. A menudo son las consultorías, losvendedores de tecnología y los proveedores de analítica quienes tienen elconocimientoespecializadoyefectúanel trabajo,peroprobablementenodispongandelosdatos,nidelingenioparaasignarleslosusosmásinnovadores.EnelcasodeWalmart y de las Pop-Tarts, por ejemplo, la empresa recurrió a Teradata, unosexpertosenanalíticadedatos,paraquelaayudaranaperfilarsusconclusiones.

Entercerlugarsehallala“mentalidadbigdata”.Enelcasodeciertasempresas,los datos y elknow-how no son las razones fundamentales de su éxito.Loque lashace destacar es que sus fundadores y su personal tienen ideas únicas sobre lasformas de explotar los datos, para sacar a la luz nuevas formas de valor.Un buenejemplo lo brinda Pete Warden, el geek cofundador de Jetpac, firma que hacerecomendacionesdeviajesbasándoseenlasfotosquelosusuariossubenasupáginaweb.

Hasta ahora, los dos primeros elementos que hemos descrito son los que hanatraídomásatención:lascapacidades,quehoysonescasas,ylosdatos,queparecenabundantes. En los últimos años ha surgido una nueva profesión, el “científico de


http://Decide.com

http://Decide.com

datos”, que combina las aptitudesdel estadístico, delprogramadorde software,deldiseñadorinfográficoydelnarrador.Enlugardeescudriñarporunmicroscopioparadesvelaralgúnmisteriodeluniverso,elcientíficodedatosescrutabasesdedatosalacecho de descubrimientos. El McKinsey[88] Global Institute efectúa alarmantespredicciones acerca de la escasez de científicos de datos hoy en día y en el futuro(algoqueloscientíficosdedatosactualesgustandecitarparasentirseespecialesydepasorevalorizarsussalarios).

HalVarian[89],economistaenjefedeGoogle, tienefamadedecirqueel trabajode estadístico es el “más sexy” que existe. “Si quieres tener éxito, tienes que serescasoycomplementariodealgoqueresulteubicuoybarato—afirma—.Losdatosestán tan ampliamente disponibles, y son tan importantes estratégicamente, que loqueescaseaessabercómoextraerconocimientodeellos.Poresolosestadísticos,losgestores de bases de datos y los profesionales del aprendizaje de máquinas van aencontrarseenunaposiciónfantástica”.

Sinembargo,estaformadecentrarseenlascapacidadesyquitarleimportanciaalosdatospuedeacabarsepronto.Segúnvayaevolucionandolaindustria,sesuperarála escasez de personal amedida que se vuelvanmás comunes las capacidades queelogiaVarian.Esmás,existelacreenciaerróneadequesóloporquehaytantosdatosalrededor, están a disposición gratuita de cualquiera, o su valor es escaso. Enrealidad,losdatosconstituyenelingredientecrucial.Paraapreciarporqué,pensemosenlasdiferentespartesdelacadenadevalordedatosmasivos,ycómoesprevisiblequesemodifiquena lo largodel tiempo.Paraempezar,vamosaexaminarunaporuna estas categorías: poseedor de datos, especialista en datos y persona conmentalidaddedatosmasivos.


LACADENADEVALORDELOSDATOSMASIVOS

Lasustanciaprimariadelosdatosmasivoseslapropiainformación,porloquetienesentidoempezarporestudiaraquienestienenlosdatos.Puedennoserlosautoresdelacopio original, pero son los que controlan el acceso a la información y la usandirectamenteolalicencianatercerosparaqueextraigansuvalor.Porejemplo,ITASoftware, una gran red de reservas de líneas aéreas (por detrás de Amadeus,Travelport y Sabre), proporcionó datos a Farecast para sus predicciones de tarifasaéreas,peronollevóacaboelanálisisdirectamente.¿Porquéno?TalcomoloveíaITA,sunegocioconsistíaenusar losdatosparaelpropósitoparaelquehabíasidocreada laempresa—venderbilletesdeavión—,ynoparausossecundarios.Comotal, suscompetenciascentraleserandiferentes.Esmás,habría tenidoquebuscar laformadehacereltrabajosincontarconlapatentedeEtzioni.

La compañía también decidió no explotar los datos debido a la posición queocupaba en la cadena de valor de la información. “ITA rehuyó los proyectos queimplicaranhacerusocomercialdedatosrelacionadosdemasiadoestrechamenteconlosingresosdelaslíneasaéreas—rememoraCarldeMarcken,cofundadordeITA[90]

Software y exdirector general de tecnología de la empresa—. ITA tenía accesoespecialaesaclasededatos,necesariosparaofrecerlosserviciosdelacompañía,ynopodíapermitirseponerloenriesgo”.Porelcontrario,semantuvocondelicadezaaciertadistancia,licenciandolosdatosperonousándolos.Enconsecuencia,ITAganópocodinero;lamayorpartedelvalorsecundariodelosdatosfueapararaFarecast:asusclientes,bajoformadebilletesmásbaratos;asusempleadosypropietarios,porlosingresosqueFarecastobtuvodepublicidad,comisionesy,enúltimotérmino,porlaventadelacompañía.

Algunas empresas sehanposicionadoastutamente en el centrode los flujosdeinformaciónparaganarescalaycapturarvalordelosdatos.EsehasidoelcasodelsectordelastarjetasdecréditoenEstadosUnidos.Duranteaños,elelevadocostequesuponíacombatirelfraudellevóamuchosbancospequeñosymedianosanoemitirtarjetas de crédito propias, confiando sus operaciones de tarjeta a institucionesfinancierasdemayordimensión,queteníaneltamañoylaescalaparainvertirenlatecnología necesaria. Firmas como Capital One y el MBNA de Bank of Americaabsorbieronelnegocio.Hoyendía, losbancosmáspequeñoslamentanladecisión,porqueelhabersedesprendidodelasoperacionesdetarjetaslosprivadeunosdatossobrepatronesdeconsumoquelespermitiríansabermásdesusclientes,yvenderlesasíserviciosamedida.

Encambio, losgrandesbancosy emisoresde tarjetas comoVisayMasterCardparecen encontrarse en el punto óptimo de la cadena de valor de la información.Comoprestanservicioanumerososbancosycomercios,venpasarmástransaccionespor sus redesy las usanpara sacar conclusiones acercadel comportamientode los


consumidores.Sumodelodenegocioevolucionadelmeroprocesamientodepagosalarecogidadedatos.Lacuestiónqueselesplanteaentoncesesquéhacerconellos.

MasterCardpodríahaberlicenciadolosdatosatercerosparaqueelloslessacaranelvalor,comohizoITA,perolacompañíaprefierehacerellamismaelanálisis.Unadivisión llamada MasterCard Advisors[91] agrega y analiza 65000 millones detransaccionesde1500millonesdetitularesdetarjetasendoscientosdiezpaíses,paradefinirtendenciasdenegocioyconsumo.Luegovendeesainformaciónaotros.Entreotras cosas, descubrió que cuando la gente llena de gasolina el depósito del cochealrededordelascuatrodelatarde,existelaprobabilidaddeque,alolargodelahorasiguiente,gastendetreintaycincoacincuentadólaresenunatiendadecomestiblesoenunrestaurante.Unpublicistapodríahacerusodeesa informaciónpara imprimircupones de oferta de los negocios vecinos al dorso de los recibos de la gasolineraalrededordeesahoradeldía.

Comoempresaintermediariadelosflujosdeinformación,MasterCardsehallaenunaposiciónprivilegiadapararecopilardatosycapturarsuvalor.Podemosimaginarun futuro en el que las emisoras de tarjetas de crédito renuncien a sus comisionessobrelastransaccionesylasprocesengratuitamenteacambiodelaccesoamásdatos,y perciban ingresos de la venta de analíticas cada vezmás sofisticadas basadas enéstos.

La segunda categoría agrupa a los especialistas en datos: compañías con laespecialización o la tecnología necesarias para desarrollar análisis complejos.MasterCard eligió hacerlo internamente, y hay empresas que oscilan entre unacategoría y otra, pero sonmuchas las que recurren a especialistas. Por ejemplo, laconsultora Accenture trabaja con firmas de muchos sectores para desplegartecnologíasavanzadasdesensoresinalámbricosyanalizarlosdatosquerecopilan.EnunproyectopilotoconlaciudaddeSt.Louis(Missouri),Accentureinstalósensoresinalámbricosenelmotordeunaveintenadeautobusespúblicosparamonitorizarlos,ypredeciraveríasodeterminarelmomentoóptimoparahacerelmantenimiento.Conelloseredujeronloscostesencasiun10por100.Unsolohallazgo—quelaciudadpodía diferir la sustitución de una pieza, programada cada 320000 a 400000kilómetros, hasta los 450000 kilómetros— supuso un ahorro superior a los mildólaresporvehículo.Fueelcliente,ynolaconsultora,quiensebeneficiódelvalordelosdatos.

Enelámbitodelosdatosmédicos,tenemosotroejemplosorprendentedequelasfirmastecnológicasexternaspuedenofrecerserviciosútiles.ElMedStarWashingtonHospital Center de Washington, en colaboración con Microsoft Research, yempleandoelprogramaAmalgadeMicrosoft[92],analizóvariosañosdeexpedientesmédicos anonimizados —estadísticas vitales del paciente, pruebas médicas,diagnósticos,tratamientosydemás—buscandocómoreducirlatasadereingresosy


la de infecciones. Estos son algunos de los aspectos más costosos de la atenciónsanitaria,porloquereducirlosimplicaunahorroconsiderable.

Latécnicadescubrióalgunascorrelacionessorprendentes.Unodelosresultadosfueuna listade todas lasafeccionesque incrementabanlasposibilidadesdequeunpacientedadodealtareingresaraantesdeunmes.Algunassonbienconocidasynotienen fácil arreglo. Es probable que vuelva un paciente con un fallo cardíacocongestivo, que es una afección difícil de tratar. Pero el sistema detectó asimismootro indicadordepredicciónprincipal inesperado:elestadomentaldelpaciente.Laprobabilidad de que una persona fuese ingresada de nuevo antes delmes de haberrecibido el alta aumentaba considerablemente si el diagnóstico inicial conteníapalabrasquesugeríanalgunaaflicciónmental,como“depresión”.

Aunque esta correlación no dice nada que permita establecer una causalidad,sugiere, sin embargo, que una intervención posterior al alta para valorar la saludmentaldelospacientespodríamejorartambiénsusaludfísica,reduciendoelnúmerodereingresosy,por tanto, loscostesmédicos.Estedescubrimiento,extraídoporunordenador tras analizar un vasto acopio de datos, es algo que una persona queestudiara los datos podría no haber advertido nunca. Microsoft no controlaba losdatos,queeranpropiedaddelhospital.Ynotuvoningunaideaasombrosa;noeraloque se necesitaba ahí. En cambio, aportó la herramienta de software, el programaAmalga,paradetectarlaidea.

Lasfirmasqueposeendatosmasivosrecurrenaespecialistasparaextraervalordeesosdatos.Pero,apesardelosgrandeselogiosydedarlesalospuestosdetrabajounos nombres de tanto relumbrón como “Ninja de datos”, la vida de los expertostécnicosnosiempreestanglamourosacomopuedeparecer.Trabajanenlasminasdediamantesde losdatosmasivos,y cobranunasnóminasmuy satisfactorias,pero leentreganlasjoyasqueextraenaquienesposeenesosdatos.

Eltercergrupoestácompuestoporlascompañíasylosindividuosconmentalidaddedatos masivos. En el caso de este grupo, la fuerza radica en que pueden ver lasoportunidades antes que los demás, aun cuando carezcan de los datos o de lasaptitudesparaactuarenfuncióndeesasoportunidades.Dehecho,talvezseaporque,como proceden de ámbitos diferentes, sus mentes están libres de barrerasimaginarias:puedenverloqueesposible,envezdedejarselimitarporelsentidodeloqueesfactible.

BradfordCross[93]personifica loquesupone tenerunamentededatosmasivos.En agosto de 2009, cuando tenía veintipocos años, Cross y otros amigosfundaronFlightCaster.com. Igual que FlyOnTime.us, FlightCaster predecía si unvuelo en el interior deEstadosUnidos tenía probabilidades de sufrir retrasos. Parahacer las predicciones, analizaba todos los vuelos de los diez años anteriores,contrastadoscondatosmeteorológicoshistóricosycontemporáneos.


http://FlightCaster.com

Lo interesante es que los propios titulares de los datos no podían hacerlo.Ningunoteníaelincentivo—oelmandatoregulatorio—parausarlosdatosdeestamanera. De hecho, si las fuentes de los datos —la oficina estadounidense deestadísticas de transporte, la administración federal de la aviación y el servicionacional de meteorologíase hubiesen atrevido a predecir retrasos en los vueloscomerciales, elCongresoprobablementehabría celebrado sesionesyhabría rodadoalguna que otra cabeza funcionarial.Y las líneas aéreas no podían hacerlo…o noquerían.Sebeneficiandemantenersumediocreactuaciónlomásaoscurasposible.En cambio, lograrlo requirió un puñado de ingenieros vestidos con sudaderas. Dehecho,lasprediccionesdeFlightCastererantanasombrosamenteprecisasqueinclusolosempleadosdelaslíneasaéreasempezaronausarlas:laslíneasaéreasnoquierenanunciarlosretrasoshastaelúltimominuto,ydeahíque,aunqueseanlafuentedeinformacióndecisiva,nuncaseanlaprimera.

Debido a su mentalidad de datos masivos —su inspirada percepción de quepodríanprocesarsedatospúblicosparaarrojarrespuestasqueinteresabanamillonesde personas—, la empresa FlightCaster de Cross fue una precursora, pero por lospelos. El mismo mes en que se lanzó FlightCaster, los geeks de FlyOnTime.usempezaronareunirdatosabiertosparaconstruirsupáginaweb.Laventajadelaquedisfrutaba FlightCaster pronto se vería recortada. En enero de 2011, Cross y sussocios vendieron la firma a Next Jump, una compañía que gestiona programas dedescuentoscorporativosusandotécnicasdedatosmasivos.

Actoseguido,Crosspusosusmirasenotraindustriayamadura,enlaqueadvirtióunnichodondepodríapenetraruninnovadorexterno:ladelosmediosinformativos.Su start up Prismatic agrega y clasifica contenidos recogidos por toda la redbasándose en el análisis textual, las preferencias del usuario, la popularidad en lasredes sociales y la analítica de datos masivos. Lo curioso es que el sistema noestablecegrandiferenciaentreunapublicaciónenelblogdeunadolescente,unawebde empresa y un artículo en The Washington Post: si el contenido es juzgadorelevante y popular (en términos de cuántas veces se ve y cuántas se comparte),apareceenlapartedearribadelapantalla.

Comoservicio,Prismaticsuponeunreconocimientodelaformaenqueinteractúacon los medios la generación más joven. Para ellos, la fuente de información haperdidosuimportanciaprimordial.Estosuponeunhumildeavisoalospopesdelosmediosdecomunicacióngeneralistasdequeelpúblicoenconjuntoesmásentendidoque ellos, y que los periodistas con traje de chaqueta tienen que competir con losbloguerosenchándal.Sinembargo,elpuntocrucialesqueresultadifícilpensarquePrismatic hubiese podido surgir en el senode la propia industria de losmedios decomunicación, aun cuando recopilamontones de información.A los habituales delbar delClubNacional de la Prensa nunca se les ocurrió reutilizar los datos onlineacerca del consumo demedios. Tampoco los especialistas en analítica deArmonk(NuevaYork), ni los deBangalore (India), habrían aprovechado la información de


estamanera.TuvoquepresentarseCross, undesconocidodedudosa fama, con lospelos revueltos y voz perezosa, para presumir que,mediante el uso de datos, se lepodríadeciralmundoquealgomerecíasuatenciónmásque loseditorialesdeTheNewYorkTimes.

Elconceptodementalidaddedatosmasivosyelpapeldelforasterocreativoconuna idea brillante no se alejan mucho de lo que sucedió al alba del comercioelectrónico, a mediados de la década de 1990, cuando los pioneros no se veíanlastradospor el pensamiento atrincheradoni por las restricciones institucionales delas industrias más viejas. Así, fue un cerebrito de un fondo de inversión, y noBarnes&Noble, quien fundó una librería online (Jeff Bezos, de Amazon); undesarrolladordesoftware,ynoSotheby’s,quiencreóunapáginawebdesubastasenlared(PierreOmidyar,deeBay).Hoyendía,losemprendedoresconmentalidaddedatosmasivosmuchasvecesnodisponendelosdatoscuandoempiezan.Ahorabien,por eso mismo tampoco tienen intereses creados ni desincentivos financieros quepudieranimpedirlesllevarsusideasalapráctica.

Como hemos visto, hay casos en los que una firma combina muchas de estascaracterísticasdedatosmasivos.PuedequeaEtzioniyCross se lesocurriesen susideasrompedorasantesqueaotros,peroesque,además,disponíandelasaptitudesprecisas.LostrabajadoresdeTeradatayAccenturenoselimitanaficharenelrelojdeentrada; tambiénselesreconocequetienenunagranideadecuandoencuando.Contodo,losestereotiposresultanútilesparaapreciarlospapelesqueinterpretanlasdistintasfirmas.Lospionerosdelosdatosmasivosdehoysuelentenerformacionesyexperienciasmuydiversasyaplicansuscapacidadesenunaampliavariedaddeáreas.Está emergiendo una nueva generación de ángeles inversores y emprendedores, enparticularentreantiguosmiembrosdeGoogleylaasíllamadaMafiadePayPal(losantiguos directores de la firma, comoPeterThiel,ReidHoffman yMaxLevchin).Estas personas, junto con un puñado de expertos en informática del ámbitoacadémico, son algunos de los principales apoyos de las actuales start upsimpregnadasdedatos.

La visión creativa de individuos y empresas en la cadena de suministro de losdatos masivos nos ayuda a estimar de nuevo el valor de las compañías. Porejemplo,Salesforce.compuedenosersimplementeunaplataformaconvenienteparaquelasfirmasalojensusaplicacionescorporativas:estáasimismobiensituadaparasacar a la luz el valor de los datos que fluyen por la parte superior de suinfraestructura. Las compañías de telefonía móvil, como vimos en el capítuloanterior, recopilan una monstruosa cantidad de datos, pero muchas veces estáncegadas culturalmente a su valor. Podrían, sin embargo, licenciarlos a terceroscapacesdeextraerlesvalornuevo;igualqueTwitterdecidiócederlosderechossobresusdatosadoscompañíasexternas.


http://Salesforce.com

Algunas empresas afortunadas se sitúan conscientemente a caballo de los dosmundos:Google recopiladatos, como las erratas en las búsquedasde información,tiene la idea brillante de usarlos para crear el que probablemente sea el mejorcorrector ortográfico del mundo, y dispone en su propia organización del capitalhumano necesario para llevar la idea a la práctica. En muchas de sus restantesactividades,Google también sebeneficiade la integraciónvertical en la cadenadevalor de los datos masivos, donde ocupa simultáneamente las tres posicionesposibles.Almismotiempo,Googleponeademásadisposiciónde tercerospartedesusdatosmedianteinterfacesdeprogramacióndeaplicaciones(API,segúnsussiglasen inglés), para que puedan ser reutilizados y generen más valor. Un ejemplo lotenemosenlosmapasdeGoogle,quetodoelmundousagratuitamenteatravésdelared,desdeagenciasinmobiliariasapáginaswebgubernamentales(sibienlaspáginaswebconvisitasmuyelevadastienenquepagar).

TambiénAmazondisponedelamentalidad,lacapacidadtécnicaylosdatos.Dehecho,lacompañíaperfilósumodelodenegociosiguiendoprecisamenteeseorden,ala inversa de la norma. Inicialmente sólo tenía la idea de su célebre sistema derecomendaciones.En1997,elprospectobursátildelaempresadescribíael“filtradocolaborativo”[94]antesdequeAmazonsupieracómoibaafuncionarenlapráctica,odispusieradesuficientesdatosparahacerloútil.

Tanto Google comoAmazon abarcan todas las categorías, pero sus estrategiasdifieren.CuandoGoogleselanzaarecogertodotipodedatos,yatieneenmenteunosusos secundarios. Sus coches Street View, como hemos visto, recopilabaninformación de los GPS no sólo para su servicio cartográfico, sino también paraprogramar coches autoconducidos. Amazon, sin embargo, se centramás en el usoprimariode la informacióny sóloexplota losusos secundarios comounagananciaextra.Susistemaderecomendación,porejemplo,sebasaenlosdatosdelosflujosdeclics, pero no ha usado esa información para hacer cosas tan extraordinarias comopredecirelestadodelaeconomíaolosbrotesdegripe.

ApesardequeellectorelectrónicoKindledeAmazonescapazdemostrarsiunapáginadeterminadahasidoanotadaysubrayadaamenudoporlosusuarios,lafirmano vende esa información a los autores ni a las editoriales. A los comerciales lesencantaríasabercuálessonlospasajesmáspopulares,paravendermejorloslibros.Alos autores les podría gustar saber en qué punto de sus excelsos tomos arrojan latoalla la mayoría de los lectores, y mejorar así su obra. Las editoriales podríandetectar temasquepresagien el siguiente gran éxito.PeroAmazonparecedejar enbarbechoesecampodedatos.

Explotados con astucia, los datos masivos pueden transformar los modelos denegociodelasempresasylasformasdeinteracciónyaasentadas.Uncasocuriosoeseldeungranfabricanteautomovilísticoeuropeo,queredefiniósurelacióncomercialcon un proveedor de piezas aprovechando datos de uso de los que el fabricantecarecía. (Dado que este ejemplo ha llegado a nuestro conocimiento de forma


extraoficial, a través de una de las principales empresas que procesaron los datos,lamentamosnopoderrevelarlosnombresdelascompañíasimplicadas).

Hoy en día, los coches están trufados de chips, sensores y software que subendatosalosordenadoresdelfabricantecuandoelvehículopasalarevisión.Uncochetípico de gama media tiene hoy unos cuarenta microprocesadores;[95] toda laelectrónica de un coche representa una tercera parte de su coste. Esto hace de losautomóvilesunosdignossucesoresdelosbarcosqueMauryllamaba“observatoriosflotantes”. La capacidad de recoger datos sobre cómo responden en la práctica loscomponentesdeuncocheen lacarretera—ydereincorporaresosdatospara luegomejorarlos— está resultando ser una gran ventaja competitiva para las firmas queconsiguenesainformación.

Trabajando con una compañía analítica independiente, el fabricante deautomóviles fuecapazdedetectarqueel sensordeniveldecombustibleproducidoporunproveedoralemánestabafuncionandofatal:registrabaunaveintenadealertasfalsas por cada una válida. La compañía podía haber facilitado esa información alproveedor, exigiéndole el ajuste. En una era de negocios más caballerosa,probablemente lo hubiera hecho. Ahora bien, el fabricante llevaba una fortunainvertidaensuprogramaanalítico,yquisousarestainformaciónpararecuperarpartedesuinversión.

Lacompañíasopesósusopciones.¿Deberíavenderlosdatos?¿Cómosevaloraríalainformación?¿Ysielproveedorseplantabayelfabricantesequedabacolgadoconuna pieza que funcionaba mal? Sabía que, si entregaba la información, tambiénmejorarían las piezas de ese tipo que llevaban los vehículos de la competencia.Asegurarse de que la mejora beneficiara sólo a los vehículos propios pareció unajugadamásastuta.Alfinal,elfabricanteautomovilísticodioconunaideanovedosa:encontró la formademejorar lapiezamedianteunsoftwaremodificado,patentó latécnica,vendióluegolapatentealproveedor…yseembolsóunabuenacantidadcontodoelproceso.


LOSNUEVOSINTERMEDIARIOSDEDATOS

¿Quién dispone de más valor en la cadena de valor de los datos masivos? Hoydiríamosquequienposeelamentalidad,lasideasinnovadoras.Comosevioenlaerade las punto com, aquellos que se anticipan pueden prosperar de verdad, pero esaventajaquizánoduremucho tiempo.Segúnvaya avanzando la épocade losdatosmasivos,otrosiránadoptandoesamentalidadylaventajadelospionerosdisminuiráentérminosrelativos.

Entonces, ¿no es posible que el núcleo del valor se halle realmente en lascapacidades?Alfinyalcabo,unaminadeoronovalenadasinosepuedeextraerelmineral.Sinembargo,lahistoriadelainformáticaapuntaensentidocontrario.Hoyendía,lasespecializacionesengestióndebasesdedatos,cienciadedatos,analítica,algoritmos de aprendizaje de máquinas y cosas similares están muy demandadas.Peroa lo largodel tiempo,conforme losdatosmasivossevayanconvirtiendocadavezmásenpartedelavidadiaria,segúnvayanperfeccionándoselosinstrumentosysevuelvanmásfácilesdeusar,ymásgenteadquieralosconocimientos,elvalordelasaptitudestambiéndisminuiráentérminosrelativos.Asísucedióconlacapacidadde programar ordenadores, que se volviómás común entre las décadas de 1970 y1980.Actualmente, las firmasde externalizaciónoffshore han reducidoaúnmás elvalordelaprogramación;loqueentiemposeraelparangóndelainteligenciatécnicaahora no esmás que unmecanismode desarrollo para los pobres delmundo.Conestonoqueremosdecirque la formaciónendatosmasivoscarezcade importancia.Pero no es la fuente de valor más crucial, puesto que uno puede importarla delexterior.

Hoyporhoy,enlasprimerasfasesdelaeradelosdatosmasivos,lasideasylascapacidadesparecenatesorar todoelvalor,peroa la larga lomásvalioso serán lospropiosdatos:podremoshacermáscosasconlainformación,yademáslosdueñosdelos datos sabrán apreciar mejor el valor potencial de ese activo que poseen. Enconsecuencia,probablementeseaferrenaélconmásfuerzaquenunca,yvendanmuycaroelaccesoa terceros.Porseguirconlametáforadelaminadeoro: loquemásimportaráseráeloroensí.

Sinembargo,hayunadimensiónimportante,dignadedestacarse,enelascensoalargo plazo de los dueños de datos. En algunos casos, surgirán “intermediarios dedatos” capaces de recopilar datos de múltiples fuentes, agregarlos y hacer cosasinnovadoras con ellos, y los dueños de los datos se lo permitirán porque sólo asípodráextraersetodoelvalordelosdatos.

UnejemplonosloofreceInrix[96],unafirmadeanálisisdetráficoconbaseenlasafueras de Seattle. Inrix recopila datos de geolocalización en tiempo real de cienmillones de vehículos en Europa y Norteamérica: automóviles de BMW, Ford yToyota,entreotros,asícomoflotillascomercialescomolasdetaxisyfurgonetasde


reparto.Obtieneasimismodatosdelosmóvilesdelosconductores(susappsgratuitaspara teléfonos inteligentes tienen su importancia aquí: los usuarios recibeninformación sobre el tráfico, y a cambio Inrix capta sus coordenadas). Luegocombinaestainformacióncondatossobrelospatroneshistóricosdeltráfico,elclimay otros factores locales, para predecir la fluidez de la circulación. El resultado setransmitedesdesucadenademontajededatosa lossistemasdenavegaciónde losvehículos,yesutilizadoporflotillasoficialesycomerciales.

Inrix supone la quintaesencia del intermediario de datos independiente.Recogeinformacióndenumerosasempresasautomovilísticasrivalesygeneraasíunproductomásvaliosodelqueningunadeellaspodríahaberdesarrolladoporsucuenta.Puedequecadafabricantedecochesdispongadeunoscuantosmillonesdepuntosdedatosgraciasasusvehículosenlacarretera.Aunquepodríausaresosdatosparapredecirflujosdetráfico,esasprediccionesnoresultaríannimuyexactasnicompletas,porquela calidad mejora según aumenta la cantidad de datos. Además, las firmasautomovilísticas pueden no disponer de la capacidad: sus competencias se hallanfundamentalmenteeneltrabajodelmetal,noenlaponderacióndedistribucionesdePoisson.Así pues, todos se ven incentivados para dirigirse a una tercera parte querealiceeltrabajo.Porotrolado,aunquelaprediccióndeltráficoseaimportanteparalos conductores, apenas influye en que un particular adquiera o no un cochedeterminado.Asíquealasempresascompetidorasnolesimportaaunarsusfuerzasdeestemodo.

Por descontado, son muchas las empresas de diferentes sectores que hancompartido informaciones en el pasado, particularmente las aseguradoras y lossectores en red como la banca, la energía y las telecomunicaciones, donde elintercambiodeinformaciónresultacrucialparaevitarproblemas,ylosreguladoreslorequieren en ocasiones. Las empresas de estudios demercado han agregado datosindustrialesdurantedécadas,igualqueotrasdedicadasatareasespecializadascomoelcontrolde lacirculaciónde laprensa.Paraalgunasasociacionesdecomercio,setratadeunatareafundamental.

Ahora, la diferencia estriba en que los datos son una materia prima que seintroduce en elmercado: un activo independiente de lo que había intentadomedirpreviamente. Por ejemplo, la información de Inrix es más útil de lo que podríaparecer aprimeravista.Suanálisisde tráfico se empleaparamedir la saludde laseconomías locales,porquepuedebrindarpistasacercadeldesempleo, lasventasentiendas y las actividades de ocio. Cuando la recuperación económica de EstadosUnidosempezóaperderfuerzaen2011,pesealosdesmentidospolíticosdequetalcosa estuvieraproduciéndose, los signos fueronaparentes en el análisisdel tráfico:las horas punta se habían vueltomenos tumultuosas, lo que apuntaba a unmayordesempleo.Además,Inrixhavendidosusdatosaunfondodeinversionesqueusalospatrones de tráfico alrededor de la tienda de una marca importante comoaproximación a sus ventas, que el fondo usa para negociar las acciones de la


compañía antes de hacer público el anuncio de sus ganancias trimestrales. Laabundanciadevehículosenlazonasecorrelacionaconmejoresventas.

Estánapareciendootros intermediarios similaresen lacadenadevalordedatosmasivos. Uno de los primeros fue la firma Hitwise, posteriormente adquirida porExperian,quealcanzóunaseriedeacuerdosconproveedoresdeserviciosdeinternetpararecopilarlainformacióndesusflujosdeclicsacambiodeunosingresosextra.Losdatosselicenciaronporunpequeñoimportefijo,enlugardeunporcentajedelvalorqueproducían.Hitwise,entantoqueintermediario,sequedóconlamayorpartedelvalor.OtroejemploloconstituyeQuantcast,quemideeltráficoonlinedepáginaswebparaayudarlosasabermássobreelperfildemográficoylospatronesdeusodesusvisitantes.Estaempresa regalaun instrumentoonlineparaque laspáginaswebpuedanseguirleslapistaasusvisitantes;acambio,Quantcastpuedeverlosdatos,loquelepermitemejorarelenfoquedesupublicidad.

Estos nuevos intermediarios han identificado nichos de mercado lucrativos sinsuponerunaamenazaparalosmodelosdenegociodelosdueñosdelosdatosquelesbrindan la información. Por el momento, la publicidad en internet es uno de esosnichos,yaqueesahídondesehalla lamayorpartede losdatos,ydondeexiste lanecesidad acuciante de extraerlos para enfocar con precisión los anuncios. Peroconformeelmundosevayadatificandomásyhayamássectoresquesedencuentadequesunegocioprincipalesaprenderdelosdatos,estosintermediariosindependientesdelainformaciónapareceránigualmenteenotroslugares.

Algunos de los intermediarios pueden no ser empresas comerciales, sinoentidadessinánimodelucro.Porejemplo,elHealthCareCostInstitute[97][institutodelcostedelaatenciónsanitaria]fuecreadoen2012poralgunasdelasprincipalesaseguradoras sanitarias de EstadosUnidos. Sus datos agregados ascendían a cincomilmillonesdedemandas(anonimizadas)queimplicabanatreintaytresmillonesdepersonas. Compartir los archivos permitió a las firmas detectar tendencias quepodríannohabersidocapacesdeadvertirensusconjuntosdedatosindividuales,máspequeños. Entre los primeros descubrimientos estaba que los costes médicos enEstadosUnidoshabíancrecidotresvecesmásdeprisaquelainflaciónentre2009y2010, pero con diferencias pronunciadas si se analizaba de cerca: los precios deurgencias habían crecido un 11 por 100, mientras que los de las residencias deancianosdehechohabíandisminuido.Claramente, las aseguradorasmédicas jamáshabríanfacilitadosuspreciadasinformacionesanadiequenofueseunintermediariosin ánimo de lucro. Las motivaciones de una entidad sin ánimo de lucro resultanmenossospechosas,ylaorganizaciónpuedediseñarsepensandodesdeelprincipioensutransparenciayenlaresponsabilidadderendircuentas.

Ladiversidaddefirmasdedatosmasivosmuestracómoestácambiandoelvalordelainformación.EnelcasodeDecide.com[98],losdatosdepreciossonsuministradospor


http://Decide.com

una serie de páginas web con las que comparten los ingresos.Decide.com percibecomisiones cuando la gente compra bienes a través de la página web, pero lascompañíasquesuministraronlosdatostambiénsellevanunapartedelnegocio.Estoindica que ha madurado algo la forma de trabajar con los datos: ITA no recibióningunacomisiónpor losdatosquefacilitóaFarecast, sólouncanonbásicopor lalicencia.Ahora,losproveedoresdedatosestánencondicionesdenegociaracuerdosmásatractivos.PorloqueserefierealapróximastartupdeEtzioni,esdepresumirque tratará de suministrar los datos élmismo, dado que el valor hamigrado de lacapacidadalaidea,yestádesplazándoseahoraalosdatosmismos.

Losmodelosdenegocioestánviéndose trastocadosconesedesplazamientodelvalorhaciaquienescontrolanlosdatos.Aquelfabricanteautomovilísticoeuropeoquecerró el acuerdodepropiedad intelectual con suproveedor contaba conunpotenteequipointernodeanálisisdedatos,perotuvonecesidaddetrabajarconunvendedordetecnologíaexternoalaempresaparadescubrirquéledecíanlosdatos.Lafirmadetecnologíacobrósutrabajo,peroelfabricantedecochessequedóconlamayorpartede losbeneficios.Aldetectar laoportunidad,sinembargo, lacompañía tecnológicaha retocado su modelo de negocio para compartir parte del riesgo y de lasrecompensas con los clientes. Ha probado a trabajar por menos remuneración, acambiodecompartirpartedelariquezaquesuanálisissacaalaluz.(Encuantoalosfabricantes de componentes para la industria del automóvil, probablemente resulteseguroafirmarqueenelfuturotodosquerránincorporarsensoresdemediciónasusproductos, o insistir en tener acceso a la información de rendimiento como parteestándardelcontratodeventa,parapodermejorarcontinuamentesuscomponentes).

En cuanto a los intermediarios, sus vidas son complicadas, porque necesitanconvencera lascompañíasdequecompartir resulta rentable.Porejemplo, Inrixhaempezadoa reunirotras informacionesademásde lasdegeolocalización.En2012,llevó a cabo una prueba para analizar cuándo y dónde se disparan los sistemas defrenado automático de los coches (ABS), por encargo de un fabricante deautomóvilesquehabíadiseñadosusistemadetelemetríapararecogerlainformaciónen tiempo real. La idea consiste en que si salta con frecuencia el ABS[99] en undeterminadotrechodelacarreteraquizáseaporquelascondicionesenesetramosonpeligrosas, y los conductores deban contemplar rutas alternativas.Con estos datos,Inrix podía recomendar no sólo el camino más corto, sino también el menospeligroso.

Sinembargo,elfabricantedecochesnotieneprevistocompartirestainformaciónconterceros.Alcontrario,insisteparaqueInrixinstaleelsistemaexclusivamenteensus coches. Considera que el valor de proclamar la existencia de esa prestaciónsupera con creces la ganancia derivada de agregar esos datos con los de otrosfabricantesparamejorarlafiabilidadglobaldelsistema.Inrix,porsuparte,creequeconeltiempotodoslosfabricantesdeautomóvilesveránlautilidaddeagregartodossusdatos.Entantoqueintermediariodedatos,Inrixtieneunincentivopoderosopara


http://Decide.com

aferrarse a ese optimismo: su negocio se levanta por completo sobre el acceso amúltiplesfuentesdedatos.

Las compañías están experimentando también con distintas formas deorganizaciónenelnegociodelosdatosmasivos.Inrixnodioporcasualidadconsumodelodenegocio,comosuelepasarlesamuchasstartups, sinoqueestableciósupapel de intermediario intencionadamente. Microsoft, propietaria de las patentesesencialesdelatecnología,pensóqueunafirmapequeñaeindependiente—antesqueuna gran empresa conocida por sus tácticas agresivas—podría ser percibida comoalgomásneutralyatraeraotrosrivalesdelsectorparasacarleasíelmáximopartidoasupropiedadintelectual.Delmismomodo,elMedStarWashingtonHospitalCenterqueusóel softwareAmalga deMicrosoft para analizar los reingresos de pacientessabía exactamente lo que hacía con sus datos: el sistemaAmalga era en origen elsoftwarepropiodelserviciodeurgenciasdelhospital,llamadoAzyxxi,quelevendióen2006aMicrosoftparaquelodesarrollaramejor.

En 2010, UPS vendió una unidad interna de análisis de datos, llamada UPSLogistics Technologies, a la sociedad anónima privada Thoma Bravo. OperandoahoracomoRoadnetTechnologies,launidadtienemáslibertadparaefectuaranálisisde ruta para más de una compañía. Roadnet recopila datos de muchos clientes ybrindaunserviciode fijacióndepreciosqueempleanUPSysuscompetidoresporigual.LlamándoseUPSLogistics,jamáshabríalogradopersuadiralasfirmasrivalesparaquecompartieransusconjuntosdedatos,explicaeldirectorgeneraldeRoadnet,LenKennedy.[100] Ahora bien, cuando se hizo independiente, los competidores deUPSsesintieronmáscómodossuministrándolesusdatos,y,enúltimotérmino,todossebeneficiarondelasmejorasenlaexactitudqueseconsiguieronconlaagregación.

La prueba de que son los datos mismos, antes que las capacidades o lamentalidad,losqueacabaránconvirtiéndoseenlomásvaloradopuedehallarseenlasnumerosas adquisiciones que se han dado en el negocio de los datosmasivos. Porejemplo, en2006Microsoftpremió lamentalidadbigdata deEtzionial comprarleFarecast por alrededor de ciento diez millones de dólares. Y, dos años más tarde,Google pagó setecientosmillones para adquirir al proveedor de datos de Farecast,ITASoftware.


LADESAPARICIÓNDELEXPERTO

EnlapelículaMoneyball,quecuentacómolosAthleticsdeOaklandseconvirtieronen un equipo de béisbol ganador al aplicarle al juego analítica y nuevos tipos deindicadores, hay una escena deliciosa en la que unos viejos ojeadores canosos,sentadosalrededordeunamesa,comentana los jugadores.Elespectadornopuedeevitar sentir vergüenza ajena, no sólo porque la escena expone la forma en que seadoptandecisionessindatosenqueapoyarlas,sinoporquetodosnoshemoshalladoensituacionesdondela“certeza”sebasabaenlossentimientosmásqueenlaciencia.

—Tienefísicodebéisbol…buenacara—diceunodelosojeadores.—Tieneunswingprecioso.Cuandoconsigueatizarle, impulsalapelota, lahace

salirdespedidadelbate—intervieneuntipofrágildepelogrisquellevaunaudífono.—Muchoimpulsoenelbate—abundaotroojeador.Untercerhombreinterrumpebruscamentelaconversacióndeclarando:—Tieneunanoviafea.—¿Yesoquésignifica?—preguntaelojeadorquedirigelareunión.—Una novia fea significa falta de seguridad en sí mismo—explica con total

naturalidadeldisidente.—Vale—diceeljefe,satisfechoconlarespuesta.Despuésdeunaanimadadiscusión,unojeadorquehasta entonceshaguardado

silenciotomalapalabra:—Estetíotieneactitud,yesoesbueno.Quierodecir,queesdeesaclasedetíos

queentraenunahabitaciónconlapollapordelante.Yotroañade:—Elexamenvisual loaprueba.Tienelapintaquehayquetener,está listopara

representarelpapel.Sólonecesitaalgodetiempodejuego.—Sigodiciendo—reiteraelquellevalacontraria—queasunovia,comomucho,

yolepongounseis.La escena ilustra a la perfección las carencias del juicio humano. Lo que se

presenta como un debate razonado no se basa en realidad en nada concreto. Lasdecisiones sobre unos contratos de jugadores valorados en millones de dólares setomanporinstintopuroyvisceral,sinapoyarseendatosobjetivos.Sí,noesmásqueuna película, pero la vida real no es demasiado diferente. La misma clase derazonamientoshuerosseempleaentodotipodelugares:desdelassalasdejuntasdeManhattan hasta el Despacho Oval, pasando por cafeterías y cocinas de todo elmundo.

Moneyball,basadaenel librodeMichaelLewis,refierelahistoriarealdeBillyBeane,eldirectorgeneralde losAthleticsdeOakland,queprescindióde lasreglastradicionales de valoración de los jugadores a favor de unmétodo de fuerte cargamatemática que contemplaba el juego con un conjunto de indicadores nuevos. Se


acabaron lasmedidasestadísticasconsagradasporel tiempocomoel“promediodebateo” y se introdujeron unas formas de pensar acerca del juego aparentementeextrañas,comoel“porcentajedecolocaciónen labase”.Esteenfoque inspiradoenlosdatossacóalaluzunadimensióndeldeportequesiemprehabíaestadopresente,aunqueocultaentre loscacahuetesy laspalomitas.Noimportabacómollegaraa labase el jugador, arrojándose al suelo o caminando tranquilamente, mientras loconsiguiese.Cuandolosdatosmostraronquelosrobosdebaseseranineficientes,seacabóunodeloselementosmásexcitantes,peromenos“productivos”deljuego.

Envuelto en una controversia considerable, Beane consagró en la dirección delequipo elmétodo conocido como sabermétrica, término acuñado por el periodistadeportivoBillJamesenreferenciaalaSocietyforAmericanBaseballResearch,quehasta entonces había sido coto privado de una subcultura alternativa.Beane estabaponiendo en cuestión el dogmadel banquillo, igual que las ideas heliocéntricas deGalileo afrentaron en su momento a la autoridad de la iglesia católica. En últimainstancia,llevóalsufridoequipoaganaren2002laAmericanLeagueWest,conunarachadeveintevictoriasconsecutivas.Desdeentonces,losestadísticossustituyeronalos ojeadores como sabios del deporte. Y muchos otros equipos se apresuraron aadoptartambiénlasabermétrica.

Siguiendoeseespíritu,elmayorimpactodelosdatosmasivosconsistiráenquelasdecisionesfundamentadasendatosprobablementeestánllamadasaincrementarseoainvalidareljuiciohumano.EnsulibroSuperCrunchers,IanAyers,economistayprofesordederechoenYale,argumentabaquelosanálisisestadísticosfuerzanalaspersonasapensardosvecesloquelesdiceelinstinto.Atravésdelosdatosmasivos,esto sevuelve todavíamás esencial.El experto enunárea temática, el especialistasustantivo, perderá parte de su lustre en beneficio del estadístico y el analista dedatos,quienesnosevenlastradosporlasviejasformasdehacerlascosasydejanquelosdatoshablen.Estenuevomarcosebasaráenunascorrelacioneslibresdejuiciosprevios y prejuicios, de lamisma formaqueMaurynodio por buenas sinmás lashistorias que los viejos capitanes le contaban acerca de un pasaje determinadomientrassetomabanunapintaenelpub,sinoqueconfióenquelosdatosagregadosrevelaranverdadesprácticas.

Estamos asistiendo a la desaparición en muchas áreas de la influencia de losexpertostemáticos.Enelámbitodelosmediosdecomunicación,elcontenidoquesecreaypublicitaenpáginaswebcomoTheHuffingtonPost,GawkeryForbessevedeterminadoporlosdatos,nosóloporlaopinióndeloseditoreshumanos.Losdatospueden revelar qué quiere leer la gente mejor que el instinto de los periodistasveteranos. La firma de educación online Coursera emplea datos acerca de quéseccionesdeunaconferenciaenvídeovuelvenaverlosalumnosparaaprenderquépasajepuedenohaberquedadoclaro,yretroalimentalainformaciónalosprofesoresparaquepuedanexplicarmejor.Comosehacomentadoanteriormente,JeffBezossedeshizo de los autores de reseñas literarias de la propia empresa cuando los datos


demostraronquelasrecomendacionesalgorítmicaspropiciabanmásventas.Esto significa que las aptitudes necesarias para tener éxito en el trabajo están

cambiando. Modifica lo que se supone que han de aportar los trabajadores a suempresa. La doctora McGregor, para cuidar de bebés prematuros en Ontario, nonecesitaserlamédicamáslistadelhospital,ni laprincipalautoridaddelmundoenatenciónneonatal.Dehecho,nisiquieraesmédico:esdoctoraeninformática.Perosevale de datos que representan más de una década de años/paciente[101], que elordenadorprocesayellaconvierteenrecomendacionesdetratamiento.

Comohemosvisto,esfrecuentequelospionerosdelosdatosmasivosprovengande campos ajenos al sector en el que acaban dejando su impronta. Se trata deespecialistasenanálisisdedatos, inteligenciaartificial,matemáticasoestadística,yaplicanesasaptitudesasectoresespecíficos.LosganadoresdelosconcursosKaggle,laplataformavirtualparaproyectosbigdata, suelen sernoviciosenel sectorenelque triunfan, explica el directorgeneraldeKaggle,AnthonyGoldbloom.Un físicobritánico desarrolló unos algoritmos casi imbatibles para predecir reclamaciones alseguroe identificarcochesusadosdefectuosos.UnanalistadesegurosdeSingapurencabezó una competición para predecir respuestas biológicas a compuestosquímicos. Mientras tanto, en el grupo de traducción automática de Google, losingenieros festejan sus traducciones de idiomas que no conoce nadie de la oficina.También a los estadísticos de la unidad de traducción automática deMicrosoft lesencantarepetirunaviejabroma:quelacalidaddelastraduccionesmejoracadavezqueunfilólogoabandonaelequipo.

Seguramente, los expertos en campos determinados no desaparecerán porcompleto,perosusupremacíamenguará.Apartirdeahora,vanatenerquecompartirelpodiocon losgeeksde losdatosmasivos,de lamisma formaque laprincipescacausalidad tiene que convivir con la humilde correlación. Esto transforma nuestramaneradevalorarelconocimiento,porquetendemosapensarquelaspersonasmuyespecializadas valen más que los generalistas: que la fortuna favorece a quienprofundiza.Sinembargo,laespecializaciónescomolaexactitud:apropiadaparaunmundoescuetoendatos,dondeunonotienenuncainformaciónsuficienteocorrecta,y, por consiguiente, ha de apoyarse en la intuición y la experiencia para hallar elcamino.Enunmundoasí,laexperienciadesempeñaunpapelcrucial,puestoqueesla acumulación prolongada del conocimiento latente—conocimiento que no puedetransmitirse con facilidad ni aprenderse en los libros, o quizá ni siquiera serconsciente—loquelepermiteaunotomardecisionesmásadecuadas.

Perocuandounoestáatiborradodedatoshastalasorejas,loquepuedehacerencambioesexplotarlosparasacarles todosurendimiento.Así,aquellosqueanalizandatos masivos pueden ver más allá de las supersticiones y el pensamientoconvencional,noporqueseanmás listos,sinoporquedisponendemásdatos. (Yalser ajenos al ámbito concreto que analizan, son imparciales respecto a las trifulcassectoriales que a veces sesgan la opinión del experto). Esto sugiere que lo que


necesitaunempleadoparaaportarlevaloralaempresacambiaconeltiempo.Loqueunonecesitasabercambia,comocambianlaspersonasalasquenecesitaconocer,yloquenecesitaestudiardecaraasuvidaprofesional.

Las matemáticas y la estadística, tal vez con una pizca de programación y decienciadelasredes,resultarántanfundamentalesparaelpuestodetrabajomodernocomoloeranhaceunsiglolosconocimientosbásicosdearitmética,ylacapacidaddeleeryescribirantesaún.Enelpasado,paraserunbiólogoexcelenteunonecesitabaconoceramontonesdebiólogos.Esonohacambiadodeltodo.Sinembargo,hoyendía también importa la amplitud de los datos masivos, no sólo el conocimientoexhaustivo de una especialidad.La solución de un problema de biología intrigantepuedevenirconlamismaprobabilidadporlaasociaciónconunastrofísicoqueconundiseñadordevisualizacióndedatos.

El de los videojuegos es un sector en el que los lugartenientes de los datosmasivosyasehanabiertopasoacodazoshastasituarsea laalturade losgeneralesespecialistas, transformándolo de paso. Se trata de un gran negocio, que generamayores rendimientos anuales que la taquilla cinematográfica mundial deHollywood.En tiempos, las compañías diseñabanun juego, lo ponían a la venta yconfiaban en que fuera un gran éxito. Basándose en las cifras de ventas, luegopreparaban una secuela o se embarcaban en un nuevo proyecto. Las decisionesacerca[102] del ritmo del juego y los elementos del mismo como personajes,argumento,objetosyacontecimientossebasabanenlacreatividaddelosdiseñadores,que se tomaban su trabajo con la misma seriedad que Miguel Ángel la CapillaSixtina.Eraarte,nociencia;unmundodecorazonadaseinstintos,muyparecidoaldeaquellosojeadoresdebéisboldeMoneyball.

Peroesostiemposhanpasado.FarmVille,FrontierVille,FishVilleyotrosjuegosde Zynga se hallan online y son interactivos. A primera vista, las partidas en redpermitenaZyngaestudiarlasestadísticasdeusoymodificarlosjuegossegúncómose estén jugandoen realidad.Así, si a los jugadores les cuestapasardeunnivel aotro, o tienden a abandonar la partida en unmomento determinado porque pierderitmo,Zyngapuededetectaresosproblemasenlosdatosybuscarlesremedio.Loqueresulta menos evidente es que la compañía puede ajustar los juegos a lascaracterísticas de los distintos jugadores.No existe una sola versión de FarmVille,sinocientos.

LosanalistasdedatosmasivosdeZyngaexaminansienlasventasdelosbienesvirtuales influye su color, o si las usan los amigos de los jugadores. Por ejemplo,despuésdequelosdatosmostrasenquelosjugadoresdeFishVillecomprabanunpeztraslúcidoseisvecesmáscaroqueotrascriaturas,Zyngapusoalaventamásespeciestraslúcidasyaumentóconsiderablementesusbeneficios.EneljuegoMafiaWars,losdatos revelaron que los jugadores adquirían más armas con bordes dorados ycomprabancachorrosdetigreenteramenteblancos.

Estasnoson lascosasquepodríanhabérseleocurridoaundiseñadorde juegos


trabajandoenelestudio,perolosdatoshablaron.“Somosunacompañíadeanalíticaquesehacepasarporunaempresadejuegos.Todolollevanlosnúmeros”,explicóKenRudin,[103]elentoncesdirectordeanálisisdeZynga,antesdesercontratadoporFacebook en un puesto similar. El aprovechamiento de los datos no garantiza enabsolutoeléxitoempresarial,perosímuestrahastadóndesepuedellegar.

Empezar a tomar decisiones basadas en datos supone un cambio profundo. Lamayoríadelagentebasasusdecisionesenunacombinacióndehechosyreflexión,más una buena dosis de suposiciones. “Un aluvión de visiones subjetivas /sentimientosenelplexosolar”,enlasinolvidablespalabrasdelpoetaW.H.Auden.Thomas Davenport, profesor de empresariales en el Babson College deMassachusettsyautordenumerososlibrosdeanalítica,lollama“lastripasdeoro”.Losejecutivossuelenestarsegurosde loquehacenpor instintovisceral,asíquelosiguen. Sin embargo, esto está empezando a cambiar, en la medida en que lasdecisionesdirectivasempiezanaadoptarse,ocuandomenosaconfirmarse,mediantemodelospredictivosyanálisisdedatosmasivos.

Por ejemplo,The-Numbers.com usa montones de datos y matemáticas paradecirlesalosproductoresindependientesdeHollywoodquéingresospuedegenerarunapelículamuchoantesdequeseruedesuprimeraescena.Labasededatosdelacompañía procesa alrededor de treintamillones de registros que abarcan todas laspelículas comerciales producidas en Estados Unidos desde hace décadas. Estosincluyen el presupuesto de cada filme, su género, reparto, equipo técnico, premiosrecibidos, al igual que los rendimientos (de la taquilla nacional y extranjera, losderechosinternacionales,lasventasyalquileresdevídeos,etc.)ydemás.Labasededatostambiéncontieneunfocodeconexioneshumanas,delestilode“esteguionistaha trabajado con este director; este director ha rodado con este actor”, explica sufundadorypresidente,BruceNash.

The-Numbers.comescapazdehallarcorrelaciones intrincadasquepredicen losingresos de esos proyectos. Los productores llevan entonces la información a losestudiosoalosinversoresparaconseguirfinanciación.Lafirmapuedeinclusojugarcon las variables para aconsejar a sus clientes cómo incrementar sus ganancias (ominimizarelriesgodepérdidas).Enciertaocasión,susanálisisconcluyeronqueunproyecto dado tendría muchas más probabilidades de ser un éxito si el papelprotagonistalointerpretabaunactordeprimerafila:específicamente,unonominadoal Oscar y que cobraba en torno a los cinco millones de dólares. En otra, Nashinformó al estudio IMAX de que un documental sobre navegación a vela sóloresultaríarentablesiserecortabasupresupuestodedocemillonesdedólaresaocho.“Elproductorsepusomuycontento—diceNash—;eldirector,bastantemenos”.

Desdedecidirhaceronounapelículahastaquéjugadorcontratarparaunequipodebéisbol,elcambioenlatomadedecisionescorporativasseestáempezandoanotarenlosbalances.ErikBrynjolfsson,profesordeempresarialesenlaSloanSchoolofManagement delMITy algunos de sus colegas estudiaron los resultados de varias


http://The-Numbers.com

http://The-Numbers.com

empresasquedestacanenla tomadedecisionesbasadasendatosyloscompararonconlosdeotrasfirmas.Descubrieronquelosnivelesdeproductividaderanhastaun6por100mayoresenesasempresasqueenlasquenoseapoyabansobretodoenlosdatosparaadoptardecisiones.Estoleconcedeunaventajasignificativaalasfirmasguiadasporlosdatos,aunque—aligualquelasventajasdementalidadyaptitudes—puederesultardecortaduraciónamedidaqueseancadavezmás lasempresasquevayanadoptandoenfoquesdedatosmasivosensuactividad.


CUESTIÓNDEUTILIDAD

A medida que los datos masivos se vayan convirtiendo en una fuente de ventajacompetitivaparamuchascompañías,laestructuradealgunasindustriascompletasseverá reconfigurada.Sinembargo,no todosganarán lomismo: lasmásbeneficiadasseránlasfirmasgrandesylaspequeñas,enperjuiciodelamasacentral.

Los actores principales, como Amazon y Google, continuarán medrando. Adiferencia de la situación que se dio en la era industrial, sin embargo, su ventajacompetitiva no se hallará en la escala física. La vasta infraestructura técnica decentrosdedatosasusórdenesesimportante,sí,peronoconstituyesucualidadmásesencial.Cualquierempresapuedeajustarsupotenciadecomputaciónyarchivoasusnecesidades reales, si cuenta con una abundante capacidad de archivo yprocesamiento digital que se pueda arrendar de forma económica y abastecer encuestióndeminutos.Convertidoloqueerauncostefijoenunovariable,estecambioerosionalasventajasdeescalabasadasenlainfraestructuratécnicaquedurantetantotiempohandisfrutadolasgrandescompañías.

Laescalaaúntienesuimportancia,perohavariado.Loquecuentaeslaescalaenmateria de datos.Esto significa ser propietario de grandes conjuntos de datos y, almismotiempo,sercapazdeaprehendercadavezmayorescantidadesconfacilidad.Así pues, los grandes titulares de datos prosperarán a medida que recopilen yalmacenen cada vez más cantidad de la materia prima de su negocio, que podránreutilizarparacrearvaloradicional.

El reto para los ganadores de unmundo parco en datos y para los campeonesfueradelínea—compañíascomoWalmart,Procter&Gamble,GE,NestléyBoeing—consisteenapreciarelpoderdelosdatosmasivosyrecopilaryusarlosdatosdeformamásestratégica.ElfabricantedemotoresdeaviónRolls-Royce[104]transformóde arriba abajo su negocio a lo largo de la pasada década al analizar los datosprocedentesdesusproductos,nosólofabricándolos.Desdesucentrodeoperacionesen Derby, en el Reino Unido, la compañía monitoriza de forma continua elrendimiento de más 3700 motores a reacción a lo largo y ancho del mundo paradetectar losproblemasantesdeque seproduzcaunaavería.Empleó losdatosparaayudarse a transformar el negocio: ahora, Rolls-Royce vende los motores, perotambiénseofreceamonitorizarlos,cobrandoalosclientesenfuncióndeltiempodeuso (y los repara o reemplaza en caso de haber problemas). Esos serviciosrepresentanhoyendíaalrededordel70por100delosingresosanualesdeladivisióndemotoresparaaviacióncivil.

Lasempresasemergentes,igualquelosviejosincondicionalesennuevasáreasdenegocio,estántomandoposicionesparacapturargrandesflujosdedatos.LaincursióndeApple en la telefoníamóvil constituye un buen ejemplo. Antes del iPhone, losoperadoresdetelefoníamóvilamontonabandatosdelosabonados,datosconunuso


potencialmentevalioso,peroalosquenolograbansacarpartido.Apple,encambio,estableció en sus contratos con los operadores que recibiría buena parte de lainformaciónmás útil.Y así, con los datos demontones de operadores por todo elmundo,Appleconsigueunavisiónpanorámicadelusodelmóvilmuchomásricadeloquecualquieroperadorpuedaalcanzaraverporsísolo.

Losdatosmasivosofrecenoportunidadesexcitantes tambiéna losquesehallanen el otro extremo en cuestión de tamaño. Los pequeños actores astutos y ágilespueden disfrutar de la “escala sin lamasa”, como dijo ingeniosamente el profesorBrynjolfsson.[105] Es decir, pueden tener una gran presencia virtual aunque susrecursos físicos no sean considerables, y pueden difundir ampliamente susinnovacionesacostereducido.Loqueresultaaúnmásimportante,dadoquealgunosde los mejores servicios de datos masivos se basan primordialmente en ideasinnovadoras, puede que no precisen de grandes inversiones iniciales. Las firmaspequeñas pueden licenciar la información en vez de guardársela, llevar a cabo susanálisisenplataformasdecomputaciónenlanubeporuncostereducido,ypagarloscánonesdelaslicenciasconunporcentajedelosingresosobtenidos.

Existe una buena oportunidad de que estas ventajas a ambos extremos delespectronoselimitenalosusuariosdelosdatos,sinoquetambiénbeneficienasuspropietarios. Los grandes titulares de datos experimentan fuertes incentivos paraacumular aún más, puesto que así mejoran los beneficios por un coste tan sólomarginal. En primer lugar, ya tienen instalada la infraestructura, en términos dealmacenaje y procesamiento. En segundo lugar, hay un valor especial en lacombinacióndeconjuntosdedatos.Yenterceryúltimolugar,unatiendaúnicaenlaqueobtenerlosdatossimplificalavidadelosusuariosdeéstos.

Sin embargo, y eso es lo más curioso, puede que surja una nueva especie depropietarios de datos en el otro extremo: el de los individuos. Conforme se vayavolviendo más visible el valor de los datos, es posible que las personas deseenampliarsupoderentantoquetitularesdeinformaciónquelespertenece:porejemplo,sus preferencias de compra, sus hábitos como espectadores y quizá, también, susdatosdesalud.

La propiedad de sus datos personales puede brindar a los consumidoresindividuales unas formas de poder que no se habían contemplado antes. Losciudadanos pueden querer decidir por símismos a quién licenciar sus datos, y porcuánto.Pordescontado,notodoelmundovaaquerervendersusbitsalmejorpostor;muchos se conformarán con verlos usados de nuevo gratis a cambio de unmejorservicio, como, por ejemplo, recomendaciones acertadas de libros de Amazon omejor experiencia de usuario en Pinterest. Ahora, para un número significativo deconsumidoresduchosdigitalmente,laideadepromocionaryvendersuinformaciónpersonalpuedellegararesultartannaturalcomollevarunblog,tuitearoeditarunaentradadelaWikipedia.

Sinembargo,paraqueestofuncione,esnecesarioalgomásqueuncambioenlas


preferencias y la sofisticación del consumidor.Hoy en día, a la gente le resultaríademasiado complicadoy costoso ceder sus datos personales, y a las empresas otrotantonegociarconcadaindividuoparaobtenerlos.Lomásprobableesqueasistamosal nacimiento de nuevas firmas que recopilarán datos de muchos consumidores,ofreciendounaformafácilde licenciarlos,yautomatizarán las transacciones.Si loscostes resultan lo suficientemente bajos, y si suficientes personas les otorgan suconfianza, es concebible que se pueda establecer un mercado para los datospersonales.AlgunasempresascomolainglesaMydexygruposcomoID3,cofundadoporSandyPentland,elgurúde laanalíticadedatospersonalesenelMIT,yaestántrabajandoparahacerrealidadestavisión.

Sin embargo, hasta que estos intermediarios estén operativos y los usuarios dedatoshayanempezadoa recurriraellos,quienesdeseenconvertirseenpropietariosde sus propios datos sólo tienen a su alcance unas opciones extremadamentelimitadas.Enelínterin,siquierenconservarsusopcionesparaelmomentoenqueyaestén habilitados la infraestructura y los intermediarios, quizá les interese revelarmenosquemás.

Para las empresasde tamañomedio, sin embargo, el enfoquededatosmasivosresultamenosrentable.Existenventajasdeescalaparalasmuygrandes,yventajasdecosteeinnovaciónparalaspequeñas,comoargumentaPhilipEvans[106]delBostonConsulting Group, un gran pensador sobre tecnología y negocios. En los sectorestradicionales,existenfirmasde tamañomedioporquecombinanun tamañomínimoque les permite cosechar los beneficios de escala con cierta flexibilidad de la quecarecen las grandes.Ahora bien, en elmundo de los datosmasivos, no existe unaescalamínimaquedebaalcanzarlaempresaparapoderfinanciarsusinversioneseninfraestructura productiva. Los usuarios de datos masivos que deseen conservarseflexiblesytriunfarsedaráncuentadequenolesesnecesarioalcanzarunumbraldetamaño. Por el contrario, pueden seguir siendo pequeños y aun así florecer (o seradquiridosporungigantedelosdatosmasivos).

Los datosmasivos comprimen la partemedia de la industria, empujando a lasfirmas a ser muy grandes o pequeñas, y a reaccionar rápido… o morir. Muchossectorestradicionalesterminaránredefiniéndoseentérminosdedatosmasivos,delosservicios financieros a los farmacéuticos, pasando por lasmanufacturas. Los datosmasivosnoeliminarántodaslasfirmasdetamañomedioentodoslossectores,pero,desde luego, presionarán sobre todo a las de los sectores más vulnerables a lasconvulsionesquegeneraelpoderdelosdatosmasivos.

Losdatosmasivos tambiénestánapuntode trastornar lasventajascompetitivasdelos países. En una época en que la producción industrial se ha perdido en buenamedida a favor de los países en vías de desarrollo, y la innovación parece estardisponible para cualquiera, las naciones avanzadas conservan una ventaja en el


sentidodequeposeen la informacióny sabencómousarla.Lamalanoticiaesqueestaventajanoessostenible.Igualqueocurrióconlainformáticayconinternet, latempranadelanteradeOccidenteenelterrenodelosdatosmasivosirádisminuyendoconforme otras partes del mundo vayan adoptando la tecnología. Sin embargo, labuenanoticiaparalasactualesfirmaspoderosasdelospaísesdesarrolladosesquelosdatosmasivosprobablementeexacerbenlasfortalezasydebilidadesdelasempresas.Así que, si una compañía domina el ámbito de los datos masivos, tiene unaoportunidad no sólo de superar las prestaciones de sus pares, sino de ampliar suventaja.

Lacarrerahaempezado.IgualqueelalgoritmodebúsquedadeGooglenecesitalos desechos de los datos de los usuarios para funcionar bien, e igual que aquelproveedoralemándepiezasdeautomóvil supopercibir la importanciade losdatospara mejorar sus componentes, todas las empresas pueden obtener beneficiosexplotandolosdatosdeformasinteligentes.

Apesar de los beneficios prometedores, no obstante, tambiénhay razones parapreocuparse.Amedidaqueelsistemadedatosmasivosvayahaciendoprediccionescadavezmásacertadassobreelmundoynuestrolugarenél,puedequenoestemospreparadosparasuimpactosobrenuestraprivacidadynuestrosentidodelalibertad.Nuestraspercepcioneseinstitucionesfueroncreadasparaunmundodeescasez,quenoexceso,de información.Enelsiguientecapítuloexploraremosel ladooscurodelosdatosmasivos.


VIII

RIESGOS

Durante cerca de cuarenta años, hasta que cayó el muro de Berlín en 1989, elorganismodeseguridaddelestadodelaRepúblicaDemocráticaAlemana,conocidoporStasi,espióamillonesdepersonas.Conunpersonalatiempocompletodecercadecienmilagentes, laStasi[107]vigilabadesdevehículosyapiedecalle.Abríaelcorreoycontrolabalascuentascorrientes,poníamicrófonosenlospisosypinchabalas líneas telefónicas.Inducíaaamantesyparejas,padresehijos,aespiarseunosaotros, traicionando laconfianzamásbásicaquesepueden tener lossereshumanos.Losarchivosresultantes—porlomenos39millonesdefichasymásde100kmdedocumentos—registraronendetallelosaspectosmásíntimosdelavidadelagentecorriente.AlemaniaOrientalfueunodelosestadospolicialesmásexhaustivosjamásvistos.

VeinteañosdespuésdeladesaparicióndeAlemaniaOriental,seestánrecogiendoyalmacenandomásdatossobrecadaunodenosotrosquenuncaantes.Estamosbajovigilancia continua: cada vez que usamos nuestras tarjetas de crédito para pagar,nuestros teléfonos móviles para comunicarnos, o nuestro número de la seguridadsocial para identificarnos. En el año 2007, la prensa británica se deleitaba con laironíadequehubiesemásdetreintacámarasdevigilanciaenunradiodedoscientosmetrosalrededordelapartamentolondinenseenelqueGeorgeOrwellescribió1984.Mucho antes del advenimiento de internet, ya había empresas especializadas comoEquifax, Experian y Acxiom que recopilaban, tabulaban y ofrecían acceso a lainformaciónpersonaldecientosdemillonesdepersonasdetodoelmundo.Internethahechomásfácil,másbaratoymásútilseguirunrastro.Ynosonsóloorganismosgubernamentales clandestinos con siglas de tres letras los que nos espían.Amazonmonitoriza nuestras preferencias de compra, y Google nuestros hábitos denavegación, mientras que Twitter sabe qué pensamos. Facebook parece capturarasimismo toda esa información, junto con nuestras relaciones sociales. Losoperadores de telefonía móvil no sólo saben con quién hablamos, sino también aquiéntenemoscerca.

Conlosdatosmasivosprometiendorevelacionesvaliosasaquieneslosanalicen,todas las señalesparecen indicar que la recopilación, almacenajey reutilizacióndenuestrosdatospersonales tiendenamás.El tamañoy laescalade losconjuntosdedatos seguirá acrecentándose a paso agigantado a medida que los costes dealmacenamientosigancayendoenpicadoylasherramientasanalíticassetornencadavezmáspoderosas.Silaeradeinterneteraunaamenazaparalaprivacidad,¿nocorre


aúnmáspeligrolamalautilizacióndelosdatosmasivos?¿Eséseelladooscurodelosdatosmasivos?

Pues sí, y no es el único. También en este caso, lo esencial es saber que uncambiodeescalallevaauncambiodeestado.Comoyaveremos,estatransformaciónnosólohacemuchomásarduoprotegerlaprivacidad,sinoquetambiénanunciaunaamenazaenteramentenueva:ladeloscastigosbasadosenlaspropensiones.Esdecir,laposibilidaddeusarprediccionesacercadelaspersonasbasadasendatosmasivosparajuzgarlasycastigarlasantesinclusodequehayanactuado.Algoqueniegatodaideadeigualdad,justiciaylibrealbedrío.

Ademásdelaprivacidadylapropensión,hayuntercerpeligro.Nosarriesgamosaservíctimasdeunadictaduradelosdatos,porlaquefetichizaremoslainformación,el fruto de nuestros análisis, y acabaremos usándola mal. Manejados de formaresponsable, los datos masivos son una herramienta útil para adoptar decisionesracionales. Empleados equivocadamente, pueden convertirse en un instrumento depoder, que algunos pueden convertir en una fuente de represión, bien simplementefrustrando a consumidores y empleados, o bien—y es peor— perjudicando a losciudadanos.

La apuesta es de mayor cuantía de lo que se suele reconocer. Los riesgos defracasar en la gestión de los datos masivos en lo referente a la privacidad y lapredicción,odeserengañadosacercadel significadode losdatos,vanmuchomásallá de meras minucias como los anuncios personalizados online. La historia delsigloXXestá tintaensangreconsituacionesenque losdatoscontribuyerona finesruines.En1943,laoficinadelcensodeEstadosUnidosdioaconocerlasdireccionesdelasmanzanas[108](peronolosnombresynúmerosdelascalles,paramantenerlaficción de que protegía la privacidad) en que residían estadounidenses de origenjaponés,parafacilitarsuinternamientoencampos.LosregistroscivilesdelosPaísesBajos,conocidosporsuexhaustividad,fueronutilizadosporlosinvasoresnazisparasusredadasdejudíos.Losnúmerosdecincodígitostatuadosenelantebrazodelosprisionerosinternadosencamposdeconcentraciónnaziscorrespondíaninicialmentea números de tarjetas perforadas Hollerith de IBM; el procesamiento de los datosfacilitóelasesinatoaescalaindustrial.

Peseasupotenciainformativa,habíamuchascosasquelaStasinopodíahacer.No podía saber, sin un gran esfuerzo, a dónde se desplazaban y cuándo suscompatriotas,niconquiénhablaban.Hoyendía,sinembargo,lamayorpartedeestainformación la recopilan los operadores de telefonía móvil. El estado germanoorientalnopodíapredecircuálesdesusciudadanosseconvertiríanendisidentes,ninosotros tampoco. Pero las fuerzas de policía están empezando a usar modelosalgorítmicosparadecidirdóndeycuándopatrullar,indicandoelcaminoalquepareceabocado el mundo. Estas tendencias hacen que los riesgos inherentes a los datosmasivosseantangrandescomolospropiosconjuntosdedatos.


LAPARÁLISISDELAPRIVACIDAD

Resulta tentadorextrapolar lospeligrosdeprivacidadqueplanteaelcrecimientodelosdatosdigitalesyhallarparalelismoscon1984,ladistopíadeGeorgeOrwellsobreunmundo vigilado. Sin embargo, la situación esmás compleja. Para empezar, notodoslosconjuntosmasivosdedatoscontieneninformacióndecarácterpersonal.Nolatienen,porejemplo,losdatosdelossensoresdelasrefineríasylamaquinariadelasplantas industriales,ni losdatos sobreexplosionesde tapasde registroni sobrecondiciones meteorológicas en el aeropuerto. BP y Con Edison no necesitan niquiereninformaciónpersonalparaextraervalordelaanalíticaquellevanacabo.Elanálisisdedatosmasivosdeestetiponoplanteaprácticamenteningúnriesgoparalaprivacidad.

Aunasí,muchosdelosdatosquehoyendíasegeneransíincorporaninformaciónde carácter personal. Es más, las empresas tienen un montón de incentivos pararecopilarmás,mantenerlosmástiempo,yreutilizarlosamenudo.Puedequelosdatosni siquiera parezcan información personal de forma explícita pero, mediante suprocesamiento en tanto que datos masivos, pueden remontarse fácilmente hasta elindividuo al que se refieren, o deducirse detalles íntimos acerca de la vida de unapersonadada.

Por ejemplo, las empresas de servicios públicos de Europa y Estados Unidosestán desarrollando contadores eléctricos “inteligentes”[109] que recopilaninformación a lo largo de todo el día, a intervalos de hasta seis segundos incluso:muchomásqueelgoteodeinformaciónsobreelusototaldeenergíaquerecogíanloscontadores tradicionales. Lo relevante es que la forma de consumir energía de loselectrodomésticos creauna “firmade carga”que es exclusivade cada aparato.Asípues,uncalentadordeaguanosepareceaunordenador,queasuvezdifieredeunosfocos de crecimiento para el cultivo demarihuana. De este modo, el consumo deenergíadeuna familia revela informaciónprivada,ya seaacercade lasactividadesdiariasdelosresidentes,suestadodesaludosusactividadesilegales.

Lacuestiónfundamental,sinembargo,noestantosilosdatosmasivosaumentanlosriesgosparalaprivacidad(quesílohacen),sinosicambianelcarácterdelriesgo.Si la amenaza es sencillamente mayor que antes, entonces puede que las leyes yreglamentosdeproteccióndelámbitoprivadosigansirviendoenlaeradelosdatosmasivos:loúnicoqueseprecisaesintensificarlosesfuerzosactuales.Porotraparte,sielproblemacambia,puedequenecesitemosnuevassoluciones.

Ydesgraciadamente,elproblemasehatransformado.Conlosdatosmasivos,elvalordelainformaciónyanoresidesóloensupropósitoprimero.Ahorasehallaenlosusossecundarios.

Estecambiosocavaelprotagonismoqueahoratieneelindividuoenlasleyesdeprivacidad.Hoyendía,aésteselecomunicaenelmomentodereunirlainformación


quédatosserecogen,yconquéfin; tieneentonceslaoportunidaddemanifestarsuconsentimiento, antes de la recopilación. Aunque este concepto de “notificación yconsentimiento”noes laúnica forma legalde recogeryprocesardatosdecarácterpersonal, según Fred Cate, experto en privacidad en la universidad de Indiana, hasido transformado en la piedra angular de los principios de privacidad en todo elmundo.(Enlapráctica,hasupuestosobretodounasalertasdeprivacidaddetamañoexagerado que rara vez lee alguien, y menos aún comprende; pero esa es otrahistoria).

Curiosamente, en la era de los datos masivos, la mayor parte de los usossecundarios más innovadores no han sido concebidos aún cuando se recogen losdatosporprimeravez.¿Cómopodríanlasempresasinformardeunpropósitoqueaúnnoexiste?¿Cómopodríanlosindividuosotorgarunconsentimientoinformadoaalgoquedesconocen?Sinembargo,enausenciadeconsentimiento,cualquieranálisisdedatosmasivosconinformaciónpersonalpodríarequerirvolveraponerseencontactocon todas las personas afectadas y recabar su autorización para cada reutilización.¿Cabe imaginar a Google intentando contactar a millones de usuarios para que leautoricen el uso de sus antiguas búsquedas y predecir con ellas la evolución de lagripe? Ninguna empresa podría asumir el coste, aun cuando la tarea fueratécnicamentefactible.

Laalternativa,solicitaralosusuariosenelmomentodelarecogidalaaceptacióndecualquierempleofuturodesusdatos,tampocoresultamuypráctica.Unpermisoalpor mayor de esas características pervierte la noción misma del consentimientoinformado. En el contexto de los datos masivos, el concepto probado y fiable denotificación y consentimiento[110] resulta muchas veces demasiado restrictivo parasacaralaluzelvalorlatentedelainformación,o,porelcontrario,demasiadovacíoparaprotegerlavidaprivadadelosindividuos.

Otras formas de proteger el ámbito privado fracasan asimismo. Cuando lainformaciónde todoelmundoestá incluidaenunconjuntodedatos,hastaeloptarpor “salirse” puede dejar un rastro. Piénsese en el Street View de Google. Susvehículos recopilaron imágenes de calles y casas enmuchos países. EnAlemania,Google tuvo que hacer frente a una amplia protesta ciudadana y de losmedios decomunicación.Lagentetemíaquelasfotosdesuscasasyjardinespudieranservirdeayudaabandasde ladronesa lahoradeelegirobjetivos lucrativos.Bajo lapresiónnormativa,Googleaceptóquelospropietariosdeviviendasquelodesearanquedaranfuera,haciendoquesusfincassevieranborrosasenlasimágenes.Sinembargo,esaretiradaresultavisibleenStreetView—sevenlascasastachadas—,ylosladronesen potencia podrían interpretarlo como una señal de que se trata de blancosparticularmenteatractivos.

La aproximación técnica a la protección de la intimidad—la anonimización—tampocofuncionabienenmuchoscasos.Laanonimizaciónconsisteendespojarlosconjuntosdedatosde todos los rasgos identificadorespersonales,comopuedenser


nombre,dirección,númerodetarjetadecrédito,fechadenacimiento,onúmerodelaseguridadsocial.Losdatosresultantespuedenseranalizadosycompartidossinponeren peligro la privacidad de nadie. Pero esto sólo funciona en unmundo escaso eninformación. Los datos masivos, al incrementar la cantidad y diversidad de lainformación,facilitanlareidentificación.Estoseveenelsiguientecaso.

Enagostode2006,AOL[111]hizopúblicasunmontóndeantiguasbúsquedaseninternet,conlaideabienintencionadadequelosinvestigadorespudierananalizarlaspara obtener percepciones interesantes. El conjunto de datos, integrado por veintemillonesdebúsquedasobrade657000usuarios,efectuadasentreel1demarzoyel31demayodeeseaño,habíasidocuidadosamenteanonimizado.SehabíanborradolasinformacionespersonalescomonombredeusuarioydirecciónIP,ysustituidoporidentificaciones numéricas únicas. La idea era que los investigadores pudieranvincular las búsquedas de una misma persona, pero sin acceder a informaciónpersonal.

Sin embargo, en cuestión de días, The New York Times casó búsquedas como“solteros 60”, “té saludable” y “paisajistas en Lilburn (Georgia)” para lograridentificaralusuarionúmero4417749comoThelmaArnold,unaviudadesesentaydos años de Lilburn (Georgia). “Cielo santo, si es toda mi vida—le dijo ésta alperiodista del Times que llamó a su puerta—. No tenía ni idea de que tuviera aalguien mirando por encima del hombro”. El escándalo provocó el despido deldirectordetecnologíadeAOLydeotrosdosempleados.

Sinembargo,escasamentedosmesesdespués,enoctubrede2006,elserviciodealquilerdepelículasNetflixllevóacaboalgosimilarallanzarsupremioNetflix.Laempresa hizo públicos cien millones de registros de alquileres de cerca de mediomillóndeusuarios,yofrecióunarecompensadeunmillóndedólaresparaelequipoque consiguiera mejorar por lo menos en un 10 por 100 su sistema derecomendacionesdepelículas.Unavezmás, los datos habían sido cuidadosamenteexpurgadosdetodoslosidentificadorespersonales.Peroaunasí,unodelosusuariosfueidentificadodenuevo:unamadredefamilia,ylesbianaquenohabíasalidodelarmario, de la región conservadora del Medio Oeste, que por ello demandóposteriormenteaNetflixbajoelseudónimo“JaneDoe”.

Investigadores de la universidad de Texas en Austin compararon los datos deNetflix[112] con otras informaciones públicas. Descubrieron rápidamente que lascalificacionesdeunusuarioanonimizadocoincidíanconlasdeuncolaboradordelapáginawebInternetMovieDatabase(IMDb).Deformamásgeneral,lainvestigacióndemostróquecalificarsóloseispelículaspococonocidas(delalistadelasquinientasprimeras) permitía identificar al cliente de Netflix el 84 por 100 de las veces. Siademás se sabía también la fecha en que había calificado las películas, podíaidentificárselo exactamente entre el cercademediomillóndeclientesdel conjuntoconun99por100deprecisión.

En el caso de AOL, las identidades de los usuarios quedaron reveladas por el


contenidodesusbúsquedas.EnelcasodeNetflix, laidentidadsalióalaluzporlacomparación de los datos con otras fuentes. En ambos ejemplos, las empresas nolograron advertir por qué los datosmasivos contribuyen a desanonimizar. Por dosrazones:secapturanmásdatosysecombinanmásdatos.

Paul Ohm, profesor de derecho de la universidad de Colorado en Boulder, yexperto en los daños que puede provocar la desanonimización, explica que no hayninguna solución fácil. Si se dispone de los datos suficientes, la anonimizaciónperfecta resulta imposible, por mucho que se intente. Peor aún, recientesinvestigacioneshanmostradoquenosólolosdatosconvencionales,sinotambiénlagráfica social —las interconexiones de las personas— son vulnerables a ladesanonimización.

En la era de los datos masivos, las tres principales estrategias empleadas deantiguo para asegurar la privacidad —notificación y consentimiento individual,exclusiónvoluntariaylaanonimización—hanperdidobuenapartedesuefectividad.Hoyendía,sonyamuchosquienessientensuintimidadviolada:queesperenaquesegeneralicenmáslasprácticasbasadasenlosdatosmasivos.

En comparación con la Alemania Oriental de hace un cuarto de siglo, lavigilanciasólosehatornadomásfácil,máseconómicaymáspoderosa.Lacapacidadde captar datos personales a menudo está profundamente arraigada en lasherramientasquemanejamosadiario,de laspáginasweba lasaplicacionesparaelteléfonointeligente.Lasgrabadorasdedatosquellevanlamayoríadeloscoches[113]para registrar todos losmovimientosdelvehículo, en los segundosantesdeque seactiveelairbag,hanllegadoaservirde“testigos”decargocontraelconductortrasunaccidente.

Por supuesto, cuando las empresas recopilan datos paramejorar su balance, notenemos por qué temer que su vigilancia tenga las mismas consecuencias que unteléfonopinchadoporlaStasi.NoacabaremosenlacárcelsiAmazondescubrequenosgusta leerelLibrorojo deMao.Googlenonoscondenaráal exilioporbuscar“Bing”. Las empresas pueden ser poderosas, pero aún no disponen de los poderescoercitivosdelestado.

Asíque,aunquenosepresentanencasaparallevársenosarastrasdemadrugada,las firmasde todo tipoamasanmontonesde informacionespersonales relacionadascon todos los aspectos de nuestras vidas, las comparten con otras sin nuestroconocimiento,ylasusandemanerasquedifícilmentehubiéramosimaginado.

El sector privado no es el único que está actuando con los datos masivos. Losgobiernos también lo hacen. Por ejemplo, se dice que la Agencia Nacional deSeguridaddeEstadosUnidos. (NSAen sus siglas en inglés) intercepta y almacena1700millonesdecorreoselectrónicos, llamadas telefónicasyotrascomunicacionescada día, según una investigación realizada por The Washington Post en 2010.


WilliamBinney,unantiguoagentedelaNSA,estimaqueelgobiernoharecopiladounos“20billonesdetransacciones”entreciudadanosestadounidensesyotros:quiénllamaaquién,mandacorreoselectrónicosaquién,transfieredineroaquién,etcétera.

Paradesentrañarelsentidodetodoslosdatos,EstadosUnidosestáconstruyendogigantescos centros de datos, como una instalación de mil doscientos millones dedólares de la NSA en Fort Williams, Utah. Y todos los ámbitos del gobiernodemandanahoramásinformaciónqueantes,nosólolosserviciossecretosimplicadosen la lucha antiterrorista. Cuando la recogida de datos[114] se extiende a lastransaccionesfinancieras, loshistorialesdesaludy lasactualizacionesdeestadoenFacebook, la cantidad que se está cosechando es inconcebiblemente grande. Elgobiernonopuedeprocesartantainformación.Entonces,¿porquélarecopila?

Larespuestanosdaunapistadecómohacambiadolavigilanciaenlaeradelosgrandes datos. Antes, los investigadores “pinchaban” los cables telefónicos paraaveriguarlomásposibleacercadeunsospechoso.Loqueimportabaeraprofundizaryllegaraconoceraeseindividuo.Elenfoquemodernoesdiferente.EnelespíritudeGoogle o Facebook, se piensa que las personas son la suma de sus relacionessociales, interacciones online y conexiones con contenido. Para poder investigarexhaustivamenteaunsujeto,hayqueexaminarlapenumbradedatoslomásampliaposible que rodea a esa persona: no sólo a quién conoce, sino también a quiénesconocen esas personas a su vez, y de ahí en adelante. Esto era técnicamentemuydifícil de hacer antes, pero hoy resulta más fácil que nunca. Y como el gobiernonuncasabeaquiénvaaquererescrutar,recopila,almacenaygarantizaelaccesoalainformación, no necesariamente paramonitorizar a todo elmundo todo el tiempo,sino para que cuando alguien caiga bajo sospecha, se hallen en condiciones deinvestigardeinmediatoenvezdetenerqueempezarareunirinformacióndesdecero.

EldeEstadosUnidosnoeselúnicogobiernoqueamasamontonesdedatossobrepersonas,niquizáseaelmásatrozensusprácticas.Sinembargo,porturbadoraquepueda resultar esa capacidad para conocer nuestra información personal, con losdatosmasivossurgeunproblemanuevo:elusodeprediccionesparaenjuiciarnos.


PROBABILIDADYCASTIGO

John Anderton es jefe de una unidad especial de la policía en la ciudad deWashington.Estamañana,irrumpeenunacasadelasafuerassegundosantesdequeHowardMarks,presadeunataquedeira,leclaveunastijerasenelpechoasumujer,alaquehasorprendidoenlacamaconotrohombre.ParaAnderton,sóloesundíamásevitandoquesecometancrímenes.“PorordendelaDivisióndePreCrimendelDistrito de Columbia —recita—, lo declaro en arresto por el futuro asesinato deSarahMarksqueibaatenerlugareneldíadehoy…”.

OtrosagentesempiezanamaniataraMarks,quegrita:“¡Nohehechonada!”.En la película Minority Report[115] se describe una sociedad en la que las

prediccionesparecentanexactasquelapolicíaarrestaalosindividuospordelitosaúnno cometidos.La gente es encarcelada nopor lo que ha hecho, sino por lo que seprevé que vaya a hacer, aun cuando, de hecho, nunca lleguen a cometerlo. Ellargometrajeatribuyeestaaplicaciónprescienteypreventivadelaleyalasvisionesdetresadivinos,noalanálisisdedatos.Peroelinquietantefuturoquedescribepodríahacerserealidadconelanálisisirrestrictodedatosmasivos,enelquelosjuiciosdeculpabilidadsebasaránenprediccionesindividualizadasdecomportamientosfuturos.

Yaempezamosaasistiralosalboresdeello.Lasjuntasdelibertadcondicionalenmásde lamitadde los estadosdeEstadosUnidosusanprediccionesbasadas enelanálisisdedatoscomoelementodejuicioalahoradedecidirsiexcarcelaraalguieno mantenerlo entre rejas. Cada vez más lugares de Estados Unidos —desde losdistritos enLosÁngeleshasta ciudades comoRichmond (Virginia)— recurren a la“policía predictiva”,[116] usando el análisis de datos masivos para seleccionar quécalles, grupos e individuos han de ser sometidos a un escrutinio reforzado,simplementeporqueunalgoritmoloshaseñaladocomoconmayoresprobabilidadesdecometeruncrimen.

EnlaciudaddeMemphis(Tennessee),unprogramallamadoBlueCRUSH(porlas siglas en inglés de Reducción del Crimen Utilizando el Historial Estadístico)indicaalosagentesdepolicíalasáreasdeinterésrelativamenteprecisasentérminosde localización (unas pocas manzanas) y tiempo (unas cuantas horas de undeterminadodíadelasemana).Elsistemacontribuyesindudaaquelasfuerzasdelaleyapliquenmejorsusescasos recursos.Desdesu lanzamientoen2006, losdelitosgravescontralapropiedadylosviolentoshancaídoenunacuartaparte,segúnunamedida(aunque,pordescontado,estonadadiceacercadelacausalidad;nadapermiteindicarqueladisminuciónseadebidaalBlueCRUSH).

En Richmond (Virginia), la policía correlaciona los datos sobre crímenes conotrosconjuntosdedatos,comolainformaciónsobrecuándopaganlasnóminasasusempleados las grandes compañías de la ciudad, o las fechas de conciertos oacontecimientosdeportivos.Conellosehapodidoconfirmary,enocasiones,refinar


lassospechasdelapolicíaacercadelastendenciasdelictivas.Porejemplo,lapolicíadeRichmondsospechabadeantiguoqueseproducíaunincrementodelosdelitosconviolencia a continuación de las ferias de armamento; el análisis de datos masivosdemostróqueteníanrazón,peroconunaparticularidad:elrepunteseproducíaalasdossemanasdelcertamen,ynoinmediatamentedespués.

Estossistemasbuscanprevenirloscrímenesprediciéndolos,enúltimainstancia,descendiendohastaelniveldelosindividuosquepodríancometerlos.Estoapuntaalempleode losdatosmasivos conunanueva finalidad: prevenir que seproduzca elcrimen.

UnproyectodeinvestigacióndesarrolladobajolosauspiciosdelDepartamentodeSeguridadInterior(DHS)deEstadosUnidos,conelnombredeFAST(“rápido”,porlas siglas en inglés de Tecnología de Exploración de Futuros Atributos), trata deidentificar a los potenciales terroristas monitorizando los indicadores vitales, ellenguajecorporalyotrospatronesfisiológicos.Laideaconsisteenquelavigilanciadel comportamiento de las personas puede servir para detectar sus intencionesdañinas.Enpruebas,elsistemaresultóserexactoenun70por100,segúnelDHS.(Lo que esto significa no está del todo claro: ¿se pidió a los sujetos de lainvestigación que fingieran ser terroristas para ver si se detectaba su “malaintención”?).Aunqueestossistemasestániniciandosudesarrollo,lacuestiónesquelasfuerzasdeseguridadselostomanmuyenserio.

Impedirundelitopareceunproyectosugerente.¿Acasonoresultamuchomejorprevenir las infracciones antes de que se produzcan que castigarlas una vezcometidas? ¿El adelantarse a los crímenes no beneficiaría tanto a aquellos quepodríanhabersidosusvíctimas,comoatodalasociedadensuconjunto?

Peroesaesunasendapeligrosa.Simediantelosdatosmasivossomoscapacesdepredecir quién podría cometer un crimen en el futuro, no nos conformaremosmeramente con impedir que ese crimen suceda; probablemente deseemos tambiéncastigar al probable perpetrador.Esto es lógico. Si nos limitamos a intervenir paraimpedir que se produzca el hecho ilícito, el delincuente putativo podrá volver aintentarlodenuevocontotal impunidad.Porelcontrario,usandolosdatosmasivosparahacerloresponsabledesusactos(futuros)podemosdisuadirloaél,ydepasoaotros.

Estos castigos basados en predicciones parecen una mejora respecto a otrasprácticasqueyahemosacabadoaceptando.Prevenirloscomportamientosinsalubres,peligrososoderiesgoesunapiedraangularde lasociedadmoderna.Hemoshechoque sea más difícil fumar para impedir el cáncer de pulmón; exigimos llevar elcinturón de seguridad para evitar muertes en la carretera; no permitimos que lospasajerossubanarmadosalosavionesparaevitarlossecuestros.Todasestasmedidaspreventivasconstriñenlalibertad,peromuchoslasconsideranunpreciorazonableacambiodeprevenirdañosmayores.

Ennumerososcontextos,elanálisisdedatosyaseestáusandoennombredela


prevención. Se usa para agruparnos en cohortes de gente como nosotros,etiquetándonos de paso. Las tablas de los analistas de seguros[117] indican que losvaronesdemásdecincuentaañossonproclivesalcáncerdepróstata,porloqueesegrupopuedetenerquepagarmásporsussegurosmédicosauncuandonuncalleguenapadeceresecáncer.Entantoquecolectivo,losestudiantesdeinstitutoconbuenasnotas tienenmenos probabilidades de verse envueltos en accidentes de coche; porconsiguiente, algunosde losmenos aventajados tienenquepagarprimasde seguromás elevadas. Los individuos que presentan ciertas características sufren másregistrosenelaeropuerto.

Esaeslaideasubyacenteal“perfilado”(profiling)enelmundoescasoendatosde hoy. Se encuentra una asociación común en los datos, se define un grupo depersonasalasqueesaplicable,yselassometeentoncesaunescrutinioañadido.Esunareglageneralizablequeseaplicaatodoslosintegrantesdelgrupo.Profiling,porsupuesto, es una palabra con mucha carga, y el método presenta seriosinconvenientes. En caso de emplearse mal, no sólo puede llevar a discriminar aciertosgrupos,sinotambiénala“culpabilidadporasociación”.

En cambio, las predicciones sobre personas a partir de datosmasivos son otracosa.Mientrasque,hoyendía, lasprevisionesdecomportamientosprobables—encosascomoprimasdesegurosycalificacionescrediticias—normalmenteseapoyanenunpuñadodefactoresbasadosenunmodelomentaldelacuestióndequesetrate(esdecir, problemasde saludanterioresohistorialdepagode los créditos), conelanálisisnocausaldelenfoquededatosmasivosamenudosimplementeidentificamoslosfactorespredictivosmásadecuadosenunmardeinformación.

Lo importante esque,mediante el empleode losdatosmasivos, esperamos sercapacesdeidentificarapersonasespecíficasenvezdeagrupos;esonosliberadeladesventaja, inherente al perfilado, de hacer de cada sospechoso un caso deculpabilidadporasociación.Enunmundodedatosmasivos,unapersonadenombreárabequehayapagadoenefectivounviajesólodeidaenprimeraclaseyanotieneque verse sometido a una exploración exhaustiva en el aeropuerto si otros datosespecíficosdesupersonahacensumamenteimprobablequeseaunterrorista.Conlosdatosmasivospodemoszafarnosdelacamisadefuerzadelasidentidadesgrupales,sustituyéndolasporprediccionesmuchomásindividualizadas.

Lapromesadelosdatosmasivosconsisteenquehacemosloquehemosestadohaciendotodoeltiempo—perfilar—,peromejor,deformamenosdiscriminatoriaymás personalizada. Esto suena aceptable si el objetivo es sencillamente impediraccionesnodeseadas,perosevuelvemuypeligrososiusamosprediccionesbasadasendatosmasivosparadecidirsiunapersonaesculpableydebesercastigadaporuncomportamientoqueaúnnosehaproducido.

La mera idea de un castigo basado en las propensiones resulta nauseabunda.Acusar a una persona de un posible comportamiento futuro niega el fundamentomismodelajusticia:queunohadehaberhechoalgoantesdequeselepuedanexigir


cuentas.Alfinyalcabo,noespensarencosasmalasloqueesilegal,sinohacerlas.Esunprincipiofundamentaldenuestrasociedadquelaresponsabilidadestáligadaalaeleccióndecadaindividuodecómoactuar.Siaunoloobliganaabrirlacajafuertede la empresa a punta de pistola, no hay elección posible, ni, por consiguiente,responsabilidad.

Si lasprediccionesbasadasendatosmasivos fueranperfectas, si losalgoritmospudieran prever nuestro futuro con infalible claridad, no tendríamos elección paraobrarenel futuro.Noscomportaríamosexactamentea tenorde lopredicho.Deserposibles las predicciones perfectas, quedaría negada la voluntad humana, nuestracapacidaddevivirlibrementenuestrasvidas.Y,además,nosinironía,alprivarnosdeelecciónnoslibraríandetodaresponsabilidad.

Porsupuesto,lapredicciónperfectaesimposible.Antesbien,elanálisisdedatosmasivosloquepredeciráesque,paraunindividuoespecífico,hayciertaprobabilidadde que tenga un comportamiento futuro determinado. Véase, por ejemplo, lainvestigación llevada a cabo por Richard Berk,[118] profesor de estadística ycriminologíadelauniversidaddePensilvania.Berkafirmaquepuedepredecirsiunapersonaenlibertadbajofianzaseveráenvueltaenunhomicidio(matandoosiendoasesinada). Para ello utiliza numerosas variables propias del caso, entre ellas, elmotivo del encarcelamiento y la fecha del primer delito, pero también datosdemográficos, como la edady el sexo.Berk sostienequepuedepredecir un futuroasesino entre los presos en libertad condicional con una probabilidad de aciertomínima del 75 por 100. No está mal. Sin embargo, también significa que si loscomitésdelibertadcondicionalsebasanenelanálisisdeBerk,seequivocaránunadecadacuatroveces,yesonoespoco.

El problema central de basarse en estas predicciones no consiste tanto en quehacen correr un riesgo a la sociedad, cuanto en que con ellas esencialmentecastigamosalagenteantesdequehaganadamalo.Yalintervenirantesdequeobren(porejemplo,negándoleslalibertadcondicionalsilasprediccionesindicanquehayunaelevadaprobabilidaddequecometanunasesinato),nuncasabremossilohabríancometidoono.Nodejamosquesecumplaeldestino,yaunasíhacemosresponsablesalosindividuosdeloquehabríanpodidohacer,segúnunasprediccionesquenuncapuedenserdesmentidas.

Estoniegaelconceptomismodelapresuncióndeinocencia,elprincipiobásicode nuestro sistema legal y de nuestro sentido de lo que es justo. Y si hacemosresponsable a la gente de unos actos futuros pronosticados, que puede que nuncallevenacabo,tambiénnegamoslacapacidadhumanaderealizareleccionesmorales.

Loimportanteaquínoessólounacuestióndemantenimientodelordenpúblico.Elpeligroesdemuchamayoramplitudquelajusticiacriminal;seextiendeatodaslas áreas de la sociedad, a todos los casos del juicio humano en que se empleanpredicciones basadas en datosmasivos para decidir si alguien es culpable de actosfuturosono.Estosincluyendesdeladecisiónadoptadaporunaempresadedespedir


auntrabajadorhastalanegativadeuncirujanoaoperaraunpaciente,pasandoporuncónyugequepresentaunademandadedivorcio.

Quizáconunsistemacomoéselasociedadseríamásseguraomáseficiente,perouna parte esencial de lo que nos hace humanos—nuestra capacidad de elegir lasaccionesquellevamosacaboyderendircuentasporellas—quedaríadestruida.Losdatosmasivossehabríanconvertidoenunaherramientaparacolectivizarlaelecciónhumanayabandonarellibrealbedríoennuestrasociedad.

Por supuesto, los datos masivos ofrecen numerosos beneficios. Lo que losconvierteenunarmadeshumanizadoranoesunadesventajadelosdatosmasivosensí,sinodelasformasenqueusamossuspredicciones.Elpuntocrucialradicaenquehallarculpablea lagentedehechosvaticinadosantesdequepuedancometerlosdeverdadutilizapredicciones apartir dedatosmasivosbasadas encorrelacionesparaadoptardecisionescausalessobrelaresponsabilidadindividual.

Losdatosmasivossonútilesparacomprenderelriesgopresenteyfuturo,yparaajustar nuestras acciones en consonancia. Sus predicciones ayudan a pacientes yaseguradoras, prestamistas y consumidores. Pero no nos dicen nada acerca de lacausalidad.Encambio,asignar“culpa”—culpabilidadindividual—requierequelaspersonas a las que juzgamos hayan elegido actuar de determinada manera. Sudecisión debe ser causa de la acción subsiguiente. Precisamente porque los datosmasivos están basados en correlaciones, constituyen una herramienta del todoinadecuadaparajuzgarlacausalidadyasignar,pues,laculpabilidadindividual.

El problema radica en que los seres humanos estamos preparados para ver elmundoatravésdelaslentesdelacausayelefecto.Asípues,elrecursoalosdatosmasivossehallabajo laamenazaconstantedelmalusoporpropósitoscausales,deverse ligado a visiones optimistas como la de pensar que nuestro juicio y nuestracapacidad para asignar culpabilidades resultarían más efectivos si estuviéramospertrechadosdeprediccionesbasadasendatosmasivos.

Es la quintaesencia de la pendiente resbaladiza, la que lleva directamente a lasociedad que describíaMinorityReport, unmundo del que han sido eliminados laelecciónindividualyellibrealbedrío,enelquenuestrabrújulamoralindividualhasidosustituidaporalgoritmospredictivos,ylaspersonasquedanexpuestasalimpactolibre de trabas del fiat colectivo. Así empleados, los datosmasivos amenazan conaprisionarnos—quizádeformaliteral—enlasprobabilidades.


LADICTADURADELOSDATOS

Los datosmasivos erosionan la privacidad y amenazan a la libertad. Pero tambiénexacerbanunproblemamuyantiguo:eldeconfiarenlosnúmeroscuandosonhartomásfaliblesdeloquepensamos.NadailustramejorlasconsecuenciasdeunanálisisdedatossesgadoquelahistoriadeRobertMcNamara.[119]

McNamara era un hombre de números. Nombrado secretario de Defensa deEstados Unidos cuando se iniciaron las tensiones en Vietnam a principios de ladécadade1960, insistióen recabardatosacercade todo loquepudo.Pensabaquesólomediantelaaplicacióndelrigorestadísticosepodríacomprenderunasituacióncomplejayadoptarlasdecisionescorrectas.Ensuopinión,elmundoeraunamasadeinformación ingobernable que, una vez delineada, denotada, demarcada ycuantificada, podría ser domesticada por el hombre y por la voluntad humana.McNamarabuscabalaVerdad,yesaVerdadpodríaencontrarseenlosdatos.Entrelosnúmerosquellegaronasusmanossehallabael“recuentodecuerpos”.

McNamaradesarrollósupasiónporlosnúmerosenlaHarvardBusinessSchool,primero como estudiante y después como profesor asociado más joven de lainstitución, con sólo veinticuatro años. Aplicó este rigor cuantitativo durante laSegundaGuerraMundialentantoqueintegrantedeunequipodeélitedelPentágonollamadoControlEstadístico,queintrodujolatomadedecisionesbasadasendatosenuna de las mayores burocracias del mundo. Anteriormente, los militares estabanciegos.Nosabían,porejemplo,eltipo,cantidadylocalizacióndelosrecambiosdeaeroplanodisponibles.Losdatosacudieronalrescate.Sóloelhacermáseficienteelsuministrodearmamentosupusounahorrode3600millonesdedólaresen1943.Laguerra moderna consistía en la asignación eficiente de los recursos: el trabajo delequipofueunéxitoasombroso.

Acabadalaguerra,elgrupodecidiópermanecerunidoyofrecersusserviciosalaempresaprivada.LaFordMotorCompanyestabaendificultades,yHenryFord II,desesperado,lesconfiólasriendasdelnegocio.Aligualqueloignorabantodosobrelomilitarcuandoayudaronaganarlaguerra,tampocoteníanlamenorideasobrelafabricación de automóviles. Aun así, los llamados “cerebritos”[120] consiguieronenderezarlaempresa.

McNamara ascendió rápidamente, elaborando un punto de datos para cadasituación.Losgerentesdeplanta,agobiados,lefacilitabanlosdatosquedemandaba,fuesenestoscorrectosono.Cuandollegaronórdenesdesdelasalturasdequehabíaqueagotarlasexistenciascompletasdeunmodelodecocheantesdepoderiniciarlaproduccióndelsiguiente,losjefesdelínea,exasperados,sencillamentearrojaronlaspiezas sobrantesaun ríocercano.Los superejecutivosde la sedecentral asintieronconaprobacióncuandoloscapataceslesenviaronestadísticasqueconfirmabanquelaorden se había cumplido. La broma que circulaba en la fábrica afirmaba que uno


podíacaminarsobrelasaguas…pisandopiezasoxidadasdecochesde1950y1951.McNamara era el epítome del directivo demediados del sigloXX, el ejecutivo

híperracionalqueconfiabaensuscifrasantesqueenlaintuición,yquepodíaaplicarsushabilidadescuantitativasencualquiersectorqueeligiera.En1960fuenombradopresidentedelaFord,unpuestoquedesempeñósólounascuantassemanas,antesdequeelpresidenteKennedylonombrarasecretariodeDefensa.

Amedidaqueel conflictodeVietnam fueescalandoyEstadosUnidosenviabamástropas,sehizoevidentequeéstaeraunaguerradevoluntades,nodeterritorios.LaestrategiaestadounidenseconsistíaenllevaralVietCongapaloshastalamesadenegociaciones.Laformademedirelprogreso,porlotanto,pasabaporcontara losenemigosmuertos,y este recuento sepublicabaadiario en laprensa.Para losqueapoyabanlaguerra,eraunapruebadeprogreso;paraloscríticos,unademostracióndesuinmoralidad.Elrecuentodecuerposeselpuntodedatosquedefiniótodaunaépoca.

En1977,dosañosdespuésdequeelúltimohelicópterodespegaradeltejadodelaembajada de Estados Unidos en Saigón, un general retirado del ejército de tierra,DouglasKinnard,publicóunestudioquehizoépocaacercade lasopinionesde losgenerales. El informe, titulado The War Managers [Los gestores de la guerra],revelaba el lodazal de la cuantificación. Un escaso 2 por 100 de los generalesestadounidenses consideraba el recuento de cuerpos una forma válida de medir elprogreso.Cerca de las dos terceras partes dijeron que las cifras amenudo estabaninfladas. “Una falsificación: totalmente inútiles”, escribió un general en suscomentarios.“Amenudoeranmentiraspatentes”,escribióotro.“Muchasunidadeslasexageraban considerablemente, sobre todo por el increíble interés que habíandemostradopersonascomoMcNamara”,indicóuntercero.

Aligualquelosoperariosdelafábricaquetiraronpiezasdemotoresalrío, losoficiales de inferior rango le facilitaron ocasionalmente a sus superiores cifrasapabullantesparaconservarsumandoopromoversuscarreras,diciéndolesalosdemásgalones loquequeríanoír.McNamaraysuequipoconfiabanen lascifras, lasfetichizaban.Consuperfectopeinadohaciaatrásysucorbataimpecable,McNamarapensabaquesólopodíacomprenderloquepasabaenelterrenoestudiandounahojadecálculo:todasesasfilasycolumnas,cálculosygráficasperfectamenteordenados,queparecíanllevarlounadesviaciónestándarmáscercadeDios.

El uso, abuso y mal uso de los datos por parte de los militares estadounidensesdurantelaguerradeVietnamconstituyeunalecciónterribleacercadeloslímitesdelainformaciónenunaépocadedatosescasos,lecciónquehadeserrecordadaahoraqueelmundoseprecipitahacialaeradelosdatosmasivos.Lacalidaddelosdatossubyacentespuedesermediocre.Puedenestarsesgados,analizarsemaloemplearsedeformaengañosa;y,deformainclusomásdecisiva,puedennocaptarbienloquese


proponencuantificar.Somosmássensiblesdeloquepensamosala“dictaduradelosdatos”;esdecir,a

permitirquelosdatosnosgobiernendeformasquepuedenresultartandañinascomoprovechosas.Laamenazaconsisteenquenosdejemosatraparirracionalmenteporelresultado de nuestros análisis, aun cuando tengamos motivos razonables parasospechar que algo está mal. O en que nos acabemos obsesionando por larecopilación de hechos y cifras por el mero amor a los datos. O en que lesatribuyamosungradodeveracidadquenomerecen.

Según se van datificando más aspectos de la vida, la solución que políticos yhombresdenegociosseponenabuscarantesquenadaesladeconseguirmásdatos.“En Dios confiamos:[121] que todos los demás traigan datos” es el mantra deldirectivomodernoqueresuenaenloscubículosdeSiliconValley,enlascadenasdemontaje de las fábricas y por los pasillos de los organismos oficiales. La idea esválida,perounopuededejarseengañarporlosdatos.

¿Parece que la educación se está yendo al traste? Foméntense los tests paraevaluarelrendimiento,ypenalícesea losprofesoresoescuelasquenodenla talla.Que los tests sirvan para medir las aptitudes de los alumnos, la calidad de laenseñanzao lasnecesidadesdeunafuerza laboralmoderna,creativayadaptableesunacuestiónaúnpendiente;peroesunacuestiónquelosdatosnoadmiten.

¿Se desea prevenir el terrorismo? Créense capas de listas de vigilancia y depersonasalasqueseprohíbevolarparavigilarpolicialmenteloscielos.Peroresultadudosoqueesosconjuntosdedatosofrezcan laprotecciónqueprometen.Según lafamosaanécdota,eldifuntoTedKennedy,senadorporMassachusetts,fuevíctimadelalistadepersonasexcluidasdelosvuelos;fuedetenidoeinterrogadosencillamenteporllamarseigualqueunapersonaincluidaenlabasededatos.

Quienes trabajancondatos tienenunaexpresiónparadesignaralgunosdeestosproblemas:“entrabasura,salebasura”.Enalgunoscasos,larazóneslacalidaddelainformaciónsubyacente,perocasisiempresetratadeunanálisiserróneo.Condatosmasivos, estos problemas pueden presentarse conmás frecuencia o tener mayoresconsecuencias.

Google,comohemosmostradoennumerososejemplos,gestionatodoenfuncióndelosdatos.Esobvioqueaesaestrategiadebebuenapartedesuéxito,perotambiénle hace dar traspiés de vez en cuando. Durante mucho tiempo, sus cofundadores,LarryPageySergeyBrin,insistieronenconocer,paratodosloscandidatosapuestosde trabajoen la firma, susnotasde finalde secundaria, así comosunotamediaallicenciarseenlauniversidad.Ensuopinión,elprimerresultadomedíaelpotencialyel segundo los logros. Para su absoluto desconcierto, algunos directivossobradamentepreparadosdecuarentaytantosañosquetomabanparteenprocesosdeselección quedaron descartados por esas puntuaciones. La compañía siguióanalizándolas inclusomuchodespuésdequesusestudios internosdemostraranquenohabíacorrelaciónentrelasnotasyelrendimientoeneltrabajo.


Google debería saber lo suficiente para no dejarse seducir por los engañososatractivosdelosdatos.Esasmedidasnodejanapenasmargenparaloscambiosenlavidadelaspersonas.Tienenmenosencuentaelconocimientorealdelavidaqueelde los ratones de biblioteca, y puede que no reflejen adecuadamente lascualificaciones de la gente con formación en humanidades, donde quizá elconocimientoseamenoscuantificablequeenlascienciasolaingeniería.Laobsesiónde Google por este tipo de datos en el ámbito de los recursos humanos resultaespecialmente llamativa, por cuanto los fundadores de la compañía son antiguosalumnos de escuelasMontessori, que ponen el énfasis en el aprendizaje, no en lasnotas. Por añadidura, incurre en los mismos errores que otras grandes empresastecnológicas que se ufanaban de los currículos de la gente más que de suscapacidadesreales.Entantoquedoctorandosfracasados,¿habríanpodidotenerLarryy Sergey la menor oportunidad de llegar a ocupar puestos directivos en loslegendarios laboratorios Bell? De acuerdo con los estándares de Google, ni BillGates,niMarkZuckerberg,niSteveJobshabríansidocontratadosnunca,alcarecerdelicenciaturasuniversitarias.

Laconfianzade la firmaen losdatospareceexcesivaaveces.CuandoMarissaMayereradirectivaallí,ordenóalpersonalquehicieraunapruebaconcuarentayunmaticesdistintosdelcolorazulparavercuáleseranmásutilizadosporlagente,paraasídecidirelcolordeunabarradeherramientasdelapáginaweb.LadeferenciadeGooglehacialosdatoshasidollevadaalextremo.Inclusohasuscitadorevueltas.

En 2009, el diseñador jefe de Google, Douglas Bowman, se despidió airadoporquenopodíasoportarlaconstantecuantificacióndetodaslascosas.“Hacepocotuveunadiscusiónacerca[122]desiunmargendebíatenertres,cuatroocincopíxeles,ysemepidióquedemostraramipuntodevista.Nopuedo trabajarenesaclasedeentorno—escribióenunblog,enélanunciabasudimisión—.Cuandounaempresaestállenadeingenieros,recurrealaingenieríaparasolucionarproblemas.Sereducecadadecisiónaunsimpleproblemadelógica.Esosdatosterminanporconvertirseenunamuletaparatodaslasdecisiones,paralizandoalacompañía”.

Labrillanteznodependedelosdatos.PuedequeSteveJobs[123]mejoraraelMacportátildeformacontinuaalolargodelosañosbasándoseenlosinformesdecampo,peroutilizósuintuición,nolosdatos,paralanzareliPod,eliPhoneyeliPad.Confióensusextosentido.“Noestrabajodelosconsumidoressaberquéquieren”,dijodeforma memorable, al contarle a un periodista que Apple no llevó a cabo ningúnestudiodemercadoantesdelanzareliPad.

EnsulibroSeeinglikeaState,elantropólogoJamesScott,delauniversidaddeYale, documenta las formas en que los gobiernos, llevados por su fetiche de lacuantificacióny losdatos,acabanporamargar lavidade losciudadanosenvezdemejorarla.Utilizanmapasparareorganizarlascomunidadesenlugardeaprenderdela gente de allí. Usan largas tablas de datos sobre las cosechas para decidir lacolectivizaciónde laagriculturasinsabernadadecultivos.Cogen todas las formas


orgánicaseimperfectasenquehainteractuadolagente,ylasretuercenparaqueseamoldenasusnecesidades,enocasionesúnicamenteparasatisfacersudeseodeunordencuantificable.Elusodelosdatos,enopinióndeScott,sirveamenudoparadarmáspoderalospoderosos.

Heaquíladictaduradelosdatosescritacontodaslasletras.YfueunadesmesurasimilarlaquellevóaEstadosUnidosalaescaladadelconflictoenVietnam,enparteporque se basaron en el recuento de cuerpos y no utilizaron parámetros mássignificativos. “Es bastante cierto que no todas las situaciones humanas complejasposiblespuedenreducirsealascurvasdeundiagrama,nialospuntosporcentualesde una gráfica, o las cifras de un balance—declaróMcNamara en un discurso de1967,cuandoestabanaumentandolasprotestasenelpaís—.Perosepuederazonarsobretodalarealidad.Ynocuantificarpudiendohacerloequivaleacontentarseconmenosqueelplenoalcancedelarazón”.Contaldequeseusaranlosdatoscorrectosdeformacorrecta,envezderespetarlosporsumeracondicióndedatos.

RobertStrangeMcNamarapasóadirigirelBancoMundialenladécadade1970,yluegosevolviópacifistaenlos80.Seconvirtióenactivistaantinuclearydefensordelmedioambiente.Haciaelfinaldesuvida,experimentóunaconversiónintelectualyescribióunasmemorias,InRetrospect,enlasquecriticabalasideasbélicasysuspropias decisiones en tanto que secretario de estado deDefensa. “Fue un error, unerrorterrible”,escribió.Perosereferíaalaestrategiageneraldelaguerra.Respectoala cuestión de los datos, y del recuento de cuerpos, en particular, se mostróimpenitente.Reconocióquelasestadísticaspodían“induciraerroroeranerróneas”;“pero lascosasquesepuedencontar,deberíamoscontarlas.Lapérdidadevidasesunadeellas…”.McNamara fallecióen2009a losnoventay tresaños.Unhombreinteligente,peronounsabio.

Los datos masivos pueden llevarnos a cometer el pecado de McNamara:[124]obsesionarnos tanto con ellos, con el poder y la promesa que ofrecen, que se nosolviden sus limitaciones. Para hacernos una idea del equivalente del recuento decuerposentérminosdedatosmasivos,sólonecesitamosvolveracontemplarGoogleFlu Trends. Considérese una situación, no del todo inverosímil, en la que unavariedaddegripemortíferasepropagaconferocidadporelpaís.Losprofesionalesdelamedicinaagradeceríandisponerdelacapacidaddepronosticarentiemporeal,pormediodelasbúsquedasdeinformaciónenGoogle,cuálesseránlosmayoresfocos:asísabríandóndeacudirconayuda.

Pero supóngase que, en unmomento de crisis, los líderes políticos argumentanquesimplementesaberdóndeesprobablequeempeore laenfermedadpara intentarfrenarla no basta. Así que reclaman una cuarentena general, pero no para toda lapoblacióndeesasregiones,puesresultaríainnecesarioyexcesivo.Losdatosmasivosnospermitenmostrarnosmásselectivos,porloquelacuarentenaseleaplicarásóloa


losusuariosindividualesdeinternetcuyasbúsquedashayanmostradolacorrelaciónmásaltaconpadecerlagripe.Aquídisponemosdelosdatosparasaberaquiénhayque buscar. Agentes federales, pertrechados con listas de direcciones IP einformación de los GPS de los móviles, reúnen a los internautas y los ponen encuarentena.

Pero, por muy razonable que pueda parecerles a algunos este supuesto, essencillamentefalso.Lascorrelacionesnoimplicancausalidad.Esaspersonaspuedentenerlagripe,ono.Habríaquesometerlasapruebas.Seríanreosdeunapredicción,peroaúnmásimportante,seríanvíctimasdeunavisióndelosdatosquenoaprecialoque significa realmente la información.La clavedel estudiodeGoogleFluTrendsradica en que ciertos términos de búsqueda están correlacionados con el brote degripe;perolacorrelaciónpuededarse,porejemplo,sialguienconbuenasalud,aloírestornudar en la oficina, se conecta a internet para averiguar cómo protegerse, noporqueestéenfermo.


ELLADOOSCURODELOSDATOSMASIVOS

Como hemos visto, los datos masivos permiten una mayor vigilancia de nuestrasvidas y vuelven obsoletos, en buena medida, algunos de los medios legales deproteger la intimidad. También vuelven ineficaz el método técnico central parapreservar el anonimato. Igualmente inquietante, las predicciones sobre individuosbasadasendatosmasivospuedenserutilizadasenlaprácticaparacastigaralagenteporsuspropensiones,ynoporsusacciones.Estoniegaellibrealbedríoyerosionaladignidadhumana.

Almismotiempo,existeunriesgorealdequelosbeneficiosdelosdatosmasivosnosinduzcanaaplicarlastécnicasensituacionesalasquenoseajustandeltodo,oaconfiar excesivamente en los análisis. Conforme las predicciones basadas en datosmasivos vayan mejorando, el recurrir a ellas se irá tornando más atractivo,alimentando una obsesión por esos datos que tanto pueden aportarnos. Esa fue lamaldicióndeMcNamara,ylalecciónqueofrecesuhistoria.

Debemosguardarnoscontralaconfianzaexcesivaenlosdatos,novayamosacaerenelerrordeÍcaro,quienadorabasucapacidadtécnicadevolarperonosupousarlayseprecipitóenelmar.Enelpróximocapítulo,veremosalgunasformasdecontrolarlosdatosmasivosparaevitarqueseanelloslosquenoscontrolenanosotros.


IX

CONTROL

Loscambiosenlaformaenqueproducimoslainformacióneinteractuamosconellaprovocan, a su vez, cambios en las reglas que usamos para gobernarnos y en losvaloresquelasociedadnecesitaproteger.Veamosunejemplotomadodeundiluviodedatosanterior,elquedesencadenólaimprenta.

AntesdequeJohannesGutenberginventaseloscaracteresmóvileshacia1450,ladifusióndelasideasselimitabaenlíneasgeneralesalasconexionesentrepersonas.Loslibrosestabanconfinadosensumayoríaenlasbibliotecasmonásticas,vigiladosdecercaporlosmonjes,queactuabanennombredelaiglesiacatólicaparaprotegerypreservarsudominio.Fueradelámbitodelaiglesia,loslibroseranextremadamenteraros. Unas pocas universidades habían reunido sólo docenas, o tal vez un par decientos de libros. La de Cambridge[125] poseía escasamente ciento veintidósvolúmenesaprincipiosdelsigloXV.

EncuestióndeunasdécadasapartirdelainvencióndeGutenberg,suimprentasehabíaextendidoportodaEuropa,haciendoposiblelaproducciónmasivadelibrosypanfletos.CuandoMartínLuterotradujolaBiblialatinaalalemáncorriente,huboderepenteunmotivoparaaprenderaleer:leyendolaBibliaporcuentapropia,sepodríaprescindirdeloscurasparaaprenderlapalabradeDios.LaBibliaseconvirtióenunéxitodeventas.Y,unavezquelagentesupoleer,siguióhaciéndolo.Algunosinclusodecidieron escribir. En menos de lo que dura la vida de una persona, el flujo deinformaciónhabíapasadodegoteoatorrente.

Estecambioradicalabonóasimismoelterrenoparanuevasreglasdegobiernodelaexplosióninformativaqueprovocaronloscaracteresmóviles.Conformeelestadosecular consolidaba su poder, estableció la censura y las licencias para contener ycontrolar la palabra impresa. Se introdujo la propiedad intelectual, brindando a losautores incentivos legales y económicos para crear.Más adelante, los intelectualespresionarían para lograr reglamentos que protegieran las palabras de la censuragubernativa;llegadoelsigloXIX,lalibertaddeexpresiónseconvirtióenunderechogarantizado por la constitución cada vez enmás países. Pero estos derechos traíanaparejadasunasresponsabilidades.Enlamedidaenquealgunosperiódicosvitriólicospisoteabanla intimidadoensuciabanreputaciones,surgieronreglasparaprotegerelámbitoprivadodelaspersonasypermitirlespresentardemandaspordifamación.

Sin embargo, estos cambios en la gobernanza reflejan asimismo unatransformaciónmáshondayfundamentaldelosvaloressubyacentes.AlasombradeGutenberg, empezamos a comprender el poder de la palabra escrita; y, a la larga,


tambiénlaimportanciadelainformaciónquesediseminasintrabasporlasociedad.Conelpasodelossiglos,optamospormás,ynomenos,flujosdeinformaciónyporprotegernosdesusexcesosnopormediodelacensuraprincipalmente,sinoatravésdenormasquelimitabanelmaluso.

Según se vaya adentrando el mundo en el ámbito de los datos masivos, lasociedad experimentaráundesplazamiento tectónico similar.Losbigdata ya estántransformandomuchos aspectos de nuestra vida y forma de pensar, forzándonos areconsiderar algunos principios básicos acerca de su crecimiento y su potencialdañino. Sin embargo, a diferencia de nuestros antepasados en tiempos de larevolución de la imprenta y después, no dispondremos de siglos para adaptarnos:puedequesólosetratedeunospocosaños.

Noseránsuficientesunossimplescambiosdelasreglasactualesparagobernarenla era big data y atemperar su lado oscuro. Más que un cambio de valores, lasituaciónexigeuncambiodeparadigma.Laproteccióndelaprivacidadrequierequelosusuariosdedatosmasivosasumanmayorresponsabilidadporsusactos.Almismotiempo,lasociedadtendráqueredefinirlamismanocióndejusticiaparagarantizarlalibertad de actuación del ser humano (y, por consiguiente, la de ser consideradoresponsabledeesasacciones).Porúltimo,haráfaltaquesurjannuevasinstitucionesyprofesionalesparainterpretarloscomplejosalgoritmosquesubyacenaloshallazgosde los datos masivos, y para defender a aquellas personas que podrían verseperjudicadasporellos.


DELAPRIVACIDADALARESPONSABILIDAD[126]

Durantedécadas,unprincipioesencialdelasleyesdeproteccióndelavidaprivadaalrededor del mundo pasaba por atribuirle el control a los individuos, dejándolesdecidirsi,cómoyporquiénpodríaserprocesadasuinformaciónpersonal.Enlaerade internet,este loable idealseha transformadoamenudoenunsistemaformalde“notificaciónyconsentimiento”.Alllegarlosdatosmasivos,sinembargo,cuandolamayor parte del valor de estos reside en unos usos secundarios, que puede que nisiquierasehubiesenconcebidocuandoserecogieron,unmecanismoasíyanosirveparaasegurarlaprivacidad.

Para la era de los datos masivos, prevemos un marco muy diferente centradomenosenelconsentimientoindividualenelmomentodelarecogidadelosdatos,ymás en hacer responsables a los usuarios de lo que hacen. Las firmas valoraránformalmente una reutilización determinada de los datos, basada en el impacto quetengasobrelosindividuoscuyainformaciónpersonalestánprocesando.Lasfuturasleyesdeproteccióndelaprivacidadnotienenporquédetallardeformaexhaustivatodosloscasos,sinoquedefiniráncategoríasampliasdeuso,incluyendolasquesonpermisibles sin cortapisas, o con sólo algunas, limitadas y estandarizadas. Para lasiniciativasdemayorriesgo,loslegisladoresestableceránreglasbásicasparaquelosusuariosvaloren lospeligrosdeunusoprevisto,y encuentren la formadeevitaromitigarlosdañospotenciales.Estoestimularálareutilizacióncreativadelosdatos,yalmismotiempoaseguraráqueseadoptenlasmedidassuficientesparanoperjudicaralosindividuos.

Valorar formal y correctamente el uso de datos masivos e implementar susconclusiones con precisión ofrece beneficios tangibles a los usuarios de datos: enmuchoscasos,seránlibresdebuscarusossecundariospara losdatospersonalessintener que volver a ponerse en contacto con los individuos para recabar suconsentimiento explícito. Por otra parte, unas valoraciones chapuceras, o la malaimplementación de las salvaguardias, expondrán a los usuarios de datos aresponsabilidadeslegales,yamandatos,multasyquizáinclusoprocesospenales.Laresponsabilidaddelusuariodedatossóloseráefectivasitienerigor.

Para ver cómo funcionaría esto en la práctica, tómese el ejemplo de ladatificación de traseros del capítulo V. Imagínese que una compañía vende unservicio antirrobo para vehículos que emplea la postura del conductor al sentarsecomo identificador único. Posteriormente, vuelve a analizar la información parapredecir los “estados de atención” del conductor, como, por ejemplo, si estásoñoliento,obebido,ofurioso,paraasíenviaralertasaotrosconductorescercanosyevitar accidentes.Deacuerdocon lasactuales reglasdeprivacidad, la firmapodríapensarquenecesitabaunanueva tandadenotificacionesyconsentimientos,porqueno había recibido autorización previa para cambiar de uso la información. Ahora


bien, en un sistema de responsabilidad del usuario de datos, la compañía podríavalorar lospeligrosdelusoprevistoy,encasodeparecerlemínimos,podríaseguiradelanteconsusplanes…mejorandodepasolaseguridadviaria.

Elqueelpesodelaresponsabilidadsedesplacedesdeelpúblicoalosusuariosdelosdatos[127]tienesentidoporvariasrazones.Ellossabenmuchomásquecualquieray,desdeluego,másquelosconsumidoresolosreguladores,sobrequéusopretendendarles.Alefectuarlavaloraciónporsímismos(ocontrataraexpertosparallevarlaacabo en su nombre), evitarán el problema de revelar estrategias de negocioconfidenciales a gente externa. Y tal vez aún más importante, los usuarios de losdatosse llevan lamayorpartede losbeneficiosde losusossecundarios,asíqueesjustoquerespondandesusactos,yquetenganqueasumirlacargadelavaloración.

Enunmarcoalternativodeproteccióndelaprivacidadcomoeste,losusuariosdedatosyanoestaránsujetosalaobligaciónlegaldeborrarlainformaciónpersonalunavezhayaservidoparasuprimerobjeto,comoexigenactualmentelamayoríadelasleyes deprivacidad.Este es un cambio importante, puestoque, comohemosvisto,sóloexplotandoelvalor latentede losdatospuedenflorecer losMaurysdenuestrotiempo, extrayendo el máximo valor posible de ellos en beneficio propio, y de lasociedad.Acambio,se lespermitirámantener la informaciónpersonaldurantemástiempo,aunquenoindefinidamente.Lasociedadnecesitasopesarcuidadosamentelosbeneficiosdelareutilizaciónfrentealosriesgosdedesvelardemasiado.

Para alcanzar el equilibrio adecuado, los reguladores pueden escoger diferentesmarcostemporalesparalareutilización,dependiendodelosriesgosinherentesalosdatos, y de los valores de diferentes sociedades.Algunas naciones pueden sermásprecavidasqueotras,igualquealgunasclasesdedatospuedensermásdelicadasqueotras. Este enfoque elimina también el espectro de la “memoria permanente”: elriesgodenuncapoderhuirunodesupasadoporquesiempresepodríanrecuperarlosarchivos digitales correspondientes. De otra manera, nuestros datos personales secerniránsobrenosotroscomounaespadadeDamocles,amenazandoconatravesarnosaañosvistaconalgúnpormenorprivadooalgunaadquisicióndeplorable.Loslímitestemporalessuponentambiénunincentivoparaquelosdatosseusenatiempo.Estoestablece loque, ennuestraopinión, eselmejorequilibriopara laerade losdatosmasivos: las empresas obtienen el derecho a usar datos personales durante mástiempo,pero,acambio,seobliganaasumirlaresponsabilidadporelusoquelesden,ytambiénaeliminarlosdatospersonalesalcabodeundeterminadoperiodo.

Ademásdeuncambioregulatoriodesdela“privacidadporconsentimiento”ala“privacidad a través de la responsabilidad”, prevemos que la innovación técnicaayudaráaprotegerlavidaprivadaendeterminadoscasos.Unenfoqueinnovadoresel de la “privacidad diferencial”:[128] hacer borrosos los datos de forma que unaconsulta en un gran conjunto de ellos no arroje resultados exactos, sino sóloaproximados.Estohacedifícilycostosoasociarunospuntosdedatosparticularesaunaspersonasespecíficas.


Empañar la información suena como si pudiera destruir perspectivas valiosas,perono tieneporqué; o, por lomenos, la disyuntivapuede resultar favorable.Porejemplo, expertos en política tecnológica han apuntado que Facebook se apoya enuna forma de privacidad diferencial[129] cuando comunica información sobre sususuariosaanunciantespotenciales:lascifrasqueindicasonaproximadas,porloqueno pueden ayudar a revelar identidades individuales. Buscar mujeres asiáticas deAtlantaqueesténinteresadasenelyogaAshtangadarácomoresultado“unas400”,envezdeunnúmeroexacto,haciendoimposibleelusodelainformaciónparaacotarestadísticamenteaalguienenparticular.

Elcambioenelcontroldesdeelconsentimiento individuala la responsabilidaddel usuario de los datos es un cambio fundamental y esencial, necesario para unagobernanzaefectivadelámbitodelosdatosmasivos.Peronoeselúnico.


PERSONASCONTRAPREDICCIONES

Los tribunales hacen responsables de sus actos a las personas. Cuando el juezpronunciasuveredicto imparcialalacabarun juicio justo,sehahecho justicia.Sinembargo,enlaeradelosdatosmasivos,tenemosqueredefinirlanocióndejusticiaparapreservar la ideade lacapacidaddedecisióndelserhumano:el librealbedríoporelquelagenteeligesusactos.Setratadelasencillaideadequelosindividuospuedenydebenserconsideradosresponsablesdesucomportamiento,noasídesuspropensiones.

Antesdelosdatosmasivos,estalibertadfundamentalresultabaobvia.Tanto,dehecho, que apenas necesitaba articularse. Al fin y al cabo, así es como funcionanuestrosistemalegal:hacemosresponsablesdesusactosalaspersonas,valorandoloque han hecho. En cambio, con los datos masivos podemos predecir las accioneshumanas cada vez con mayor exactitud, lo que podría incitarnos a juzgar a laspersonasnoporloquehanhecho,sinoporloquehemospredichoqueharían.

Enlaeradelosdatosmasivos,tendremosqueampliarnuestravisióndelajusticiayexigirqueincluyasalvaguardiasparaelalbedríohumano,delmismomodoque,enlaactualidad,velamospor la imparcialidadprocesal.Sinesassalvaguardias, la ideamismadelajusticiapodríadebilitarseporcompleto.

Algarantizarlacapacidaddedecisióndelserhumano,nosaseguramosdequeelgobierno juzga nuestro comportamiento basándose en acciones reales, nosimplementeenanálisisdedatosmasivos.Asípues,sólodebehacernosresponsablesde nuestras acciones pasadas, no de predicciones estadísticas de unas accionesfuturas. Y cuando el estado juzgue actos anteriores, no debería basarseexclusivamente en datos masivos. Por ejemplo, considérese el caso de nuevecompañías sospechosas[130] de amañar los precios. Resulta del todo aceptableemplearanálisisdedatosmasivosparaidentificarposiblescolusiones,deformaquelosreguladorespuedaninvestigarylevantarelcasopormediostradicionales.Peronose puede hallar culpables a estas empresas sólo porque los datosmasivos sugieranqueprobablementehayancometidoundelito.

El mismo principio debería aplicarse a las empresas privadas que adoptandecisionesimportantessobrelaspersonas:contratarnosodespedirnos,ofrecernosunpréstamohipotecario o negarnos una tarjeta de crédito.Cuando estas decisiones sebasenprincipalmenteenprediccionesapartirdedatosmasivos, recomendamosqueseadoptendeterminadassalvaguardias.Laprimeraeslatransparencia:losdatosyelalgoritmo en que se fundamenta la predicción que afecta al individuo han de estardisponibles.Lasegundaeslacertificación:unaterceraparteexpertahadecertificarqueelalgoritmoescorrectoyválidoparadeterminadosusossensibles.Laterceraesla refutabilidad: hay que especificar formas concretas de que las personas puedanrefutar una predicción sobre ellas. (Esto viene a ser análogo a la tradición, en el


ámbito de la investigación científica, de revelar aquellos factores que pudierandebilitarloshallazgosdeunestudio).

Lomás importanteesqueunagarantíadelalbedríohumanonosprotegedeesaposibledictaduradelosdatos, ladeatribuirlesmássentidoeimportanciadelaquemerecen.

Resulta igualmente crucial que protejamos la responsabilidad individual. Lasociedadsentirálagrantentacióndedejardehacerresponsablesalosindividuos,ydedicarse en cambio a gestionar riesgos, es decir, a basar las decisiones sobre laspersonas en valoraciones de posibilidades y probabilidades. Con tantos datosaparentemente objetivos a nuestra disposición, puede resultar atractiva la idea dedesemocionalizar y desindividualizar la toma de decisiones, de basarnos enalgoritmos en lugar de en las apreciaciones subjetivas de jueces y evaluadores, yformular las decisiones no en el lenguaje de la responsabilidad personal, sino entérminosderiesgosmás“objetivos”ycómoevitarlos.

Por ejemplo, los datos masivos suponen una fuerte tentación de predecir quépersonas son más susceptibles de cometer delitos y someterlas a un tratamientoespecial, escrutándolas una vez y otra en nombre de la reducción del riesgo. Losincluidosenestacategoríapuedenpensar,ynosinrazón,queselesestácastigandosin haberse visto confrontados nunca a un comportamiento real, ni tenidos porresponsables del mismo. Supóngase que un algoritmo identifica a un adolescentedeterminado comomuy probable autor de un delito grave en el transcurso de lossiguientestresaños,yporellosedesignaaunasistentesocialquelovisiteunavezalmes,paratenerleechadounojoyayudarloanometerseenlíos.

Sieladolescenteysusfamiliares,amigos,profesoresoempleadoresconsideranunestigmaesasvisitas,entonceslaintervenciónsurteefectodecastigo,decondenapor algo que noha sucedido.Y la situaciónnomejora gran cosa si esas visitas seconsideran no como un castigo, sino simplemente como un intento de evitarproblemasfuturos;comounaformademinimizarelriesgo(enestecaso,elriesgodeun crimen que socavaría la seguridad pública). Si evolucionamos desde hacerresponsablesdesusactosalaspersonasaconfiarenintervencionesbasadasendatospara reducir su riesgo en la sociedad, estaremos devaluando el ideal de laresponsabilidad individual. El estado predictivo es el estado niñera, como poco.Negarlealagentelaresponsabilidaddesusactosdestruyesulibertadfundamentaldeelegirsucomportamiento.

Sielestadobasamuchasdecisionesenprediccionesyeneldeseodemitigarelriesgo, nuestras elecciones individuales —y, por consiguiente, nuestra libertad deacciónindividual—dejandeimportar.Sinculpa,nopuedehaberinocencia.Cederaunenfoquesimilarnomejoraríanuestrasociedad,sinoalcontrario.

Unpilarfundamentaldelagobernanzadelosdatosmasivoshadeserlagarantíadequeseguiremosjuzgandoalaspersonasatenordesuresponsabilidadpersonalydesucomportamientoreal,noprocesandodatos“objetivamente”paradeterminarsi


sonprobablesmalhechores.Sólodeestamaneralosestaremostratandocomoasereshumanos:comopersonasquetienenlalibertaddedecidirsusactosyelderechoaserjuzgadasporellos.


ROMPERLACAJANEGRA

Los sistemas informáticos actualmente basan sus decisiones en reglas que se hanmarcadoexplícitamenteensuprogramación.Asípues,cuandounadecisión resultaincorrecta, comoocurre inevitablementedevezencuando,podemosvolveratrásyaveriguarporquélaadoptóelordenador.Porejemplo,podemosinvestigarpreguntascomo:“¿Porquéelsistemadepilotoautomáticohizoascendercincogradosalavióncuando un sensor exterior detectó un incremento repentino de la humedad?”. Elcódigo informático de hoy puede abrirse e inspeccionarse, y los que sabeninterpretarlo pueden rastrear y comprender el fundamento de sus decisiones, porcomplejasquesean.

Conelanálisisdedatosmasivos,sinembargo,estatrazabilidadsevolverámuchomás difícil. La base de las predicciones de un algoritmo puede resultar amenudodemasiadointrincadaparaqueloentiendalamayoríadelagente.

Cuando los ordenadores estaban programados para obedecer series deinstrucciones, comoel remotoprogramade traducciónde ruso a inglésde IBMen1954, el ser humano podía entender fácilmente por qué el software sustituía unapalabra por otra. Ahora bien, Google Translate incorpora miles de millones depáginas de traducciones a la hora de juzgar si la palabra inglesa light deberíatraducirsecomo“luz”ocomo“ligero”.Resultaimposibleparaelserhumanoseguirlas razones precisas que hay detrás de las elecciones de palabras del programa,porque están basadas en cantidades masivas de datos y en vastas computacionesestadísticas.

Los datos masivos operan a una escala que trasciende nuestro entendimientocorriente. Por ejemplo, la correlación que identificó Google entre un puñado detérminos de búsqueda y la gripe fue el resultado de la prueba de 450millones demodelosmatemáticos.Encambio,CynthiaRudininicialmentediseñó106factoresdepredicción de si una tapa de registro podía explotar, y pudo explicarles a losdirectivosdeConEdisonporquésuprogramadabalasprioridadesdeinspecciónquedaba. La “explicabilidad”, como se la conoce en los círculos de la inteligenciaartificial,esimportanteparalosmortales,quetendemosaquerersaberporqué,ynosólo qué. Pero, ¿y si, en lugar de 106 factores de predicción, el sistema hubiesegenerado de forma automática nada menos que 601, la mayor parte de ellos conponderacionesmuybajas,peroquetomadostodosalavezmejorabanlaprecisióndelmodelo?Labasedecualquierpredicciónpodríaresultarasombrosamentecompleja.¿Qué habría podido contarles entonces a los directivos para convencerlos de quereasignasensulimitadopresupuesto?

Mediante estos escenarios podemos advertir el riesgo de que las prediccionesbasadasendatosmasivos,yenlosalgoritmosyconjuntosdedatosquetienendetrás,se conviertan en cajas negras que no nos ofrecen ninguna rendición de cuentas,


trazabilidadoconfianza.Paraimpedirlo,losdatosmasivosrequeriránmonitorizacióny transparencia, lo que a su vez hará necesarios nuevos tipos de expertos einstituciones, capaces de ayudarnos a escrutar las predicciones basadas en datosmasivosyaquequienessesientanperjudicadosporellospuedansolicitarreparación.

Como sociedad, ya hemos visto surgir nuevas entidades similares cuando uncampo determinado adquiría tal complejidad y especialización que se necesitabanexpertosparagestionar lasnuevastécnicas.Ciertasprofesionescomoelderecho, lamedicina, la contabilidad y la ingeniería experimentaron la misma transformaciónhacemásdeunsiglo.Mástarde,aparecieronespecialistasenseguridadyprivacidadinformáticaparacertificarquelascompañíasestabanaplicandolasmejoresprácticasdeterminadas por organismos como la Organización Internacional de laNormalización (que, a su vez, había sido creada para responder a la necesidad denuevasdirectricesenestecampo).

Los datosmasivos precisarán de un nuevomodelo de profesionales que asumaestepapel.Talvezselosconozcapor“algoritmistas”.Podríanrevestirdosformas—entidadesindependientesquemonitorizaranalasfirmasdesdefuera,yempleadosodepartamentospropiosparamonitorizarlasdesdeel interior—,de lamismamaneraque las empresas tienen contables internos y auditores externos para revisar susfinanzas.


ELAUGEDELALGORITMISTA

Estosnuevosprofesionalesseríanexpertosenlasáreasdecienciadelacomputación,matemáticas y estadística; actuarían como revisores de análisis y predicciones dedatos masivos. Los algoritmistas tendrían que hacer un voto de imparcialidad yconfidencialidad, parecido al que ya hacen los contables y otros profesionales.Evaluaríanlaseleccióndefuentesdedatos, laeleccióndeherramientasanalíticasypredictivas, incluyendoalgoritmosymodelos, y la interpretaciónde los resultados.En caso de disputa, tendrían acceso a los algoritmos, a las aproximacionesestadísticas y al conjunto de datos que hubieran dado lugar a una decisióndeterminada.

De haber habido un algoritmista en la plantilla delDepartamento deSeguridadInterior en 2004, podría haber evitado que este organismo generase una lista deexcluidosdevolar tandeficienteque incluía al senadorKennedy.Tambiénpodríanhaber desempeñado un papel en Japón, Francia, Alemania e Italia, donde algunaspersonassehanquejadodeque lafunción“autocompletar”deGoogle,queelaborauna listade términosdebúsquedacomunesasociadosconelnombrequese teclea,los ha difamado.La lista se basa fundamentalmente en la frecuencia de búsquedasanteriores:lostérminosaparecenenelordendesuprobabilidadmatemática.Aunasí,¿quiénnoseenfadaríasilapalabra“presidiario”o“prostituta”apareciesejuntoasunombrecuandolosposiblessociosopretendientesdeunoseconectaranalaredparabuscarinformaciónsobresupersona?

Imaginamosquelosalgoritmistasaportaránaproblemascomoestosunenfoqueorientado al mercado que podría anticiparse a otras formas de regulación másinvasivas. Satisfarían una necesidad similar a la que cubrieron los contables yauditorescuandoaparecieronaprincipiosdelsigloXXparahacersecargodelnuevodiluviodeinformaciónfinanciera.Laofensivanuméricaresultabadifícildeentenderpara lamayoríade lagente;precisabadeespecialistasorganizadosde formaágilyautorregulada. El mercado respondió dando origen a un nuevo sector de firmascompetitivas especializadas en la vigilancia financiera: una nueva especie deprofesionalesquereforzó laconfianzade lasociedaden laeconomía.Elmundodelos datos masivos podría, y debería, beneficiarse del refuerzo de confianza queaportaríanlosalgoritmistas.


ALGORITMISTASEXTERNOS

Imaginamos a los algoritmistas externos actuando como auditores imparciales,revisando laexactitudovalidezde lasprediccionesbasadasendatosmasivoscadavezqueelgobiernoasílorequiera,bienpormandatojudicialoencumplimientodelas leyes. También podrán tener por clientes a las compañías de datos masivos,llevando a cabo auditorías para las firmas que soliciten apoyo especializado. Ypodráncertificarlacorreccióndelasaplicacionesbasadasendatosmasivos,comolastécnicasantifraudeolossistemasdeinversiónbursátil.Porúltimo,losalgoritmistasexternos estarán preparados para asesorar a los organismos oficiales sobre el buenusodelosdatosmasivosenelsectorpúblico.

Es de prever que, como en la medicina, el derecho y otras ocupaciones, estanueva profesión se regule a sí misma dotándose de un código de conducta. Laimparcialidad, confidencialidad, competencia y profesionalidad de los algoritmistasseveránreforzadasporseverasreglasderesponsabilidad;encasodenocumplirconesosestándares,quedaránexpuestosademandaslegales.Tambiénpodránsercitadoscomotestigosexpertosenjuicios,oactuarcomo“peritosjudiciales”,paraasistiralosjuecesenlascuestionestécnicasdeloscasosparticularmentecomplejos.

Esmás,laspersonasquepiensenquesehanvistoperjudicadasporprediccionesbasadasendatosmasivos—unpacientealquese lehayanegadouna intervenciónquirúrgica,unclientealquenose lehayaconcedido lahipoteca—podránacudiralosalgoritmistas,comosehaceahoraconlosabogados,paraquelesexpliquenolosayudenaapelarcontraesasdecisiones.


ALGORITMISTASINTERNOS

Losalgoritmistasinternostrabajanenelsenodeunaorganizaciónmonitorizandoloquehacenconlosdatosmasivos.Velannosóloporlosinteresesdelaempresa,sinotambiénporlosdelaspersonasquesevenafectadasporsusanálisis.Supervisanlasoperaciones de datos masivos y constituyen el primer punto de contacto paracualquieraquese sientaperjudicadopor lasprediccionesbasadasendatosmasivosquehayaefectuadosuorganización.Tambiéncomprueban la integridadyexactituddelosanálisisantesdepermitirquesehaganpúblicos.Parallevaracaboelprimerodeestosdospapeles, losalgoritmistasdebendisponerdeciertogradode libertadeimparcialidadenelsenodelaorganizaciónparalaquetrabajan.

La noción de que una persona que trabaja para una compañía conserve laimparcialidadrespectoalasoperacionesdeéstapuedeantojarsecontraintuitiva,peroes una situaciónyabastante común.Lasdivisionesdevigilancia de las principalesinstituciones financieras son un ejemplo; otro tanto pasa con los consejos deadministración de muchas firmas, que responden ante los accionistas, no ante ladirección.Ymuchosmediosdecomunicación,entreellosTheNewYorkTimesyTheWashingtonPost,empleanadefensoresdel lectorcuyaprincipal responsabilidadesvelarporlaconfianzadelpúblico.Estostrabajadoresseocupandelasquejasdeloslectoresyamenudocriticanpúblicamenteasuempresasicreenquehaobradomal.

Yexisteunaanalogíaaúnmáscercanaconelalgoritmistainterno:elprofesionalencargadodeasegurarquenosehacemalusodelainformaciónpersonalenelmarcocorporativo. Por ejemplo, Alemania obliga a las compañías que superan ciertotamaño (generalmente, diez o más empleados dedicados a procesar informaciónpersonal)anombrarunresponsabledelaproteccióndedatos.[131]Desdeladécadade1970,estosrepresentantesinternoshandesarrolladosuéticaprofesionalysuespíritucorporativo. Se reúnen periódicamente para compartir formación y las mejoresprácticas,ydisponendesuspropiosmediosdeprensayconferenciasespecializados.Es más, han logrado mantener una doble lealtad, a sus empleadores y a susobligacionesentantoquerevisoresimparciales,lograndoactuarcomodefensoresdelpueblo de la protección de datos, al tiempo que incrustaban valores de privacidadinformativaenlasoperacionesdesusempresas.Ennuestraopinión,losalgoritmistasinternospuedenhacerlomismo.


GOBERNARALOSSEÑORESDELOSDATOS

Losdatossona lasociedadde la información loqueelcombustiblea laeconomíaindustrial:elrecursoesencialquealimentalasinnovacionesqueusalagente.Sinunsuministrodedatosricoyvibrante,yunmercadodeserviciosrobusto,lacreatividadyproductividadpotencialespuedenquedarseennada.

En este capítulo hemos expuesto tres nuevas estrategias fundamentales para lagobernanzade losdatosmasivos, en lo referente a la privacidad, las tendenciasdefuturoy laauditoríadealgoritmos.Confiamosenque,unavezafianzadaséstas, ellado oscuro de los datos masivos quede contenido. Sin embargo, conforme vayadesarrollándose la joven industria de los datos masivos, un nuevo desafíofundamental seráeldesalvaguardarunosmercadosdedatosmasivoscompetitivos.Debemosimpedirlaapariciónde“señoresdelosdatos”delsigloXXI,elequivalentemodernode losbaronesrapacesquedominaron los ferrocarriles, lasiderurgiay lasredestelegráficasdeEstadosUnidosenelsigloXIX.

Para controlar a aquellos industriales, Estados Unidos estableció unas reglasantimonopolio extremadamente adaptables. Concebidas originalmente para losferrocarrilesaprincipiosdelsigloXIX,estasnormasseaplicaronluegoafirmasqueeranguardabarrerasdel flujode informacióndelquedependen lasempresas,desdeNationalCashRegisterenladécadade1910aIBMenlade1960y,después,aXeroxenlos70,AT&Tenlos80,Microsoftenlos90,yGooglehoy.Lastecnologíasenlasque fueron pioneras estas firmas se convirtieron en componentes centrales de la“infraestructuradelainformación”delaeconomía,yfueprecisalafuerzadelaleyparaimpedirunpredominiomalsano.

Paraquesedéunbulliciosomercadodedatosmasivosencondicionesóptimas,necesitaremos medidas comparables a las que establecieron la competencia y lasupervisión en aquellas primeras áreas tecnológicas. Deberíamos permitir lastransaccionesdedatos,porejemploatravésdelicenciasydelainteroperabilidad.[132]Esto plantea la cuestión de si podría beneficiarse la sociedad de un “derecho deexclusión” de datos cuidadosamente perfilado y equilibrado (similar al derecho depropiedad intelectual,por sorprendentequepuedaparecer).Hayque reconocerqueestosupondríatodounretoparaloslegisladores,unretollenoderiesgosparatodoslosdemás.

Obviamente, resulta imposible pronosticar cómo va a desarrollarse unatecnología;nisiquierarecurriendoalosdatosmasivossepuedepredecircómovanaevolucionar los datosmasivos. Los reguladores tendrán que alcanzar un equilibrioentrelacautelaylaosadía,ylahistoriadelalegislaciónantimonopoliosapuntaaunaformaposibledeconseguirlo.

La regulación antimonopolios contuvo los abusos de poder. Curiosamente, sinembargo,susprincipiossetrasladaronmagníficamentedeunsectoraotro,yatravés


dediferentestiposderedesindustriales.Esjustolaclasederegulaciónpoderosa—quenoprivilegiaauntipodetecnologíafrenteaotra—queresultaútil,puestoqueprotegelacompetencia,peronopretendeirmuchomásallá.Porconsiguiente,laleyantimonopoliospuedeayudaralosdatosmasivosadesarrollarse,exactamenteigualque hizo con los ferrocarriles. Además, los gobiernos, que son de los principalesacumuladores de datos del mundo, deberían hacer públicos los suyos. Resultaalentador que algunos ya estén haciendo ambas cosas; por lo menos, hasta ciertopunto.

La lecciónquebrinda la regulaciónantimonopoliosesque,unavezque sehanidentificadounosprincipiosgenerales,loslegisladorespuedenaplicarlosagarantizarque habrá un grado justo de protección.Delmismomodo, las tres estrategias quehemos propuesto—desplazar las protecciones de la privacidad del consentimientoindividual a la responsabilidad de los usuarios de los datos; consagrar la voluntadhumana frente a las predicciones; y crear una nueva casta de auditores de datosmasivosa losque llamamosalgoritmistas—puedenservirde fundamentoparaunagobernanzajustayefectivadelainformaciónenlaeradelosdatosmasivos.

En muchos campos, desde la tecnología nuclear hasta la bioingeniería, primeroconstruimosherramientasquenosperjudicanysólodespuésnosdedicamosadiseñarlosmecanismosdeseguridadquenosprotejandeesasnuevasherramientas.Aesterespecto,elámbitodelosdatosmasivossesitúajuntoaotrasáreasdelasociedadquepresentan retos sin soluciones absolutas, tan sólo preguntas en curso sobre cómoordenamosnuestromundo.Cadageneración tienequehacerfrentedenuevoaesosproblemas.Nuestratareaconsisteenvalorarlospeligrosdeestapoderosatecnología,apoyarsudesarrollo…yhacernosconsusrecompensas.

Laimprentadiopieaunaseriedecambiosenlaformadegobernarseasímismalasociedad,yotrotantohacenlosdatosmasivos.Nosobliganaasumirretosantiguosdemaneras nuevas, y nos enfrentan a problemasnuevos armándonos de principiosconsagradosporeltiempo.Paraasegurarnosdequelagenteestéprotegida,almismotiempoquesepromuevelatecnología,nodebemospermitirquelosdatosmasivossedesarrollen más allá del alcance de la capacidad humana de darle forma a latecnología.


X

APARTIRDEAHORA

Aprincipiosdeladécadade2000,MikeFlowers[133]eraunabogadoquetrabajabaenlaoficinadelfiscaldeldistritodeManhattanllevandotodotipodeprocesos,desdehomicidiosadelitosdeWallStreet,cuandosecambióaunlujosobufetecorporativo.Despuésdeunañotediosoenundespacho,decidióabandonartambiénesetrabajoy,buscandoalgoquetuvieramássentido,pensóenayudarareconstruirIrak.Unsocioyamigodelbufetehizounascuantasllamadasagentebiensituada,ypocodespués,FlowersyasehallabadecaminohacialaZonaVerde,eláreadeseguridadparalastropasestadounidensesenplenocentrodeBagdad,formandopartedelequipolegalparaeljuiciocontraSadamHuseín.

Lamayorpartedesu trabajoresultóserde tipo logístico,yno legal.Teníaqueidentificar áreas sospechosas de ocultar fosas comunes para saber dónde enviar aexcavaralosinvestigadores.TeníaqueintroducirtestigosenlaZonaVerdeevitandoque saltaran por los aires en los numerosos ataques con artilugios explosivosimprovisados,oIED(porsussiglaseninglés),queeranunsiniestroincidentediario.Le llamó la atención que los militares trataban esas tareas como problemas deinformación.Ylosdatosacudieronensuayuda.Losanalistasdeinteligenciamilitarcombinaban los informesdecampocondetallessobre la localización, lahoray lasbajascausadasporanterioresataquesconIEDparapredecirlarutamenospeligrosacadadía.

Unos cuantos años después, ya de vuelta enNuevaYork, Flowers comprendióqueesosmétodosindicabanunaformamáspotentedecombatirelcrimenquetodaslasquehabíatenidoasudisposicióncomofiscal.Yhallóunaauténticaalmagemelaen el alcalde de la ciudad,MichaelBloomberg, quien había hecho fortuna con losdatos, suministrando información financiera a la banca. En 2009, Flowers fueasignado a una unidad especial encargada de procesar datos que ayudaran adesenmascararalosvillanosdelescándalodelashipotecassubprime.Launidadtuvotanto éxito que, un añomás tarde, el alcalde Bloomberg le pidió que ampliara sucampo de actuación. Flowers se convirtió en el primer “director analítico” de laciudad. Su misión: constituir un equipo con los mejores científicos de datos quepudieraencontraryexplotar losmontonesde informaciónvirgende laciudadparaaumentarlaeficienciaentodoslosterrenosposibles.

Flowersbuscóa fondohastadar con laspersonas adecuadas. “No teníaningúninterésenestadísticosconmuchaexperiencia—explica—.Mepreocupababastanteque se mostraran reticentes a adoptar este enfoque novedoso de la resolución de


problemas”.Anteriormente, cuando había entrevistado a varios estadísticos para elproyectosobreelfraudefinanciero,éstoshabíanmostradociertatendenciaaexpresarpreocupaciones abstrusas acerca de los modelos matemáticos. “Yo ni siquierapensabaenquémodeloibaausar.Queríapercepcionesconlasquepoderactuar,esoeraloúnicoquemeimportaba”,dice.Alfinal,escogióunequipodecincopersonasalosque llama“los chicos”.Todosmenosunoeran recién licenciadoseneconomía,salidosdelauniversidadhacíasólounoodosaños,sinmuchaexperienciasobrelavidaenunagranciudad,ytodosteníanunacusadoladocreativo.

Entre los primeros desafíos a los que se enfrentó el equipo estaban las“conversionesilegales”:laprácticadesubdividirunalojamientoenmuchasunidadesmás pequeñas para acabar acomodando hasta a diez veces más personas de loproyectado.Estaclasedeviviendassuponeungranriesgode incendios,ademásdeser foco de delitos, drogas, enfermedades y de plagas de insectos. Por las paredespuedequeculebreeunlíodealargadoresdecable;suelehaberinfiernilloseléctricosenequilibrioinestablesobreloscabecerosdelascamas.Lagentequevivehacinadade este modo corre un gran riesgo de perecer en incendios. En el año 2005, dosbomberosmurieronalintentarrescataraunosciudadanos.LaciudaddeNuevaYorkrecibeaproximadamenteunas25000quejasanualesporconversionesilegales,perosólo dispone de doscientos inspectores para investigarlas.Noparecía haber ningúnsistemaparadistinguirloscasosmeramentemolestos,delosqueestabanapuntodeestallar.ParaFlowersysuschicos,sinembargo,esteproblemaibaapoderresolverseconmuchosdatos.

Empezaronconunalistadetodaslaspropiedadesdelaciudad:las900000quehay. A continuación, le agregaron conjuntos de datos procedentes de diecinueveorganismos distintos que indicaban, por ejemplo, si el propietario del inmueble nopagaba los impuestos inmobiliarios, si había habido ejecuciones hipotecarias, y sialgunaanomalíaenelconsumoofaltadepagodelosservicioshabíansupuestoalgúntipo de corte del suministro. También incorporaron información sobre la clase deedificioysufechadeconstrucción,améndevisitasdeambulancias,tasasdedelitos,quejas por roedores y demás. Luego, compararon toda esta información con cincoaños de datos sobre incendios, clasificados por grado de gravedad, y buscaroncorrelaciones para intentar generar un sistema que permitiera predecir qué quejasdeberíanseratendidasconlamayorurgencia.

Alprincipio,buenapartedelosdatosnoestabanenunformatoaprovechable.Porejemplo, losresponsablesde losarchivosde laciudadno teníanunaformaúnicaynormalizadadedescribirlalocalización;cadaorganismoycadadepartamentoparecíausarsupropiosistema.Eldepartamentode inmuebles leasignaunnúmeroúnicoacada estructura, pero el de mantenimiento de la vivienda emplea un sistema denumeracióndiferente.Por suparte, eldepartamentodehacienda le atribuyea cadapropiedad una referencia basada en el distritomunicipal, lamanzana y la parcela,mientrasquelapolicíautilizacoordinadascartesianas.Losbomberossebasanenun


sistemadeproximidada lascabinasde teléfonosdeemergencia,enrelaciónconelemplazamientodeloscuartelesdebomberos,auncuandoesascabinasyanoexisten.Los chicos de Flowers abarcaron este desorden inventando un sistema deidentificación de los edificios: usaron un área pequeña de la fachada de cada casabasadaencoordenadascartesianas,yluegoimportaronotrosdatosdegeolocalizaciónde las bases de datos de los demás organismos. Su método era inherentementeinexacto,perolaingentecantidaddedatosqueerancapacesdeusarcompensabaconcreceslasimperfecciones.

Elequipo,sinembargo,nosecontentóconprocesardatos.Salieronalterrenoconlosinspectoresparavercómotrabajaban.Tomaroncopiosasnotasyleshicierontodotipo de preguntas a los profesionales. Cuando un canoso jefe de inspectores decíarefunfuñandoqueeledificioqueestabanapuntodevisitarnoseríaunproblema,loschicosquisieronsaberporquéestabatanseguro.Elhombrenosupoexplicárselodeltodo,peroloschicosdeterminarongradualmentequesuintuiciónsebasabaenqueeledificio tenía la fachada revocada hacía poco, lo que sugería que el propietario sepreocupabaporelsitio.

Loschicosregresaronasuscubículosysepreguntaroncómopodríanintroducir“revocadoreciente”ensumodelo,aguisadeseñal.Alfinyalcabo,losladrillosnoestándatificados…aún.Pero,porsupuesto,espreceptivaunaautorizaciónmunicipalpara realizar cualquier trabajo en las fachadas. Añadir la información sobre lospermisos mejoró las prestaciones predictivas del sistema al indicar que algunaspropiedadesbajosospechaprobablementenoconstituyeranriesgosmayores.

La analítica tambiénmostraba a veces que ciertasmaneras de hacer las cosas,consagradas por el tiempo, no eran las mejores, igual que aquellos ojeadores deMoneyballhabíantenidoqueaceptarlasdeficienciasdesuintuición.Porejemplo,elnúmero de llamadas al 311, el teléfono de quejas urgentes de la ciudad, seconsideraba indicativo de qué edificios estaban más necesitados de atención: másllamadasequivalíanaunproblemamásgrave.Peroéstaresultóserunamedidaqueinducíaaerror.UnasolaratadetectadaenelUpperEastSide,elbarriochic,podíagenerartreintallamadasenelespaciodeunahora,perohacíafaltaunbatallónenteroderoedoresantesdequelosresidentesdelBronxsesintieranimpelidosamarcarel311.Deigualmodo,lamayoríadelasquejasporunaconversiónilegalpodíanestarrelacionadasconelruido,noconlassituacionesderiesgo.

Enjuniode2011,Flowersysuschicospusieronenmarchasusistema.Todaslasquejasque caían en la categoríade conversión ilegal seprocesaban semanalmente.Reunierontodaslasquequedaronclasificadasenel5por100superiorcomolasdemayor riesgo de incendio y se las pasaron a los inspectores para su inmediatainvestigación.Cuandollegaronlosresultados,todoelmundosequedóasombrado.

Antesdelanálisisdedatosmasivos, los inspectores investigaban lasquejasqueles parecían de peor agüero, pero sólo en el 13 por 100 de los casos hallabancondiciones lo bastante graves para requerir una orden de desalojo del inmueble.


Ahora cursaban órdenes de desalojo en más del 70 por 100 de los edificios queinspeccionaban. Determinando así qué edificios requerían más urgentemente suatención,losdatosmasivosmultiplicaronporcincolaeficienciadelainspección.Ysutrabajosevolvióademásmássatisfactorio:seconcentrabanenlosproblemasmásgraves.Laeficaciaredobladadelosinspectorestuvoasimismobeneficiosindirectos.Los incendios en las conversiones ilegales suponen una probabilidad quince vecesmayordeprovocarheridosomuertosentrelosbomberosqueintervienen,porloqueel departamento de bomberos semostró encantado. Flowers y sus chicos parecíanmagos con una bola de cristal que les permitía ver el futuro, y predecir qué sitiospresentabanmayor riesgo.Tomaroncantidadesmasivasdedatosque llevabanañostirados, en su mayor parte sin usar desde su recogida, y los explotaron de formanovedosaparasacarlesvalor real.Usarungrancorpusde información lespermitióadvertir conexiones que no eran detectables en cantidadesmás pequeñas: esa es laesenciadelosdatosmasivos.

LaexperienciadelosalquimistasanalíticosdelaciudaddeNuevaYorkponederelievemuchosdelostemastratadosenestelibro.Usaronunacantidadmonstruosadedatos,nosóloalgunos;sulistadeinmueblesdelaciudadrepresentabaN=todo,nadamenos.Losdatoseranconfusos,comolainformaciónsobrelocalizaciónolosregistrosdelasambulancias,peroesonolosdesanimó.Dehecho,losbeneficiosdeusar más datos compensaron con creces las desventajas de la información menosdepurada. Fueron capaces de lograr su objetivo porque muchísimos rasgos de laciudad habían sido datificados (si bien de forma incoherente), permitiéndolesprocesarlainformación.

Lassospechasde losexpertos tuvieronquecederprotagonismoanteelenfoquebasadoendatos.Almismotiempo,Flowersysuschicossometieroncontinuamenteaprueba su sistema con los inspectores veteranos, aprovechando su experiencia paramejorarelfuncionamiento.Pero,contodo,larazónprincipaldeléxitodelprogramafuequeprescindiódelacausalidadenfavordelacorrelación.

“Nome interesa la causalidad salvo en lamedida en que lleva a la acción—explicaFlowers—.Lacausalidadesparaotraspersonas,yfrancamente,amísemeantojamuyarriesgadoempezarahablardecausalidad.Nocreoqueexistaniunasolacausa entre el día en que alguien presenta una demanda de ejecución hipotecariasobre una propiedad dada y el que esa finca tenga o no un riesgo histórico deincendioestructural.Meparecequeseríaobtusopensarlo.Ydehecho,nadiesaldríaadecireso.Pensarían:no,sonlosfactoressubyacentes.Peronisiquieraquieroentraren eso. Necesito un punto de datos específico al que pueda acceder, y saber suimportancia.Siessignificativo,actuaremosenconsecuencia.Sinoloes,noharemosnada. Mire, tenemos auténticos problemas que resolver. Sinceramente, no puedoandar perdiendo el tiempo pensando en otras cosas, como la causalidad, ahoramismo”.


CUANDOHABLANLOSDATOS

Losefectosdelosdatosmasivossonconsiderablesdesdeunpuntodevistapráctico,a medida que la tecnología se aplica a buscar soluciones a problemas cotidianosirritantes.Peroesonoesmásqueelprincipio.Losdatosmasivosestánapuntoderemodelarnuestromododevivir,trabajarypensar.Elcambioalquenosenfrentamoses, en ciertos sentidos, incluso mayor que el derivado de otras innovaciones quehicieron época, y que ampliaron acusadamente el alcance y la escala de lainformación en la sociedad. El suelo que pisamos se está moviendo. Las certezasanterioressevencuestionadas.Losdatosmasivosexigenunanuevadiscusiónacercadelanaturalezadelatomadedecisiones,eldestino,lajusticia.Unavisióndelmundoquecreíamoshechadecausasseenfrentaahoraalaprimacíadelascorrelaciones.Laposesión de conocimiento, que en tiempos significó comprender el pasado, estállegandoaserunacapacidaddepredecirelfuturo.

Estos problemas son mucho más importantes que los que se nos presentaroncuando empezamos a explotar el comercio electrónico, a vivir con internet, aadentrarnosenlaeradelosordenadores,oaadoptarelábaco.Laideadequenuestrabúsqueda para comprender las causas tal vez esté sobrevalorada—que enmuchoscasospuederesultarmásventajosodejardeladoelporquéafavordelqué—sugierequeestosasuntossonfundamentalesparanuestrasociedadynuestraexistencia.Losretosqueplanteanlosdatosmasivospuedennotenerrespuestasfijastampoco.Másbienformanpartedeundebateintemporalsobreellugardelhombreeneluniversoysubúsquedadesentidoentreeltumultodeunmundocaóticoeincomprensible.

Enúltimainstancia,losdatosmasivosseñalanelmomentoenelquela“sociedaddelainformación”porfincumplelapromesaimplícitaensunombre.Losdatossonelejedetodo.Todosesosfragmentosdigitalesquehemosreunidopuedenexplotarseahoradeformasnovedosasparaserviranuevospropósitosyliberarnuevasformasdevalor. Pero esto requiere una forma de pensar nueva, y supondrá un desafío paranuestrasinstitucioneseinclusoparanuestrosentidodelaidentidad.Laúnicacertezaradica en que la cantidad de datos seguirá creciendo, igual que la capacidad deprocesarlostodos.Peromientrasquelamayoríadelagentehaconsideradolosdatosmasivos como un asunto tecnológico, centrándose en el hardware o el software,nosotros creemos que hay que fijarsemás bien en lo que ocurre cuando los datoshablan.

Podemoscaptaryanalizarmásinformaciónquenunca.Laescasezdedatosyanodefine nuestros esfuerzos por interpretar el mundo. Podemos explotar cantidadesenormesdedatosy,enalgunoscasos, aproximarnosal todo.Peroesonos fuerzaaoperardemanerasnotradicionalesy,enparticular,cambianuestraideaacercadequéconstituyeinformaciónútil.

Envezdeobsesionarnosconlaprecisión,exactitud,limpiezayrigordelosdatos,


podemos permitirnos alguna flexibilidad. No deberíamos aceptar datos que seandirectamenteincorrectosofalsos,peroalgodeconfusiónsípuedeaceptarseacambiodecaptarunconjuntodedatosmuchomásamplio.Dehecho,enalgunoscasos, lomasivo y lo confuso pueden hasta representar una ventaja, dado que cuandointentamos usar únicamente una porción pequeña y exacta de los datos acabamosperdiendolaamplituddedetallequeencierratantoconocimiento.

Las correlaciones pueden hallarse más deprisa y con menos coste que lacausalidad, y de ahí que a menudo resulten preferibles. En ciertos casos, aúnseguiremos necesitando estudios causales y experimentos controlados con datoscuidadosamenteseleccionados,porejemploparaprobarlosefectossecundariosdeunfármacooparadiseñarunaparteesencialdeunaeroplano.Sinembargo,paramuchosusoscotidianos,saberquéynoporquéesmásquesuficiente.Ylascorrelacionesdedatosmasivos pueden indicar el camino hacia otras áreas prometedoras en las queexplorarlasrelacionescausales.

Estas rápidas correlaciones nos permiten ahorrar dinero en billetes de avión,predecirbrotesdegripeysaberquétapasderegistroopisossobrepobladossedebeninspeccionar cuando los recursos son limitados. Pueden permitirles a empresas desegurosmédicosofrecercoberturasinunreconocimientoprevioyreducirelcostederecordarlesalosenfermosquetienenquetomarsumedicación.Setraducenidiomasy los coches se conducen solos basándose en predicciones efectuadas a partir decorrelacionesdedatosmasivos.WalmartpuedeaveriguarquésabordePop-Tarts[134]leconvieneponerbienvisibleantesdeunhuracán.(Respuesta:fresa).Porsupuesto,lacausalidadestámuybiencuandosepuedeobtener.Elproblemaesque,amenudo,resulta difícil de conseguir y, cuando pensamos que la hemos encontrado,muchasvecesnosestamosengañandoanosotrosmismos.

Lasnuevasherramientas,desdelosprocesadoresmásrápidosyconmásmemoriaalsoftwareylosalgoritmosmásinteligentes,sonsólounadelasrazonesporlasquepodemos hacer todo esto. Aun cuando las herramientas son importantes, lofundamental es que tenemosmás datos, que se están datificandomás aspectos delmundo. Por supuesto, la ambición humana de cuantificar el mundo antecede conmucho a la revolución informática, pero las herramientas digitales facilitanconsiderablementeeseproceso.Nosólopermitenquelosteléfonosmóvilesrastreenaquiénllamamosyadóndevamos,sinoquelosdatosquerecopilanpuedenemplearsepara detectar si nos estamos poniendo enfermos. Pronto, los datos masivos seráncapacesdedecirnossinosestamosenamorando.

Nuestracapacidaddehacercosasnuevas,máscosas,mejorymásdeprisatieneelpotencialdeliberarunenormevalor,creandoganadoresyperdedoresnuevos.Granpartedelvalordelosdatosprovendrádesususossecundarios,suvalordeopción,yno simplemente de su uso primario, como hemos pensado hasta ahora. Aconsecuenciadeello,paralamayoríadelostiposdedatosparecerazonablerecopilarcuantos más se pueda y mantenerlos durante todo el tiempo que sigan añadiendo


valor,ypermitirqueotros losanalicensiestánmejorequipadosparaextraerlesesevalor(siempreycuandopuedaunocompartirlosbeneficiosqueproduzcaelanálisis).

Las compañías que puedan situarse en medio de los flujos de información yrecopilardatosprosperarán.Laexplotaciónde losdatosmasivosrequiereenefectocapacidadestécnicasyunmontóndeimaginación:unamentalidadbigdata.Peroloesencialdelvalorpuedeirapararamanosdequienestienenlosdatos.Enocasiones,elactivo importantenoserásólo la informaciónvisible, sino losdesechosdedatosproducidos por las interacciones de los individuos con la información, y que unaempresainteligentepuedeusarparamejorarunservicioqueyaprestaoparalanzarunonuevo.

Almismotiempo,losdatosmasivosnossitúanfrenteaenormesriesgos.Vuelvenineficaceslosprincipalesmecanismostécnicosylegalesqueexistenactualmenteparaproteger la privacidad. Antes, sabíamos muy bien lo que constituía informaciónpersonalmenteidentificable—nombres,númerosdeafiliaciónalaseguridadsocial,registrosfiscales,etcétera—y,porende,resultabarelativamentesencilladeproteger.Hoyendía,hastalosdatosmásinocuospuedenrevelarlaidentidaddeunapersonasiun recopilador de datos ha reunido los suficientes. La anonimización o elocultamientoaplenavistayano funciona.Esmás,haceraun individuoblancodeunavigilanciaimplicahoydíaunainvasiónmuchomásextensaquenuncadelavidaprivada, puesto que las autoridades no sólo quieren obtener toda la informaciónposible sobreunapersona, sino también,en todasuamplitud, sobresus relaciones,conexioneseinteracciones.

Ademásdesuponerunaamenazaalaprivacidad,estosusosdelosdatosmasivossuscitan otro problema único y preocupante: el riesgo de que podamos juzgar a lagentenosóloporsucomportamientoreal,sinoporlaspropensionesalasqueapuntenlosdatos.Segúnvayanvolviéndosemásprecisas lasprediccionesbasadasendatosmasivos, la sociedad puede usarlas para castigar a personas por comportamientospredichos:actosqueaúnnosehayancometido.Resultaaxiomáticamenteimposibledemostrarlafalsedaddeesaspredicciones;porconsiguiente,laspersonasqueseveanasíacusadasnuncalograránexculparse.Loscastigosasífundadosnieganelconceptode libre albedrío y la posibilidad, por pequeña que sea, de que una persona puedaelegiruncaminodiferente.Comolasociedadasignaunaresponsabilidadindividual(einfligeloscastigos),lavoluntadhumanahadeserconsideradainviolable.Elfuturotienequeseguirsiendoalgoquepodemosmoldearsegúnnuestrasintenciones.Sino,los datos masivos habrán pervertido la esencia misma de la humanidad: elpensamientoracionalylalibertaddeelección.

Noexistenmétodosinfaliblesquenospreparenplenamenteparaelmundodelosdatos masivos; tendremos que establecer principios nuevos para nuestroautogobierno. Existen ciertasmodificaciones importantes en nuestras prácticas quepueden ayudar a la sociedad mientras se va familiarizando con el carácter y lasdeficienciasdelosdatosmasivos.Tenemosqueprotegerlaprivacidaddesplazandola


responsabilidad de los individuos hacia los usuarios de datos: es decir, que rindancuentasporsuuso.Sivamosavivirrodeadosdepredicciones,resultavitalquenosaseguremos de que la voluntad humana sigue siendo sacrosanta, y preservemos nosólo la capacidad de las personas de efectuar elecciones morales, sino laresponsabilidad individual por las acciones individuales. La sociedad debe diseñarsalvaguardias para permitir el surgimiento de una nueva clase profesional de“algoritmistas”que evalúen la analítica dedatosmasivos; de formaqueunmundoquesehavueltomenosarbitrarioafuerzadedatosmasivosnoseconviertaenunacajanegra,enlaque,simplemente,sesustituyeunaclasedeincógnitaporotra.

Losdatosmasivos seconvertiránenunaparteelementaldenuestracomprensiónyforma de enfrentarnos a nuestros acuciantes problemas globales. Hacer frente alcambio climático requiere analizar datos de contaminaciónpara comprender dónderesulta mejor concentrar nuestros esfuerzos y encontrar formas de mitigar losproblemas. Los sensores colocados por doquier, incluidos los incrustados en losteléfonos inteligentes, proporcionan una plétora de datos que nos permitiránmodelizar el calentamiento global con un nivel de detallemás preciso. Entretanto,mejoraryabaratarlaatenciónsanitaria,especialmenteparalospobres,consistiráenbuenamedidaenautomatizar tareasqueahoraparecennecesitardel juiciohumanopero que podrían ser asumidas por un ordenador, como, por ejemplo, examinarbiopsias en busca de células cancerosas o detectar infecciones antes de que lossíntomassehaganplenamentevisibles.

Losdatosmasivosyasehanusadoenelcampodeldesarrolloeconómicoyenlaprevencióndeconflictos.Medianteelanálisisdelosmovimientosdelosusuariosdeteléfonosmóviles,hanreveladoquehayáreasdelossuburbios[135]africanosquesoncomunidades vibrantes de actividad económica.Han descubierto áreas al borde deuna confrontación étnica, e indicado cómo podrían evolucionar las crisis derefugiados.Ysususossóloseguiránmultiplicándoseconformesevayaaplicandolatecnologíaacadavezmásaspectosdelavida.

Losdatosmasivosnosayudanahacermejorloqueyahacemos,ynospermitenhacercosasdeltodonuevas.Sinembargo,nosonunavaritamágica.Novanatraerlapaz mundial, ni a erradicar la pobreza, ni a crear al próximo Picasso. Los datosmasivos no puedenhacer un bebé, pero sí salvar a los prematuros.Con el tiempo,llegaremos a esperar que se apliquen en todas las facetas de la vida (y quizá nossintamos ligeramente alarmados cuando falten en alguna), de lamisma forma queesperamosqueunmédicopidaunaradiografíaparadescubrirlosproblemasquenopodríaadvertirconunexamenfísico.

Conforme los datos masivos se vayan normalizando, pueden incluso afectar anuestra forma de pensar en el futuro. Hace alrededor de quinientos años, lahumanidad experimentóunaprofunda transformación en supercepcióndel tiempo,


[136] cuando Europa se volvió más secular, más científica y más ilustrada. Hastaentonces,el tiemposeexperimentabacomoalgocíclico,al igualque lavida.Cadadía(yaño)eramuyparecidoalanterior,einclusoeltérminodelavidaseparecíaasuinicio,alvolverselosmayoresotravezcomoniños.Mástarde,eltiempopasóaconsiderarselineal:unasecuenciadedíasqueseibandesplegando,duranteloscualespodíaconformarseelmundoeinfluirseenlatrayectoriadelavida.Siantespasado,presente y futuro estaban fusionados, ahora la humanidad tenía un pasado quecontemplaryunfuturoqueesperar,mientrasledabaformaalpresente.

Mientras que el presente se podía moldear, el futuro cambió: de ser algoperfectamente predecible a algo abierto, prístino, un vasto lienzo vacío que losindividuospodían llenaren funciónde suspropiosvaloresyesfuerzos.Unode losrasgosdefinitoriosde los tiemposmodernos es el sentidoque tenemosdenosotrosmismos como dueños de nuestro destino; esta actitud nos diferencia de nuestrosantepasados,paraquienes lanormalidadpasabaporalgunaformadedeterminismo.Sin embargo, las predicciones basadas en los datosmasivos dejan el futuromenosabiertoeintacto.Enlugardeserunlienzoenblanco,nuestrofuturopareceestaryaesbozado con ligeros trazos que sólo puedendiscernir aquellos que disponende latecnología para hacerlos visibles. Esto parece disminuir nuestra capacidad de darformaanuestrodestino.Lapotencialidadsevesacrificadaenarasdelaprobabilidad.

Al mismo tiempo, los datos masivos significan que somos por siempreprisioneros de nuestras acciones pasadas, que pueden usarse en contra nuestra porunossistemasquesecreencapacesdepredecirnuestrocomportamientofuturo:nuncapodemos escapar de lo que ha acaecido antes. “Lo pasado es el prólogo”, escribióShakespeare. Los datosmasivos consagran esto de forma algorítmica, para bien yparamal. ¿Podrán acaso las predicciones omnipotentes apagar nuestro entusiasmoporversalirelsol,nuestrodeseodedejarunahuellahumanaenelmundo?

De hecho, serámás bien al contrario. Sabiendo cómo podrían desarrollarse lasacciones en el futuro podremos adoptar medidas correctoras para prevenir losproblemas o mejorar los resultados. Detectaremos a los estudiantes que flojeanmucho antes del examen final. Detectaremos pequeños cánceres y los trataremosantesdequelaenfermedadtengaocasióndeaflorar.Veremoslaprobabilidaddeunembarazo adolescente indeseado o de una vida de delitos, e intervendremos paracambiar, en todo cuanto podamos, ese resultado predicho. Impediremos que losincendios consuman unos atestados pisos pobres deNuevaYork, porque sabremosquéedificioshayqueinspeccionarprimero.

Nadaestápredeterminado,porquesiemprepodemosresponderyreaccionaralainformación que recibimos. Las predicciones basadas en datos masivos no estángrabadas en piedra: son sólo resultados probables y eso significa, que si queremoscambiarlos, podemos hacerlo. Podemos identificar cómo recibir mejor al futuro yconvertirnosensusamos,igualqueMauryencontrócaminosnaturalesenelsenodelvasto y abierto espacio de viento y olas. Y para lograr esto, no necesitaremos


comprenderlanaturalezadelcosmosnidemostrarlaexistenciadelosdioses:bastaráconlosdatosmasivos.


DATOSAÚNMÁSMASIVOS

A medida que los datos masivos transforman nuestras vidas —optimizando,mejorando, haciéndonosmás eficientes, y capturando beneficios—, ¿qué papel lesquedaalaintuición,lafe,laincertidumbreylaoriginalidad?

Silosdatosmasivosnosenseñanalgo,esqueactuarmejor,introducirmejorassinmás—sinunacomprensiónmásprofunda—amenudoresultasuficiente.Hacerlodeformacontinuaesunavirtud.Aunquenosepasporquétusesfuerzosfuncionan,estásgenerandomejores resultados de los que obtendrías sin hacer esfuerzos parecidos.PuedequeFlowersysus“chicos”deNuevaYorknoencarnen la ilustraciónde lossabios,perosalvanvidas.

Eldelosdatosmasivosnoesunmundoheladodealgoritmosyautómatas.Hayenélunpapelesencialparalaspersonas,contodasnuestrasflaquezas,malentendidosyerrores,porqueestosrasgosdecaráctervandelamanoconlacreatividadhumana,elinstintoylagenialidad.Losmismosprocesosmentalesconfusosqueavecesnoshacen quedar en ridículo o equivocarnos también dan lugar a éxitos y a quetropecemos con la grandeza. Esto sugiere que, igual que estamos aprendiendo aaceptar los datos confusos porque sirven a un propósito más elevado, deberíamosdarlelabienvenidaalainexactitudqueformapartedelanaturalezahumana.Alfinyal cabo, la confusión es unapropiedad esencial tanto delmundo comodenuestrasmentes; en ambos casos, aceptándola y aplicándola no obtendremos más queventajas.

Si los datosmoldean las decisiones, ¿qué propósito queda para las personas, oparalaintuiciónyelirencontradeloshechos?Sitodoelmundoapelaalosdatosyaprovecha lasherramientasdedatosmasivos,quizá loqueseconviertaenelpuntocentral de diferenciación sea la imposibilidad de predecir: el elemento humanodelinstinto,laasunciónderiesgos,elaccidenteyelerror.

Deserasí,entoncessurgiráunanecesidadespecialdehacerlesitioalohumano:de reservar un espacio para la intuición, el sentido común y la buena suerte, paraasegurarquenoloseliminenlosdatosylasrespuestaselaboradaspormáquinas.Lomásgrandedelossereshumanosesprecisamenteloquenorevelanlosalgoritmosyloschipsdesilicio,aquelloquenopuedenrevelarporquenopuedesercapturadoenformadedatos.No“loquees”,sino“loquenoes”:elespaciovacío,lasgrietasdelaacera,loqueaúnnosehadichonisehapensado.

Esto tiene implicaciones importantespara lanocióndeprogresoen lasociedad.Los datos masivos nos permiten experimentar más deprisa y explorar más pistas,ventajas que deberían producir más innovación. Pero la chispa de la invención seconvierte en lo que los datos nodicen.Eso es algoqueninguna cantidadde datospodrá confirmar ni corroborar nunca, porque aún está por existir. Si Henry Fordhubiese interrogado a los algoritmos de datosmasivos para saber qué querían sus


clientes, habrían contestado “un caballo más rápido” (por reformular su famosodicho).En unmundo de datosmasivos, son nuestros rasgosmás humanos los quenecesitaremos potenciar —nuestra creatividad, intuición y ambición intelectual—,dadoquenuestroingenioeslafuentedenuestroprogreso.

Losdatosmasivossonunrecursoyunaherramienta.Sirvenparainformarantesqueparaexplicar;nosindicanelcaminoparacomprender,peroaunasípuedeninducirnosaerror,dependiendodelobienomalquesemanejen.Y,pordeslumbrantequenosparezcaelpoderdelosdatosmasivos,nuncadebemospermitirquesubrilloseductornosciegueasusimperfeccionesinherentes.

Latotalidaddelainformacióndelmundo—eldefinitivoN=todo—nuncapodráser recopilada, almacenada o procesada por nuestras tecnologías. Por ejemplo, elCERN,[137]ellaboratoriodefísicadepartículasenSuiza,recogemenosdel0,1por100delainformaciónquegeneradurantesusexperimentos;elresto,aparentementesinutilidadalguna,sedejaquesedisipeeneléter.Peroestonoesnimuchomenosunaverdadnueva.Lasociedadsiempresehavistoentorpecidapor las limitacionesdelasherramientasqueusamosparamediryconocer larealidad,delcompásydelsextante,pasandoporeltelescopioyelradar,hastaelGPSdehoy.Mañananuestrasherramientaspuedenserdos,odiez,omilvecesmáspotentesquehoy,haciendoqueloqueahorasabemosnosparezcainsignificanteentonces.Nuestroactualmundodedatosmasivosnosparecerá,dentrodepoco,tanrarocomosenosantojanahoralos4kdememoriaRAMdelordenadorquedirigíaycontrolabaelApolo11.

Lo que somos capaces de recopilar y procesar siempre será una fracciónminúsculadelainformaciónqueexisteenelmundo.Sólopuedeserunsimulacrodela realidad, como las sombras en la pared de la cueva de Platón. Como nuncapodemos disponer de información perfecta, nuestras predicciones resultaninherentemente falibles. Tampoco significa que sean incorrectas, sólo que siempreestán incompletas. Esto no niega las percepciones que ofrecen los datos masivos,perolosponeensusitio:eldeunaherramientaquenoofrecerespuestasdefinitivas,sólo algunas suficientes para ayudarnos por ahora, hasta que aparezcan métodosmejoresy,porconsiguiente,respuestasmejores.Tambiénsugierequedebemosusarestaherramientaconunagenerosadosisdehumildad…ydehumanidad.


AGRADECIMIENTOS

Amboshemos sidoafortunadosalhaberpodido trabajaryaprenderconungiganteprecursor en el campo de las redes de información y la innovación, Lewis M.Branscomb.Suinteligencia,elocuencia,energía,profesionalidad,ingenioeinsaciablecuriosidadsigueninspirándonos.Asusimpáticaysabiacompañera,ConnieMullin,lepresentamosnuestrasdisculpaspornohaberhechocasodesusugerenciadetitularellibro“Superdata”.

MominMalikharesultadounexcelenteayudantedeinvestigaciónporsuexcepcionalinteligencia y laboriosidad. Como autores, tenemos el privilegio de que nosrepresentenLisaAdamsyDavidMillerdeGaramondAgency,quesehanmostradosencillamenteestupendosentodoslosaspectos.EamonDolan,nuestroeditor,hasidoun fiel representante de esa rara especie de editores que poseen un sentido casiperfectodecómoeditaruntextoyplantearleretosanuestropensamiento,demaneraque el resultado es muchomejor de lo que hubiéramos podido esperar nunca. Leestamos agradecidos a James Fransham de The Economist por su excelentecomprobacióndedatosysusagudascríticasalmanuscrito.

Estamosespecialmenteagradecidosa todosaquellosexpertosendatosmasivosquededicaron tiempoa explicarnos su trabajo,ynotablemente aOrenEtzioni,CynthiaRudin,CarolynMcGregoryMikeFlowers.

EncuantoalosagradecimientospersonalesdeViktor:quierodarlasgraciasaPhilipEvans, que siempreva dos pasos por delante demí al razonar y sabe expresar susideasconprecisiónyelocuencia,porconversacionesquehanabarcadomásdeunadécada. También deseo darle las gracias a mi antiguo colega David Lazer, quiendesde hace años es un sólido teórico de los datos masivos, y a cuyo consejo herecurridoennumerosasocasiones.

DeseoexpresarmigratitudalosparticipantesenelOxfordDigitalDataDialoguede2011(centradoen losdatosmasivos),ymuyespecialmenteasucopresidente,FredCate,pormantenerconmigotantasdiscusionesfecundas.

ElOxfordInternetInstitute,dondetrabajo,contantosdemiscolegasdedicadosalainvestigaciónsobrelosdatosmasivos,ofrecíajustoelambienteapropiadoparaestelibro. No se me podría haber ocurrido un sitio mejor para escribirlo. ReconozcoasimismocongratitudelapoyodelKebleCollege,acuyoclaustropertenezco.Sinél,nunca hubiese logrado acceder a algunas de las importantes fuentes primariasempleadasenellibro.

Lafamiliasiempreeslamásperjudicadacuandounosededicaaescribirunlibro.Noessóloporlacantidaddetiempoquehepasadodelantedelapantalladelordenador,


enmidespacho, sino tambiénpor lasmuchas,muchísimashorasque, aúnpresentefísicamente, he estado ensimismado en mis pensamientos, por lo que necesitopedirlesperdónamimujerBirgityalpequeñoViktor.Lesprometomejorar.

PorloqueserefierealosagradecimientospersonalesdeKenn:quierodarlasgraciasa muchos grandes científicos de los datos por su ayuda, y en particular a JeffHammerbacher, Amr Awadallah, DJ Patil, Michael Driscoll, Michael Freed, y amuchaspersonasdeGooglealolargodelosaños(incluyendoaHalVarian,JeremyGinsberg, Peter Norvig y Udi Manber, entre otros, mientras que las charlas,demasiado breves, a mi pesar, con Eric Schmidt y Larry Page resultaroninapreciables).

MisideassehanenriquecidograciasaTimO’Reilly,unsabiodelaeradeinternet.TambiénagradezcoaMarcBenioffdeSalesforce.com,quienhasidounmaestroparamí.EldiscernimientodeMatthewHindmanresultóinconmensurable,comosiempre.JamesGuszcza deDeloitte fue de increíble ayuda, al igual queGeoffHyatt, viejoamigoyemprendedordedatosenserie.MiespecialagradecimientoaPeteWarden,queesalavezunfilósofoyunexpertoendatosmasivos.

Muchosamigosofrecieronideasyconsejos,entreellosJohnTurner,AngelikaWolf,Niko Waesche, Katia Verresen, Anna Petherick, Blaine Harden y Jessica Kowal.Otros,que inspiraron temas tratadosenel libro, incluyenaBlaiseAguerayArcas,Eric Horvitz, David Auerbach, Gil Elbaz, Tyler Bell, Andrew Wyckoff y otrosmuchosenlaOCDE;StephenBrobstyelequipodeTeradata;AnthonyGoldbloomyJeremyHowardenKaggle;EddDumbill,RogerMagoulasyelequipodeO’ReillyMedia; y Edward Lazowska. James Cortada se merece un monumento. GraciastambiénaPingLideAccelPartnersyaRogerEhrenbergdeIAVentures.

EnTheEconomist,miscolegasmeofrecieron ideasyunapoyo tremendo.Doy lasgracias particularmente a mis editores Tom Standage, Daniel Franklin y JohnMicklethwait, así como aBarbaraBeck, que editó el informe especial “Data,DataEverywhere”,queconstituyó lagénesisde este libro.Mis colegasdeTokio,HenryTricksyDominicZeigler,merecenmiadmiraciónporbuscarsiemprelonovedosoyexpresarlobellamente.OliverMortonaportósuacostumbradasabiduríacuandomáslanecesitaba.

ElSalzburgGlobalSeminarenAustriameofreciólacombinaciónperfectadereposoidílicoyestímulointelectualquemeayudóaescribiryapensar.Doylasgraciasalosparticipantesyalorganizador,CharlieFirestone,delamesaredondacelebradaenelAspenInstitute,enjuliode2011,dondesurgieronmuchasideas.Delmismomodo,deseotransmitirmiagradecimientoaTeriElniskiporsutremendoapoyo.

FrancesCairncross,rectoradeExeterCollege,Oxford,mebrindóunlugartranquiloenelqueestar,ymuchosánimos.ReflexionarsobreunascuestionesdetecnologíaysociedadquesurgendesusplanteamientosdehacedécadaymediaenTheDeathof


Distance, obra queme inspirómucho cuando era un jovenperiodista, supone todaunaleccióndehumildad.MeresultabasatisfactoriocruzartodaslasmañanaselpatiodeExetersabiendoquetalvezpodríapasaraotroslaantorchaqueellahabíallevado,aunquelallamaardíaconmuchamásbrillantezensusmanos.

Mimásprofundoagradecimientoesparamifamiliaporsoportarmeo,demaneramáshabitual,porsoportarmiausencia.Mispadres,hermanaydemásparientesmerecenque lesdé lasgracias,pero lamayorpartedemigratitud la reservoparamimujerHeather y para nuestros hijos Charlotte y Kaz, sin cuyo apoyo, ánimo e ideas nohabríasidoposibleestelibro.

Losdosestamosagradecidosamuchísimaspersonasquediscutieronconnosotroslacuestióndelosdatosmasivos,muchoantesinclusodequesepopularizaraeltérmino.Enestesentido,reservamosunagradecimientoespecialatodoslosqueparticiparon,a lo largo de los años, en la Conferencia Rueschlikon sobre política de lainformación, queViktor coorganizaba y en la queKenn era ponente.Nos gustaríadarles lasgraciasespecialmenteaJosephAlhadeff,BernardBenhamou,JohnSeelyBrown,HerbertBurkert(quiennosdescubrióalcomodoroMaury),PeterCullen,EdFelten, Urs Gasser, Joi Ito, Jeff Jonas, Nicklas Lundblad, Douglas Merrill, RickMurray,CoryOndrejka,yPaulSchwartz.

VIKTORMAYER-SCHÖNBERGERKENNETHCUKIER

Oxford-Londres,agostode2012


BIBLIOGRAFÍA

ALTER,Alexandra, “YourE-Book IsReadingYou”,TheWallStreet Journal, 29dejuniode2012(online.wsj.com).

ANDERSON,Benedict,ImaginedCommunities.Verso,2006.

ANDERSON, Chris, “The End of Theory: The Data Deluge Makes the ScientificMethodObsolete”,Wired,vol.16,núm.7,juliode2008(www.wired.com).

ASUR,Sitaram,yBernardoA.HUBERMAN,“PredictingtheFuturewithSocialMedia”,Proceedings of the 2010 ieee/wic/acm International Conference on WebIntelligenceandIntelligentAgentTechnology,pp.492-499.(Hayversiónonline,disponibleen:www.hpl.hp.com[PDF]).

AYRES, Ian, Super Crunchers: Why Thinking-By-Numbers Is the New Way to beSmart,BantamDell,2007.

BABBIE,Earl,PracticeofSocialResearch,Wadsworth,2010,12.ªed.

BACKSTROM,Lars,CynthiaDWORKyJonKLEINBERG,“WhereforeArtThouR3579X?AnonymizedSocialNetworks,HiddenPatterns, andStructuralSteganography”,Communicationsoftheacm,diciembrede2011,pp.133-141.

BAKOS,Yannis,yErikBRYNJOLFSSON,“BundlingInformationGoods:Pricing,Profits,andEfficiency”,ManagementScience,45,diciembrede1999,pp.1613-1630.

BANKO, Michele, y Eric BRILL, “Scaling to Very Very Large Corpora for NaturalLanguage Disambiguation”,Microsoft Research, 2001, p. 3 (acl.ldc.upenn.edu[PDF]).

BARBARO, Michael, y Tom ZELLER Jr., “A Face Is Exposed for AOL Searcher No.4417749”,TheNewYorkTimes,9deagostode2006(www.nytimes.com).

BARNES,Brook,“AYearofDisappointmentattheMovieBoxOffice”,TheNewYorkTimes,25dediciembrede2011(www.nytimes.com).

BEATY, Janice, Seeker of Seaways: A Life of Matthew Fontaine Maury, PioneerOceanographer,PantheonBooks,1966.

BERGER, Adam L., et al., “The Candide System for Machine Translation”.Proceedingsof the1994ARPAWorkshoponHumanLanguageTechnology,1994(aclweb.org[PDF]).

BERK,Richard,“TheRoleofRaceinForecastsofViolentCrime”,RaceandSocialProblems,núm.1,2009,pp.231-242.


http://online.wsj.com/article/SB10001424052702304870304577490950051438304.html

http://www.wired.com/science/discoveries/magazine/16-07/pb_theory

http://www.hpl.hp.com/research/scl/papers/socialmedia/socialmedia.pdf

http://acl.ldc.upenn.edu/P/P01/P01-1005.pdf

http://www.nytimes.com/2006/08/09/technology/09aol.html

http://www.nytimes.com/2011/12/26/business/media/a-year-of-disappointment-for-hollywood.html

http://aclweb.org/anthologynew/H/H94/H94-1100.pdf

BLACK,Edwin,IBMANDTHEHOLOCAUST,Crown,2003.

BOYD, danah, y Kate CRAWFORD, “Six Provocations for Big Data”, ponenciapresentada en el simposio “A Decade in Internet Time: Symposium on theDynamics of the Internet and Society” del Oxford Internet Institute, 21 deseptiembrede2011(ssrn.com).

BROWN,Brad,MichaelCHUI,yJamesMANYIKA,“AreYouReadyfortheEraof‘BigData’?”,McKinseyQuarterly,octubrede2011,p.10.

BRYNJOLFSSON,Erik,AndrewMCAFEE,MichaelSORELL,yFengZHU,“ScaleWithoutMass:BusinessProcessReplicationand IndustryDynamics”.HarvardBusinessSchool Working Paper 07-016, septiembre de 2006 (www.hbs.edu [PDF];tambiénen:http:hbswk.hbs.edu).

BRYNJOLFSSON,Erik,LorinHITT,yHeekyungKIM,“StrengthinNumbers:HowDoesData-DrivenDecision-MakingAffectFirmPerformance?”,ICIS2011PROCEEDINGS,documento13(aisel.aisnet.org;disponibleasimismoen:papers.ssrn.com).

BYRNE,John,TheWhizKids,Doubleday,1993.

CATE, Fred H., “The Failure of Fair Information Practice Principles”, en JaneK.Winn(ed.),ConsumerProtection in theAgeof the“InformationEconomy”,Ashgate,2006,véasep.341yss.

CHIN, A., y A. KLINEFELTER, “Differential Privacy as a Response to theReidentificationThreat:TheFacebookAdvertiserCaseStudy”,NorthCarolinaLawReview,vol.90,núm.5,2012,pp.1417-1456.

CROSBY, Alfred, The Measure of Reality: Quantification and Western Society,1250-1600.CambridgeUniversityPress,1997.

CUKIER,Kenneth,“Data,DataEverywhere”,TheEconomist,27defebrerode2010,pp.1-14.

—, “Tracking SocialMedia: TheMood of theMarket”,Economist.com, 28 dejuniode2012(www.economist.com).

DAVENPORT,ThomasH.,PaulBARTH,yRandyBEAN,“How‘BigData’IsDifferent”,MITSloanManagementReview,30dejuliode2012(sloanreview.mit.edu).

DI QUINZIO, Melanie, y Anne MCCARTHY, “Rabies Risk Among Travellers”, en:CanadianMedicalAssociationJournal,vol.178,núm.5,2008,p.567.

DROGIN, Marc, Anathema! Medieval Scribes and the History of Book Curses,AllanheldandSchram,1983.

DUGAS,A.F., et al., “GoogleFluTrends:CorrelationwithEmergencyDepartment


http://ssrn.com/abstract=1926431

http://www.hbs.edu/research/pdf/07-016.pdf

http://hbswk.hbs.edu/item/5532.html

http://aisel.aisnet.org/icis2011/proceedings/economicvalueIS/13

http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1819486

http://www.economist.com/blogs/graphicdetail/2012/06/tracking-social-media

http://sloanreview.mit.edu/the-magazine/2012-fall/54104/how-big-data-is-different/

InfluenzaRatesandCrowdingMetrics”,ClinicalInfectiousDiseases,8deenerode2012.DOI10.1093/cid/cir883.

DUGGAN,Mark,yStevenD.LEVITT,“WinningIsn’tEverything:CorruptioninSumoWrestling”, American Economic Review, núm. 92, 2002, pp. 1594-1605(pricetheory.uchicago.edu[PDF]).

DUHIGG,Charles,ThePowerofHabit:WhyWeDoWhatWeDoinLifeandBusiness.RandomHouse,2012.

—,“HowCompaniesLearnYourSecrets”,TheNewYorkTimes,16defebrerode2012(www.nytimes.com).

DWORK,Cynthia, “AFirmFoundation forPrivateDataAnalysis”,Communicationsof the acm, enero de 2011, pp. 86-95 (http://dl.acm.org/citation.cfm?id=1866739.1866758).

Economist, The, “Rolls-Royce: Britain’s Lonely High-Flier”, The Economist, 8 deenerode2009(www.economist.com).

—,“BuildingwithBigData:TheDataRevolutionIsChangingtheLandscapeofBusiness”,TheEconomist,26demayode2011(www.economist.com).

—, “Official Statistics: Don’t Lie to Me, Argentina”, The Economist, 25 defebrerode2012(www.economist.com).

—, “Counting Every Moment”, The Economist, 3 de marzo de 2012(www.economist.com).

—, “Vehicle Data Recorders: Watching Your Driving”, The Economist, 23 dejuniode2012(www.economist.com).

EDWARDS, Douglas, I’m Feeling Lucky: The Confessions of Google EmployeeNumber59,HoughtonMifflinHarcourt,2011.

EHRENBERG,Rachel,“Predicting theNextDeadlyManholeExplosion”,enWired,7dejuliode2010(www.wired.com).

EISENSTEIN, Elizabeth L., The Printing Revolution in Early Modern Europe,Canto/CambridgeUniversityPress,1993.

ETZIONI,Oren,C.A.KNOBLOCK,R.TUCHINDA,yA.YATES,“ToBuyorNottoBuy:MiningAirfareDatatoMinimizeTicketPurchasePrice”,SIGKDD’03,24a27deagostode2003(http://knight.cis.temple.edu/~yates//papers/hamletkdd03.pdf).

FREI,Patrizia,etal.,“UseofMobilePhonesandRiskofBrainTumours:UpdateofDanishCohortStudy”,BMJ,núm.343,2011(www.bmj.com).

FURNAS,Alexander,“HomelandSecurity’s‘Pre-Crime’ScreeningWillNeverWork”,


http://pricetheory.uchicago.edu/levitt/Papers/DugganLevitt2002.pdf

http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html

http://www.economist.com/node/12887368

http://www.economist.com/node/18741392/




http://www.wired.com/wiredscience/2010/07/manholeexplosions

http://www.bmj.com/content/343/bmj.d6387

TheAtlanticOnline,17deabrilde2012(www.theatlantic.com).

GARTONASH,Timothy,TheFile,AtlanticBooks,2008.

GERON,Tomio,“Twitter’sDickCostolo:TwitterMobileAdRevenueBeatsDesktoponSomeDays”,Forbes,6dejuniode2012(www.forbes.com).

GINSBURG, Jeremy, et al., “Detecting Influenza Epidemics Using Search EngineQuery Data”, Nature núm. 457, 19 de febrero de 2009, pp. 1012-1014(www.nature.com).

GOLDER, Scott A., y Michael W. MACY, “Diurnal and Seasonal Mood Vary withWork,Sleep, andDaylengthAcrossDiverseCultures”,Science, vol. 333, núm.6051,30deseptiembrede2011,pp.1878-1881.

GOLLE, Philippe, “Revisiting the Uniqueness of Simple Demographics in the USPopulation”, Association for Computing Machinery Workshop on Privacy inElectronicSociety,5(2006),pp.77-80.

GOO,SaraKehaulani,“Sen.KennedyFlaggedbyNo-FlyList”,TheWashingtonPost,20deagostode2004,p.A01(www.washingtonpost.com).

HAEBERLEN,A.,etal.,“DifferentialPrivacyUnderFire”,SEC’11:Proceedingsofthe20thUSENIXConferenceonSecurity,p.33(www.cis.upenn.edu[PDF]).

HALBERSTAM,David,TheReckoning,WilliamMorrow,1986.

HALDANE, J.B.S., “OnBeing theRightSize”,Harper’sMagazine,marzo de 1926(harpers.org).

HALEVY,Alon,PeterNORVIG,yFernandoPEREIRA.“TheUnreasonableEffectivenessofData”,IEEEIntelligentSystems,marzo/abrilde2009,pp.8-12.

HARCOURT,BernardE.,AgainstPrediction:Profiling,Policing,andPunishinginanActuarialAge,UniversityofChicagoPress,2006.

HARDY,Quentin, “Bizarre Insights fromBigData”,NYTimes.com, 28 demarzo de2012(bits.blogs.nytimes.com).

HAYS,ConstanceL., “WhatWal-MartKnowsAbout Customers’Habits”,TheNewYorkTimes,14denoviembrede2004(www.nytimes.com).

HEARN,ChesterG.,TracksintheSea:MatthewFontaineMauryandtheMappingoftheOceans,InternationalMarine/McGraw-Hill,2002.

HELLAND,Pat,“IfYouHaveTooMuchDatathen‘GoodEnough’IsGoodEnough’,Communicationsoftheacm”,juniode2011,p.40yss.

HILBERT,Martin, y Priscilla LÓPEZ, “TheWorld’sTechnologicalCapacity to Store,


http://www.theatlantic.com/technology/archive/2012/04/homeland-securitys-pre-crime-screening-will-never-work/255971/

http://www.forbes.com/sites/tomiogeron/2012/06/06/twitters-dick-costolo-mobile-ad-revenue-beats-desktop-on-some-days/

http://www.nature.com/nature/journal/v457/n7232/full/nature07634.html

http://www.washingtonpost.com/wp-dyn/articles/A17073-2004Aug19.html

http://www.cis.upenn.edu/~ahae/papers/fuzz-sec2011.pdf

http://harpers.org/archive/1926/03/on-being-the-right-size/

http://www.nytimes.com/

http://bits.blogs.nytimes.com/2012/03/28/bizarre-insights-from-big-data/

http://www.nytimes.com/2004/11/14/business/yourmoney/14wal.html

Communicate, and Compute Information”, Science, vol. 332, núm. 6025, 1 deabrilde2011,pp.60-65.

—,“HowtoMeasuretheWorld’sTechnologicalCapacitytoCommunicate,StoreandComputeInformation?”,InternationalJournalofCommunication,vol.6,2012,pp.956-979(ijoc.org/ojs/index.php/ijoc/article/viewFile/1562/742).

HOLSON,LauraM., “PuttingaBolderFaceonGoogle”,TheNewYorkTimes,1demarzode2009,p.BU1(www.nytimes.coml).

HOPKINS, Brian, y Boris EVELSON, “Expand Your Digital Horizon with Big Data”,Forrester,30deseptiembrede2011.

HOTZ,RobertLee,“TheReallySmartPhone”,TheWallStreetJournal,22deabrilde2011(online.wsj.com).

HUTCHINS, John, “The First Public Demonstration of Machine Translation: TheGeorgetown-IBM System, 7th January 1954”, noviembre de 2005(hutchinsweb.me.uk[PDF]).

INGLEHART, R., y H. D. KLINGEMANN,Genes, Culture and Happiness, MIT Press,2000.

ISAACSON,Walter,SteveJobs,Simon&Schuster,2011.

KAHNEMAN,Daniel,Thinking,FastandSlow,Farrar,StrausandGiroux,2011.

KAPLAN,RobertS.,yDavidP.NORTON,StrategyMaps:ConvertingIntangibleAssetsintoTangibleOutcomes.HarvardBusinessReviewPress,2004.

KARNITSCHNIG, Matthew, yMyleneMANGALINDAN, “AOL Fires Technology ChiefAfterWeb-SearchDataScandal”,TheWallStreetJournal,21deagostode2006.

KEEFE, Patrick Radden, “CanNetwork Theory Thwart Terrorists?”,The New YorkTimes,12demarzode2006(www.nytimes.com).

KINNARD,Douglas,TheWarManagers,UniversityPressofNewEngland,1977.

KIRWAN, Peter, “This Car Drives Itself”, Wired UK, enero de 2012(www.wired.co.uk).

KLIFF,Sarah,“ADatabaseThatCouldRevolutionizeHealthCare”,TheWashingtonPost,21demayode2012.

KRUSKAL, William, y Frederick MOSTELLER, “Representative Sampling, IV: TheHistoryoftheConceptinStatistics,1895-1939”,InternationalStatisticalReview,vol.48,núm.2,agostode1980,pp.169-195.

LANEY,Doug, “ToFacebookYou’reWorth $80.95”,TheWall Street Journal, 3 de


http://www.nytimes.com/2009/03/01/business/01marissa.html


http://www.hutchinsweb.me.uk/GU-IBM-2005.pdf

http://www.nytimes.com/2006/03/12/magazine/312wwln_essay.html

http://www.wired.co.uk/magazine/archive/2012/01/features/this-car-drives-itself

mayode2012(blogs.wsj.com).

LATOUR,Bruno,ThePasteurizationofFrance,HarvardUniversityPress,1993.

LEVITT, Steven D., y Stephen J. DUBNER, Freakonomics: A Rogue EconomistExplorestheHiddenSideofEverything.WilliamMorrow,2009.

LEVY,Steven.InthePlex,SimonandSchuster,2011.

LEWIS, Charles Lee, Matthew Fontaine Maury: The Pathfinder of the Seas,U.S.NavalInstitute,1927.

LOHR,Steve,“CanAppleFindMoreHitsWithout ItsTastemaker?”,TheNewYorkTimes,19deenerode2011,p.B1(www.nytimes.com).

LOWREY,Annie,“Economists’ProgramsAreBeatingU.S.atTrackingInflation”,TheWashingtonPost,25dediciembrede2010(www.washingtonpost.com).

MACRAKIS,Kristie,SeducedbySecrets:InsidetheStasi’sSpy-TechWorld,CambridgeUniversityPress,2008.

MANYIKA, James,etal.,“BigData:TheNextFrontier for Innovation,Competition,and Productivity”. McKinsey Global Institute, mayo de 2011(www.mckinsey.com).

MARCUS,James,Amazonia:FiveYearsattheEpicenteroftheDot.ComJuggernaut,TheNewPress,2004.

MARGOLIS, Joel M., “When Smart Grids Grow Smart Enough to Solve Crimes”,NeustarWhitePaper,18demarzode2010(energy.gov[PDF]).

MAURY,MatthewFontaine,ThePhysicalGeographyoftheSea,Harper,1855.

MAYER-SCHÖNBERGER, Viktor, “Beyond Privacy, Beyond Rights: Towards a‘Systems’Theoryof InformationGovernance”,CaliforniaLawReview, vol. 98,pp.1853-1885,2010.

—,Delete: The Virtue of Forgetting in the Digital Age, Princeton UniversityPress,2011,2.ªed.

MCGREGOR, Carolyn, Christina CATLEY, Andrew JAMES, y James PADBURY, “NextGenerationNeonatalHealthInformaticswithArtemis”,EuropeanFederationforMedicalInformatics,UserCentredNetworkedHealthCare,editadoporA.Moenetal.(IOSPress,2011),p.117yss.

MCNAMARA,RobertS.,yBrianVANDEMARK,InRetrospect:TheTragedyandLessonsofVietnam.RandomHouse,1995.

MEHTA, Abhishek, Big Data: Powering the Next Industrial Revolution, Tableau


http://blogs.wsj.com/cio/2012/05/03/to-facebook-youre-worth-80-95/

http://www.nytimes.com/2011/01/19/technology/companies/19innovate.html

http://www.washingtonpost.com/wp-dyn/content/article/2010/12/25/AR2010122502600.html

http://www.mckinsey.com/insights/mgi/research/technology_and_innovation/big_data_the_next_frontier_for_innovation

http://energy.gov/sites/prod/files/gcprod/documents/Neustar_Comments_DataExhibitA.pdf

SoftwareWhitePaper,2011.

MICHEL, Jean-Baptiste, et al., “Quantitative Analysis of Culture UsingMillions ofDigitizedBooks”,Science,vol.331,núm.6014,14deenerode2011,pp.176-182(www.sciencemag.org).

MILLER,ClaireCain,“U.S.ClearsGoogleAcquisitionofTravelSoftware”,TheNewYorkTimes,8deabrilde2011(www.nytimes.com).

MILLS,Howard,“Analytics:TurningData intoDollars”,ForwardFocus,diciembrede2011(www.deloitte.com[PDF]).

MINDELL,DavidA.,DigitalApollo:HumanandMachineinSpaceflight,MITPress,2008.

MINKEL,J.R.,“TheU.S.CensusBureauGaveUpNamesofJapanese-AmericansinWWII”,ScientificAmerican,30demarzode2007(www.scientificamerican.com).

MURRAY, Alexander, Reason and Society in the Middle Ages, Oxford UniversityPress,1978.

NALIMOV,E.V.,G.M.HAWORTH,yE.A.HEINZ,“Space-EfficientIndexingofChessEndgameTables”,en:icgaJournalvol.23,núm.3,septiembrede2000,pp.148-162.

NARAYANAN, Arvind, y Vitaly SHMATIKOV, “How to Break the Anonymity of theNetflixPrizeDataset”,18deoctubrede2006,arXiv:cs/0610105(arxiv.org).

—, “Robust De-Anonymization of Large Sparse Datasets”,Proceedings of the2008 ieee Symposium on Security and Privacy, p. 11 (www.cs.utexas.edu[PDF]).

NAZARETH,Rita,yJuliaLEITE,“StockTrading inU.S.Falls toLowestLevelSince2008”,Bloomberg,13deagostode2012(www.bloomberg.com).

NEGROPONTE,Nicholas,BeingDigital,AlfredKnopf,1995.

NEYMAN, Jerzy,“On theTwoDifferentAspectsof theRepresentativeMethod:TheMethodofStratifiedSamplingandtheMethodofPurposiveSelection”,JournaloftheRoyalStatisticalSociety,vol.97,núm.4,1934,pp.558-625.

OHM, Paul, “Broken Promises of Privacy:Responding to the Surprising Failure ofAnonymization”,UCLALawReview,vol.57,2010,p.1701.

ONNELA, J. P., et al., “Structure and Tie Strengths in Mobile CommunicationNetworks”,ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica(pnas)104,mayode2007,pp.7332-7336(nd.edu[PDF]).

PALFREY, John, y Urs GASSER, Interop: The Promise and Perils of Highly


http://www.sciencemag.org/content/331/6014/176.abstract

http://www.nytimes.com/2011/04/09/technology/09google.html?_r=0

http://www.deloitte.com/assets/Dcom-UnitedStates/Local_Assets/Documents/FSI/US_FSI_Forward_Focus_Analytics_Turning_data_into_dollars_120711.pdf

http://www.scientificamerican.com/article.cfm?id=confirmed-the-us-census-b

http://arxiv.org/abs/cs/0610105

http://www.cs.utexas.edu/~shmat/shmat_oak08netflix.pdf

http://www.bloomberg.com/news/2012-08-13/stock-trading-in-us-hits-lowest-level-since-2008-as-vix-falls.html

http://nd.edu/~dddas/Papers/PNAS0610245104v1.pdf

InterconnectedSystems,BasicBooks,2012.

PEARL,Judea,Models,ReasoningandInference,CambridgeUniversityPress,2009.

POLLACK, Andrew, “DNA Sequencing Caught in the Data Deluge”, The New YorkTimes,30denoviembrede2011(www.nytimes.com).

President’sCouncilofAdvisorsonScienceandTechnology[ConsejodeasesoresdelPresidente sobre ciencia y tecnología], Report to the President and CongressDesigning a Digital Future: Federally Funded Research and Development inNetworking and Information Technology, diciembre de 2010(www.whitehouse.gov[PDF]).

PRIEST,DanayWilliamARKIN, “AHiddenWorld,GrowingBeyondControl”,TheWashingtonPost,19dejuliode2010(projects.washingtonpost.com).

QUERY, Tim, “Grade Inflation and the Good-Student Discount”, ContingenciesMagazine, American Academy of Actuaries, mayo-junio de 2007(www.contingencies.org[PDF]).

QUINN, Elias Leake, Smart Metering and Privacy: Existing Law and CompetingPolicies; A Report for the Colorado Public Utility Commission, Primavera de2009(http://www.w4ar.com/Danger_of_Smart_Meters_Colorado_Report.pdf).

RESHEF,David,etal., “DetectingNovelAssociations inLargeData Sets”,Sciencenúm.334,2011,pp.1518-1524.

ROSENTHAL, Jonathan, “Banking Special Report”, The Economist, 19 de mayo de2012,pp.7-8.

ROSENZWEIG, Phil, “Robert S. McNamara and the Evolution of ModernManagement”,HarvardBusinessReview,diciembrede2010,pp.87-93(hbr.org).

RUDIN, Cynthia, et al., “21st-Century Data Miners Meet 19th-Century ElectricalCables”,en:Computer,juniode2011,pp.103-105.

—,“MachineLearningfortheNewYorkCityPowerGrid”,IEEETransactionsonPatternAnalysis andMachine Intelligence, vol. 34, núm. 2, 2012, pp. 328-345(hdl.handle.net).

RYS,Michael,“ScalableSQL”,Communicationsoftheacm,vol.54,núm.6,juniode2011,pp.48-53.

SALATHÉ,Marcel,yShashankKHANDELWAL,“AssessingVaccinationSentimentswithOnlineSocialMedia:ImplicationsforInfectiousDiseaseDynamicsandControl”,PloSComputationalBiology,vol.7,núm.10,octubrede2011.

SAVAGE, Mike, y Roger BURROWS, “The Coming Crisis of Empirical Sociology”,


http://www.nytimes.com/2011/12/01/business/dna-sequencingcaught-in-deluge-of-data.html?pagewanted=all

http://www.whitehouse.gov/sites/default/files/microsites/ostp/pcast-nitrd-report-2010.pdf

http://projects.washingtonpost.com/top-secret-america/articles/a-hidden-world-growing-beyond-control/

http://www.contingencies.org/mayjun07/tradecraft.pdf

http://hbr.org/2010/12/robert-s-mcnamara-and-theevolution-of-modern-management/ar/pr

http://hdl.handle.net/1721.1/68634

Sociology,vol.41,núm.5,2007,pp.885-899.

SCHLIE,Erik,JörgRHEINBOLDT,yNikoWAESCHE,SimplySeven:evenWaystoCreateaSustainableInternetBusiness,PalgraveMacmillan,2011.

SCANLON, Jessie, “Luis von Ahn: The Pioneer of ‘Human Computation’”, en:Businessweek,3denoviembrede2008(www.businessweek.com).

SCISM, Leslie, y Mark MAREMONT, “Inside Deloitte’s Life-Insurance AssessmentTechnology”, The Wall Street Journal, 19 de noviembre de 2010(online.wsj.com).

—, “Insurers Test Data Profiles to Identify Risky Clients”, The Wall StreetJournal,19denoviembrede2010(online.wsj.com).

SCOTT, James, Seeing like a State: How Certain Schemes to Improve the HumanConditionHaveFailed,YaleUniversityPress,1998.

SELTZER,William, yMargoANDERSON, “The Dark Side of Numbers: The Role ofPopulation Data Systems in Human Rights Abuses”, Social Research, vol. 68,núm.2,veranode2001,pp.481-513.

SILVER,Nate,TheSignaland theNoise:WhySoManyPredictionsFail,ButSomeDon’t,Penguin,2012.

SINGEL,Ryan,“NetflixSpilledYourBrokebackMountainSecret,LawsuitClaims”,Wired,17dediciembrede2009(www.wired.com/).

SMITH,Adam,TheWealthofNations(1776),reimpresiónenBantamClassics,2003.Hayunaversiónelectrónicagratuitaen:www2.hn.psu.edu[PDF].

SOLOVE,Daniel J.,TheDigitalPerson:TechnologyandPrivacy in the InformationAge,NYUPress,2004.

SUROWIECKI,James,“ABillionPricesNow”,TheNewYorker,30demayode2011(www.newyorker.com).

TALEB,NassimNicholas,FooledbyRandomness:TheHiddenRoleofChanceinLifeandintheMarkets,RandomHouse,2008.

—,TheBlackSwan:TheImpactoftheHighlyImprobable,RandomHouse,2010,2.ªed.

THOMPSON,Clive,“ForCertainTasks,theCortexStillBeatstheCPU”,Wirednúm.15-07,25dejuniode2007(www.wired.com).

THURM, Scott, “NextFrontier inCreditScores:PredictingPersonalBehavior”,TheWallStreetJournal,27deoctubrede2011(online.wsj.com).


http://www.businessweek.com/stories/2008-11-03/luis-von-ahn-the-pioneer-of-human-computation-businessweek-business-news-stock-market-and-financial-advice



http://www.wired.com/threatlevel/2009/12/netflix-privacy-lawsuit/

http://www2.hn.psu.edu/faculty/jmanis/adam-smith/Wealth-Nations.pdf

http://www.newyorker.com/talk/financial/2011/05/30/110530ta_talk_surowiecki

http://www.wired.com/techbiz/it/magazine/15-07/ff_humancomp?currentPage=all


TSOTSIS,Alexia,“Twitter Isat250MillionTweetsperDay, iOS5IntegrationMadeSignupsIncrease3x”,TechCrunch,17deoctubrede2011(techcrunch.com).

VALERY,Nick,“Tech.View:CarsandSoftwareBugs”,TheEconomist,16demayode2010(www.economist.com).

VLAHOS, James, “The Department Of Pre-Crime”, Scientific American núm. 306,enerode2012,pp.62-67.

VONBAEYER,HansChristian. Information:TheNewLanguageofScience,HarvardUniversityPress,2004.

VONAHN,Luis,etal.,“ReCAPTCHA: Human-BasedCharacter Recognition viaWebSecurityMeasures”,Science, vol. 321, núm. 5895, 12 de septiembre de 2008,pp.1465-1468(www.sciencemag.org).

WATTS,Duncan,EverythingIsObviousOnceYouKnowtheAnswer:HowCommonSenseFailsUs,Atlantic,2011.

WEINBERGER, David,Everything Is Miscellaneous: The Power of the New DigitalDisorder,Times,2007.

WEINBERGER, Sharon, “Intent toDeceive. Can the Science ofDeceptionDetectionHelp toCatchTerrorists?”,Nature,vol.465,27demayode2010,pp.412-415(www.nature.com).

—,“Terrorist‘Pre-crime’DetectorFieldTestedinUnitedStates”,Nature,27demayode2011(www.nature.com/).

WHITEHOUSE, David, “UK Science Shows Cave Art Developed Early”, BBC NEWSONLINE,3deoctubrede2001(news.bbc.co.uk).

WIGNER, Eugene, “The Unreasonable Effectiveness ofMathematics in the NaturalSciences”,CommunicationsonPureandAppliedMathematics, vol. 13, núm.1(1960),pp.1-14.

WILKS,Yorick,MachineTranslation:ItsScopeandLimits,Springer,2009.

WINGFIELD,Nick,“VirtualProducts,RealProfits:PlayersSpendonZynga’sGames,butQualityTurnsSomeOff”,TheWallStreetJournal,9deseptiembrede2011(online.wsj.com).


http://techcrunch.com/2011/10/17/twitter-is-at-250-million-tweets-per-day/

http://www.economist.com/blogs/babbage/2010/05/techview_cars_and_software_bugs


http://www.nature.com/news/2010/100526/full/465412a.html

http://www.nature.com/news/2011/110527/full/news.2011.323.html

http://news.bbc.co.uk/1/hi/sci/tech/1577421.stm


VIKTORMAYER-SCHÖNBERGER (Zell amSee,Austria - 1966) es profesor deInternet Governance and Regulation at the Oxford Internet Institute, University ofOxfordquellevaacabolainvestigaciónsobrelaeconomíadelared.Anteriormenteestuvo en Harvard's John F. Kennedy School of Government. Es co-autor de BigData.Larevolucióndelosdatosmasivos(HMH,2013)yautordeDelete:TheVirtueofForgetting in theDigitalAge (Princeton, 2009), que obtuvo el premioMarshallMcLuhanen2010comolibroexcepcionalyelDonK.PriceAwardforBestBookinScienceandTechnologyPolitics(2010).Haescritomásdeuncentenardeartículosycapítulosparalibros.

Sumadreeradueñadeuncinedebarrio.Despuésdesalirdelaescuelasecundariaensu ciudad natal, estudió derecho en la Universidad de Salzburgo . Durante estetiempo, compitió con éxito en International Physics Olympiad para jóvenesprogramadoresconcurso.

En 1986, fundó Ikarus Software que desarrolla utilidades para virus informáticos.PosteriormenteobtuvounalicenciaturaenDerechoenlaUniversidaddeSalzburgoyenlaEscueladeDerechodeHarvard.En1992obtuvounmáster(Econ)delaEscuelade Economía de Londres , y en 2001 la venia docendi en leyes (entre otros) einformación en la Universidad de Graz. También trabajó en el negocio decontabilidaddesupadre.

En 1998 estuvo en la facultad Harvard Kennedy School, donde trabajó y enseñódurante diez años. Después, tres años en Lee Kuan Yew School of Public Policy,


NationalUniversityofSingapore.Mayer-SchönbergeresactualmentepresidentedeInternetGovernanceandRegulationattheOxfordInternetInstitute.Comoexpertoenleyes de información y regulación, ha asesorado a empresas, gobiernos yorganizacionesinternacionales.

KENNETH CUKIER es editor senior de The Economist responsable de datos yproductos digitales (web, aplicaciones y desarrollo de nuevos productos). FuecorresponsalenTokio(2007-2012),yantes,corresponsaldetecnologíadelperiódicoenLondres,dondesutrabajosecentróenlainnovación,lapropiedadintelectualyelgobiernode Internet.Esco-autordeBigData.La revoluciónde losdatosmasivosjunto aViktorMayer-Schönberger (2013), traducido amásde20 idiomas.El libroganóelpremioThebookwontheNationalLibraryofChina'sWenjinBookAward,yfue finalista para el FTBusinessBookof theYear.En2014publicaron un trabajosobreel seguimientoyaprendizajecongrandesvolúmenesdedatos:LearningwithBigData:TheFutureofEducation.

Anteriormente,CukierfueeleditordetecnologíadeTheWallStreetJournal (Asia)en Hong Kong y comentarista habitual en la CNBC (Asia). También fue editoreuropeodeRedHerringasícomoenTheInternationalHeraldTribuneenParís.De2002a2004trabajódeinvestigadorenlaHarvard'sKennedySchoolofGovernment,sobreInternetylasrelacionesinternacionales.

SusescritoshanaparecidoenTheNewYorkTimes,TheWashingtonPost,Prospect,TheFinancialTimes yForeignAffairs, entre otros .Ha sido comentarista habitualsobreasuntosdenegociosytecnologíaparalaCBS,CNN,NPR,laBBCentreotros.Es miembro del World Economic Forum's global agenda council on data-drivendevelopment.

CukieresmiembrodeInternationalBridgestoJustice,unaONGconsedeenGinebraquepromuevelosderechoslegalesenlospaísesendesarrollo.TambiénesdirectordeTheOpenString,queproporcionainstrumentosdecuerdaalosniñosdesfavorecidos.Además,esmiembrodelajuntadeasesoresdeDanielPearlFoundationymiembrodeCouncilonForeignRelations.


Notas


[1]Google Flu Trends: Jeremy Ginsburg et al., “Detecting Influenza EpidemicsUsing Search Engine Query Data”, Nature, núm. 457, 2009, pp. 1012-1014(www.nature.com).<<


http://www.nature.com/nature/journal/v457/n7232/full/nature07634.html

[2]Estudio deGoogle Flu Trends por investigadores de la JohnsHopkins: A.F.Dugas et al., “Google Flu Trends: Correlation with Emergency DepartmentInfluenzaRatesandCrowdingMetrics”,CIDAdvancedAccess,8deenerode2012;DOI10.1093/cid/cir883.<<


[3]Adquisicióndebilletesdeavión,Farecast:lainformaciónprovienedeKennethCukier,“Data,DataEverywhere”,enTheEconomist,27defebrerode2010,pp.1-14,ydeentrevistasconEtzionicelebradasentre2010y2012.<<


[4] Proyecto Hamlet de Etzioni: Oren Etzioni, C. A.Knoblock, R. Tuchinda, yA.Yates,“ToBuyorNottoBuy:MiningAirfareDatatoMinimizeTicketPurchasePrice”,SIGKDD’03,24a27deagostode2003(knight.cis.temple.edu[PDF]).<<


http://knight.cis.temple.edu/~yates//papers/hamlet-kdd03.pdf

[5]PreciopagadoporMicrosoftporlacompradeFarecast:variosartículosenlosmedios de comunicación, en particular “Secret Farecast Buyer Is Microsoft”, enSeattlepi.com,17deabrilde2008(blog.seattlepi.com).<<


http://blog.seattlepi.com/venture/2008/04/17/secret-farecast-buyer-is-microsoft/

[6] Una forma de pensar sobre los datos masivos: hay un debate intenso eimproductivoacercadelorigendeltérminobigdataycómodefinirloalaperfección.Las dos palabras han aparecido juntas ocasionalmente desde hace décadas. Unartículo de investigación de 2001, escrito por Doug Laney de Gartner, definió las“tresVs”delosdatosmasivos(volumen,velocidad,yvariedad),loqueresultóútilensudía,aunqueimperfecto.<<


[7]AstronomíaysecuenciacióndeADN:Cukier,“Data,DataEverywhere”.<<


[8]Adiariocambiandemanossietemilmillonesdeacciones:RitaNazarethyJuliaLeite,“StockTradinginU.S.FallstoLowestLevelSince2008”,Bloomberg,13deagostode2012(www.bloomberg.com/).

Google24petabytes:ThomasH.Davenport,PaulBarth,yRandyBean,“How‘BigData’Is Different,” Sloan Review, 30 de julio de 2012, pp. 43-46(sloanreview.mit.edu/).

EstadísticasdeFacebook: folleto de oferta de suscripción pública de acciones deFacebook, “Form S-1 Registration Statement”, U.S. Securities And ExchangeCommission,1defebrerode2012(sec.gov).

Estadísticas de YouTube: Larry Page, “Update from the CEO”, Google, abril de2012(investor.google.com).

Número de tuits: Tomio Geron, “Twitter’s Dick Costolo: Twitter Mobile AdRevenue Beats Desktop on Some Days”, Forbes, 6 de junio de 2012(www.forbes.com).<<


http://www.bloomberg.com/news/2012-08-13/stock-trading-in-u-s-hits-lowest-level-since-2008-as-vixfalls.html

http://sloanreview.mit.edu/the-magazine/2012-fall/54104/how-big-data-is-different/

http://sec.gov/Archives/edgar/data/1326801/000119312512034517/d287954ds1.htm

http://investor.google.com/corporate/2012/ceoletter.html

http://www.forbes.com/sites/tomiogeron/2012/06/06/twitters-dick-costolo-mobile-ad-revenue-beats-desktop-on-some-days/

[9]Informaciónsobrelacantidaddedatos:MartinHilbertyPriscillaLópez,“TheWorld’sTechnologicalCapacitytoStore,Communicate,andComputeInformation”,Science, 1 de abril de 2011, pp. 60-65;MartinHilbert y Priscilla López, “How toMeasure theWorld’s TechnologicalCapacity toCommunicate, Store andComputeInformation?”, International Journal of Communication 2012, pp. 1042-1055(ijoc.org/).

Estimacióndelacantidaddeinformaciónalmacenadahasta2013:entrevistadeHilbertporCukier.<<


http://ijoc.org/index.php/ijoc/article/viewFile/1562/742

[10] La imprenta y ocho millones de libros; más que lo producido desde lafundación de Constantinopla: Elizabeth L. Eisenstein, The Printing Revolution inEarlyModernEurope,Cambridge:Canto/CambridgeUniversityPress,1993,pp.13-14.

Analogía de Peter Norvig: de las charlas de Norvig basadas en el artículo deA.Halevy,P.Norvig,yF.Pereira,“TheUnreasonableEffectivenessofData”,IEEEINTELLIGENTSYSTEMS,marzo-abrilde2009,pp.8-12.(ObsérvesequeeltítuloesunguiñoaldelfamosoartículodeEugeneWigner,“TheUnreasonableEffectivenessofMathematicsintheNaturalSciences”,enelqueconsideraporquélafísicapuedeexpresarseclaramenteconmatemáticasbásicas,perolascienciashumanasseresistenafórmulasdeesaelegancia.Véase:E.Wigner,“TheUnreasonableEffectivenessofMathematics in the Natural Sciences”, Communications on Pure and AppliedMathematics,vol.13,núm.1,1960,pp.1-14.Entre lascharlasdeNorvig sobreelartículo se halla: “Peter Norvig: The Unreasonable Effectiveness of Data”,conferencia en la universidad de Columbia Británica, vídeo en YouTube, 23 deseptiembrede2010(www.youtube.com).<<


http://www.youtube.com/watch?v=yvDCzhbjYWs

[11] Picasso comenta sobre las imágenes de Lascaux: David Whitehouse, “UKScienceShowsCaveArtDevelopedEarly”,BBCNEWSONLINE, 3 deoctubrede2001(news.bbc.co.uk).

Acercadecómoafectaeltamañofísicoalasleyesfísicasoperativas(aunquenoesdeltodocorrecto),lareferenciacitadamásamenudoesJ.B.S.Haldane,“OnBeingtheRightSize”,Harper’sMagazine,marzode1926(harpers.org/).<<


http://news.bbc.co.uk/1/hi/sci/tech/1577421.stm

http://harpers.org/archive/1926/03/on-being-theright-size/

[12] Sobre Jeff Jonas y cómo hablan los datos masivos: conversación con JeffJonas,diciembrede2010,París.<<


[13]Historia del censo de Estados Unidos: U.S. Census Bureau, “The HollerithMachine”,textoonline(www.census.gov).<<


http://www.census.gov/history/www/innovations/technology/the_hollerith_tabulator.html

[14] Contribución de Neyman: William Kruskal y Frederick Mosteller,“RepresentativeSampling,IV:TheHistoryoftheConceptinStatistics,1895-1939”,International Statistical Review, 48, 1980, pp. 169-195, pp. 187-188. El famosoartículo de Neyman es: Jerzy Neyman, “On the Two Different Aspects of theRepresentative Method: The Method of Stratified Sampling and the Method ofPurposiveSelection”,JournaloftheRoyalStatisticalSociety,vol.97,núm.4,1934,pp.558-625.

Basta con una muestra de 1100 observaciones: Earl Babbie, Practice of SocialResearch,12.ªed.,2010,pp.204-207.<<


[15]Efectodelteléfonomóvil:“EstimatingtheCellphoneEffect”,20deseptiembrede 2008 (www.fivethirtyeight.com); para saber más acerca de los sesgos en lasmuestras y otras revelaciones estadísticas, véase: Nate Silver, The Signal and theNoise:WhySoManyPredictionsFail,ButSomeDon’t,Penguin,2012.<<


http://www.fivethirtyeight.com/2008/09/estimating-cellphoneeffect-22-points.html

[16]SecuenciacióndelosgenesdeSteveJobs:WalterIsaacson,SteveJobs,SimonandSchuster,2011,pp.550-551.<<


[17]Google FluTrends predicción a nivel de ciudad: Dugas et al., “Google FluTrends”.

Etzioniacercadelosdatostemporales:EntrevistaporCukier,octubrede2011.<<


[18] Cita de John Kunze: Jonathan Rosenthal, “Special Report: InternationalBanking”,TheEconomist,19demayode2012,pp.7-8.

Combatesde sumoamañados:MarkDuggan y StevenD. Levitt, “Winning Isn’tEverything:Corruption inSumoWrestling”,AmericanEconomicReview 92, 2002,pp.1594-1605(pricetheory.uchicago.edu[PDF]).<<


http://pricetheory.uchicago.edu/levitt/Papers/DugganLevitt2002.pdf

[19]LosoncemillonesderayosdeluzdeLytro:extraídodelawebcorporativadeLytro(http://www.lytro.com).<<


http://www.lytro.com

[20] Sustitución del muestreo en las ciencias sociales: Mike Savage y RogerBurrows,“TheComingCrisisofEmpiricalSociology”,Sociology,Vol.41,núm.5,2007,pp.885-899.

Análisisdedatosingentesdeunoperadordetelefoníamóvil:J.-P.Onnelaetal.,“Structure andTieStrengths inMobileCommunicationNetworks”,Proceedings oftheNationalAcademyofSciencesoftheUnitedStatesofAmerica(pnas),104,mayode2007,pp.7332-7336(nd.edu[PDF]).<<


http://nd.edu/~dddas/Papers/PNAS0610245104v1.pdf

[21]Crosby:AlfredW.Crosby,TheMeasureofReality:QuantificationandWesternSociety1250-1600,CambridgeUniversityPress,1997.<<


[22]Acercade lascitasde lordKelvinyBacon:estosaforismossonampliamenteatribuidosaamboshombres,aunquelaformulaciónexactaensusobraspublicadasesligeramente diferente. En el caso de Kelvin, forma parte de una cita más extensasobre la medición, tomada de su conferencia “Electrical Units of Measurement”,1883.EncuantoaBacon,sesueleconsiderarunatraducciónaproximadadellatín,deMeditationesSacrae,1597.<<


[23]MuchasformasdereferirseaIBM:DJPatil,“DataJujitsu:TheArtofTurningDataintoProduct”,O’ReillyMedia,juliode2012(oreillynet.com).<<


http://oreillynet.com/oreilly/data/radarreports/datajujitsu.csp?cmp=tw-strata-books-data-products

[24] 30000 transacciones por segundo en la bolsa deNuevaYork: Colin Clark,“ImprovingSpeedandTransparencyofMarketData”,de9deenerode2011enelblogNYSEEURONEXT,(exchanges.nyx.com).

Laideadeque“2+2=3,9”:BrianHopkinsyBorisEvelson,“ExpandYourDigitalHorizonwithBigData”,Forrester,30deseptiembrede2011.<<


http://exchanges.nyx.com/cclark/improving-speedand-transparency-market-data

[25]Mejoras en los algoritmos: President’s Council of Advisors on Science andTechnology[ConsejodeasesoresdelPresidentesobrecienciay tecnología],Reportto the President and Congress, Designing a Digital Future: Federally FundedResearchandDevelopmentinNetworkingandInformationTechnology,diciembrede2010,p.71(www.whitehouse.gov[PDF]).

Tablasdefases finalesdepartidasdeajedrez:La tablamásampliadefinalesdepartidadisponiblepúblicamente, la “Nalimov tableset” (así llamadaporunode suscreadores), recogetodas las jugadasconseisomenospiezas.Sutamañosupera lossiete terabytes,ycomprimir la informaciónquecontienees todounreto.VéaseE.V.Nalimov, G.McC. Haworth, y E. A.Heinz, “Space-efficient Indexing of ChessEndgameTables”,ICGAJOURNAL,vol.23,núm.3,2000,pp.148-162.

Microsoftyrendimientosdealgoritmos:MicheleBankoyEricBrill, “Scaling toVery Very Large Corpora for Natural Language Disambiguation”, MicrosoftResearch,2001,p.3(acl.ldc.upenn.edu[PDF]).<<


http://www.whitehouse.gov/sites/default/files/microsites/ostp/pcast-nitrd-report-2010.pdf

http://acl.ldc.upenn.edu/P/P01/P01-1005.pdf

[26]DemodeIBM,palabrasycita:IBM,“701Translator”,comunicadodeprensa,archivos de IBM, 8 de enero de 1954 (www-03.ibm.com). Véase asimismo JohnHutchins,“TheFirstPublicDemonstrationofMachineTranslation:TheGeorgetown-IBM System, 7th January 1954”, noviembre de 2005 (www.hutchinsweb.me.uk[PDF]).<<


http://www-03.ibm.com/ibm/history/exhibits/701/701_translator.html

http://www.hutchinsweb.me.uk/GU-IBM-2005.pdf

[27]ProgramaCandidedeIBM:AdamL.Bergeretal.,“TheCandideSystemforMachineTranslation”,Proceedingsofthe1994arpaWorkshoponHumanLanguageTechnology,1994(aclweb.org[PDF]).

Historia de la traducción automática: Yorick Wilks, Machine Translation: ItsScopeandLimits,Springer,2008,p.107.<<


http://aclweb.org/anthology-new/H/H94/H94-1100.pdf

[28]LosmillonesdetextosdeCandidefrentealosmilesdemillonesdeGoogle:entrevistaaOchporCukier,diciembrede2009.

Elcorpusde95000millonesdefrasesdeGoogle:AlexFranzyThorstenBrants,“All Our N-gram are Belong to You”, post de 3 de agosto de 2006 en Google(googleresearch.blogspot.co.uk).<<


http://googleresearch.blogspot.co.uk/2006/08/all-our-n-gram-are-belong-to-you.html

[29]CorpusdeBrownyelbillóndepalabrasdeGoogle:Halevy,Norvig,yPereira,“TheUnreasonableEffectivenessofData”.

CitadelartículocoescritoporNorvig:ibid.<<


[30]BP,corrosióndetuberíasyentornohostilalascomunicacionesinalámbricas:JaclynClarabut,“OperationsMakingSenseofCorrosion”,BPMAGAZINE,núm.2,2011(www.bp.com[PDF]).Ladificultadde las lecturas inalámbricasdedatosestátomada de: Cukier, “Data, Data, Everywhere”. El sistema, obviamente, no esinfalible: un incendio en la refinería BP de Cherry Point en febrero de 2012 fueatribuidoaunatuberíacorroída.<<


http://www.bp.com/liveassets/bp_internet/globalbp/globalbp_uk_english/reports_and_publications/bp_magazine/STAGING/local_assets/pdf/BP_Magazine_2011_issue2_text.pdf

[31] Proyecto de los Mil Millones de Precios: Entrevista de Cukier a loscofundadores.Véaseasimismo:JamesSurowiecki,“ABillionPricesNow”,TheNewYorker,30demayode2011;puedenhallarsedatosydetallesen lapáginawebdelproyecto (http://bpp.mit.edu/); Annie Lowrey, “Economists’Programs Are BeatingU.S. at Tracking Inflation”, The Washington Post, 25 de diciembre de 2010(washingtonpost.com).<<


http://bpp.mit.edu/

http://www.washingtonpost.com/wpdyn/content/article/2010/12/25/AT2010122502600.html

[32]AcercadePriceStatscomoverificadordelasestadísticasnacionales:“OfficialStatistics: Don’t Lie to Me, Argentina”, The Economist, 25 de febrero de 2012(www.economist.com).<<



[33]Número de fotos en Flickr: información tomada de la página web de Flickr(www.flick.com).

Sobre el reto que supone clasificar la información, véase: David Weinberger,EverythingIsMiscellaneous:ThePoweroftheNewDigitalDisorder,Times,2007.<<


http://www.flick.com

[34]PatHelland:PatHelland,“IfYouHaveTooMuchDataThen‘GoodEnough’IsGoodEnough”,Communications of theACM, junio de 2011, pp. 40-41. Existe unvivodebateenelsenodelacomunidaddelasbasesdedatosacercadelosmodelosyconceptos mejor adaptados a las necesidades de los datos masivos. Hellandrepresenta al bando que apuesta por una ruptura radical con las herramientasempleadas en el pasado.Michael Rys, deMicrosoft, sostiene en “Scalable SQL”,Communicationsoftheacm,juniode2011,p.48,queversionesmuyadaptadasdelasherramientasyaexistentesfuncionarándemaravilla.<<


[35]VISAutilizaHadoop:Cukier,“Data,dataeverywhere”.<<


[36]Sólo el 5 por 100de las bases dedatos estánbien estructuradas:AbhishekMehta, “Big Data: Powering the Next Industrial Revolution”, Tableau SoftwareWhitePaper,2011(www.tableausoftware.com).<<


http://www.tableausoftware.com/learn/whitepapers/big-data-revolution

[37]InformaciónsobreLinden,asícomola“vozdeAmazon”:entrevistadeLindenporCukier,marzode2012.

TheWall Street Journal sobre los críticos deAmazon: citado en JamesMarcus,Amazonia: Five Years at the Epicenter of the Dot.Com Juggernaut (New Press,2004),p.128.<<


[38]CitadeMarcus:Marcus,Amazonia,p.199.<<


[39]Las recomendaciones suponen la tercerapartede los ingresosdeAmazon:estacifranuncahasidoconfirmadaoficialmenteporlacompañía,perohaaparecidoen numerosos informes de analistas y artículos en la prensa, incluyendo “BuildingwithBigData:TheDataRevolution IsChanging theLandscapeofBusiness”,TheEconomist, 26 de mayo de 2011 (www.economist.com). La cifra fue mencionadaasimismopordosantiguosdirectivosdeAmazonensendasentrevistasconCukier.

Información de precios de Netflix: Xavier Amatriain y Justin Basilico, “NetflixRecommendations:Beyondthe5stars(Part1)”,Netflixblog,6deabrilde2012.<<


http://www.economist.com/node/18741392/

[40]Dejarse “engañar por la aleatoriedad”: Nassim Nicholas Taleb, Fooled byRandomness,RandomHouse, 2008;paramás información, véaseNassimNicholasTaleb, The Black Swan: The Impact of the Highly Improbable, 2.ª ed., RandomHouse,2010.<<


[41]WalmartylasPop-Tarts:ConstanceL.Hays,“WhatWal-MartKnowsAboutCustomers’Habits”, The New York Times, 14 de noviembre de 2004(www.nytimes.com/).<<


http://www.nytimes.com/2004/11/14/business/yourmoney/14wal.html

[42]EjemplosdemodelospredictivosdeFICO,ExperianyEquifax:ScottThurm,“Next Frontier in Credit Scores: Predicting Personal Behavior”, The Wall StreetJournal,27deoctubrede2011(online.wsj.com/).

ModelospredictivosdeAviva:LeslieScismyMarkMaremont,“InsurersTestDataProfilestoIdentifyRiskyClients”,TheWallStreetJournal,19denoviembrede2010(online.wsj.com/). Véase asimismo: Leslie Scism y Mark Maremont, “InsideDeloitte’s Life-InsuranceAssessment Technology”,TheWall Street Journal, 19 denoviembre de 2010 (online.wsj.com). Véase también: Howard Mills, “Analytics:TurningData intoDollars”,ForwardFocus, diciembre de 2011 (www.deloitte.com[PDF]).<<





http://www.deloitte.com/assets/Dcom-UnitedStates/Local%20Assets/Documents/FSI/US_FSI_Forward%20Focus_Analytics_Turning%20data%20into%20dollars_120711.pdf

[43] Ejemplo de Target y la adolescente embarazada: Charles Duhigg, “HowCompanies Learn Your Secrets”, The New York Times, 16 de febrero de 2012www.nytimes.com). El artículo está adaptado del libro de Duhigg The Power ofHabit:WhyWeDoWhatWeDoinLifeandBusiness,RandomHouse,2012;Targetha declarado que hay inexactitudes en los informes periodísticos sobre susactividades,peronohaqueridoprecisarcuálessonesassupuestas inexactitudes.Alserpreguntadosalrespectoparaestelibro,unportavozdeTargetcomentó:“LametaesusarlosdatosdelclienteparaintensificarsurelaciónconTarget.Nuestrosclientesdeseanrecibirunvalorelevado,ofertasrelevantes,yunaexperienciasuperior.Comomuchas otras compañías, hacemos uso de herramientas de investigación paraayudarnos a entender las tendencias y preferencias de compra de la clientela, parapoderbrindarlesanuestrosclientesofertasypromocionesquesean relevantesparaellos. Nos tomamos muy en serio la responsabilidad de proteger la confianza denuestros clientes hacia la empresa. Una de las formas que tenemos de hacerlo esaplicandounapolíticadeprivacidadmuyamplia,quecompartimosabiertamenteenTarget.com, y ofreciendo formación periódica a los miembros de nuestro equipoacercadecómoprotegerlainformacióndelosclientes”.<<


http://www.nytimes.com/2012/02/19/magazine/shoppinghabits.html

[44]AnalíticapredictivadeUPS:entrevistasdeCukieraJackLevis,marzo,abril,yjuliode2012.<<


[45]Prematuros:basadoenentrevistasaMcGregorinenerode2010yabrilyjuliode 2012. Véase asimismo: CarolynMcGregor, Christina Catley, Andrew James, yJames Padbury, “Next Generation Neonatal Health Informatics with Artemis”, enEuropeanFederationforMedicalInformatics,UserCentredNetworkedHealthCare,editadoporA.Moenetal.,IOSPress,2011,p.117.AlgunosdetallesestánsacadosdeCukier,“Data,Data,Everywhere”.<<


[46]Sobre lacorrelaciónentre la felicidadyelnivelderenta:R. InglehartyH.-D.Klingemann,Genes,CultureandHappiness,MITPress,2000.

Acerca del sarampión y los gastos en atención sanitaria, así como las nuevasherramientas no lineales para el análisis de correlación: David Reshef et al.,“Detecting Novel Associations in Large Data Sets”, Science núm. 334, 2011,pp.1518-1524.<<


[47] Kahneman: Daniel Kahneman, Thinking, Fast and Slow, Farrar, Straus andGiroux,2011,pp.74-75.<<


[48]Pasteur: a los lectores interesados en la considerable influencia de Pasteur ennuestramaneradepercibirlascosas,lesrecomendamoslalecturadeBrunoLatouretal.,ThePasteurizationofFrance,HarvardUniversityPress,1993.

Riesgodecontraerlarabia:MelanieDiQuinzioyAnneMcCarthy,“RabiesRiskAmongTravellers”,CMAJ,vol.178,núm.5,2008,p.567.<<


[49]Raras veces puede demostrarse la causalidad: Judea Pearl, científica de lacomputacióngalardonadaconunPremioTuring,hadesarrolladounanuevamaneraderepresentarformalmenteladinámicacausal;aunquedistadeconstituirunapruebaformal,estosuponeunaaproximaciónpragmáticaalanálisisdeposiblesconexionescausales.Véase:JudeaPearl,Models,ReasoningandInference,2009.<<


[50]Ejemplodelcochenaranja:QuentinHardy.“Bizarre Insights fromBigData”,nytimes.com, 28 de marzo de 2012(http://bits.blogs.nytimes.com/2012/03/28/bizarre-insights-from-big-data/);yKaggle:“MomchilGeorgievSharesHisChromaticInsightfromDon’tGetKicked”,postenelblog,2defebrerode2012(http://blog.kaggle.com/2012/02/02/momchil-georgiev-shares-his-chromatic-insight-from-dont-get-kicked/).<<


http://bits.blogs.nytimes.com/2012/03/28/bizarre-insights-from-big-data/

http://blog.kaggle.com/2012/02/02/momchil-georgiev-shares-his-chromatic-insight-from-dont-get-kicked/

[51] Peso de las tapas de registro eléctrico, número de explosiones y altitudalcanzadaporelestallido:RachelEhrenberg,“PredictingtheNextDeadlyManholeExplosion”, WIRED, 7 de julio de 2010(http://www.wired.com/wiredscience/2010/07/manhole-explosions).<<


http://www.wired.com/wiredscience/2010/07/manhole-explosions

[52] Con Edison y los estadísticos de la universidad de Columbia. Este casoaparece descrito para un público no especialista en: Cynthia Rudin et al., “21st-Century Data Miners Meet 19th-Century Electrical Cables”, Computer, junio de2011, pp. 103-105. Las descripciones técnicas del trabajo están disponibles en losartículosacadémicosdeRudinysuscolaboradoresensuspáginasweb,enparticular,Cynthia Rudin et al., “Machine Learning for theNewYork City PowerGrid”, enIEEETRANSACTIONSONPATTERNANALYSISANDMACHINEINTELLIGENCE,vol.34,núm.2,2012,pp.328-345(hdl.handle.ne).

Confusión en torno al término “caja de acometida” (service box): la lista estátomada de Rudin et al., “21st-Century Data Miners Meet 19th-Century ElectricalCables”.

CitadeRudin:entrevistaconCukier,marzode2012.<<


http://hdl.handle.net/1721.1/68634

[53]PuntodevistadeAnderson:ChrisAnderson, “TheEndofTheory:TheDataDeluge Makes the Scientific Method Obsolete”, Wired, junio de 2008(http://www.wired.com/science/discoveries/magazine/16-07/pb_theory/).<<


http://www.wired.com/science/discoveries/magazine/16-07/pb_theory/

[54]MarchaatrásdeAnderson:NationalPublicRadio,“SearchandDestroy”,18dejuliode2008(www.onthemedia.org).<<


http://www.onthemedia.org/2008/jul/18/search-and-destroy/transcript/

[55] Sobre las elecciones que influyen en nuestro análisis: danah boyd y KateCrawford,“SixProvocationsforBigData”,ponenciapresentadaenelsimposiodelOxfordInternetInstitute“ADecadeinInternetTime:SymposiumontheDynamicsof the Internet and Society”, el 21 de septiembre de 2011(http://ssrn.com/abstract=1926431).<<


http://ssrn.com/abstract=1926431

[56]La información sobre la vida deMaury está reunida en numerosos trabajosescritosporélysobreél.Entreellos,ChesterG.Hearn,TracksintheSea:MatthewFontaineMauryandtheMappingoftheOceans,InternationalMarine/McGraw-Hill,2002;JaniceBeaty,SeekerofSeaways:ALifeofMatthewFontaineMaury,PioneerOceanographer, Pantheon Books, 1966; Charles Lee Lewis, Matthew FontaineMaury: The Pathfinder of the Seas, U.S. Naval Institute, 1927 (archive.org); yMatthewFontaineMaury,ThePhysicalGeographyoftheSea,Harper,1855.<<


http://archive.org/details/matthewfontainem00lewi

[57] Citas de Maury: tomadas de Maury, Physical Geography of the Sea,“Introduction”,pp.XII,vi.<<


[58]Datosdelosasientosdeloscoches:Nikkei,“CarSeatofNearFutureIDsDriver’sBackside”,14dediciembrede2011.<<


[59]Cuantificarelmundo:enbuenamedida,elpensamientodelosautoresacercadelahistoriadeladatificaciónhasidoinspiradoporCrosby,TheMeasureofReality.<<


[60]Loseuropeosnuncasevieronexpuestosalábaco:Ibid.,p.112.

Calcular seis veces más deprisa con guarismos arábigos que con tableros derecuento: Alexander Murray, Reason and Society in the Middle Ages, OxfordUniversityPress,1978,p.166.<<


[61] Total de libros publicados en el mundo, y estudio de Harvard sobre elproyecto de escaneado de libros de Google: Jean-Baptiste Michel et al.,“QuantitativeAnalysisofCultureUsingMillionsofDigitizedBooks”,Science,núm.331, 14 de enero de 2011, pp. 176-182(http://www.sciencemag.org/content/331/6014/176.abstract). Para una vídeoconferencia sobre el artículo, véaseErezLiebermanAideny Jean-BaptisteMichel,“WhatWeLearnedfrom5MillionBooks”,TEDx,Cambridge,Massachusetts,2011(www.ted.com).<<



http://www.ted.com/talks/what_we_learned_from_5_million_books.html

[62]Acercadelosmódulosinalámbricosencochesylasprimasdeseguros:VéaseCukier,“Data,DataEverywhere”.<<


[63]JackLevisdeUPS:EntrevistaporCukier,abrilde2012.

Datos acerca de los ahorros de UPS: Institute for Operations Research and theManagementSciences(INFORMS),“UPSWinsGartnerBIExcellenceAward,”2011(www.informs.org).<<


http://www.informs.org/Announcements/UPS-wins-Gartner-BI-Excellence-Award

[64]InvestigacionesdePentland:RobertLeeHotz,“TheReallySmartPhone”,TheWallStreetJournal,22deabrilde2011(online.wsj.com).

EstudiodeEagledelossuburbios:NathanEagle,“BigData,GlobalDevelopment,andComplexSystems”,SantaFe Institute,5demayode2010 (www.youtube.com[Vídeo]).Asimismo,entrevistaporCukier,octubrede2012.<<



http://www.youtube.com/watch?v=yaivtqlu7iM

[65]Datos de Facebook: tomados del folleto de oferta de suscripción pública deaccionesdeFacebook,2012(sec.gov).

DatosdeTwitter:Alexia Tsotsis, “Twitter Is at 250Million Tweets perDay, iOS5 Integration Made Signups Increase 3x”, TechCrunch, 17 de octubre de 2011(techcrunch.com).

Uso de Twitter por fondos de inversión: Kenneth Cukier, “Tracking SocialMedia: The Mood of the Market”, Economist.com, 28 de junio de 2012(economist.com).<<


http://sec.gov/Archives/edgar/data/1326801/000119312512034517/d287954ds1.htm

http://techcrunch.com/2011/10/17/twitter-is-at-250-milliontweets-per-day/

http://www.economist.com/blogs/graphicdetail/2012/06/trackingsocial-media

[66]TwitterylaprediccióndeingresosentaquillaenHollywood:SitaramAsuryBernardoA.Huberman,“Predicting theFuturewithSocialMedia”,Proceedingsofthe 2010 IEEE/WIC/ACM International Conference on Web Intelligence andIntelligent Agent Technology, pp. 492-499; versión online disponible en:www.hpl.hp.com[PDF].

Twitteryestadosdeánimoglobales:ScottA.GolderyMichaelW.Macy,“Diurnaland Seasonal Mood Vary with Work, Sleep, and Day-length Across DiverseCultures”,Science,núm.333,30deseptiembrede2011,pp.1878-1881.<<


http://www.hpl.hp.com/research/scl/papers/socialmedia/socialmedia.pdf

[67] Twitter y la vacunación contra la gripe: Marcel Salathé y ShashankKhandelwal, “Assessing Vaccination Sentiments with Online Social Media:Implications for Infectious Disease Dynamics and Control”, PLoS ComputationalBiology,octubrede2011.

Patentede“suelointeligente”deIBM:LydiaMaiDo,TravisM.Grigsby,PamelaAnn Nesbitt, y Lisa Anne Seacat, “Securing Premises Using Surface-BasedComputing Technology”, patente estadounidense, núm. 8138882, otorgada el 5 defebrerode2009.<<


[68]Movimientodel“sercuantificado”:“CountingEveryMoment”,TheEconomist,3demarzode2012.

Auriculares Apple para biomediciones: Jesse Lee Dorogusker, Anthony Fadell,Donald J. Novotney, y Nicholas R Kalayjian, “Integrated Sensors for TrackingPerformanceMetrics”,solicituddepatenteestadounidense20090287067.Solicitante:Apple. Fecha de solicitud: 23 de julio de 2009. Fecha de publicación: 19 denoviembrede2009.<<


[69]DerawiBiometrics,“YourWalkIsYourPIN-Code”,comunicadodeprensa,21defebrerode2011(biometrics.derawi.com).

InformaciónsobreiTrem:véaselapáginawebdelproyectoiTremenelLandmarcResearchCenterdeGeorgiaTech(eosl.gtri.gatech.edu),másintercambiodecorreoselectrónicos.

Investigadores de Kyoto sobre acelerómetros triaxiales: iMedicalApps Team,“Gait Analysis Accuracy: Android App Comparable to Standard AccelerometerMethodology”,mHealth,23demarzode2012.<<


http://biometrics.derawi.com/?p=175

http://eosl.gtri.gatech.edu/Capabilities/LandmarcResearchCenter/LandmarcProjects/iTrem/tabid/798/Default.aspx

[70]Los periódicos permitieron el auge del estado-nación: Benedict Anderson,ImaginedCommunities:ReflectionsontheOriginandSpreadofNationalism,Verso,2006.

Los físicos sugieren que la información es la base de todo: HansChristian vonBaeyer,Information:TheNewLanguageofScience,HarvardUniversityPress,2005.<<


[71]HistoriadeLuisvonAhn:basadoenentrevistasdeVonAhnporCukieren2010y2011.Véaseasimismo:CliveThompson,“ForCertainTasks,theCortexStillBeatstheCPU”,Wired,25dejuniode2007(www.wired.com);JessieScanlon,“LuisvonAhn:ThePioneerof‘HumanComputation’”,Businessweek,3denoviembrede2008(www.businessweek.com/).SudescripcióntécnicadelosreCaptchassehallaen:Luisvon Ahn et al., “ReCAPTCHA: Human-Based Character Recognition via WebSecurityMeasures”,Science, núm. 321, 12 de septiembre de 2008, pp. 1465-1468(www.sciencemag.org).<<


http://www.wired.com/techbiz/it/magazine/15-07/ff_humancomp?currentPage=all

http://www.businessweek.com/stories/2008-11-03/luis-von-ahn-the-pioneer-of-human-computation-businessweek-business-news-stock-market-and-financial-advice


[72]Ejemplo del fabricante de alfileres, de Smith: Adam Smith, The Wealth ofNations,reimpresión,BantamClassics,2003,libroI,capítulo1(versiónelectrónicagratuitadisponibleen:www2.hn.psu.edu[PDF]).

Almacenamiento:ViktorMayer-Schönberger,Delete:TheVirtueofForgettingintheDigitalAge,PrincetonUniversityPress,2011,p.63.<<


http://www2.hn.psu.edu/faculty/jmanis/adam-smith/Wealth-Nations.pdf

[73]Sobreelconsumodeenergíadeloscocheseléctricos:IBM,“IBM,Honda,andPG&EEnableSmarterChargingforElectricVehicles”,comunicadodeprensa,12deabrilde2012(www-03.ibm.com).Véaseasimismo:ClayLuthy,“GuestPerspective:IBM Working with PG&E to Maximize the EV Potential”, PGE CURRENTSMAGAZINE,13deabrilde2012(www.pgecurrents.com).<<


http://www-03.ibm.com/press/us/en/pressrelease/37398.wss

http://www.pgecurrents.com/2012/04/13/ibm-working-with-pge-to-maximize-the-ev-potential

[74]AmazonylosdatosdeAOL:entrevistasdeCukieraAndreasWeigend,2010y2012.<<


[75]ProgramaNuanceyGoogle:Cukier,“Data,DataEverywhere”.<<


[76]Empresa logística: Brad Brown, Michael Chui, y James Manyika, “Are YouReadyfortheEraof‘BigData’?”,McKinseyQuarterly,octubrede2011,p.10.<<


[77] Telefónica comercializa información de móviles: “Telefonica Hopes ‘BigData’Arm Will Revive Fortunes”, BBC ONLINE, 9 de octubre de 2012.(www.bbc.co.uk).

Estudio de laAsociaciónDanesa contra elCáncer: Patrizia Frei et al., “Use ofMobilePhonesandRiskofBrainTumours:UpdateofDanishCohortStudy”,BMJ,núm.343,2011(www.bmj.com),yentrevistaporCukier,octubrede2012.<<


http://www.bbc.co.uk/news/technology-19882647

http://www.bmj.com/content/343/bmj.d6387

[78]Google, registros de losGPS de Street View y coche autoconducido: PeterKirwan,“ThisCarDrivesItself”,Wireduk,enerode2012(www.wired.co.uk).<<


http://www.wired.co.uk/magazine/archive/2012/01/features/thiscar-drives-itself?page=all

[79]CorrectorortográficodeGoogleycitas:entrevistacelebradaporCukierenelGoogleplex,MountainView,California,diciembrede2009;algúnmaterialaparecetambiénenCukier,“Data,DataEverywhere”.<<


[80]IntuicióndeHammerbacher:entrevistaconCukier,octubrede2012.<<


[81]Barnes&Noble, análisis de datos de su libro electrónicoNook: AlexandraAlter,“YourE-BookIsReadingYou”,TheWallStreetJournal,29dejuniode2012(online.wsj.com).

ClaseCourseradeAndrewNgydatos:entrevistaporCukier,juniode2012.<<



[82] Política de gobierno abierto de Obama: Barack Obama, “Presidentialmemorandum”,CasaBlanca,21deenerode2009.<<


[83]AcercadelvalordelosdatosdeFacebook:puedehallarseunexcelenteanálisisdeladiscrepanciaentreelvalordemercadoyelvalorcontabledelaofertainicialalpúblicode las accionesdeFacebookenDougLaney, “ToFacebookYou’reWorth$80.95”,TheWallStreetJournal,3demayode2012(blogs.wsj.com).Parahacerunavaloracióndelaempresa,LaneyextrapolóapartirdelcrecimientodeFacebookparaestimar los2,1billonesdeunidadesde“contenidomonetizable”.EnsuartículodelWall Street Journal valoró las unidades a tres centavos cada una, porque estabaempleando una estimación anterior del valor de mercado de Facebook, de 75000millones de dólares.Al final, el valor superaba los 100000millones de dólares, ocincocentavoslaunidad,segúnnuestrapropiaextrapolaciónbasadaensucálculo.<<


http://blogs.wsj.com/cio/2012/05/03/to-facebook-youre-worth-80-95/

[84] Desfase en el valor de los activos físicos e intangibles: Steve M. Samek,“PreparedTestimony:HearingonAdapting a 1930’sFinancialReportingModel tothe21stCentury”,ComitédelSenadodeEstadosUnidossobrelaBanca,laViviendaylosAsuntosUrbanos,SubcomitésobreValores,19deJuliode2000.<<


[85]Valorde los intangibles:RobertS.KaplanyDavidP.Norton,StrategyMaps:Converting Intangible Assets into Tangible Outcomes, Harvard Business ReviewPress,2004,pp.4-5.<<


[86]CitadeTimO’Reilly:deunaentrevistaporCukier,febrerode2011.<<


[87] Información sobreDecide.com: cruce de correos electrónicos entre Cukier yEtzioni,mayode2012.<<


[88]InformedeMcKinsey:JamesManyikaetal.,“BigData:TheNextFrontierforInnovation, Competition, and Productivity,” McKinsey Global Institute, mayo de2011(www.mckinsey.com),p.10.<<


http://www.mckinsey.com/insights/mgi/research/technology_and_innovation/big_data_the_next_frontier_for_innovation

[89]CitadeHalVarian:entrevistaporCukier,diciembrede2009.<<


[90]Cita de Carl deMarcken, de ITA: intercambio de correos electrónicos conCukier,mayode2012.<<


[91]AcercadeMasterCardAdvisors:entrevistadeCukieraGaryKearns,directivodeMasterCardAdvisors,durantelaconferencia“TheIdeasEconomy:Information”auspiciadaporTheEconomist,SantaClara,California,8dejuniode2011.

Accenturey laciudaddeSt.Louis,Missouri: entrevistasdeCukieraempleadosmunicipales,febrerode2007.<<


[92]MicrosoftAmalgaUnifiedIntelligenceSystem: “MicrosoftExpandsPresenceinHealthcareITIndustrywithAcquisitionofHealthIntelligenceSoftwareAzyxxi”,comunicadodeprensadeMicrosoft,26de juliode2006(www.microsoft.com/).Elservicio Amalga forma parte ahora de la joint venture de Microsoft con GeneralElectricllamadaCaradigm.<<


http://www.microsoft.com/enus/news/press/2006/jul06/07-6azyxxiacquisitionpr.aspx

[93]BradfordCross:entrevistasporCukier,marzo-octubrede2012.<<


[94]Amazonyel“filtradocolaborativo”:folletodeofertadesuscripciónpúblicadeacciones,mayode1997(www.sec.gov[TXT]).<<


http://www.sec.gov/Archives/edgar/data/1018724/0000891020-97-000868.txt

[95]Microprocesadores en coches: Nick Valery, “Tech.View: Cars and SoftwareBugs”,Economist.com,16demayode2010(www.economist.com).

Maury llamaba a los barcos “observatorios flotantes”: Maury, The PhysicalGeographyoftheSea.<<


http://www.economist.com/blogs/babbage/2010/05/techview_cars_and_software_bugs

[96]Inrix:entrevistadeCukieravariosdirectivos,mayoyseptiembrede2012.<<


[97] Sobre el Health Care Cost Institute: Sarah Kliff, “A Database That CouldRevolutionizeHealthCare”,TheWashingtonPost,21demayode2012.<<


[98]AcuerdodeusodedatosdeDecide.com: intercambiode correos electrónicosentreCukieryEtzioni,mayode2012.<<


[99]InrixyABS:entrevistadeCukieradirectivosdeInrix,mayode2012.<<


[100]HistoriadeRoadnetycitadeLenKennedy:entrevistaporCukier,mayode2012.

AcuerdodeGoogleconITA:ClaireCainMiller,“U.S.ClearsGoogleAcquisitionofTravelSoftware”,TheNewYorkTimes,8deabrilde2011(www.nytimes.com).

Diálogosde la películaMoneyball, dirigidaporBennettMiller,ColumbiaPictures,2011.<<


http://www.nytimes.com/2011/04/09/technology/09google.html?_r=0

[101]LosdatosdeMcGregorrepresentanmásdeunadécadadeaños/paciente:entrevistaconCukier,mayode2012.

CitadeGoldbloom:deunaentrevistaporCukier,marzode2012.<<


[102]Acercadelos ingresosdelcinefrentealosdelosvidejuegos: respectoa laspelículas, véase Brooks Barnes, “A Year of Disappointment at the Movie BoxOffice”,TheNewYorkTimes,25dediciembrede2011 (www.nytimes.com).Sobrelosvideojuegos,véase“Factbox:ALookatthe$65billionVideoGamesIndustry”,Reuters,6dejuniode2011(uk.reuters.com).

Analítica de datos de Zynga: Nick Wingfield, “Virtual Products, Real Profits:Players Spend on Zynga’s Games, but Quality Turns Some Off”, The Wall StreetJournal,9deseptiembrede2011(online.wsj.com).<<


http://www.nytimes.com/2011/12/26/business/media/a-year-ofdisappointment-for-hollywood.html

http://uk.reuters.com/article/2011/06/06/us-videogames-factboxidUKTRE75552I20110606


[103]CitadeKenRudin: deunaentrevistadeRudinporNikoWaesche, citadaenErikSchlie,JörgRheinboldt,yNikoWaesche,SimplySeven:SevenWaystoCreateaSustainableInternetBusiness,PalgraveMacmillan,2011.

CitadeThomasDavenport:entrevistaaDavenportporCukier,diciembrede2009.

The-Numbers.com:entrevistasdeCukieraBruceNash,octubrede2011yjuliode2012.

EstudiodeBrynjolfsson:ErikBrynjolfsson,LorinHitt,yHeekyungKim,“Strengthin Numbers: How Does Data-Driven Decisionmaking Affect Firm Performance?”,documentodetrabajo,abrilde2011(papers.ssrn.com).<<


http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1819486

[104]AcercadeRolls-Royce:véase“Rolls-Royce:Britain’sLonelyHigh-Flier”,TheEconomist,8deenerode2009(www.economist.com).Cifrasactualizadascondatosdelaoficinadeprensa,noviembrede2012.<<



[105]Erik Brynjolfsson, Andrew McAfee, Michael Sorell, y Feng Zhu, “ScaleWithout Mass: Business Process Replication and Industry Dynamics,” HarvardBusinessSchool,documentodetrabajo,septiembrede2006(www.hbs.edu[PDF]ytambiénhbswk.hbs.edu).

Acerca del movimiento hacia titulares de datos cada vez más grandes: véasetambiénYannisBakosyErikBrynjolfsson, “Bundling InformationGoods:Pricing,Profits, and Efficiency”, Management Science, núm. 45, diciembre de 1999,pp.1613-1630.<<


http://www.hbs.edu/research/pdf/07-016.pdf

http://hbswk.hbs.edu/item/5532.html

[106]PhilipEvans:entrevistasconlosautores,2011y2012.<<


[107]SobrelaStasi:pordesgracia,granpartedelaliteraturaestáenalemán,perounaexcepción bien documentada es Kristie Macrakis, Seduced by Secrets: Inside theStasi’s Spy-Tech World, Cambridge University Press, 2008; Thimoty Garton Ashcomparte una historia muy personal en The File, Atlantic Books, 2008.Recomendamos asimismo la película ganadora de un Óscar La vida de los otros,dirigidaporFlorianHenckelvonDonnersmarck,BuenaVista/SonyPictures,2006.

Cámaras de vigilancia cerca del apartamento de Orwell: “George Orwell, BigBrother IsWatchingYourHouse”,enTheEveningStandard,31demarzode2007(www.thisislondon.co.uk).

SobreEquifaxyExperian,véase:DanielJ.Solove,TheDigitalPerson:TechnologyandPrivacyintheInformationAge,NYUPress,2004,pp.20-21.<<


http://www.thisislondon.co.uk/news/george-orwell-big-brother-is-watching-your-house-7086271.html

[108]AcercadelasdireccionesdelasmanzanasdeWashingtonenlasquevivíanjaponeses, comunicadas a las autoridades estadounidenses: J. R.Minkel, “TheU.S.CensusBureauGaveUpNamesof Japanese-Americans inWWII”,ScientificAmerican,30demarzode2007(www.scientificamerican.com).

SobrelosdatosusadosporlosnazisenlosPaísesBajos:WilliamSeltzeryMargoAnderson, “The Dark Side of Numbers: The Role of Population Data Systems inHumanRightsAbuses”,SocialResearch,vol.68,núm.2,2001,pp.481-513.

Información sobre IBM y el Holocausto: Edwin Black, IBM AND THEHOLOCAUST,Crown,2003.<<


http://www.scientificamerican.com/article.cfm?id=confirmed-the-us-census-b

[109]Acerca de la cantidad de datos que recogen los contadores inteligentes,véase:EliasLeakeQuinn,SmartMeteringandPrivacy:ExistingLawandCompetingPolicies;AReport for theColoradoPublicUtilityCommission, primaverade2009(www.w4ar.com [PDF]). Véase asimismo Joel M. Margolis, “When Smart GridsGrowSmartEnough toSolveCrimes,”Neustar, 18demarzode2010 (energy.gov[PDF])<<


http://www.w4ar.com/Danger_of_Smart_Meters_Colorado_Report.pdf

http://energy.gov/sites/prod/files/gcprod/documents/Neustar_Comments_DataExhibitA.pdf

[110] Fred Cate sobre la notificación y el consentimiento: Fred H. Cate, “TheFailure of Fair Information Practice Principles”, en JaneK.Winn (ed.),ConsumerProtectionintheAgeofthe“InformationEconomy”,Ashgate,2006,p.341yss.<<


[111]SobrelapublicacióndedatosdeAOL:MichaelBarbaroyTomZellerJr.,“AFaceIsExposedforAOLSearcherNo.4417749”,TheNewYorkTimes,9deagostode2006.VéaseasimismoMatthewKarnitschnigyMyleneMangalindan,“AOLFiresTechnologyChiefAfterWeb-SearchDataScandal”,TheWallStreetJournal,21deagostode2006.<<


[112] Sobre la identificación de una usuaria de Netflix: Ryan Singel, “NetflixSpilledYourBrokebackMountainSecret,LawsuitClaims”,Wired,17dediciembrede2009(www.wired.com).

Acerca de la publicación de datos de Netflix: Arvind Narayanan y VitalyShmatikov,“RobustDe-AnonymizationofLargeSparseDatasets”,enProceedingsofthe2008IEEESymposiumonSecurityandPrivacy,p.111yss. (www.cs.utexas.edu[PDF]);ArvindNarayananyVitalyShmatikov,“HowtoBreaktheAnonymityoftheNetflixPrizeDataset”,18deoctubrede2006,arXiv:cs/0610105[cs.CR](arxiv.org).

Identificara lagenteapartirdetrescaracterísticas:PhilippeGolle,“Revisitingthe Uniqueness of Simple Demographics in the US Population”, Association forComputingMachineryWorkshoponPrivacyinElectronicSociety,5(2006),p.77.

Sobreladebilidadestructuraldelaanonimización:PaulOhm,“BrokenPromisesofPrivacy:UCLALAWREVIEW”,vol.57,2010,p.1701.

Acercadelanonimatodelagráficasocial:LarsBackstrom,CynthiaDwork,yJonKleinberg, “Wherefore Art Thou R3579X? Anonymized Social Networks, HiddenPatterns, and Structural Steganography”, Communications of the Association ofComputingMachinery,diciembrede2011,p.133.<<


http://www.wired.com/threatlevel/2009/12/netflix-privacy-lawsuit/

http://www.cs.utexas.edu/~shmat/shmat_oak08netflix.pdf

http://arxiv.org/abs/cs/0610105

[113]Las “cajas negras” de los coches: “Vehicle Data Recorders:Watching YourDriving”,TheEconomist,23dejuniode2012(www.economist.com).<<



[114]RecogidadedatosporlaNSA:DanaPriestyWilliamArkin,“AHiddenWorld,Growing Beyond Control”, The Washington Post, 19 de julio de 2010(projects.washingtonpost.com).JuanGonzalez,“Whistleblower:TheNSAIsLying-U.S.GovernmentHasCopiesofMostofYourEmails”,DemocracyNow,20deabrilde2012(www.democracynow.org).WilliamBinney,“SwornDeclarationintheCaseofJewelv.NSA”,archivadoel2dejuliode2012(publicintelligence.net/).

Cómo ha cambiado la vigilancia con los datosmasivos: Patrick Radden Keefe,“Can Network Theory Thwart Terrorists?”, The New York Times, 12 de marzo de2006(www.nytimes.com).<<


http://projects.washingtonpost.com/top-secret-america/articles/a-hidden-world-growing-beyond-control/print/

http://www.democracynow.org/2012/4/20/whistleblower_the_nsa_is_lying_us

http://publicintelligence.net/binney-nsa-declaration/

http://www.nytimes.com/2006/03/12/magazine/312wwln_essay.html

[115] Diálogos de la película Minority Report, dirigida por Steven Spielberg,DreamWorks/20thCenturyFox,2002.Eldiálogoquecitamoshasidoacortadomuyligeramente.Lapelícula estábasada enun relato cortode1958dePhilipK.Dick,pero hay diferencias sustanciales entre las dos versiones. En concreto, la escenainicial con el marido cornudo no aparece en el libro, y el acertijo filosófico queplanteaelPreCrimensepresentadeformamástajanteenelfilmedeSpielbergqueenel relato. De ahí que hayamos preferido establecer nuestros paralelismos con lapelícula.<<


[116]Ejemplos de “policía predictiva”: James Vlahos, “The Department Of Pre-Crime”,ScientificAmerican,núm.306,enerode2012,pp.62-67.

Acerca de la Tecnología de Exploración de Atributos Futuros (FAST), véase:SharonWeinberger, “Terrorist ‘Pre-crime’Detector Field Tested in United States”,Nature, 27 de mayo de 2011 (www.nature.com); Sharon Weinberger, “Intent toDeceive”,Nature,465,mayode2010,pp.412-415.Sobreelproblemadelosfalsospositivos,véaseAlexanderFurnas,“HomelandSecurity’s‘Pre-Crime’ScreeningWillNeverWork”,TheAtlanticOnline,17deabrilde2012(www.theatlantic.com).<<


http://www.nature.com/news/2011/110527/full/news.2011.323.html

http://www.theatlantic.com/technology/archive/2012/04/homeland-securitys-pre-crime-screening-will-never-work/255971/

[117]Sobrelasnotasdelosestudiantesylasprimasdelaspólizasdeseguros:TimQuery,“Grade Inflationand theGood-StudentDiscount”,ContingenciesMagazine,American Academy of Actuaries, mayo-junio de 2007 (www.contingencies.org/[PDF]).

Acerca de los peligros del “perfilado”: Bernard E.Harcourt,Against Prediction:Profiling,Policing,andPunishinginanActuarialAge,UniversityofChicagoPress,2006.<<


http://www.contingencies.org/mayjun07/tradecraft.pdf

[118]Acerca del trabajo de Richard Berk: “The Role of Race in Forecasts ofViolentCrime”,RaceandSocialProblems,núm.1,2009,pp.231-242,yentrevistaporcorreoelectrónicoporCukier,noviembrede2012.<<


[119] Sobre la pasión de McNamara por los datos: Phil Rosenzweig, “RobertS.McNamaraandtheEvolutionofModernManagement”,HarvardBusinessReview,diciembrede2010(hbr.org).<<


http://hbr.org/2010/12/robert-s-mcnamara-and-the-evolution-of-modern-management/ar/pr

[120]Sobreeléxitodelos“cerebritos”durantelaSegundaGuerraMundial:JohnByrne,TheWhizKids,Doubleday,1993.

SobreMcNamaraenlaFord:DavidHalberstam,TheReckoning,WilliamMorrow,1986,pp.222-245.

LibrodeKinnard:DouglasKinnard,TheWarManagers,UniversityPressofNewEngland,1977,pp.71-25.EstasecciónsehabeneficiadodeunaentrevistaporcorreoelectrónicoconelDr.Kinnard,atravésdesuasistente,porlaquelosautoresdeseanexpresarsugratitud.<<


[121]Lacita“EnDiosconfiamos…”seatribuyeamenudoaW.EdwardsDeming.

AcercadeTedKennedyylalistadeexcluidosdelosvuelos,véase:SaraKehaulaniGoo,“Sen.KennedyFlaggedbyNo-FlyList”,TheWashingtonPost,20deagostode2004,p.A01(www.washingtonpost.com).<<


http://www.washingtonpost.com/wpdyn/articles/A17073-2004Aug19.html

[122]Acercade losmétodosdecontratacióndeGoogle, véase:Douglas210, I’mFeelingLucky:TheConfessionsofGoogleEmployeeNumber59,HoughtonMifflinHarcourt,2011,p.9.Véaseasimismo:StevenLevy,InthePlex,SimonandSchuster,2011, pp. 140-141. Resulta irónico que los cofundadores de Google quisierancontratar a Steve Jobs como director general (a pesar de carecer de títulouniversitario);Levy,p.80.

Sobre la prueba con cuarenta y un matices de azul, véase: Laura M. Holson,“Putting a Bolder Face on Google”, The New York Times, 1 de marzo de 2009(www.nytimes.com).

Acerca de la dimisión del diseñador jefe deGoogle: la cita está extractada (sinelipsisenarasde la legibilidad)deDougBowman,“Goodbye,Google”,postenelblog20demarzode2009(stopdesign.com).<<


http://www.nytimes.com/2009/03/01/business/01marissa.html

http://stopdesign.com/archive/2009/03/20/goodbye-google.html

[123]La cita de Steve Jobs procede de Steve Lohr, “Can Apple Find More HitsWithout Its Tastemaker?”, The New York Times, 18 de enero de 2011, p. B1(www.nytimes.com/).

EllibrodeScott:JamesScott,SeeinglikeaState:HowCertainSchemestoImprovetheHumanConditionHaveFailed,YaleUniversityPress,1998.

LacitadeMcNamarade1967procededeundiscursoenMillsapsCollege,Jackson,Mississippi,citadoenelHarvardBusinessReviewdediciembrede2010.<<


http://www.nytimes.com/2011/01/19/technology/companies/19innovate.html

[124]AcercadeladisculpadeMcNamara,véase:RobertS.McNamaraconBrianVanDeMark, In Retrospect: The Tragedy and Lessons of Vietnam, RandomHouse,1995,pp.48,270.<<


[125]SobrelacoleccióndelibrosdelabibliotecadelauniversidaddeCambridge,véase:MarcDrogin,Anathema!MedievalScribesand theHistoryofBookCurses,AllanheldandSchram,1983,p.37.<<


[126]Acercadelaresponsabilidadylaprivacidad:elCentreforInformationPolicyLeadership[CentrodeLiderazgodelaPolíticadelaInformación]sehaimplicadoenun proyecto multianual sobre el interfaz de responsabilidad y privacidad; véasewww.informationpolicycentre.com/.<<


http://www.informationpolicycentre.com/accountabilitybased_privacy_governance/

[127]Encuantoalasfechasdeexpiracióndelosdatos,véaseMayer-Schönberger,Delete.<<


[128]“Privacidaddiferencial”:CynthiaDwork,“AFirmFoundationforPrivateDataAnalysis”,Communicationsoftheacm,enerode2011,pp.86-95.<<


[129]Facebooky laprivacidaddiferencial:A.ChinyA.Klinefelter, “DifferentialPrivacyasaResponsetotheReidentificationThreat:TheFacebookAdvertiserCaseStudy”,NorthCarolinaLawReview,vol.90,núm.5,2012,p.1417;A.Haeberlenetal.,“DifferentialPrivacyUnderFire”,www.cis.upenn.edu[PDF].<<


http://www.cis.upenn.edu/~ahae/papers/fuzz-sec2011.pdf

[130]Empresassospechosasdecolusión:yahaytrabajosenestecampo;véasePimHeijnen,MarcoA.Haan,yAdriaanR.Soetevent,“ScreeningforCollusion:ASpatialStatistics Approach”, Discussion Paper TI 2012-058/1, Instituto Tinbergen, PaísesBajos,2012(www.tinbergen.nl[PDF]).<<


http://www.tinbergen.nl/discussionpapers/12058.pdf

[131]Sobre los representantes corporativos alemanesde laproteccióndedatos,véase: Viktor Mayer-Schönberger, “Beyond Privacy, Beyond Rights: Towards a‘Systems’Theory of Information Governance”, California Law Review, vol. 98,2010,p.1853.<<


[132]Acercadelainteroperabilidad,consúltese:JohnPalfreyyUrsGasser,Interop:ThePromiseandPerilsofHighlyInterconnectedSystems,BasicBooks,2012.<<


[133]Mike Flowers y la analítica de la ciudad de Nueva York: basado en unaentrevistahechaporCukier,juliode2012.Puedehallarseunabuenadescripciónen:AlexHoward, “PredictiveDataAnalytics IsSavingLives andTaxpayerDollars inNewYorkCity”,O’ReillyMedia,26dejuniode2012(strata.oreilly.com).<<


http://strata.oreilly.com/2012/06/predictive-data-analytics-big-datanyc.html

[134] Walmart y las “Pop-Tarts”: Hays, “What Wal-Mart Knows AboutCustomers’Habits”.<<


[135]Sobreelusodelosdatosmasivosenlossuburbiosyenlamodelizacióndemovimientosderefugiados,véase:NathanEagle,“BigData,GlobalDevelopment,andComplexSystems”,www.youtube.com[Vídeo].<<


http://www.youtube.com/watch?v=yaivtqlu7iM

[136]Lapercepcióndeltiempo:BenedictAnderson,ImaginedCommunities,Verso,2006.

“Lopasadoeselprólogo”:WilliamShakespeare,Latempestad,acto2,escenaI.<<


[137]El experimentodelCERNy el almacenamientodedatos: cruce de correoselectrónicosentreCukiereinvestigadoresdelCERN,noviembrede2012.

Sobre el sistema informático del Apolo 11: David A. Mindell, Digital Apollo:HumanandMachineinSpaceflight,MITPress,2008.<<


Un análisis esclarecedor sobre uno de los grandes temas de ...

Documents

Transcript of Un análisis esclarecedor sobre uno de los grandes temas de ...