Una visita prèvia al nou manual de Periodisme de dades

Probablement ja hàgiu escoltat que estem treballant dur a terme la publicació de la segona edició del Manual de Periodisme de dades a finals d’aquest any. Estem encantats de compartir amb vostès la visualització prèvia d’un dels capítols seleccionats per investigar plataformes i algorismes.

A la seva peça, The Algorithms Beat, Nicholas Diakopoulos (Northwestern University) parla sobre la qüestió candent de l’informe algorísmic de rendició de comptes. “En el meu capítol sobre els informes algorísmics de rendició de comptes, espero obrir els ulls dels periodistes de dades a un nou enfocament centrat en vigilar l’ús d’algorismes en la societat. La presa de decisions algorítmiques només continuarà creixent en l’ús del sector públic i privat, i els periodistes han de ser equipats conceptualment i metodològicament per emprendre investigacions incisives sobre aquests sistemes.”

El següent és un esborrany de treball d’un capítol del Manual de Periodisme de dades, que es publica com una vista prèvia abans de la publicació de la versió final a Amsterdam University Press.

The Algorithms Beat, per Nicholas Diakopoulos, Northwestern University, School of Communication

La sèrie Machine Bias de ProPublica va començar al maig de 2016 com un esforç per investigar algorismes en la societat. Potser el més sorprenent de la sèrie va ser una investigació i anàlisi que exposava el biaix racial dels algorismes d’avaluació del risc de reincidència utilitzats en les decisions de justícia penal. Aquests algorismes puntuen individus segons si es tracta d’un risc baix o alt de reincidència. Els estats i altres municipis utilitzen diverses puntuacions per gestionar la detenció prèvia a judici, la llibertat condicional, la llibertat condicional i fins i tot la sentència. Els periodistes de ProPublica van presentar una sol·licitud de registres públics de les puntuacions del Comtat de Broward a Florida i després van comparar aquestes puntuacions amb les històries criminals reals per veure si un individu s’havia recidivat en un termini de dos anys. L’anàlisi de les dades mostrava que els acusats negres tendien a ser assignats amb puntuacions de risc més altes que els acusats blancs, i eren més propensos a ser erròniament etiquetats com a alt risc quan, de fet, després de dos anys no havien estat reelegats.

La puntuació en el sistema de justícia penal és, per descomptat, només un domini en el qual s’estan desplegant algorismes en la societat. La sèrie Machine Bias ha cobert des del sistema d’orientació d’anuncis de Facebook fins a taxes d’assegurances d’automòbils geogràficament discriminatòries i pràctiques de preus injustes a Amazon.com. La presa de decisions algorítmiques és cada cop més generalitzada tant al sector públic com al privat. Ho veiem en dominis com el risc de crèdit i risc d’assegurança, sistemes d’ocupació, gestió de benestar, classificació educativa i docent, i la curació de mitjans en línia, entre molts altres. Operant a escala i que sovint afecten grans grups de persones, els algoritmes poden fer decisions de càlcul, classificació, classificació, associació i filtratge conseqüents i de vegades contestables. Els algoritmes, animats per munts de dades, són una nova i potent manera de manipular el poder a la societat.

Tal com demostra la sèrie de Màgia Bia de ProPublica, s’està creant un nou conjunt de periodisme computacional i de dades per investigar i responsabilitzar-se de la manera com s’exerceix el poder a través d’algorismes. Vull donar a aquest informe algorísmic de rendició de comptes, una reorientació de la tradicional funció de vigilància del periodisme cap al poder emprat pels algoritmes. Malgrat la seva objectivitat ostensible, els algorismes poden i fan errors i incrusten els biaixos que justifiquen un escrutini més proper. A poc a poc, un cop d’avantatge sobre els algorismes es converteix en una combinació de competències periodístiques amb habilitats tècniques per proporcionar l’escrutini que els algoritmes es mereixen.

Al decidir què constitueix el ritme, és útil primer definir quins són els interessants dels algoritmes. Un algoritme és un conjunt ordenat de passos seguits per resoldre un problema particular o per aconseguir un resultat definit, prenen decisions. El punt crucial de la potència algorítmica sovint es redueix a la capacitat de les computadores de prendre decisions algorítmiques amb gran rapidesa i escala, que poden afectar un gran nombre de persones. El que fa que un algorisme sigui rellevant per a la notícia és quan, d’alguna manera, es pren una decisió “dolenta”. Això podria implicar un algorisme fent alguna cosa que no se suposa que havia de fer, o potser no fent alguna cosa que se suposa que ho fa. Per al periodisme, la importància pública i les conseqüències d’una mala decisió són factors clau. Quin és el dany potencial per a un individu o per a la societat? Les males decisions podrien afectar els individus directament o conduir de manera global a problemes com el biaix. Les males decisions també poden ser costoses. Vegem com diverses decisions dolentes poden portar a les notícies.

Angles sobre algorismes.- En la meva recerca, he identificat quatre forces motores diferents per a les històries de rendició de comptes algorítmiques: discriminació i injustícia, errors o errors en prediccions o classificacions, violacions de normes legals o socials, i mal ús d’algorismes per part de les persones de manera intencionada o inadvertida. Exemples d’històries de responsabilitat algorísmica específiques seran il·lustratius aquí.

Discriminació i injustícia.- El descobriment de la discriminació i la injustícia és un tema comú en l’informe algorísmic de rendició de comptes. La història de ProPublica que va liderar aquest capítol és un exemple sorprenent de com un algoritme pot conduir a disparitats sistemàtiques en el tractament de diferents grups de persones. Northpoint, l’empresa que va dissenyar les puntuacions de l’avaluació de riscos, va argumentar que les puntuacions van ser igualment precises en les carreres i, per tant, eren justes. Però la seva definició d’equitat no va tenir en compte el volum desproporcionat d’errors que van afectar a les persones negres. Les històries de discriminació i injustícia se centren en la definició d’equitat aplicada, que pot reflectir diferents suposicions polítiques.

També he treballat en històries que revelen la manca d’injustícia a causa dels sistemes algorítmics, en particular, observant com la dinàmica de preus d’Uber pot afectar de manera diferencial als barris a Washington, DC. Sobre la base de les observacions inicials dels diferents temps d’espera i com aquests canvis de temps es van canviar segons l’algoritme de preus de sobrecàrrega d’Uber, vam plantejar la hipòtesi que diferents barris tindrien diferents nivells de qualitat de servei (és a dir, temps d’espera). Mitjançant el mostreig sistemàtic dels temps d’espera en diferents terminis del cens, es va mostrar que els trams censals amb més persones de color tendeixen a tenir un temps d’espera més llarg per a un cotxe, fins i tot controlant altres factors com l’ingrés, la taxa de pobresa i la densitat de població del barri . És difícil incloure el resultat injust directament a l’algoritme d’Uber perquè altres factors humans també condueixen el sistema, com ara el comportament i els possibles biaixos dels conductors Uber. Però els resultats suggereixen que, quan es considera en conjunt, el sistema presenta una disparitat associada a la demografia.

Errors i errors.- Algorismes també poden ser periodístics quan cometen errors o errors específics en la seva classificació, predicció o decisió de filtratge. Tingueu en compte el cas de plataformes com Facebook i Google que utilitzen filtres algorítmics per reduir l’exposició a continguts nocius com el discurs d’odi, la violència i la pornografia. Això pot ser important per a la protecció de poblacions vulnerables específiques, com els nens, especialment en productes com YouTube Kids de Google que es comercialitzen explícitament com a segurs per als nens. Els errors en l’algoritme de filtratge de l’aplicació són d’interès periodístic perquè volen dir que, de vegades, els nens es troben amb contingut inadequat o violent [8]. Clàssicament, els algoritmes fan dos tipus d’errors: falsos positius i falsos negatius. A l’escenari de YouTube Kids, un fals positiu seria un vídeo classificat per error com a inadequat quan en realitat és totalment bo per als nens. Un fals negatiu és un vídeo classificat com a apropiat quan en realitat no és una cosa que vulgueu mirar tipus.

Les decisions de classificació afecten els individus quan augmenten o disminueixen el tractament positiu o negatiu que rep un individu. Quan un algoritme selecciona erròniament un individu per rebre gelats lliures (augment del tractament positiu), no se sentirà queixa individual (encara que quan es descobreix altres, pot dir que és injust). Els errors generalment són rellevants quan generen un tractament negatiu més gran per a una persona, com ara exposar un nen a un vídeo inadequat. Els errors també són rellevants quan condueixen a una disminució del tractament positiu per a un individu, com quan una persona no té oportunitat. Imagineu-vos un comprador qualificat que mai no obtingui una oferta especial perquè un algoritme els exclou per error. Finalment, els errors poden ser rellevants quan causen una disminució de l’atenció negativa garantida. Penseu en la possibilitat de considerar un algorisme d’avaluació del risc criminal per etiquetar erròniament un individu d’alt risc com de baix risc: un fals negatiu. Tot i que això és genial per a l’individu, això crea un major risc per a la seguretat pública deixant lliure a un individu que torna a cometre un delicte.

Violacions de normes legals i socials.- Alguns algoritmes predictius a vegades poden provar els límits de les normes legals o socials establertes, donant lloc a altres oportunitats i angles per a la cobertura. Considerem per un moment la possibilitat de la difamació algorítmica. La difamació es defineix com “una falsa declaració de fet que exposa una persona a l’odi, la ridícula o el menyspreu, la redueix a l’estima dels seus companys, fa que sigui rebutjada o que la perjudiqui en el seu negoci o comerç”. Durant els últims anys s’han produït nombroses històries i batalles legals sobre persones que senten que han estat difamades per l’algorisme d’autocompletar de Google. Una compleció automàtica pot vincular el nom d’un individu o empresa a tot, des del delicte i el frau fins a la fallida o la conducta sexual, que poden tenir conseqüències sobre la reputació.

Algorismes també poden ser periodístics quan incideixen en normes socials com la privadesa. Per exemple, Gizmodo ha estat cobrint l’algoritme “People You May Know” (PYMK) a Facebook, que suggereix “amics” potencials a la plataforma que de vegades són inadequats o no desitjats. En una història, els periodistes van identificar un cas en què PYMK va treure la identitat real d’un treballador sexual als seus clients. Això és problemàtic no només pel possible estigma associat al treball sexual, sinó també per temor als clients que podrien esdevenir encalçats.

La violació de la difamació i la privacitat només són dos possibles angles de la història aquí. Els periodistes haurien d’estar al corrent d’una sèrie d’altres violacions de normes legals o socials que els algorismes poden generar en diversos contextos socials.

Mal ús humà.- Les decisions algorítmiques sovint estan incrustades en processos de presa de decisions més grans que impliquen persones i algorismes, els anomenats sistemes sociotècnics. Si els algoritmes són mal usats per les persones del conjunt sociotècnic, això també pot ser rellevant. Els dissenyadors d’algorismes a vegades poden anticipar i articular pautes per a un conjunt de contextos raonables d’ús per a un sistema, de manera que si la gent ignora aquestes pràctiques, pot conduir a una història de negligència o mal ús. La història d’avaluació del risc de ProPublica proporciona un exemple destacable. Northpointe havia creat, de fet, dues versions i calibracions de l’eina, una per a homes i una altra per a dones. Els models estadístics han de ser entrenats en dades que reflecteixin la població on s’utilitzaran i el gènere és un factor important en la predicció de reincidència. El Comtat de Broward estava usant malament la puntuació de risc dissenyada i calibrada per als homes utilitzant-la també per a dones.

Com investigar un algorisme.- Hi ha diverses rutes per a la investigació del poder algorítmic. Algunes històries poden requerir mètodes que es basen en tècniques d’auditoria de les ciències socials, mentre que altres subprocessos es poden exposar a través de l’empenyiment i l’empenyiment de reaccions algorítmiques. L’adquisició de serveis periodístics tradicionals per parlar amb empreses privades com ara dissenyadors, desenvolupadors i científics de dades, així com presentar sol·licituds de registres públics i trobar els individus afectats són tan importants com sempre. Hi ha més mètodes del que puc cobrir en aquest breu capítol, però vull parlar com a mínim sobre com els periodistes poden utilitzar l’auditoria per investigar algoritmes.

Les tècniques d’auditoria s’han utilitzat durant dècades per estudiar biaix social en sistemes com els mercats d’habitatge. Algorismes es poden estudiar amb mètodes similars. La premissa és que si les entrades als algorismes es varien de manera prou diferent i es controlen les sortides, les entrades i els resultats es poden correlacionar per construir una teoria de com pot estar funcionant l’algoritme. Si tenim algun resultat esperat que l’algoritme viola per una entrada determinada, això pot ajudar a tabular els errors i veure si els errors són parcials de manera sistemàtica. Per a algorismes personalitzats, les tècniques d’auditoria s’han casat amb crowdsourcing per tal de recollir dades d’un rang de persones que cada un pot tenir una “vista” única de l’algoritme. Algorisme Watch a Alemanya ha utilitzat aquesta tècnica de forma efectiva per estudiar la personalització dels resultats de la cerca de Google, recollint gairebé 6 milions de resultats de cerca de més de 4.000 usuaris que van compartir dades a través d’un complement del navegador. Gizmodo ha utilitzat una variant d’aquesta tècnica per ajudar a investigar el PYMK de Facebook. Els usuaris descarreguen una peça de programari al seu ordinador que periòdicament registra els resultats de PYMK localment a l’ordinador de l’usuari, mantenint la seva privacitat. Els periodistes demanen consells dels usuaris que pensen que els seus resultats són preocupants o sorprenents.

Recomanacions avançant cap endavant.- Per començar i treure el màxim profit dels informes de rendició de comptes algorítmica, recomano tres coses. En primer lloc, hem desenvolupat un recurs anomenat Algorithm Tips ( http://algorithmtips.org/), que proporciona no només indicadors de mètodes útils i altres exemples, sinó que també proporciona una base de dades actualitzada d’algorismes en ús al govern federal dels EUA que pot ser digne d’investigació. Si esteu buscant un recurs per ajudar a obtenir alguna cosa del sòl, aquest podria ser el vostre punt de partida. En segon lloc, centrar-se en els resultats i els impactes dels algoritmes en lloc d’intentar explicar el mecanisme exacte per a la seva presa de decisions. Identificar la discriminació algorítmica (és a dir, una sortida) sovint té més valor per a la societat com un pas inicial que explicar exactament com va sorgir aquesta discriminació. En centrar-se en els resultats, els periodistes poden proporcionar un diagnòstic de primer ordre i assenyalar una alarma a la qual altres persones interessades poden aprofundir. Finalment, gran part dels informes publicats sobre la rendició de comptes algorítmica que he esmentat aquí es realitzen en equips i amb bones raons. L’elaboració d’informes rendibles per a la rendició de comptes algorítmica requereix totes les habilitats tradicionals que els periodistes necessiten per informar i entrevistar, conèixer el domini d’un ritme, sol·licitar registres públics i escriure resultats amb claredat i convicció, a més d’una sèrie de noves capacitats com raspallar i netejar dades, dissenyar estudis d’auditoria i utilitzar tècniques estadístiques avançades. La competència en aquests diferents àmbits es pot distribuir entre un equip, sempre que hi hagi una comunicació clara, consciència i lideratge. Els especialistes en mètodes poden associar-se amb diferents experts del domini per comprendre el poder algorítmic en una gran varietat de dominis socials.

En resum.- Operant a escala i sovint afectant a grans grups de persones, els algorismes prenen decisions conseqüencials i, de vegades, contestables en un rang de dominis creixent en tots els sectors públic i privat. Un clar cop de periodisme s’està generant per englobar la investigació del poder social exercit a través d’aquests algorismes. Aquest capítol examina aquest cop i ofereix quatre angles periodístics per als periodistes computacionals i de dades que busquen cobrir algoritmes: discriminació i injustícia, errors i errors, violacions de normes socials i legals, i mal ús humà. Aquests són il·lustrats amb exemples.

Per: European Journalism Centre
Font Imatge: datajournalismhandbook.org

Skip links

Més noticies