Eettisyyttä etsimässä

Luotsiva-hankkeen tutkimussuunnitelman eettinen ennakkoarviointi ja sen vertaisarviointi Rajapintapäivillä

Internetin, sosiaalisen median ja suurten datamassojen (big datan tai massadatan) tutkimus on tuonut tutkijoille uusia eettisiä ja juridisia haasteita ja kysymyksiä. Sosiaalisen median eri palveluilla, kuten Facebook, Twitter tai Instagram on omat käyttöehtonsa, jotka koskevat myös tutkimusdatan koneellista hakua ja yksityishenkilöiden tuottaman sisällön keräämistä. Tämän lisäksi tutkimuksessa tulisi huomioida mitä ja miten some-aineistoa voidaan tutkia ja tutkimustuloksia julkaista eettisesti mm. yksilöiden yksityisyyden turvaamiseksi. Yksityisyyden suojan näkökulmasta eettinen tarkastelu tutkimuksenteon eri vaiheissa on erittäin tärkeää. Yleisesti näkemykset yksityisyyden suojelemisesta eri tieteenalojen välillä vaihtelevat: yhdestä näkökulmasta yksilöiden dataa saa käytää, jos tutkimus ei tuota heille tarpeetonta harmia, ja toisesta näkökulmasta yksilöiden dataa ei saa koskaan käyttää ilman heidän tietoista suostumustaan (mm. Jouhki ym., 2016).

Esimerkiksi Association of Internet Researchers (AoIR) ohjeissa painotetaan yksilön suojelemista sen perusteella, kuinka haavoittuvaksi hänet luokitellaan (AoIR, 2012). Valitettavasti ohjeistukset internetin ja sosiaalisen median datan tutkimuksesta ovat vielä vaikeasti laitettavissa käytäntöön, koska esimerkiksi haavoittuvuutta ja harmin määrää on usein hankala arvioida. Vaikka jo akateemisten tutkimushankkeiden rahoitusten hakemusvaiheessa nykyisin vaaditaan tutkimuseettistä selvitystä, yksi hyvä tapa turvata hankkeen hyvä tieteellinen käytäntö ja tutkimuksen käsittelemien kohteiden oikeudet on tehdä eettinen ennakkoarviointi ja palata siihen aina tarpeen vaatiessa hankkeen edetessä.

luotsiva dia


Ennen Luotsiva-hankkeen alkua tutkimusryhmämme teki tutkimushankkeen ensimmäiselle vaiheelle eettisen ennakkoarvioinnin. Arvioinnissa keskityttiin erikseen datan keräämisen, analyysimetodien ja tutkimustulosten julkaisemisen eettisiin kysymyksiin. 

 

LUOTSIVA:n data  

Projektissa käytettävä data sisältää sanomalehtien FB-sivuilla julkaistut aineistot: data voi olla joko sanomalehden verkkosivuilta löytyvän uutisjutun vienti lehden FB-sivuille tai niin sanottu natiivipostaus, joka sijaitsee vain somessa (tässä tapauksessa lehden Facebook-sivuilla) ja on tehty vain some-julkaisemista ajatellen. Lisäksi yleisön edustaja on voinut tehdä oman postauksen sanomalehden julkiselle FB-sivulle, vaikka nämä postaukset ovat murto-osa edellä mainitusta kokonaisdatasta. Datan jokainen yksittäinen julkaisu sisältää niin sanottuja postaustietoja, kuten postauksen tekijän, otsikon, tekopäivämäärän ja –kellonajan, tyypin (esim. kuva, video, linkki tai statuspäivitys), jakojen määrän, kommenttien määrän, reaktioiden yhteismäärän sekä linkit alkuperäiseen Facebook-julkaisuun ja lehden alkuperäiseen uutisjulkaisuun. Lisäksi datassa on eriteltynä yksittäiset Facebookin reaktio-toiminnot (vihainen, haha, tykkää, ihastu, vau ja surullinen) ja niiden määrät postauksia kohden.

data talu kuva
Näkymä Exceliin viedystä datataulusta

Facebookin API:en kautta haetun puolijulkisen datan käsittelyä varten on luotu tähtimallinen tietovarasto. Tietovarasto koostuu datatauluista ja niille luoduista yhteyksistä. Esimerkiksi yhteen tauluun tallentuu kaikki tapahtumat (postaukset tai kommentit), toiseen tauluun kaikki postausten sisältötiedot ja seuraavaan tauluun kaikki postauksiin liittyvät toiminnot, kuten jaot tai reaktiot (lue lisää tietovarastosta: Sormanen ym., 2015). Hankkeessa käytettävä datanhakusysteemi eroaakin muista verkossa vapaasti käytettävissä olevista työkaluista, kuten Netvizz:stä siinä, että työkalu ei muodosta listoja vaan tallentaa tiedon tähtimalliseen tietovarastoon.

Tietovaraston ansiosta datasta voidaan tehdä harkitumpia, tiettyyn tutkimukseen sopivia datalistoja (esim. lista postauksista tai vaikka lista postauksissa käytetyistä linkeistä). Lisäksi dataan voidaan liittää uutta metatietoa (yleisesti massadatassa metatieto tarkoittaa esim. käyttäjätunnisteita, id) eli sisältöä kuvailevaa ja määrittävää tietoa, joka auttaa ymmärtämään paremmin dataa. Tutkimuksessa voisi esimerkiksi olla tärkeää tunnistaa päivämääristä juhlapäivät ja loma-ajat erikseen ja tämä tieto voitaisiin lisätä metatietona. Varaston dataa voidaan myös rikastaa eli liittää paikkatieto sisällöstä tai päätellä etunimen perusteella henkilön sukupuoli. Rajapintojen kautta työkalulla saa myös vielä yksittäisten postaajien julkiset tiedot, kuten etunimen ja sukunimen. Luotsiva-hankkeessa data kuitenkin anonymisoitiin heti sen haun jälkeen sopivaksi tutkimuskäyttöön. It-asiantuntija Jukka Rohila ja hankkeen tutkija Niina Sormanen ovat yhteisvoimin suunnitelleet datan hakusysteemiä ja Rohilan rakentamaa tietovarastoa akateemisen tutkimuksen näkökulmasta sekä tehneet koneiston avulla tutkimusta myös aiemmin, joten tutkimukseen käytettävän datan tiedetään olevan luotettavaa.

Datan haku juridisesti ja eettisesti

Tutkimushankkeessa käytetty Facebook-sivudata on haettu koneellisesti. Facebookin käyttöehtojen (Facebook Page Terms, 2017) mukaan Facebookista saa hakea dataa sen ohjelmointirajapintojen kautta, kunhan dataa ei haeta millään automaattisilla roboteilla. Lisäksi mm. juristi Marjut Salokanteleen viime syksynä pitämän Tietoarkiston tilaisuuden esitelmän mukaan Facebookista saa hakea aineistoa tutkimukseen, kunhan sitä ei käytetä kaupalliseen tarkoitukseen (Salokannel, 2016). Täten hankkeen datan haun katsottiin olevan juridisesti hyväksyttävää, kun Facebookin API:en avulla kerätty sivudata tallennetaan tietokantaan, josta se viedään IT-asiantuntijan koodaamaan tietovarastoon.

Vaikka Facebookin käyttöehtojen mukaan dataa saa hakea, on samaisten ehtojen mukaan datan kerääjän kuitenkin itse varmistettava käyttäjiltä lupa heidän tuottamansa sisällön keräämiseen sekä varmistettava käyttäjien olevan tietoisia datan keräyksestä:

If you collect content and information directly from users, you will make it clear that you (and not Facebook) are collecting it, and you will provide notice about and obtain user consent for your use of the content and information that you collect. (Facebook Page Terms, 2017)

Tutkimushankkeessa ei kysytty lupaa jokaiselta lehtien Facaebook-sivujen yksityiseltä käyttäjältä ladata heidän sivuille postaamaansa sisältöä. Kaikki sivuilta haettu data kuitenkin anonymisoitiin heti haun jälkeen, jotta yleisön edustajat pysyisivät paremmin tunnistamattomina. Luvan kysymättä jättäminen perusteltiin mm. data-aineiston laajuudella ja anonymisoinnin tuomalla suojalla (ks. mm. Henkilötietolaki, HetiL 14§, 1999). Yksityisille käyttäjille ei katsottu tutkimuksen ensimmäisestä vaiheesta aiheutuvan haittaa enempää kuin mitä tutkimustulosten hyödyt ovat.

Datan analyysi ja tutkimustulosten julkaisu juridisesti ja eettisesti

Datan analysoinnin katsottiin olevan eettisesti kaikkein yksiselitteisintä tämän tutkimushankkeen kohdalla, koska datan määrällinen käsittely ja sen tulokset säilyttävät käyttäjien anonymisyyden. Tehdyssä laadullisessa analyysissä puolestaan ainoastaan tämän hankkeen tutkijat näkevät datan ja voivat siten suojella yleisön edustajia analyysiratkaisuillaan. Suurimmaksi ongelmaksi muodostuikin laadullisten analyysitulosten julkaisemiseen liittyvät kysymykset erityisesti siitä, minkä aineiston katsotaan olevan julkista ja minkä ei. Aloimme pohtia, saako tutkimuksesta julkaista tapauksia (tai ns. caseja) Facebook-sivuilla julkaistuista uutisjutuista ja niiden ympärille muodostuneista keskusteluista. Niistä voisi nettihaulla alkuperäisen uutisen perusteella mahdollisesti tunnistaa uutisessa olleet henkilöt tai uutisen ympärille muodostuneeseen keskusteluun liittyvät henkilöt. Periaatteessa uutiset ovat julkisia ja hankkeen Facebook-aineisto keskusteluineen on kaikkien luettavissa lehtien Facebook-sivuilta. Eettisesti katsoen ei kuitenkaan voida olettaa kaikkien sivuille postanneiden tiedostavan keskusteluiden julkisuutta tai keskusteluiden seuraamuksia. Lisäksi erityisesti haavoittuvia yksilöitä, esim. alaikäisiä, ja muita arkaluonteisia tapauksia pitäisi käsitellä varoen.

Pyrimme ratkaisemaan tapaustulosten julkaisun eettisyysongelman tekemällä alkuperäisen uutisjutun ja keskustelun löytämisestä vähintäänkin mahdollisimman vaikeaa anonymisoimalla lehden, uutisjutun ja siihen liittyvät henkilöt. Lisäksi pyrimme kuvailemaan tuloksissa uutisjutun tapausta ja siinä käytyä keskustelua omin sanoin käyttämättä tapauksesta suoria lainauksia, jotka olisi helppo löytää nettihaulla.

 

Luotsiva Rajapinnoilla

Luotsiva-hankkeen tutkijat Margareta Salonen ja Niina Sormanen osallistuivat Rajapinta ry:n järjestämille Rajapintapäiville 2.-3.11.2017 keskustelemaan verkkotutkimuksen eettisistä ohjeista ja digiaineistoista sekä esittelemään Luotsiva-hanketta ja sen tutkimuseettisiä kysymyksiä. Rajapinta ry on vuonna 2017 perustettu Koneen Säätiön tukema teknologian, yhteiskunnan ja yhteiskuntatieteellisen tutkimuksen kohtaamispaikka. (https://rajapinta.co/)

Workshop-päivä
Rajapintapäivien torstain 2.11. työpajoissa yleisesti tunnistettuja internetin ja sosiaalisen median tutkimuseettisiä ongelmia olivat mm. tutkittavien anonymiteetin säilyttäminen ja oikeuksien turvaaminen sekä vanhentuneet lakipykälät koskien tutkimusta. Ensinnäkin osallistujat tulivat siihen tulokseen, että Internet- ja some-tutkimusta tehdessä ei saisi koskaan olettaa, että pelkkä yksilöiden anonymisointi kerätystä datasta takaisi sen, ettei tutkimuskohteita voisi nykyisin tunnistaa, koska esimerkiksi metatieto tai verkostoanalyysit voivat johtaa tunnistamiseen. Muuttuvien (esim. Facebookin) rajapintojen vuoksi verkostoanalyysien teko on viime aikoina kuitenkin vaikeutunut. Lisäksi ei voida keskittyä ainoastaan yksilöiden anonymisointiin ja heidän etujen turvaamiseen, vaan sosiaalisessa mediassa pitää ottaa huomioon tutkimuksen potentiaalinen vaikutus yksilöön, yhteisöön (esim. ryhmät) ja jopa yhteiskuntaan. Esimerkiksi paljastamalla tietyn suljetun ryhmän jäsen- tai toimintatietoja voidaan koko ryhmän olemassaolo vaarantaa. Toiseksi lakien todettiin olevan ainakin viisi vuotta vanhentuneita ja sopimattomia internetin ja sosiaalisen median tutkimusaikakauteen. Lakien pitäisi sekä antaa yleispäteviä ohjeita tutkimuksen tekoon että sisältää tapauksia, joita tutkijat voisivat soveltaa omaan tutkimukseensa. Internet- ja some-tutkijat odottavatkin mielenkiinnolla uutta EU:n tietosuoja-asetusta ja sen seurauksia eli mahdollisuuksia ja uhkia tutkimuksen teolle.

23469207_10155237520438845_2034004547_o (1)
Internet- ja some-aineistojen analyysin yleistä eettistä pohdintaa torstain workshopissa

Lisäksi torstaina Luotsivan tutkijat kertoivat seuranneensa kuluvan syksyn aikana Julkisen sanan neuvoston (JSN:n) tekemiä somen toimitustyöhön liittyviä ratkaisuja ja ideoineet kokoavansa näitä päätöksiä yhteen oman tutkimushankkeensa käyttötarkoituksia varten. Rajapintapäivien aikana ilmenikin tarvetta löytää sosiaalista mediaa koskevaa ohjeistusta ja päätimme viedä tutkimushankkeemme tässä vaiheessa JSN:n someen kohdistuvia ratkaisuja pureskeltuina Luotsivan kotisivuille.

 

23157353_2024716011145480_1609622619339049274_o (1)
Kuvasta kiitos Rajapinnalle © Salla-Maaria Laaksonen

Epäkonferenssi-päivä
Rajapintapäivien perjantain 3.11. epäkonferenssi muodostui rinnakkaisista tutkimusten esittelysessioista, joissa tutkimusten tekijöillä oli mahdollisuus käydä asiantuntijayleisön kanssa läpi omaa tutkimusta puhuttavia aiheita. Epäkonferenssi on perinteistä konferenssia epämuodollisempi ja rennompi tapa koota yhteen tutkimuksen tekijöitä ja niistä kiinnostuneita kuulijoita paikalle jakamaan tutkimustietoa ja keskustelemaan tutkimusmaailman asioista. Tapahtuman iltapäiväsessiossa Margareta Salonen esitteli Facebook-datan haun, tutkimusmetodien ja -tulosten esittämisen eettisiä ja juridisia kysymyksiä Luotsiva-tutkimushankkeen valossa. Tavoitteena oli saada muilta tutkijoilta ja alan osaajilta vertaistukea ja -arvioita omassa arvioinnissa esiin nousseisiin eettisiin ja juridisiin kysymyksiin. Tutkimusryhmämme kaipasi avointa keskustelua Facebookista esiin nousseiden arkaluonteisten tapausten julkaisumahdollisuuksiin ja näiden eettiseen pohdintaan.

Yleisö nosti keskusteluun juuri aineiston anonymisoinnin mahdollisuudet ja sen, että onko näitä caseja edes mahdollista täysin anonymisoida. Suorien lainauksien tai kuvasitaattien käyttö olisi hankalaa varsinkin jos mahdollinen harmi kohdistuisi sellaisiin ryhmiin, joiden on hankalampi puolustaa itseään. Koska caset ovat julkisesti lähestulkoon kaikkien saatavilla, meidän tulisi tutkijoina kuitenkin miettiä tutkimuksen hyödyn vs. yksilöille aiheutuvien ongelmien suhdetta. Lisäksi keskustelua käytiin Facebookin omista ehdoista ja siitä, miten ne rajaavat tai eivät rajaa tutkimuskäyttöä ja/tai kaupallisia tarkoitusperiä. Facebookin ehdot koskien tutkimusaineiston kaupallisia tarkoitusperiä eivät olleet asiantuntijayleisön mielestä yksiselitteisiä. Luotsivan kohdalla ei kuitenkaan nähty selkeää yhteyttä kaupallisuuteen (emme esimerkiksi myy tutkimustuloksia tai palveluja), joten tämä kysymys ei tämän tutkimushankkeen kohdalla ole kriittinen. Tutkijoista ja viestinnän asiantuntijoista koostunut yleisö antoi kokonaisuudessaan Luotsivalle ”synninpäästön” eikä nähnyt akateemisen tutkimuksen tämänhetkisiä eettisiä kysymyksiä merkittävänä esteenä tutkimuksen teolle.

Erilaisten tapahtumien, kuten Rajapintapäivien ja tulevan SOMERI-seminaarin ja niissä käytyjen ja käytävien keskustelujen avulla päästään toivottavasti lähemmäs yhtenäisiä ja käytännöllisiä internetin ja sosiaalisen median tutkimuksen eettisiä ohjeita. Luotsiva-hankkeen eettisten ja juridisten kysymysten pohdintaa jatketaan ja hankkeen tutkimuksen toiseen vaiheeseen tehdään uusi tutkimuseettinen arviointi.

Kirjoittajat:
Luotsiva-hankkeen tutkijat Niina Sormanen ja Margareta Salonen (14.11.2017)

 

Lähteet:

Association of Internet Researchers, AoIR. 2012. https://aoir.org/reports/ethics2.pdf

Facebook Pages Terms. 2017. https://www.facebook.com/page_guidelines.php

Henkilötietolaki, HetiL 14§. 1999. http://www.finlex.fi/fi/laki/ajantasa/1999/19990523

Jouhki, J., Lauk, E., Penttinen M., Sormanen, N. & Uskali, T. 2016. Facebook’s Emotional Contagion Experiment as a Challenge to Research Ethics. Media and Communication, 4 (4), pp. 75-85. doi: 10.17645/mac.v4i4.579

Salokannel, M. 2016. SOME-tietojen tutkimuskäyttö oikeudellisesta näkökulmasta – Marjut Salokannel.
https://www.youtube.com/watch?v=zXTawzRMx8M&feature=youtu.be

Sormanen, N., Rohila, J., Lauk, E., Uskali, T., Jouhki, J. & Penttinen, M. 2015. Changes and Challenges of Computational Data Gathering and Analysis: The case of issue-attention in Facebook cycles. Digital Journalism, 4 (1), 55-74.
https://jyx.jyu.fi/dspace/handle/123456789/48335