Skip to main content
31. október 2013

Gagnasöfnun á internetinu – Hvað er hægt að gera við öll þessi tvít?


 
myndmaggy

Fyrr í þessum mánuði birti samfélagsrisinn Twitter ítarlegt uppgjör fyrir síðasta ár. Líkt og við var að búast kom bróðurpartur hagnaðarins frá auglýsingasölu, en falinn ofan í skýrslunni var annar tekjuliður sem vakti athygli margra. Um 15% tekna Twitter koma frá ört vaxandi aukabúgrein samfélagsmiðla, sölu notendaupplýsinga (Dwoskin, 2013).  Það er kannski ekki að undra að fyrirtækið hafi fundið þarna tekjulind. Í raun má líta á samfélagsmiðla sem risavaxna gagnagrunna þar sem milljónir manna gefa upp nákvæmar persónuupplýsingar svo sem aldur, kyn, atvinnu, fjölskylduhagi, búsetu og fleira, auk þess að tengja sig inn á net vina og vandamanna sem gefa einnig upp svipaðar upplýsingar. Notendur gefa svo jafnóðum ítarlegar upplýsingar um sitt daglega líf, hvernig þeim líður, hvaða viðburði þeir sækja, hvert þeir ferðast og hvað þeir kaupa.

Hagnaður Twitter af sölu gagnaleyfa á síðasta ári var 47,5 milljónir dollara sem var 53% aukning frá árinu áður. Þetta eru þó aðeins smáaurar í ljósi þess að talið er að gagnasöfnunariðnaðurinn verði orðinn allt að 16,9 milljarða dollara virði innan tveggja ára. (Dwoskin, 2013)

Hvað er gagnasöfnun (e. data mining)?

Gagnasöfnun er aðferð sem blandar hefðbundnum gagnatúlkunaraðferðum saman við flókna algorithma til að túlka stór gagnasett. Aðalatriðin eru þá dregin fram en truflandi gögn (e. noise) eru hunsuð og þannig er hægt að setja gögnin fram á skiljanlegan máta. Þessi aðferð hefur einnig orðið til þess að hægt er að túlka gömul gögn á nýja vegu. (Tan, Steinbach & Kumar, 2013:3)

Með þessum hætti er auðveldara að finna mynstur, fylgni eða frávik í gögnunum, en gagnasöfnun er meðal annars gjarnan notuð til að gera markaðsrannsóknir. Með því að greina gögn netnotenda og skoða hegðunarmunstur þeirra þá er hægt að greina markhópa á mun nákvæmari hátt en áður, og einnig sérsníða auglýsingar fyrir hvern netnotanda út frá persónulegum upplýsingum viðkomandi, eins og er gert meðal annars á Facebook og Google.  Þessi meðferð á gögnum er ekki ný af nálinni en með tilkomu veraldarvefsins og þess ógrynnis af persónuupplýsingum sem netnotendur láta uppi, bæði meðvitað og ómeðvitað, þá hafa möguleikarnir sem felast í gagnasöfnun margfaldast.

#@nýrveitingastaður  #namminamm  #égheldégséaðdeyja  #mínus20kíló

Það er vandfundinn sá kimi samfélagsins sem getur ekki hagnast á gagnasöfnun, og internetið hefur reynst mörgum rannsakendum sannkölluð gullnáma.  Hver notandi sem stígur fæti inn á veraldarvefinn skilur eftir mikilvægar vísbendingar um hver hann er, staðsetningu, áhugamál, lífsskoðanir og jafnvel almenna líðan. Rannsóknir hafa til dæmis leitt í ljós að hægt er að fylgjast náið með útbreiðslu flensufaraldra í gegnum twitter, og er nákvæmnin af því mjög áþekk og af hefðbundnum aðferðum sóttvarnarstofnana við eftirlit faraldra. (Lamb, Paul & Drezde, 2013)  Aðrar lýðheilsurannsóknir gefa til kynna að gagnasöfnun geti fundið hættur sem nánast ómögulegt er að finna með hefðbundnu eftirliti vegna stærðar úrtaksins og hlutfallslega mjög fárra frávika. Í New York borg greindu rannsakendur 3.8 milljónir „tvíta“ frá 94.000 manns út frá staðsetningu og lykilorðum sem gáfu til kynna hvar fólk hafði borðað og síðan lykilorðum sem gáfu til kynna líðan og heilsufar. Með þessu móti var hægt að finna þá veitingastaði þar sem fólk var líklegast til að fá matareitrun, en allir staðirnir höfðu áður staðist hefðbundna skoðun. (Sadilek, Brennan, Kautz & Silenzio, 2013)

Meðal þess sem fólk leitar oft að á netinu eru upplýsingar um þá krankleika sem hrjá það hverju sinni.  Læknadeild Stanford háskóla nýtti sér þetta og skoðaði netnotkun 6 milljóna einstaklinga sem höfðu samþykkt að rannsakendur fengju að sigta í gegnum þau leitarorð sem þeir slógu inn í leitarvélar,  með það að markmiði að kanna áður óþekktar aukaverkanir lyfja. Með því að skoða hvaða heilsufarseinkenni fólk googlaði og tengja leitarorðin við gagnagrunn yfir þau lyf sem hafði verið ávísað til viðkomandi einstaklinga var hægt að bera kennsl á áður óþekktar auka og milliverkanir lyfja. (Williams, 2013)

Það eru ekki aðeins læknar sem hafa áhuga á líðan netnotenda. Í einni rannsókn atferlishagfræðinga var til að mynda hægt að spá fyrir um hreyfingar á hlutabréfamarkaði með 87,6% nákvæmni, og allt að 6 daga fram í tímann, með því einu að skoða ummæli fólks á Twitter (Bollen & Mao, 2011) .

Þetta er mjög mikilvægt leyndarmál. Sendi þér tölvupóst.

Gagnaöflun hefur líka skuggahliðar og flest gögn sem hægt er að nota til góðs má líka misnota. Í áðurnefndri rannsókn á leitarorðum um heilsufar fékk Stanford háskóli samþykki hjá öllum þátttakendum rannsóknarinnar fyrir notkun gagnanna. Hluti þeirra upplýsinga sem voru notaðar eru þrátt fyrir það aðgengilegar án samþykkis og eru notaðar nú þegar af fjölmörgum fyrirtækjum án þess að netnotendur geri sér grein fyrir. Algengt er að fyrirtæki nýti sér möguleika gagnaöflunar, þar með talið leitarorð sem fólk slær inn í leitarvélar, til að ná til nákvæmari markhópa þannig að það auglýsingapláss sem er keypt nýtist sem best. Það er enda engin tilviljun að leiti maður að nýjum síma á Google, þá birtast símaauglýsingar á Facebook síðunni manns í kjölfarið.

En það eru ekki aðeins óprúttnir sölumenn sem elta okkur á netinu. Yfirvöld í mörgum löndum notast við gagnaöflun í auknum mæli og skuggahliðar þeirrar starfssemi komu vel í ljós þegar Edward Snowden ljóstraði upp um gríðarlega upplýsingasöfnun bandarísku öryggisstofnunarinnar (NSA) á gögnum sem ættu að njóta persónuverndar. Með öflugum leitartækjum og gagnaöflun sem fer langt út fyrir lagaleg og siðferðisleg mörk getur NSA séð svo til allt sem fólk gerir á netinu.  Þar á meðal innihald tölvupósta, einkaskilaboð, læstar samfélagsíður og leitarsögu. (Greenwald, 2013)  Þó þetta sé gert undir því yfirskini að vernda borgarana þá verður ekki hjá því litið að möguleikar stjórnvalda á misnotkun þessara upplýsinga, til dæmis með því að beita gagnaöflun til að finna og kæfa niður mögulega andstöðu, eru orðnir að raunverulegri hættu.  

Ekki sér enn fyrir endann á uppljóstrunarmáli Snowdens, og þó það hafi leitt almenningi fyrir sjónir hvernig gagnaöflun er misnotuð nú þegar þá verður að teljast afar líklegt að stjórnvöld og öryggisstofnanir muni ekki láta þar við sitja, heldur nýta sér þessa tækni í enn meiri mæli í framtíðinni. Það hversu víðtækar njósnir NSA voru er einnig umhugsunarefni í ljósi þess hversu mikið af persónulegum upplýsingum eru aðgengilegar á rafrænu formi, ekki aðeins á netinu, heldur einnig hjá sjúkrastofnunum, bönkum, skólum og vinnustöðum.

Þó bandarísk stjórnvöld, og reyndar stjórnvöld margra annarra landa líka, standi fast við mikilvægi stofnana á borð við NSA þá er umdeilt hversu mikið gagn er af slíkri starfsemi í raun og veru. Cato stofnunin hefur verið framarlega í að gagnrýna gagnaöflunarvinnu NSA og hefur meðal annars bent á að líkurnar á að grípa hryðjuverkamenn með því að beita gagnaöflun á þennan hátt séu afar litlar þar sem þeir séu svo örfáir að það nær ekki að verða til nægilega skýrt greinanlegt munstur í kringum þá. Vegna þessa væri gagnaöflun í þessum tilgangi ekki aðeins gagnslaus, heldur myndi fjöldi falskra jákvæðra niðustaða bæði leiða til sóunar á ríkisfé sem væri betur varið í aðrar öryggisráðstafanir, auk þess að valda ómældu tjóni hjá þeim saklausu borgunum sem kerfið bæri ranglega kennsl á sem hryðjuverkamenn. (Harper, 2006)

Möguleikar gagnasafnara til að vita meira um okkur en við vitum sjálf eru nú þegar miklir og munu að öllum líkindum halda áfram að aukast. Mitt í öllum þægindum veraldarvefsins gleyma margir að allt sem er gert þar skilur eftir sig spor, og margir rafrænir sporhundar fylgja okkur hvert fótmál. Um leið og gagnasöfnun getur létt okkur lífið, skapað vegvísa á netinu eða skýrt og einfaldað flókin gögn, þá er jafn auðvelt að misnota tæknina. Netnotendur verða svo að gera það upp við sig hvað þeim þykir um þá sem fylgjast með þeim og hvernig upplýsingarnar um þá eru notaðar.

Höfundar:Filippa Guðmundsdóttir og Maggý Helga Jóhannsdóttir Möller, nemendur í tölvunarfræði við Háskólann í Reykjavík

Heimildir

Bollen, J., Mao, H. (2011) Twitter mood predicts the stock market. Journal of Computational Science.  Hefti 2:1, 1-8. Sótt 13. október 2013 á:
http://www.sciencedirect.com/science/article/pii/S187775031100007X

Dwoskin, E. (2013) Twitter‘ Data Business Proves Lucrative. Sótt 13. október 2013 á:
http://online.wsj.com/news/articles/SB10001424052702304441404579118531954483974

Greenwald, G. (2013) XKeyscore: NSA tool collects ‚nearly everything a user does on the internet‘. Sótt 14.október 2013 á: http://www.theguardian.com/world/2013/jul/31/nsa-top-secret-program-online-data

Harper, J. (2006) Data Mining Can’t Improve Our Security. Sótt 14. október 2013 á: http://www.cato.org/publications/commentary/data-mining-cant-improve-our-security

Lamb, A., Paul, M. & Dredze, M. (2013) Separating Fact from Fear: Tracking Flu Infections on Twitter.  Sótt 13. október 2013 á:
http://www.cs.jhu.edu/~mdredze/publications/naacl_2013_flu.pdf

Sadilek, A., Brennan, S., Kautz, H., Silenzio, V. (2013) nEmesis: Which Restaurants Should You Avoid Today? Sótt 13. október 2013 á:  
http://www.cs.rochester.edu/~sadilek/publications/Sadilek-Brennan-Kautz-Silenzio_nEmesis_HCOMP-13.pdf

Tan, PN., Steinbach, M. &Kumar, V. (2006) Introduction to Data Mining. London: Pearson Addison Wesley.

Williams, S.C.P. (2013) Mining consumers‘ web searches can reveal unreported side effects of drugs, researchers say.  Sótt 13. október 2013 á:  
http://med.stanford.edu/ism/2013/march/altman.html

Skoðað: 5226 sinnum

Blaðið Tölvumál

Forsíða Tölvumála

Leita í vefútgáfu Tölvumála

Um Tölvumál

Tölvumál - tímarit Skýrslutæknifélags Íslands er óháð tímarit um tölvutækni og hefur verið gefið út frá árinu 1976.

Vefútgáfa Tölvumála birtir vikulega nýja grein á vef Ský og árlega er gefið út veglegt prentað tímarit undir nafninu "Tölvumál" þar sem fjallað er um tölvutækni frá ýmsum sjónarhornum og er þema blaðsins jafnan valið snemma árs og útgáfa að hausti.

Ritnefnd Ský sér um að afla efni í Tölvumál og geta allir sem áhuga hafa sent inn efni.

Um ritnefnd Tölvumála