BIG DATA – Är lite som Jeopardy!

Det skrivs och pratas en hel del om “Big data“. Data som öppnar nya dörrar för analyser, kontroll, hjälp med mera. Större mängder data och en ökad datorkraft gör det möjligt att köra stora analyser snabbt och effektivt. Det är dock i vissa fall inte klart vad man letar efter, det finns faktiskt inte ens en fråga att besvara. 

 

Big data är  egentligen bara en benämning på stora mängder data, det kan röra sig om vilken typ av data som helst. Det är alltså inte en metod, eller någon vetenskapligt i sig. Benämningen har dock blivit lite synonymt med “sökande efter mönster i stora data mängder”. Vetenskap är ett sätt att förhålla sig till frågor, svar och information. Att arbeta systematiskt med en målsättning, formulera klara och tydliga frågeställningar. Vetenskap är även att testa och undersöka saker på ett metodiskt sätt som skall vara möjligt att repetera. Det är till exempel delvis detta som skiljer vetenskap från tro, och tyckande.  Religion, med sin tro på gud, högra makter eller vad det kan vara är ju självfallet inte en vetenskap. Inte ens medicin är historiskt klassat som en vetenskap. Medicin har ofta inte en ambition att förstå, snarare att lindra och motverka. Vetenskapligt ställda frågor kan testas, upprepas och besvaras på ett sätt som går att förkasta om det visar sig vara fel. En viktig del i detta är att det är en fråga som är avgränsad och möjlig att testa, besvara.

Forskning behöver inte nödvändigtvis vara vetenskaplig. Forska betyder att man undersöker något, det kan göras på många sätt, i många fall inte så vetenskapligt. Big data analyser hamnar lätt här, det är ett till synes planlöst testande utan en ordentlig frågeställning. Mer ett letande efter mönster.


Big data kan  bli lite som Jeopardy, man försöker finna mönster (svar), men sedan måste man ju också hitta på en fråga till svaret.


Big data är inte vetenskap

Ett exempel på stora datamängder är den data som är en följd av internets snabba utbredning. I kölvattnet, i det dolda  sker en insamling av information om användarna, vilket även det är en slags “big data”. Det är verkligen enorma, ofattbara mängder av information som samlas in var dag, varje sekund, ja varje gång vi har datorn igång och är uppkopplade mot internet. Ett insamlande utan tydliga frågor som skall besvaras. Data som sedan analyseras efter mönster hos användarna.

Att i dessa stora dataset leta efter samband är vad många idag ägnar sig åt, ett letande utan en frågeställning. Här finns det all anledning att vara försiktig, att hitta ett samband mellan olika insamlade saker är inte självskrivet ett samband som är relevant. Det är utan en frågeställning för det första inte ens vetenskap, det är inte heller så värst intressant att leta så där på måfå. Det görs lite för att det är möjligt. Som så mycket annat i vårt samhälle.

Kanske var internet och datainsamling inte ett så bra exempel på vetenskap, informationen här har ju faktiskt inte ett direkt syfte att besvara djupare frågor. Det är mer att just se och finna mönster hos internets användare, information som sedan säljs vidare till kommersiella aktörer.

Direkt och indirekt verkan

Man kan dela upp saker som inverkar som direkta och indirekta, det stora flertalet är indirekta. De kan då vara kopplade till andra faktorer som i gemensamt verkande har en betydelse på exempelvis immunförsvar. Att med datakörningar som dessa “big data” analyser peka ut enskilda faktorer som särskilt viktiga är näst intill omöjligt. Det kan naturligtvis vara faktorer som inverkar på på mycket, som samverkar med många andra, dessa är naturligtvis viktiga. Det är trots det inte rätt att säga att dessa skulle vara viktigare än andra.  De inverkar kanske inte på egen hand på något sätt, de är alltså indirekta faktorer. Att säga att faktorer är direkt påverkande är näst intill omöjligt. Det finns en mängd olika metoder att söka efter samband, vi pratar framför allt här om olika statistiska metoder för att finna ut kopplingar mellan orsak och verkan. Att finna statistiska samband är dock inte så svårt, det svåra är att säga om de är verkliga, viktiga eller bara artefakter.

Allt är inte negativt med big data

Det är hittills framställt med en negativ syn på detta med alla information, information som analyseras av “algoritmer”. Det kan självfallet ge intressant saker och vetskap om saker som annars hade varit helt omöjligt, eller i vart fall mycket svårt att få fram.

En positiv sida med dessa analyser som “big data” innebär är att öppna nya dörrar. Svaren kan man inte ge, det finns ju inte ens en fråga i de flesta fallen.  Analyserna ger snarare förslag på nya kopplingar som kan vara möjliga vägar att gå vidare med.

Det kan dock om man inte är försiktig leda till lite Ad Hoc hypoteser, vilket är en av avart av forskning. Det är inte så man skall bedriva  forskning, för vetenskap är det inte tal om att vara.

I en nyligen publicerad artikel från Lunds universitet så skriver man i pressreleasen “Detta påverkar vårt immunförsvar allra mest”. Utan att ha läst ursprungsartikeln så är det i mitt fall svårt att dementera och förkasta ett sådan påstående helt. Det är dock lite symptomatiskt med just Big data att göra ett sådant uttalande. Här är en dataanalys av stora mängder av livsstil, födointag, tidigare sjukdomar, geografisk placering, genetisk information med mera. Många av dessa är till att börja med övergripande, livsstil,  födointag och liknande faktorer är saker som i sin tur påverkar en mängd olika saker i kroppen. Att sånt här får så pass stor uppmärksamhet är för mig lite märkligt, det är ju inte svar på några frågor, det är snarare ny data som kan användas för att komma vidare. Artikeln och pressklippet räknar upp en mängd faktorer som kan inverka på det mänskliga immunförsvaret. Det är ju lite som om en matematiker skulle publicera en artikel för varje led i sin lösning på en ekvation!

 

Stora trumman får ljuda

Här rör det sig om både journalister och forskare som lite onyanserat och ofta i onödan går ut med saker som kanske inte förtjänar och inte har ett ett brett nyhetsvärde. Att gå ut med information om saker, kanske preliminära resultat är ofta ett sätt att få uppmärksamhet. Är det verkligen nödvändigt att gå ut med sådana här resultat? Det är idag de som hörs och syns, de som är snabba med sina nyheter, sina resultat, om än preliminära som får uppmärksamheten. Skeenden som gör att faktakoll och granskning inte alltid hänger med, inte heller så är innehållet helt korrekt återgivet. I just detta fallet nämnt ovan så fanns ju inte ett enda svar med i artikeln, det fanns ju faktiskt inte ens en fråga!

 

Vi behöver inte MER information, vi behöver relevant information!

 

Jag anser att både journalister och forskare har ett större ansvar att ta. Idag då vi formligen drunknar i all information, då borde fler ta ansvar att gallra ut information som har dels ett nyhetsvärde, men även faktiskt gallra ut saker som kanske inte ens skall publiceras i den form de är.

Tyvärr så lider de flesta av precis samma syndrom, snabbt ute, sälja, synas. Det gäller forskare, journalister och tidningar, både vetenskapliga- såväl som dagstidningar. I mina ögon är medicinsk forskning synnerligen kass på detta, här är det ofta preliminära nyheter som kommer ut, till vilken nytta är detta? Vilken nytta har den stora allmänheten för sånt? Frånsett att kanske bli orolig!

 

Läs gärna mina andra sidor Rastlös betraktare och Velocipeter

Leave a Reply

Your email address will not be published. Required fields are marked *