Love Hansson bio photo

Love Hansson

Data scientist. Occasional designer. Stats junkie. Infrequent blogger.

Detta är råmanus till en dragning jag höll på Pensionsmyndigheten i oktober 2014. Originalet finns i Markdown-form här och en HTML-variant finns här. Texten nedan är inte tänkt att läsas som löpande text utan är en sammanfattning i stolpform.

Trender

Databearbetning

Allt kortare tid till modell + visualisering. Allt mer data samlas och analyseras i tabellform, t.ex. data.frame()/data.table().

  • dplyr: kraftigt förkortad tid för ett flertal databearbetningsutmaningar
  • ggvis: förenklad interaktiv visualisering
  • tidyr: underlättad omstrukturering av data

Modellering

Det stora utvecklingsområdet de kommande åren. Metoder för både enkel och avancerad modellering blir allt mer lättilgängliga

  • Maskininlärning på stark frammarsch
  • Automatisering av en stor mängd enklare dataanalysuppgifter
  • Ickeparametrisk statistik
  • caret: En frontend för ett mycket stort antal modelleringspaket i R

Exemplet caret

caret är ett paket för att mcyket snabbt preparera data för modellering och mycket snabbt tillämpa en enorm uppsättning analysmetoder (t.ex. GLM, Random Forest, neurala nätverk, etc.). Resultaten är direkt jämförbara, även om de underliggande modellerna är extremt olika. Detta arbetssätt är utan tvekan framtiden för analytiskt arbete!

http://caret.r-forge.r-project.org/

Publicering

Den ökade tillgången på lättanvända programmeringsspråk och ökade programmeringskunskaper gör att grundläggande kunskaper om statistik och/eller programmering inte längre är en framgångsfaktor. “Alla är analytiker” håller på att bli ett ledord.

WYSIWYG-verktyg och closed source tappar mark som plattformar för dataanalys. SPSS och SAS ger stadigt vika för R, Julia och Python.

Open data

Open data ökar starkt i tillgänglighet. Flera vägar finns för att samla in data från öppna datakällor, t.ex. flera R-paket.

  • pxweb (SCB, m.fl. myndigheter)
  • ROpenSci
  • Quandl
  • och många, många mer…

Big Data

Fler alternativ allt mer tillgängliga och lättanvända.

  • Julia
  • Revolution R Open
  • Spark (ersätter Hadoop)

Verktygen

Statistisk programmering genomgår just nu en stor utveckling. Dessa är någa exempel på områden där helt nya tekniker utvecklats under de senaste 1-2 åren:

  • Visualisering: shiny
  • Big data: The Julia language
  • Modellering: caret
  • Databearbetning: “Hadleyverse”-paketen dplyr, ggvis, tidyr

Framtidsspaningar

Horisonten

Teamet bakom RStudio är den drivande motorn för det verkligt innovativa i R-världen just nu.

De och Julia-teamet står uppskattningsvis för 80-90% av den uppmärksamhet som riktats mot statistik programmering de senaste åren.

Förväntningar på framtiden

  • Programmering som literacy 2.0
  • Allt fler blir analytiker. Detta ställer krav på
  • Smarta automater tar över enklare modell- och analysuppgifter
  • Onlinepublicering (webb) istället för statisk publicering (trycksaker, Word-dokument)
  • Visualisering blir piecemeal
  • Ingen vet vad som händer när RStudio tappar ledarpinnen. Revo-R? Julia? Python? JavaScript? IBM?

Inspiration

Vidare läsning