2014-10-28

Detta är rĂ¥manus till en dragning jag höll pĂ¥ Pensionsmyndigheten i oktober 2014. Originalet finns i Markdown-form här och en HTML-variant finns här

Trender

Databearbetning

Allt kortare tid till modell + visualisering. Allt mer data samlas och analyseras i tabellform, t.ex. data.frame()/data.table().

  • dplyr: kraftigt förkortad tid för ett flertal databearbetningsutmaningar
  • ggvis: förenklad interaktiv visualisering
  • tidyr: underlättad omstrukturering av data

Modellering

Det stora utvecklingsomrĂ¥det de kommande Ă¥ren. Metoder för bĂ¥de enkel och avancerad modellering blir allt mer lättilgängliga

  • Maskininlärning pĂ¥ stark frammarsch
  • Automatisering av en stor mängd enklare dataanalysuppgifter
  • Ickeparametrisk statistik
  • caret: En frontend för ett mycket stort antal modelleringspaket i R

Exemplet caret

caret är ett paket för att mcyket snabbt preparera data för modellering och mycket snabbt tillämpa en enorm uppsättning analysmetoder (t.ex. GLM, Random Forest, neurala nätverk, etc.). Resultaten är direkt jämförbara, även om de underliggande modellerna är extremt olika. Detta arbetssätt är utan tvekan framtiden för analytiskt arbete!

http://caret.r-forge.r-project.org/

Publicering

Den ökade tillgĂ¥ngen pĂ¥ lättanvända programmeringssprĂ¥k och ökade programmeringskunskaper gör att grundläggande kunskaper om statistik och/eller programmering inte längre är en framgĂ¥ngsfaktor. "Alla är analytiker" hĂ¥ller pĂ¥ att bli ett ledord.

WYSIWYG-verktyg och closed source tappar mark som plattformar för dataanalys. SPSS och SAS ger stadigt vika för R, Julia och Python.

Open data

Open data ökar starkt i tillgänglighet. Flera vägar finns för att samla in data frĂ¥n öppna datakällor, t.ex. flera R-paket.

  • pxweb (SCB, m.fl. myndigheter)
  • ROpenSci
  • Quandl
  • och mĂ¥nga, mĂ¥nga mer…

Big Data

Fler alternativ allt mer tillgängliga och lättanvända.

  • Julia
  • Revolution R Open
  • Spark (ersätter Hadoop)

Verktygen

Statistisk programmering genomgĂ¥r just nu en stor utveckling. Dessa är nĂ¥ga exempel pĂ¥ omrĂ¥den där helt nya tekniker utvecklats under de senaste 1-2 Ă¥ren:

  • Visualisering: shiny
  • Big data: The Julia language
  • Modellering: caret
  • Databearbetning: "Hadleyverse"-paketen dplyr, ggvis, tidyr

Framtidsspaningar

Horisonten

Teamet bakom RStudio är den drivande motorn för det verkligt innovativa i R-världen just nu.

De och Julia-teamet stĂ¥r uppskattningsvis för 80-90% av den uppmärksamhet som riktats mot statistik programmering de senaste Ă¥ren.

Förväntningar pĂ¥ framtiden

  • Programmering som literacy 2.0
  • Allt fler blir analytiker. Detta ställer krav pĂ¥
  • Smarta automater tar över enklare modell- och analysuppgifter
  • Onlinepublicering (webb) istället för statisk publicering (trycksaker, Word-dokument)
  • Visualisering blir piecemeal
  • Ingen vet vad som händer när RStudio tappar ledarpinnen. Revo-R? Julia? Python? JavaScript? IBM?

Inspiration

Vidare läsning

Tack!