Hvis du læser med her på siden er du formentlig allerede klar over hvad R-studio er. Hvis du kender R-studio ved du også hvad R kan bruges til. Alternativt kan du læse om R-projektet her eller på den danske Wikipedia.

Der kan være mange grunde til at køre R-studio på en ekstern computer. Som oftes er årsagen, at det er nødvendigt at køre kode på en computer med højere ydevne end alminde konsumer computere. F.eks. mere processorkraft eller mere hukommelse. Sådanne computere kan man få fat på hos Amazon Web Services (AWS) og disse kaldes EC2 instanser. EC2 står for Amazon Elastic Compute Cloud. EC2 instanser kan enten være virtuelle computere eller “hele” fysiske computere. Disse computere kan du leje helt ned til en periode på 1 minut. Skal du køre noget tung R kode som kræver meget hukommelse med kun tager 30 minutter at køre, betaler du altså kun for 30 minutters brugstid.

Nye brugere af AWS får 750 timers brug af en lille EC2 instans gratis. Du kan bruge den til at afprøve R-studio på!

Læs mere om EC2 her.

Hvordan får jeg R-studio ind på en EC2?

På en EC2 instans kan man enten vælge at installere linux eller windows styresystemer. Da Windows kræver licens benytter langt de fleste en linux distribution til deres aktiviteter. Bliv ikke skræmt hvis du ikke har arbejdet med linux før. Denne gennemgang kræver ikke du kender til linux, bash kommandoer osv.

Hils på Tux. Han er en pingvin og er linux maskotten.
Hils på Tux. Han er en pingvin og er linux maskotten.

R-studio Server

Ligesom udviklerne bag R-studio har lavet en version der kan køre på Mac og Windows har de også lavet en version der kan køre på linux. R-studio server udgaven fungerer ved at man installerer den på en linux computer og så er hele R-studio programmet i din webbrowser !

Heldigvis har Louis Aslett fra Durham University i England, lavet en nem installationsfil af R-studio server til EC2 instanser. På hans hjemmeside ligger der også links til diverse video’er som gennemgår installationen.

Først skridt i installationsprocessen er faktisk at gå ind på Louis Aslett’s hjemmeside og finde id’et på installationsfilen. Kig her.

Vælg det AMI id som passer med den region du ønsker serveren skal være placeret i. Er du i tvivl vælg EU North, Stockholm. Stockholm bør være den tætteste region og dermed får vi den laveste ping tid.

AWS Management Console

Jeg antager du er logget ind AWS konsollen. Gå da til EC2 som findes under Compute overskriften.

Vælg da Launch Instance som vist på billedet nedenfor:

Start en AWS Instans.

Vælg AMI (Image)

På næste skærmbillede skal du vælge hvilket image du ønsker på din server. Et image er blot et styresystem + evt. programmer mm.

Ude til venstre skal du klikke på “Community AMIs”. Louis har været så flink at publicere alle sine images her. Fra Louis’ hjemmeside skal vi da finde det korrekte id der stemmer overens med den valgte region. Du kan se hvilken region du har valgt øverst i højre hjørne af konsollen.

Indsæt id’et i søgefeltet f.eks. “ami-059a2456bd2027e31” hvis du bruger Frankfurt regionen.

Når du indtaster et eksakt id bør der kun komme 1 valgmulighed frem. Image’et hedder noget med RStudio-VERSION…

Vælg AWS AMI til instans.

EC2 Instans Type

Når du har valgt Image/AMI bliver du videresendt til step 2. Her skal du foretage opsætningens sværeste valg – du skal vælge hvilken computer du ønsker at benytte til R-studio.

Jeg vælger t2.micro instansen da den falder ind under free tier programmet for nye AWS brugere.

Inden du vælger bør du tjekke priser på hver instans. Det kan du gøre her. Bemærk at prisstrukturen på EC2 instanser er yderst kompleks, så brug noget tid på at sætte dig ind i hvad du betaler for. Skal din EC2 køre i længere tid (mere end 1 år) anbefaler jeg reservere en instans med forudbetaling.

Hvis du skal køre meget tunge machine learning modeller, som f.eks. træning af neurale netværk vil jeg anbefale dig at kigge på EC2 p instanser. Disse er optimeret til tunge beregninger.

Når du har besluttet dig trykker du “Next: Configure Instance Details”.

Netværksopsætning

Step 3 omhandler netværksopsætning. Jeg vil ikke bruge meget tid på at gennemgå valgene her. Hvis du ikke er sikker på hvad tingene betyder, mener og har af effekt anbefaler jeg blot du lader tingene være uændret.

Har du valg en T instans type anbefaler jeg dog du aktiverer unlimited.

T2/T3 unlimited er forbundet med ekstra omkostninger, men sikrer dig at du ikke løber tør for CPU kraft mens du laver beregninger.

Du kan læse mere om t-instanser i AWS dokumentationen. En simpel Google søgning vil lede dig til den nyeste dokumentation.

Lagringsplads

Vælg lagringstype og størrelse. På trin 4 er der allerede valgt en standard harddisk med 20 GB lagringsplads. Det er nok for de fleste og bør ikke ændres.

Skal du dog analysere meget store filer kan det være nødvendigt at øge størrelsen på harddisken. Jeg anbefaler ikke du ændrer harddisktype medmindre du ved hvad du laver eller laver rigtig mange filændringer i din R kode.

Start RStudio Server!

Du er nu ved vejs ende. Vi skal til at tænde EC2 serveren. Det bliver spændende !

På sidste ting kan du se en oversigt over de valgt du har gjort dig gennem processen. Hvis du ikke ønsker at ændre noget skal du blot klikke Launch.

Kun til avancerede brugere er det nødvendigt at vælge et KeyPair. Blot godkend at du ikke har en nøgle.

Log ind og leg !

Louis har lavet sin installationsfil så smart at den automatisk sætter et kodeord på din RStudio server.

For at logge ind i R-studio skal du derfor klikke på instans id’et i den grønne boks ovenfor.

Dette fører dig til oversigten over alle dine EC2 instanser.

I description nederst på siden skal du finde to informationer.

Instance ID’et. I mit tilfælde: i-0a26b758b96540ada

og Public DNS (Ipv4) i mit tilfælde: ec2-3-121-220-56.eu-central-1.compute.amazonaws.com.

Kopier Public DNS adressen ind I din webbrowser.

Log dernæst ind med brugernavnet: rstudio og instans id’et som password.