Dataopslag: dit zijn de opkomende technologieën

De wereld van dataopslag heeft de afgelopen jaren veel veranderingen doorgemaakt. De afgelopen 10 jaar is er meer veranderd in dataopslag dan tijdens de 25 jaar daarvoor. Deze snelle ontwikkelingen op het gebied van dataopslag zijn nodig, omdat we met zijn allen steeds meer data gebruiken. Dat geldt voor zowel bedrijven als particulieren. 

De groeiende hoeveelheid data wordt deels veroorzaakt doordat we steeds meer met video zijn gaan werken. Daarnaast maken bedrijven massaal gebruik van webdata, zoals klantgedrag, advertentieresultaten, A/B-tests en heatmaps. Door zoveel mogelijk data te verzamelen kunnen bedrijven hun marketingmiddelen effectiever inzetten en hun processen optimaliseren

We zijn dus steeds meer data gaan verwerken. En met de opkomst van AI, machine learning en IoT zal dit in de toekomst alleen nog maar meer worden. Gelukkig gaan ook de ontwikkelingen op het gebied van dataopslag steeds sneller. In dit artikel brengen we je op de hoogte van alle opkomende technologieën voor het bewaren van data.

Opslagbeheer met machine learning

Machine learning gaat een steeds belangrijkere rol spelen in het opslaan van data. Door cloudintegraties, containers en virtualisering is het opslaan van data behoorlijk ingewikkeld geworden. Met cloudgateways die geïntegreerd zijn in opslagruimtes en ontwikkelaars die honderden terabytes gebruiken voor het testen van software, is het lastiger dan ooit om te zien wie welke opslagruimte gebruikt en waarvoor.

Dankzij machinelearningapplicaties kunnen we meer inzicht krijgen in hoe onze data precies wordt opgeslagen. Met  deze applicaties kan de totale opslag-infrastructuur in kaart worden gebracht en geoptimaliseerd voor prestaties en kosten. Deze applicaties zijn nog niet beschikbaar, maar zullen naar verwachting binnen niet al te lange tijd verschijnen. 

Grote opslagservers met NVRAM

Afgelopen jaar introduceerde Intel met zijn nieuwe Optane-technologie een van de eerste non-volatile random access memoy (NVRAM)-oplossingen. Dit geheugen biedt datapersistentie zonder batterijen, maar door gebruik van power cycles. NVRAM wordt geplaatst op de geheugenbus van de server en is daardoor veel sneller dan schijven of SSD’s. Het is mogelijk om toegang te krijgen tot het NVRAM via memory bytes of storage blocks. Dit geeft systeemarchitecten de flexibiliteit om systemen te configureren voor maximale prestaties en compatibiliteit. 

Naar verwachting zal NVRAM veel gebruikt worden in grote opslagservers. De nieuwste Xeon SP-servers van vandaag de dag kunnen tot 1,5 TB geheugen per processor ondersteunen. Het wordt echter een duur grapje om dat te bereiken. De Optane NVRAM-DIMM’s van Intel zijn stukken voordeliger en gebruiken daarbij stukken minder stroom. 

Scale-out opslag

Cloudleveranciers maken gebruik van sterk schaalbare opslag om exabytes aan data op te slaan. Deze scale-out opslag vindt ook zijn weg naar bedrijven, zowel in hardware als software. Scale-out opslag is network-attached storage waarbij de totale hoeveelheid aan schijfruimte uitgebreid kan worden door apparaten toe te voegen en aan elkaar te koppelen.

Besloten datacenters kunnen scale-out infrastructuren bouwen die qua kosten concurreren met cloudleveranciers, maar die je tegelijkertijd minder vertraging en meer controle bieden. Om over te gaan op deze stap is het belangrijk om te begrijpen wat de vereisten zijn voor je basisworkload. Daarnaast is het belangrijk om het gebruik van de cloud te beperken tot tijdelijke of piek-workloads. 

Advanced Erasure Codes

Erasure codes worden al een tijdje gebruikt voor het vergroten van datadichtheid in harde schijven en storage arrays. Met advanced erasure codes kunnen gebruikers de bescherming en beveiliging van hun data verhogen, zonder dat het veel meer opslag kost.

Normale erasure codes beschermen tegen het kwijtraken van data wanneer er een schijf uitvalt. Met advanced erasure codes (AEC) kan data worden teruggehaald bij het uitvallen van maximaal vier schijven. Dit zorgt voor uiterst hoge bescherming van data. AEC kan worden ingesteld om te draaien over meerdere locaties, dus zelfs als een of meerdere datacenters uitvallen zal de data worden behouden.

Er is één keerzijde: de rekenkracht die nodig is voor advanced erasure codes kan behoorlijk wat vragen van de processor. In de komende jaren verwachten we dat AEC steeds verder zal verbeteren, waardoor het in de toekomst minder computerkracht zal vragen. Door deze betere prestaties zal het geschikt worden voor steeds meer toepassingen. 

Databescherming

De afgelopen jaren zagen we al dat privacy een steeds grotere rol is gaan spelen. Deze ontwikkeling zal zich de komende tijd voortzetten. Sinds het invoeren van de GDPR-wet wordt het steeds belangrijker voor bedrijven om hun data te beschermen. Als gevolg gaan bedrijven steeds geavanceerdere manieren van databescherming toepassen. Het is te riskant geworden om afhankelijk te zijn van slechts een enkele verdedigingslinie. 

Machine learning zal een belangrijke rol gaan spelen voor het beschermen van data. Om machine learning volledig in te zetten, rest er nog één probleem. Er zijn enorme hoeveelheden data nodig om het systeem te trainen. Om deze data te verzamelen is het nodig dat bedrijven hun bedreigingsgevens gaan delen. Zodra dit gebeurt, kan geautomatiseerde bedreigingscommunicatie worden ingezet en de bescherming van data worden verbeterd. 

Rack scale design

Rack scale design (RSD) is een industriebrede architectuur voor opgesplitste en combineerbare infrastructuur die de manier waarop datacenters worden gebouwd, beheerd en uitgebreid, fundamenteel verandert. Intel heeft het al jaren over het concept van rack scale design. Sinds vorig jaar is RSD ook echt een feit. 

Het concept achter RSD werkt als volgt. Neem individuele ‘racks’ met cpu, geheugen, opslag en gpu en verbind ze allemaal via een interconnect met een hoge bandbreedte en lage latency. Gebruik vervolgens software om virtuele servers te configureren met een willekeurige combinatie van compute, geheugen en opslag, die nodig is voor een specifieke applicatie. Je kunt RSD ook wel zien als een zeer instelbare privécloud. 

Een groot voordeel van rack scale design is dat het mogelijk is om componenten te upgraden wanneer er betere technologie beschikbaar komt. Je hoeft hiervoor niet alle andere onderdelen opnieuw te kopen. Het is hierdoor mogelijk om de opslagcapaciteit en prestaties te verbeteren wanneer dat nodig is. Met RSD kan de dataopslag meegroeien op basis van de behoefte. 

High-capacity disks

Wie dacht dat harde schijven tot het verleden behoorden, heeft het mis. HDD’s zijn zelfs aan een renaissance begonnen. De capaciteit van de nieuwste drives loopt op tot wel 16 TB en zal de komende vijf jaar waarschijnlijk verdubbelen. Seagate verwacht zelfs in 2025 de eerste 100 TB HDD’s te ontwikkelen. Harde schijven zijn momenteel de goedkoopste manier voor random-access storage en dat zal ook de komende jaren zo blijven. 

De innovaties rondom harde schijven worden gedreven door onder andere helium en HAMR. Helium verlaagt de luchtweerstand, waardoor producenten meer platters (schijven) in de drive kunnen plaatsen. Deze technologie wordt veel gebruikt in cloud-datacenters. 

Vorig jaar maakte Seagate zijn Heat-Assisted Magnetic Recording (HAMR)-schijven algemeen beschikbaar. De HAMR-technologie gebruikt lasers of microgolven om een klein deel van een plaat in de disk te verwarmen tot 400 graden Celsius, voordat data wordt weggeschreven. Na het afkoelen is de schijf veel beter bestand tegen errors. 

Intelligente dataopslag

Iets wat we veel terugzien in de nieuwe technologieën voor dataopslag, is dat we steeds meer gebruik maken van slimme systemen. Slimme technologieën voor het ordenen en opslaan van data, maar ook het verwerken van data. 

Het datavolume aan de edge en in datacenters neemt razendsnel toe. Hierdoor wordt het steeds moeilijker om de data te verplaatsen voor verwerking. In plaats daarvan wordt de verwerking van data verplaatst naar een intelligente dataopslag. Door machine learning kan de intelligente dataopslag worden getraind om grotendeels zelfsturend te zijn. 

Intelligente dataopslag kan plaatsvinden aan de rand en in bigdata-applicaties. Aan de edge kan de intelligente dataopslag machine learning gebruiken om de data voor te bewerken en het volume te verminderen. Hierdoor is er minder bandbreedte nodig in datacenters. Bigdata-applicaties kunnen een poule van opslag en geheugen delen. Dit maakt het mogelijk om zoveel processors te gebruiken als nodig is om de data te delen en de gewenste prestaties te bereiken.

Conclusie

We leven in een tijd waarin er ongekend veel data wordt verzameld, verwerkt en opgeslagen. Het efficiënt en veilig behandelen en opslaan van data is een topprioriteit voor menig bedrijf. In de toekomst zal de hoeveelheid data alleen maar toenemen. Daarom is het belangrijk om de technologieën voor dataopslag steeds verder te blijven ontwikkelen en innoveren. 

We zien dat het mogelijk wordt om steeds grotere hoeveelheden data op te slaan en dat dit ook steeds toegankelijker wordt. Het opslaan van data is kosteneffectiever dan ooit tevoren en deze trend zal zich waarschijnlijk voortzetten in de voorzienbare toekomst. Ook wordt dataopslag steeds slimmer. Dankzij artificiële intelligente kan data zo efficiënt en betrouwbaar mogelijk worden opgeslagen.