
Gegevensclassificatie – Hoe categoriseer je het en waar sla je het op
Eerder bespraken we de vereiste van een volwassen programma voor gegevensclassificatie. In deze post gaan we in op de administratieve werking van zo’n programma. Gegevensclassificatie omvat doorgaans een systeem met drie of vier lagen, vergelijkbaar met het onderstaande:
Ik raad organisaties die nieuw zijn met gegevensclassificatie aan om te beginnen met het systeem van drie niveaus, omdat deze niveaus en de bijbehorende acties en controles lastig te definiëren kunnen zijn. Het systeem met drie niveaus beschouwt alle interne data als vertrouwelijk.
De prioriteit is daarom om de processen en procedures te creëren die nodig zijn om vertrouwelijke data te ondersteunen. Je kunt de beperkte hoeveelheid openbare en zeer vertrouwelijke data later identificeren via interviews en technische analyse. Vervolgens kun je je doelen duidelijk communiceren binnen het bedrijf, inclusief locaties, processen en applicaties.
Vandaag behandelen we hoe data doorgaans wordt opgeslagen binnen organisaties en waar. Deze structuren hebben een grote impact op de reikwijdte, werking en technische keuzes van je programma. Omdat elke organisatie andere bedrijfsprocessen en technologieën heeft, zal elk project voor gegevensclassificatie ook verschillen.
Gestructureerde vs. ongestructureerde gegevens
Het categoriseren van gestructureerde en ongestructureerde data is het eenvoudigste onderdeel van gegevensclassificatie om uit te leggen, maar het lastigste om te beheren. Gestructureerde data is alle data binnen een applicatie, meestal een database. De applicatie-eigenaren, databasebeheerders of de leverancier van de applicatie binnen je organisatie kunnen uitleggen welke verschillende soorten data in de applicatie zijn opgeslagen.
Organisaties staan versteld van hoeveel data en hoeveel datatypes er in applicaties worden opgeslagen. HR-, customer relationship management (CMR)-systemen, enterprise resource planning (ERP)-platforms, accountplatforms en M&A-oplossingen zijn slechts enkele applicaties die historisch gezien enorme, gestructureerde datavoorraden bevatten. Veel van deze systemen zijn gereguleerd (bijv. HR, ERP) en daarom moet de data gedurende een bepaalde periode, en in sommige gevallen voor onbepaalde tijd, worden bewaard.
“De beveiligings- en governance-mogelijkheden van individuele softwaredistributies voldoen niet altijd aan alle vereiste voor granulaire toegangscontrole en opkomende governancevereiste.”
– Doug Henschen
Ongestructureerde data is data die niet in een applicatie wordt opgeslagen. Excel-spreadsheets, PowerPoint-presentaties en Word-documenten zijn klassieke voorbeelden van ongestructureerde data. Ongestructureerde data wordt vaak aangetroffen in rapporten die zijn gegenereerd uit gestructureerde datasystemen.
Ongestructureerde data is doorgaans tien keer groter qua hoeveelheid dan gestructureerde data. De reden hiervoor is eenvoudig: het opslaan van kopieën van belangrijke bestanden op diverse plekken geeft medewerkers een gevoel van veiligheid. E-mail is historisch gezien verantwoordelijk voor de grootste hoeveelheid ongestructureerde data binnen een organisatie.
Denk er eens over na: medewerkers mailen een belangrijk of gevoelig document om ervoor te zorgen dat iedereen een kopie heeft en slaan vervolgens de e-mail op in een PST-bestand of in een map op hun laptop. Er kunnen honderden kopieën van één enkel bestand met zeer gevoelige data verspreid zijn over honderden locaties in het netwerk.
Onheilspellende opkomst van data lakes en cloudoplossingen
Een trend in het bedrijfsleven is tegenwoordig om waarde te zoeken in alle gestructureerde data die organisaties opslaan. Sectoren van vastgoed tot afvalbeheer hebben verborgen waarde ontdekt in de data die ze verzamelen. Sommigen denken misschien dat deze trend in de financiële sector is begonnen, maar dat is niet het geval.
De opkomst van data begon met de focus op analytics die Google en Facebook introduceerden. Deze en soortgelijke organisaties realiseerden zich dat ze winstgevendheid en klantloyaliteit konden vergroten als ze hun advertenties op specifieke gebruikers richtten.
IP-adressen, inlogtijden, muisbewegingen en andere data gaven unieke inzichten in hun gebruikers die ze aan een grotere groep adverteerders konden verkopen. Die informatie was ook nuttig voor andere organisaties, om uiteenlopende redenen. Herinner je Cambridge Analytica nog? Deze nieuwe waarde die data bood, werd mogelijk gemaakt door de eerste data lakes, hoewel ze toen nog niet zo werden genoemd.
“Het belangrijkste is dat het nieuwe niet de voordelen biedt die we van het oude verwachtten.”
– Merv Adrian
Data lakes bieden organisaties de unieke kans om data uit diverse bronnen en in diverse formaten te ‘dumpen’. Ze zijn meestal onbeheerd en open voor elk account met toegang tot de lake. Ongeacht het doel van de lake (marketing, business insights, archivering, enz.), zijn de kenmerken van gegevensclassificatie hetzelfde. Ten eerste accepteert het alle data. Ten tweede is het een open platform van ontwerp. Ten derde migreren de meeste van deze oplossingen naar de cloud of worden daar direct gebouwd.
Data Warehouse vs. Data Lake
Datawarehouses zijn veiliger dan lakes. Dit komt doordat de data wordt opgeschoond voordat deze wordt toegevoegd. Zie hieronder:
Datawarehouses schonen data op voordat deze naar de cloud gaat.
Een data lake daarentegen neemt ALLE data op zonder de stap van transformatie en herstructurering:
Een data lake, in tegenstelling tot een datawarehouse, neemt ALLE data op, zonder vragen te stellen.
Je kunt het je niet permitteren om de problemen rond gegevensclassificatie die ontstaan bij het verzamelen van al deze data te negeren, zeker niet vanuit het oogpunt van naleving van regelgeving. Je moet vanaf het begin betrokken zijn bij het ontwerp van de lake(s).
Ongeacht hoe de lake wordt gebouwd, moet gegevensclassificatie een overweging zijn in het ontwerp. Stel bijvoorbeeld dat een lake wordt ontworpen voor archiveringsdoeleinden. Moet zeer vertrouwelijke data worden opgenomen? Moet zeer vertrouwelijke data een eigen lake krijgen, of moet het volledig worden uitgesloten?
Classificatie toepassen aan het begin van de data-injectie, of aan het einde wanneer data wordt geëxporteerd uit de Process Data Stores, is je beste strategie.
Weten welke systemen data aan de lake leveren is belangrijk. Wanneer data in een lake wordt geplaatst, zijn er minder beschermingen beschikbaar voor de verantwoordelijke groepen (Cyber, Risk, Compliance, enz.) dan bij enterprise databases of relationele databasesystemen.
Bij traditionele database managementsystemen kan het informatiebeveiligingsteam alle netwerkbeveiliging en toegangscontrole verzorgen, maar weinig doen met de data zodra deze in het database managementsysteem staat.
Data lake-structuren beschikken echter niet over alle governance-mogelijkheden en beleidsregels die horen bij een traditioneel database managementsysteem, van basisreferentiële integriteit tot rolgebaseerde toegang en functiescheiding.
Een manier om de beveiliging van een data lake te benaderen is om het te zien als een pijplijn met upstream-, midstream- en downstreamcomponenten, aldus Merv Adrian. De dreigingsvectoren die bij elk stadium horen, verschillen enigszins en moeten dus ook anders worden aangepakt.
Data lakes bieden veel waarde voor de organisatie, maar vereisen een ander governance-model om classificatiecontroles te behouden.
Wordt vervolgd
In mijn volgende post breng ik alle eerder besproken elementen samen met de Data Management Controls Matrix.
Veelgestelde vragen
Secure File Transfer is een proces waarmee bestanden veilig en efficiënt kunnen worden gedeeld of overgedragen via een netwerk of het internet, waarbij de beveiliging en integriteit van de data wordt gewaarborgd. Het maakt gebruik van protocollen zoals Secure File Transfer Protocol (SFTP), File Transfer Protocol Secure (FTPS) of Hypertext Transfer Protocol Secure (HTTPS) om encryptie en beveiligde kanalen voor gegevensoverdracht te bieden. Deze methode is essentieel in diverse sectoren, waaronder R&D, het hoger onderwijs en overheidsinstanties, waar gevoelige data veilig gedeeld moet worden. Belangrijke kenmerken van Secure File Transfer zijn encryptie, toegangscontroles en overdrachtsversnelling, waardoor veilige en efficiënte gegevensoverdracht mogelijk is, zelfs voor grote of complexe bestanden.
Het gebruik van beveiligde kanalen voor bestandsoverdracht helpt data tijdens verzending te beschermen, waardoor privacy en integriteit van data worden gegarandeerd. Het biedt ook een logboek van gegevensoverdrachten, wat nuttig kan zijn voor het volgen en monitoren van activiteiten en voor het aantonen van naleving van regelgeving voor gegevensbescherming.
Beheerde bestandsoverdracht (MFT: Managed File Transfer) is een technologie die veilige en efficiënte gegevensoverdracht tussen systemen binnen en tussen organisaties mogelijk maakt. In tegenstelling tot standaardprotocollen voor bestandsoverdracht zoals FTP, bieden MFT-oplossingen verbeterde beveiliging en controle, met gebruik van beveiligde protocollen zoals SFTP, FTPS en HTTPS voor gegevensoverdracht. Ze bieden ook functies zoals automatisering, planning, realtime monitoring en meldingen voor bestandsoverdrachtactiviteiten, waardoor organisaties het overdrachtsproces effectiever kunnen beheren. MFT is vooral waardevol in sectoren die regelmatig grote hoeveelheden gevoelige data overdragen, zoals de financiële sector, zorgprocessen en retail, en zorgt voor naleving van diverse beveiligings- en privacyregelgeving.
Secure File Transfer Protocol (SFTP) is een netwerkprotocol dat bestands- en overdrachtsfunctionaliteit biedt via elke betrouwbare datastroom, meestal gebruikt met het SSH-2-protocol voor veilige bestandsoverdracht. SFTP versleutelt zowel commando’s als data, waardoor het open verzenden van wachtwoorden en gevoelige informatie over het netwerk wordt voorkomen en de integriteit en privacy van data wordt gewaarborgd. In vergelijking met standaard FTP ondersteunt SFTP robuustere functies zoals het hervatten van onderbroken overdrachten, directory-overzichten en het verwijderen van bestanden op afstand, waardoor het een veelzijdig hulpmiddel is voor het beheren van veilige bestandsoverdrachten. Binnen Secure File Transfer-oplossingen maakt SFTP, in combinatie met encryptie, toegangscontroles en overdrachtsversnelling, efficiënte en veilige gegevensoverdracht mogelijk, zelfs voor grote bestanden of complexe datasets.
Kiteworks biedt functies zoals AES 128-bit encryptie, beveiligde e-mail en een beveiligde container voor offline toegang. Het platform levert ook uitgebreide, onveranderbare audit logs en integreert met bestaande beveiligingsinfrastructuur, waardoor het een robuuste oplossing is voor Secure File Transfer. Kiteworks ondersteunt de overdracht van grote bestanden tot 16 TB en biedt native mobiele apps voor Android en iOS met functies als beveiligde e-mail, bestandsoverdracht en offline toegang. Beheerders kunnen beveiligde formulieren aanmaken voor conforme bestandsuploads, en het platform maakt aanpassing van branding, uiterlijk en tekst mogelijk.