<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.1d1 20130915//EN" "http://jats.nlm.nih.gov/publishing/1.1d1/JATS-journalpublishing1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" article-type="research-article" xml:lang="af">
<front>
<journal-meta>
<journal-id journal-id-type="publisher-id">SATNT</journal-id>
<journal-title-group>
<journal-title>Suid-Afrikaanse Tydskrif vir Natuurwetenskap en Tegnologie</journal-title>
</journal-title-group>
<issn pub-type="ppub">0254-3486</issn>
<issn pub-type="epub">2222-4173</issn>
<publisher>
<publisher-name>AOSIS</publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="publisher-id">SATNT-35-1387</article-id>
<article-id pub-id-type="doi">10.4102/satnt.v35i1.1387</article-id>
<article-categories>
<subj-group subj-group-type="heading">
<subject>Oorspronklike Navorsing</subject>
</subj-group>
</article-categories>
<title-group>
<article-title>&#x2019;n Oorsig van grootdata- en datawetenskaponderrig aan Suid-Afrikaanse universiteite</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author" corresp="yes">
<contrib-id contrib-id-type="orcid">http://orcid.org/0000-0002-5572-4319</contrib-id>
<name>
<surname>Kotz&#x00E9;</surname>
<given-names>Eduan</given-names>
</name>
<xref ref-type="aff" rid="AF0001">1</xref>
</contrib>
<aff id="AF0001"><label>1</label>Department of Computer Science and Informatics, University of the Free State, South Africa</aff>
</contrib-group>
<author-notes>
<corresp id="cor1"><bold>Corresponding author:</bold> Eduan Kotz&#x00E9;, <email xlink:href="kotzeje@ufs.ac.za">kotzeje@ufs.ac.za</email></corresp>
</author-notes>
<pub-date pub-type="epub"><day>03</day><month>11</month><year>2016</year></pub-date>
<pub-date pub-type="collection"><year>2016</year></pub-date>
<volume>35</volume>
<issue>1</issue>
<elocation-id>1387</elocation-id>
<history>
<date date-type="received"><day>19</day><month>04</month><year>2016</year></date>
<date date-type="accepted"><day>20</day><month>06</month><year>2016</year></date>
</history>
<permissions>
<copyright-statement>&#x00A9; 2016. The Authors</copyright-statement>
<copyright-year>2016</copyright-year>
<license license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/2.0/">
<license-p>AOSIS. This work is licensed under the Creative Commons Attribution License.</license-p>
</license>
</permissions>
<abstract>
<p>Mens en rekenaar genereer data elektronies teen &#x2019;n astronomiese spoed en in so &#x2019;n mate dat die samelewing tans kognitiewe uitdagings ervaar om al hierdie data sinvol te ontleed en te gebruik. Grootdatafirmas, soos Google en Facebook, het hierdie probleem reeds &#x2019;n paar jaar gelede ge&#x00EF;dentifiseer en is tans gedurig besig om nuwe tegnologie te ontwikkel of bestaande tegnologie te verbeter, ten einde die kognitiewe ontleedproses van hierdie grootdatastelle te vergemaklik. Die doel van di&#x00E9; artikel is om &#x2019;n bydrae te lewer tot ons teoretiese begrip van die rol wat grootdata gaan speel om nuwe opleidingsgeleenthede aan Suid-Afrikaanse universiteite te skep. Die artikel ondersoek ontluikende literatuur oor die eienskappe en hoofkomponente van grootdata, tesame met die Hadoop-programstapel as voorbeeld van grootdatategnologie. Aangesien die snelle ontwikkeling van grootdatategnologie &#x2019;n paradigmaverskuiwing teweeg bring wat betref menslike hulpbronne wat hierdie datastelle gaan ontleed, stel die studie ondersoek in na die stand van grootdata-onderrig aan Suid-Afrikaanse universiteite. Die artikel voorsien ook &#x2019;n oorsig oor moontlike grootdatabronne aan Suid-Afrikaanse universiteite, sowel as relevante grootdatavaardighede waaroor die datawetenskaplike noodwendig moet beskik. Die studie ondersoek verder ook bestaande akademiese programme in Suid-Afrika, wat gefokus is op die onderrig van gevorderde databasisstelsels. Die studie het bevind dat grootdata-onderrig wel op nagraadse vlak aan Suid-Afrikaanse universiteite plaasvind, maar op &#x2019;n baie beperkte skaal. Di&#x00E9; artikel dra by tot nuwe kennis en stel belangrike teoretiese komponente voor wat ingesluit kan word by bestaande akademiese programme. Daar is egter meer navorsing nodig om hierdie programme uit te brei en in &#x2019;n groeiende vraag aan datawetenskaplikes met grootdatavaardighede te voorsien.</p>
</abstract>
<trans-abstract xml:lang="en">
<p><bold>An overview of big data and data science education at South African universities.</bold> Man and machine are generating data electronically at an astronomical speed and in such a way that society is experiencing cognitive challenges to analyse this data meaningfully. Big data firms, such as Google and Facebook, identified this problem several years ago and are continuously developing new technologies or improving existing technologies in order to facilitate the cognitive analysis process of these large data sets. The purpose of this article is to contribute to our theoretical understanding of the role that big data might play in creating new training opportunities for South African universities. The article investigates emerging literature on the characteristics and main components of big data, together with the Hadoop application stack as an example of big data technology. Due to the rapid development of big data technology, a paradigm shift of human resources is required to analyse these data sets; therefore, this study examines the state of big data teaching at South African universities. This article also provides an overview of possible big data sources for South African universities, as well as relevant big data skills that data scientists need. The study also investigates existing academic programs in South Africa, where the focus is on teaching advanced database systems. The study found that big data and data science topics are introduced to students on a postgraduate level, but that the scope is very limited. This article contributes by proposing important theoretical topics that could be introduced as part of the existing academic programs. More research is required, however, to expand these programs in order to meet the growing demand for data scientists with big data skills.</p>
</trans-abstract>
</article-meta>
</front>
<body>
<sec id="s0001">
<title>Inleiding</title>
<p>Volgens IBM word daar daagliks ongeveer 2.5 kwintiljoen <italic>(quintillion)</italic> datagrepe deur &#x2019;n verskeidenheid bronne gegenereer wat byvoorbeeld klimaatsensors, kommersi&#x00EB;le transaksies en ander digitale media insluit (IBM n.d.). Om hierdie getal in perspektief te plaas word daar dikwels verwys daarna dat 90&#x0025; van die w&#x00EA;reld se data in die laaste paar jaar genereer is. Verder is 90&#x0025; van hierdie data egter in &#x2019;n ongestruktureerde formaat. Vir die mens is dit baie moeilik om ongestruktureerde data te sintetiseer en te kontekstualiseer ten einde enige waarde daaruit te onttrek. Yin en Kaynak (<xref ref-type="bibr" rid="CIT0066">2015</xref>) voer aan dat hierdie enorme hoeveelheid data, beter bekend as grootdata, &#x2019;n belangrike rol gaan speel in die toekoms en nie ge&#x00EF;gnoreer kan word nie. Die outeurs skets &#x2019;n toekomsprentjie van &#x2019;n vierde industri&#x00EB;le revolusie met &#x2018;slim&#x2019; fabrieke, waar masjiene en bronne deur sosiale netwerke gaan kommunikeer. Hierdie fabrieke se einddoel is om grootdatabronne te gebruik om &#x2018;slim&#x2019; produkte te lewer wat sal weet hoeveel reeds vervaardig is en hoeveel deur die mark benodig word. Davenport en Patil (<xref ref-type="bibr" rid="CIT0011">2012</xref>) beklemtoon dat datawetenskaplikes &#x2019;n baie belangrike rol gaan speel om grootdatastelle te bou en te ontleed. Daar is dus tans w&#x00EA;reldwyd &#x2019;n fokusverskuiwing by akademiese instellings om datawetenskaplikes op te lei (Wixom <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0065">2014</xref>), en lande wat daarin gaan slaag, sal sekerlik &#x2019;n voorsprong h&#x00EA; in die vierde industri&#x00EB;le revolusie.</p>
<p>Die artikel ondersoek die stand van grootdata- en datawetenskaponderrig aan Suid-Afrikaanse universiteite. Die artikel begin met &#x2019;n bespreking van die eienskappe, gevolg deur die fases van &#x2019;n grootdatastelsel. In die daaropeenvolgende afdeling word enkele maar toepaslike grootdata-uitdagings bespreek as potensi&#x00EB;le navorsingsgeleenthede. Daarna word gefokus op grootdata in ho&#x00EB;r onderwys en bespreek enkele tipes grootdatabronne wat by universiteite teenwoordig is. Di&#x00E9; afdeling lewer ook verslag oor die stand van grootdata- en datawetenskaponderrig aan Suid-Afrikaanse universiteite en vorm die empiriese gedeelte van die artikel. Ten slotte word opsommende kommentare en voorstelle vir toekomstige navorsing bespreek.</p>
</sec>
<sec id="s0002">
<title>Grootdata</title>
<p>Die hoofdoel van hierdie afdeling is om &#x2019;n oorsig te gee oor grootdata. Grootdata-eienskappe, grootdatastelsels en die Hadoop-programmatuurstapel word breedvoerig bespreek.</p>
<sec id="s20003">
<title>Grootdata-eienskappe</title>
<p>Grootdata verwys na &#x2019;n groot versameling data wat &#x00F3;f ongestruktureerd is, &#x00F3;f so vinnig groei dat dit te groot is vir tradisionele dataverwerkingstelsels en dus nuwer tegnologie vereis (Vaisman &#x0026; Zimanyi <xref ref-type="bibr" rid="CIT0058">2014</xref>; Provost &#x0026; Fawcett <xref ref-type="bibr" rid="CIT0039">2013</xref>). Wat grootdata so enorm maak, is herhaalde inskrywings oor &#x2019;n tydperk, byvoorbeeld, &#x2019;n weblog skryf miljoene besoeke per dag op &#x2019;n paar webblaaie; of &#x2019;n selfoondatabasis stoor die tyd en plek van al die handstelle elke 15 sekondes (Jacobs <xref ref-type="bibr" rid="CIT0021">2009</xref>). Die datastel moet ook so groot wees dat tradisionele inligtingstegnologie nie die data binne &#x2019;n aanvaarbare tyd kan verwerk nie. Hu <italic>et al</italic>. (<xref ref-type="bibr" rid="CIT0018">2014</xref>) vergelyk grootdata met tradisionele data en wys die verskille uit ten opsigte van volume, skeppingspoed, struktuur, databron, databerging, data-integrasie en toegang. Grootdata se volumes word in tera- of petagrepe gemeet, dit word konstant opgedateer, is semigestruktureerd of ongestruktureerd, ten volle verspreid, moeilik om te integreer en word meestal in nierelasionele databasisse geberg (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>).</p>
<p>Volgens Gartner (<xref ref-type="bibr" rid="CIT0015">2016</xref>) word grootdata met drie hoofeienskappe geassosieer, naamlik groot hoeveelhede data (<italic>volume</italic>), wye verskeidenheid datatipes (<italic>variety</italic>) en ho&#x00EB; snelheid (<italic>velocity</italic>). Ander eienskappe van grootdata sluit in laedigtheidwaarde (<italic>value</italic>), betroubaarheid (<italic>veracity</italic>), verifikasie (<italic>verification</italic>), en validasie (<italic>validation</italic>) (Berman <xref ref-type="bibr" rid="CIT0003">2013</xref>; Wamba <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0060">2015</xref>; Jagadish <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0022">2014</xref>; Yin &#x0026; Kaynak <xref ref-type="bibr" rid="CIT0066">2015</xref>; Assun&#x00E7;&#x00E3;o <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0002">2015</xref>). Waarde verwys na die vermo&#x00EB; om insig uit grootdata te geneer tot voordeel van &#x2019;n organisasie (Daniel &#x0026; Butson <xref ref-type="bibr" rid="CIT0008">2014</xref>). Betroubaarheid verwys na die teenwoordigheid van vuilheid en onakkuraatheid wat deur geruis en abnormaliteite veroorsaak word (Daniel &#x0026; Butson <xref ref-type="bibr" rid="CIT0008">2014</xref>). Dataverifikasie verwys na &#x2019;n stel prosesse wat gevolg moet word om te verseker dat &#x2019;n grootdatastel konformeer na &#x2019;n stel spesifikasies voordat dit deur analiste gebruik word (Berman <xref ref-type="bibr" rid="CIT0003">2013</xref>). Die laaste eienskap, datageldigheid, is &#x2019;n eienskap waar grootdata op &#x2019;n gepaste wyse aangewend word sodat dit in ooreenstemming is met die oorspronklike doelwit van &#x2019;n grootdata-projek (Berman <xref ref-type="bibr" rid="CIT0003">2013</xref>).</p>
</sec>
<sec id="s20004">
<title>Grootdatastelsel</title>
<p>Bogenoemde eienskappe van grootdata bring &#x2019;n nuwe paradigma na vore met betrekking tot hoe die data versamel, geberg, verwerk, ontleed en gebruik moet word. Hierdie paradigma word in die gedrukte media gewoonlik net met tegnologie geassosieer, en dikwels word daar nagelaat om te s&#x00EA; dat grootdata ook twee ander kritieke elemente vereis, naamlik mense en &#x2019;n proses (W. Kim, Jeong, &#x0026; C. Kim <xref ref-type="bibr" rid="CIT0023">2014</xref>). Die volgende afdeling snoer die elemente saam en bespreek die vier aaneenlopende fases van &#x2019;n grootdatastelsel. Hierdie fases sluit in databronne, dataverkryging, databerging en data-ontleding (Yin &#x0026; Kaynak <xref ref-type="bibr" rid="CIT0066">2015</xref>; Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>; Chen <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0006">2014</xref>).</p>
<sec id="s30005">
<title>Datagenerasie en databronne</title>
<p>Van die belangrikste prim&#x00EA;re bronne van grootdata sluit in databanke, webblaaie, sosiale media, sensors en mobiele data (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). Hierdie bronne word hoofsaaklik deur sakeondernemings, rekenaarnetwerke wat die Internet, mobiele netwerke en Internet of Things insluit, sowel as deur wetenskaplike toepassings genereer (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). Ten einde as &#x2019;n grootdatabron gesien te word, moet groot hoeveelhede data teen &#x2019;n baie ho&#x00EB; spoed gegenereer word. Grootdatabronne kom in verskeie formate voor en kan gestruktureerd, semigestruktureerd of ongestruktureerd wees (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). Gestruktureerde data verwys na data wat in entiteite georganiseer is, soos XML-dokumente of databasistabelle wat in &#x2019;n relasionele databasisstelsel gevind word (White <xref ref-type="bibr" rid="CIT0064">2015</xref>). Semigestruktureerde data het wel &#x2019;n skema, maar is minder georganiseerd en gestruktureerd (B. G. Kim, Trimi &#x0026; Chung <xref ref-type="bibr" rid="CIT0023">2014</xref>). &#x2019;n Spreivel (<italic>spreadsheet</italic>) is &#x2019;n voorbeeld van &#x2019;n semigestruktureerde bron (White <xref ref-type="bibr" rid="CIT0064">2015</xref>). Ongestruktureerde data beskik nie oor &#x2019;n interne struktuur nie en sluit in teksdata, klankdata, videodata, beelddata en internetdata soos klikstrome (<italic>click stream</italic>) en logl&#x00EA;ers (White <xref ref-type="bibr" rid="CIT0064">2015</xref>; Minelli, Chambers &#x0026; Dhiraj <xref ref-type="bibr" rid="CIT0032">2013</xref>: 10). Om sake verder te kompliseer, kan grootdata ook arriveer en verwerking benodig teen verskillende snelhede, wat insluit in bondels, nabytyds (<italic>near-time</italic>), intyds (<italic>real-time</italic>) of in strome (Assun&#x00E7;&#x00E3;o <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0002">2015</xref>). Die verspreide MapReduce en Hadoop-ekosisteem is die ideale omgewing om databronne te akkommodeer wat in verskeie formate en snelhede voorkom, en word breedvoerig in die Hadoop-programmatuurstapel bespreek.</p>
</sec>
<sec id="s30006">
<title>Dataverkryging</title>
<p>Die verkryging van grootdatastelle behels die proses om data bymekaar te maak en sluit in data-insameling, data-oordrag en data-voorverwerking (Chen <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0006">2014</xref>:23). Die drie mees algemene maniere om grootdata te versamel sluit in logl&#x00EA;erverkryging, sensordataverkryging en netwerkdataverkryging (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). Logl&#x00EA;erverkryging is die mees algemene manier om grootdata te verkry, aangesien dit deur databronstelsels en webbedieners gegenereer word (Chen <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0006">2014</xref>:24). Sensordata kom ook volop voor en sluit in enige data wat deur elektroniese sensors gegenereer word (Chen <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0006">2014</xref>:24). Netwerkdata, soos webblaaie, word verkry deur &#x2019;n kombinasie van &#x2019;n webkruiper (<italic>web crawler</italic>) en &#x2019;n woordsegmentasiestelsel (Chen <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0006">2014</xref>:24). Sodra die data versamel is, word dit na &#x2019;n datasentrum oorgeplaas waar analitiese toepassings ondersteun word. Die proses word gevolg deur &#x2019;n datasentrumoordragproses waar die data binne die datasentrum oorgedra word vir plasingoordeel (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). Vanwe&#x00EB; die groot verskeidenheid databronne, gaan die versamelde data geruis en oorbodigheid bevat en is dit nie sinvol om onbruikbare data te stoor nie (Chen <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0006">2014</xref>:27). Die data word dus deur &#x2019;n datavoorverwerkingsfase gehanteer waar dit ge&#x00EF;ntegreer, skoongemaak en oorbodighede verwyder word ten einde stoorspasie te verminder en ontledingsakkuraatheid te verhoog (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>; Chen <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0006">2014</xref>:27).</p>
</sec>
<sec id="s30007">
<title>Databerging</title>
<p>Sodra die data versamel en verkry is, moet &#x2019;n grootdatastelsel dit gereed kry vir berging, ontleding en waardeontrekking (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). Dit alles bied interessante uitdagings vir &#x2019;n databergingstelsel, aangesien gestruktureerde data herhaaldelik deur &#x2019;n relasionele databasisbestuurstelsel (RDBS) gehanteer word, terwyl semigestruktureerde of ongestruktureerde data meer op &#x2019;n ad hoc-basis, of selfs net &#x2019;n enkele keer gehanteer word (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). Vir hierdie doeleindes moet buigsame databergingsinfrastruktuur in plek wees en die databergingstelsel moet ook &#x2019;n skaalbare toegang-koppelvlak voorsien vir navrae na die data. &#x2019;n Tipiese databergingstelsel bestaan uit apparatuurinfrastruktuur en databestuur.</p>
<p>Apparatuurinfrastruktuur, byvoorbeeld DAS (<italic>Direct Attached Storage</italic>), NAS (<italic>Network Attached Storage</italic>) en SAN (<italic>Storage Area Network</italic>), is verantwoordelik daarvoor om die versamelde inligting fisiek te stoor (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). Databestuur is weer verantwoordelik daarvoor om die inligting te organiseer sodat dit effektief verwerk kan word. Grootdatabestuur bestaan uit drie vlakke, naamlik l&#x00EA;erstelsels, databasistegnologie en programmeringsmodelle. Die Google-l&#x00EA;erstelsel (<italic>Google File System</italic> of GFS), Cosmos van Microsoft en Haystack van Facebook is bekende voorbeelde van verspreide l&#x00EA;erstelsels (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). Van al hierdie l&#x00EA;erstelsels is GFS die gewildste, aangesien dit &#x2019;n brokkiegebaseerde (<italic>chuck-based</italic>), verspreide l&#x00EA;erstelsel is wat fouttoleransie deur middel van datapartisie en replisering ondersteun (Lee <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0027">2011</xref>). Aangesien GFS &#x2019;n gedeeldel&#x00EA;erstelsel is, funksioneer dit die effektiefste op &#x2019;n rekenaartros (<italic>cluster</italic>) wat bestaan uit &#x2019;n stel gekoppelde rekenaars wat saamwerk as &#x2019;n enkele sisteem.</p>
<p>Ten opsigte van databestuur en databasistegnologie, word daar algemeen aanvaar dat &#x2019;n tradisionele RDBS nie die verskeidenheid en grootte van grootdatastelle kan hanteer nie (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>; Krishnan <xref ref-type="bibr" rid="CIT0025">2013</xref>: 86). &#x2019;n RDBS ondersteun net gestruktureerde data (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>) vanwe&#x00EB; die relasionele argitektuur en ACID-eienskappe (<italic>Atomicity, Consistency, Isolation and Durability</italic>) van &#x2019;n RDBS (Krishnan <xref ref-type="bibr" rid="CIT0025">2013</xref>: 86). &#x2019;n RDBS kan egter ook slegs opskaal deur middel van peperduur apparatuur en nie deur kommoditeitsapparatuur, soos by &#x2019;n rekenaartros wat parallel werk nie (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). Beide hierdie faktore (struktuur en skaalbaarheid), maak &#x2019;n RDBS dus onvanpas om die groeiende volumes data van nuwerwetse toepassings, soos sensornetwerke en ruilhandelplatforms, te bestuur (Krishnan <xref ref-type="bibr" rid="CIT0025">2013</xref>:86; Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>).</p>
<p>NoSQL- (Not Only SQL) databasisstelsels word tans voorgehou as die oplossing om hierdie groot volumes, multistrukturele data te verwerk (Sharda <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0048">2014</xref>). NoSQL-databasisse kan min of meer in vier hoofkategorie&#x00EB; verdeel word: sleutelwaarde, kolomgeori&#x00EB;nteerd, dokumentdatabasisse en grafiekdatabasisse (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). &#x2019;n Sleutelwaardedatabasis het &#x2019;n eenvoudige datamodel waar data as &#x2019;n sleutelwaardepaar geberg word en elke sleutel uniek is (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). Bekende voorbeelde van hierdie tipe databasis sluit in Voldemort, wat deur LinkedIn.com ontwikkel is en Dynamo, wat deur Amazon se e-besigheidsplatform gebruik word om datagedrewe aanbevelings vanuit grootdata te verkry (Chen <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0006">2014</xref>:38; Provost &#x0026; Fawcett <xref ref-type="bibr" rid="CIT0039">2013</xref>). Kolomgeori&#x00EB;nteerde databasisse berg en verwerk data deur kolomme en nie deur rye soos in die geval van relasionele databassisse nie (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). Bekende voorbeelde van hierdie tipe databasis is Google se BigTable, Cassandra en HBase (Chen <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0006">2014</xref>;41). HBase is &#x2019;n oopbron-kloon van BigTable en is deel van die Apache Hadoop en MapReduce- raamwerk (Chen <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0006">2014</xref>:41) en word in Hadoop-programmatuurstapel bespreek. Dokumentdatabassise ondersteun meer komplekse sleutelwaardestore waar die data as &#x2019;n dokument geberg word, en in JSON-formaat voorgestel word (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). Bekende voorbeelde van hierdie tipe databasis is MongoDB, SimpleDB, CouchDB , sowel as Riak (Krishnan <xref ref-type="bibr" rid="CIT0025">2013</xref>:86). Grafiekdatabasisse is gebaseer op grafiekteorie en ondersteun skaalbaarheid oor &#x2019;n tros van rekenaars (Krishnan <xref ref-type="bibr" rid="CIT0025">2013</xref>:86). Dit word ook gesien as een van die mees komplekse NoSQL-databasistipes en het ontwikkel vanwe&#x00EB; die geweldige toename in data uit sosiale media (Krishnan <xref ref-type="bibr" rid="CIT0025">2013</xref>:97). &#x2019;n Voorbeeld van hierdie tipe databasis is Neo4J (Krishnan <xref ref-type="bibr" rid="CIT0025">2013</xref>:86).</p>
</sec>
<sec id="s30008">
<title>Data-ontleding en waardeontrekking</title>
<p>Datadatavisualisering, statistiese ontleding en data-ontginning word met groot sukses in verskeie grootdata-ontledingtoepassings gebruik (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). Hierdie toepassings sluit in gestruktureerde data-ontleding, teksontginning, webontginning, multimedia-ontleding en mobiele-ontleding (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). Gestruktureerde data-ontleding, soos data-ontginning en statistiese ontleding, word meestal op sake- en wetenskaplike eksperimentdata gebruik waar die rekords gestruktureerd is (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). Teksontginning van ongestruktureerde bronne, soos e-posse, logl&#x00EA;ers en teksgedeeltes van webblaaie, word met groot sukses uitgevoer om besigheidsinligting te identifiseer en te onttrek (Sabherwal &#x0026; Becerra-Fernandez <xref ref-type="bibr" rid="CIT0045">2011</xref>:87). Die belangrikste teksontginningstegnieke sluit in natuurlike taalverwerking (<italic>Natural Language Processing</italic> of NLP), statistiese en ko-voorkomsontleding, neurale netwerke en visualisering (Sabherwal &#x0026; Becerra-Fernandez <xref ref-type="bibr" rid="CIT0045">2011</xref>:87). Waar teksontginning die inhoud van ongestruktureerde bronne ontgin, fokus webontginning op die deursoek van aanlynbronne, soos webblaaie. Webontginning word hoofsaaklik op drie wyses uitgevoer, insluitend inhoud-, struktuur- en gebruikontginning (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>; Sabherwal &#x0026; Becerra-Fernandez <xref ref-type="bibr" rid="CIT0045">2011</xref>). Die databron is die teksdata van &#x2019;n webbladdokument en die drie wyses maak staat op tegnieke soos inligtingonttrekking, kunsmatige intelligensie en tekskategorisering om nuwe kennis te ontdek (Sabherwal &#x0026; Becerra-Fernandez <xref ref-type="bibr" rid="CIT0045">2011</xref>). Multimedia-ontleding maak gebruik van databronne soos beeld, klank en video om interessante kennis te onttrek en dan die semantiek te probeer verstaan soos dit vasgevang is in die multimediadata (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). Van die belangrikste navorsing sluit in multimedia-opsomming, multimedia-annotasie, multimedia-indeksering en -onttrekking, multimedia-aanbeveling, en multimedia-gebeurtenisopsporing. Met die toename in die getal mobiele rekenaars, het mobiel-ontleding belangriker geword. Van die belangrikste ontwikkelings sluit in radiofrekwensie-identifikasie (<italic>Radio Frequency Identification of RFID</italic>) en koordlose sensors. RFID word al hoe meer in voorraadbestuur en logistieke aktiwiteite gebruik, terwyl mobiele sensors, soos die intydse monitering van &#x2019;n persoon se gesondheid, groot verandering in mediese sorg teweeg gebring het (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>).</p>
</sec>
</sec>
<sec id="s20009">
<title>Hadoop-programmatuurstapel</title>
<p>Die Apache Hadoop-sagtewarebiblioteek is &#x2019;n raamwerk wat uit verskeie oopbronprogrammatuur bestaan en implementeer hoofsaaklik Google se MapReduce-infrastruktuur (Lee <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0027">2011</xref>). Die raamwerk voorsien &#x2019;n verspreide dataverwerkingsomgewing deur van &#x2019;n rekenaartros gebruik te maak (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). Hadoop se hoofdoel is dus om groot volumes verspreide gestruktureerde, semigestruktureerde en ongestruktureerde data deur middel van programmeringmodelle te verwerk, te stoor en te ontleed (Vaisman &#x0026; Zimanyi <xref ref-type="bibr" rid="CIT0058">2014</xref>:508; Sharda <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0048">2014</xref>:588). Dit is egter beter om na &#x2019;n Hadoop-ekosisteem (Eckerson <xref ref-type="bibr" rid="CIT0014">2011</xref>) te verwys, eerder as net na &#x2019;n enkele komponent, wanneer grootdata bespreek word.</p>
<p>Die Hadoop-ekosisteem bestaan uit drie hoofkomponente, naamlik &#x2019;n verspreide-l&#x00EA;erstelsel of datastoorvlak wat <italic>Hadoop Distributed File System</italic> (HDFS) genoem word, &#x2019;n hulpbronskeduleerder wat <italic>Yet Another Resource Negotiator</italic> (YARN) genoem word, en &#x2019;n dataverwerkingsvlak wat die verspreide MapReduce-verwerkingsraamwerk insluit (Lee <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0027">2011</xref>; White <xref ref-type="bibr" rid="CIT0064">2015</xref>; Vavilapalli <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0059">2013</xref>). &#x2019;n Diagrammatiese voorstelling (<xref ref-type="fig" rid="F0001">Figuur 1</xref>) van &#x2019;n tipiese Hadoop-ekosisteem, soos uit Hu <italic>et al</italic>. (<xref ref-type="bibr" rid="CIT0018">2014</xref>), gaan nou gebruik word om die belangrikste oopbronprogrammatuur in die ekosisteem te bespreek.</p>
<fig id="F0001">
<label>FIGUUR 1</label>
<caption><p>Hadoop 1.0-programmatuurstapel.</p></caption>
<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="SATNT-35-1387-g001.tif"/>
</fig>
</sec>
<sec id="s20010">
<title>MapReduce en Yet Another Resource Negotiator</title>
<p>MapReduce is oorspronklik deur Google ontwikkel om websoektogte op webdokumente deur middel van &#x2019;n groot aantal rekenaars te verrig (Vaisman &#x0026; Zimanyi <xref ref-type="bibr" rid="CIT0058">2014</xref>). Deesdae word MapReduce gebruik as &#x2019;n programmeringsmodel om grootdatastelle te genereer en te verwerk (White <xref ref-type="bibr" rid="CIT0064">2015</xref>:19; Sharda <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0048">2014</xref>:587). Van al die belangrikste programmeringsmodelle, wat onder meer Dryad, Pregel, GrahpLab, S4 en Storm insluit, is MapReduce die gewildste (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). MapReduce is nie &#x2019;n programmeringstaal nie en is ontwerp om deur programmeerders eerder as die sakew&#x00EA;reld gebruik te word (Sharda <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0048">2014</xref>:587). Verder gebruik MapReduce ook GFS as onderliggende bergplek, wat dit &#x2019;n geskikte omgewing maak om &#x2019;n hele datastel as &#x2019;n bondel te ontleed. Dit is in teenstelling met &#x2019;n RDBS, wat eerder geskik is om navrae en opdaterings van klein hoeveelhede data te hanteer (White <xref ref-type="bibr" rid="CIT0064">2015</xref>:8). Om daardie rede behoort MapReduce gesien te word as bykomende tegnologie tot &#x2019;n RDBS en nie as &#x2019;n plaasvervanger nie (Russom <xref ref-type="bibr" rid="CIT0044">2015</xref>).</p>
<p>MapReduce kan oor verskeie dataformate ge&#x00EF;mplementeer word en werk volgens die beginsel waar &#x2019;n taak in kleiner dele verdeel word, en dan in parallel verwerk word oor &#x2019;n versameling identiese masjiene, soos &#x2019;n rekenaartros (Vaisman &#x0026; Zimanyi <xref ref-type="bibr" rid="CIT0058">2014</xref>:508). Volgens Chen (<xref ref-type="bibr" rid="CIT0006">2014</xref>:16) bestaan die MapReduce-raamwerk uit een JobTracker-node en verskeie TaskTrackers-nodes. Hierdie nodes werk saam en stel MapReduce-programme in staat om nuttige data vanuit &#x2019;n grootdatastel te onttrek. &#x2019;n Tipiese MapReduce-program bestaan weer uit twee take, naamlik Kaart (<italic>Map</italic>) en Verminder (<italic>Reduce</italic>) (Vaisman &#x0026; Zimanyi <xref ref-type="bibr" rid="CIT0058">2014</xref>:508). Die JobTracker-node is verantwoordelik daarvoor om &#x2019;n taak te versprei en te skeduleer, terwyl die TaskTracker-node gebruik word om die Kaart- of Vermindertake wat deur die JobTracker-node versprei is, te ontvang. Die TaskTracker-node voer die take in parallel op &#x2019;n trosomgewing uit en stuur dan die terugvoerstatus na die JobTracker-node (Chen <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0006">2014</xref>:16). Die eindproduk van hierdie proses is &#x2019;n l&#x00EA;er wat kan dien as invoer vir &#x2019;n datapakhuis of ontleed kan word deur sake-intelligensiegereedskap soos Tableau, Cognos of Microstrategy. YARN, wat Hadoop se tros-hulpbronbestuurstelsel is, word sedert Hadoop weergawe 2.0 gebruik om die werkverrigting van MapReduce-implementerings te verbeter (Vavilapalli <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0059">2013</xref>; Hadoop n.d.). In Hadoop 1.0 was MapReduce verantwoordelik vir beide tros-hulpbronbestuur sowel as dataverwerking. In YARN, wat beskou word as MapReduce 2, hanteer MapReduce net dataverwerking en is YARN nou verantwoordelik vir tros-hulpbronbestuur. Hierdie verdeling van take beteken die nuwe ekosisteem kan nie net beter skaal nie, maar kan ook meer nodusse akkommodeer en is dus &#x2019;n verbetering op die oorspronklike Hadoop 1.0-ekosisteem (White <xref ref-type="bibr" rid="CIT0064">2015</xref>:79). Sien <xref ref-type="fig" rid="F0002">Figuur 2</xref> vir &#x2019;n diagrammatiese voorstelling van die Hadoop 2.0-ekosisteem.</p>
<fig id="F0002">
<label>FIGUUR 2</label>
<caption><p>Hadoop 2.0-programmatuurstapel.</p></caption>
<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="SATNT-35-1387-g002.tif"/>
</fig>
<sec id="s30011">
<title>Hadoop-verspreidel&#x00EA;erstelsel</title>
<p>Die Hadoop-verspreidel&#x00EA;erstelsel se hoofverantwoordelikheid is om grootdatastelle op te deel tussen rekenaars, of nodes in &#x2019;n HDFS-tros (White <xref ref-type="bibr" rid="CIT0064">2015</xref>). &#x2019;n HDFS-tros bestaan gewoonlik uit &#x2019;n enkele NaamNode wat die l&#x00EA;erstelsel se metadata bestuur, en &#x2019;n versameling DataNodes wat die werklike data stoor (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). Aangesien HDFS l&#x00EA;ergebaseer is, benodig dit nie &#x2019;n datamodel soos in die geval van &#x2019;n RDBS om die data te stoor of te verwerk nie en kan dit data van enige struktuur stoor. Sodra &#x2019;n l&#x00EA;er op HDFS opgelaai word, word die l&#x00EA;er opgedeel in blokke, die blokke word dan versprei tussen rekenaars binne die HDFS-tros en laastens, word die blokke gedupliseer sodat veelvoudige kopie&#x00EB; van elke blok op verskeie rekenaars binne die HDFS-tros geberg word (White <xref ref-type="bibr" rid="CIT0064">2015</xref>). HDFS tesame met Hadoop voorsien dus die perfekte omgewing om semigestruktureerde en ongestruktureerde data te stoor en deur middel van MapReduce-programme, wat meestal in parallel uitgevoer word, te verwerk (White <xref ref-type="bibr" rid="CIT0064">2015</xref>; Watson <xref ref-type="bibr" rid="CIT0062">2014</xref>). Uit bogenoemde bespreking kan die gevolgtrekking gemaak word dat Hadoop en MapReduce altyd saam moet funksioneer. Dit is egter misleidend, aangesien hulle mekaar nie nodig het om selfstandig te kan funksioneer nie. Ontwikkelaars by Google het MapReduce ontwikkel reeds voor die bestaan van HDFS, en sekere variasies van MapReduce werk met verskeie ander soorte stoortegnologie en selfs &#x2019;n ander RDBS (Sharda <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0048">2014</xref>:592).</p>
</sec>
<sec id="s30012">
<title>ZooKeeper en Chukwa</title>
<p>Beide Zookeeper en Chukwa word gebruik om verspreide toepassings wat op Hadoop uitgevoer word te moniteer en te bestuur (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). Zookeeper is oorspronklik deur Yahoo! ontwikkel om dit makliker vir toepassings te maak om toegang tot konfigurasie-inligting te verkry, maar het intussen so gegroei dat dit toepassings oor verspreide rekenaartrosse kan help ko&#x00F6;rdineer (Warden <xref ref-type="bibr" rid="CIT0061">2011</xref>:10). Zookeeper word deesdae beskou as &#x2019;n gespesialiseerde sleutelwaarde-stoor met &#x2019;n koppelvlak wat soos &#x2019;n l&#x00EA;erstelsel funksioneer (Warden <xref ref-type="bibr" rid="CIT0061">2011</xref>). Chukwa is &#x2019;n Hadoop-subprojek wat dien as dataversamelingstelsel (Warden <xref ref-type="bibr" rid="CIT0061">2011</xref>) waarmee groot verspreide stelsels gemoniteer en bestuur word (Krishnan <xref ref-type="bibr" rid="CIT0025">2013</xref>). Chukwa is op HDFS en die MapReduce-programmeringsmodel gebou en beskik oor buigsame en kragtige gereedskap wat resultate vertoon, moniteer en ontleed (Hadoop n.d.). Chukwa word reeds met groot sukses deur verskeie organisasies gebruik om logdata te versamel en met MapReduce te ontleed (Rabkin &#x0026; Katz <xref ref-type="bibr" rid="CIT0040">2010</xref>).</p>
</sec>
<sec id="s30013">
<title>Hbase</title>
<p>Hbase is &#x2019;n verspreide kolomdatabasis wat Hadoop in staat stel om groot tabelle te stoor (Watson <xref ref-type="bibr" rid="CIT0062">2014</xref>). Hbase is gemodelleer volgens Google se BigTable-datastoorstelsel (Chang <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0005">2006</xref>) en lewer saam met Hadoop, &#x2019;n foutverdraagsame omgewing waar grootdatatabelle gemanipuleer en geberg kan word (Loshin <xref ref-type="bibr" rid="CIT0029">2013</xref>:67). Hbase vervang GFS met HDFS en skryf inhoud gereeld vanuit interne geheue na l&#x00EA;ers (Chen <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0006">2014</xref>:41). Aangesien HBase &#x2019;n NoSQL-databasis is, ondersteun dit nie SQL-navrae nie, maar wel verkry-, plaas-, skandeer- en uitveeopdragte (Loshin <xref ref-type="bibr" rid="CIT0029">2013</xref>:67). Hbase ondersteun ook ingeheue-uitvoering, wat &#x2019;n eienskap is van die nuwe generasie ingeheue-databasisstelsel (<italic>in-memory database system</italic>) (Vaisman &#x0026; Zimanyi <xref ref-type="bibr" rid="CIT0058">2014</xref>). Voorbeelde van bekende internetfirmas wat HBase as databasisstelsel gebruik, is eBay.com en Facebook.com (Sharda <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0048">2014</xref>:590).</p>
</sec>
<sec id="s30014">
<title>Hive en Pig</title>
<p>Vir gebruikers wat nie vertroud is met die skryf van MapReduce-kode nie, is Hadoop nie maklik om te gebruik nie, aangesien MapReduce-programme meestal in Java, Python, C of Perl geskryf word (Watson <xref ref-type="bibr" rid="CIT0062">2014</xref>). Om daardie rede is Hive en Pig ontwikkel, en word programmeerders toegelaat om op &#x2019;n ho&#x00EB;r abstraksievlak te werk, in plaas van Java of ander laevlaktale wat deur Hadoop ondersteun word (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>; Vaisman &#x0026; Zimanyi <xref ref-type="bibr" rid="CIT0058">2014</xref>). Beide Hive- en Pig-programme word intern omgeskakel na MapReduce-take, sonder dat die programmeerder die oorskakeling hoef te behartig (Vaisman &#x0026; Zimanyi <xref ref-type="bibr" rid="CIT0058">2014</xref>).</p>
<p>Hive is deur Facebook ontwikkel om die konsepte van tabelle, kolomme en SQL (soos uit die relasionele databasisw&#x00EA;reld) na die Hadoop-ekosisteem te bring (Vaisman &#x0026; Zimanyi <xref ref-type="bibr" rid="CIT0058">2014</xref>). Hive word gesien as die datapakhuisstelsel vir Hadoop en maak ook voorsiening vir ad hoc-navrae, data-opsomming, asook die onttrekking, transformasie en laai van data (<italic>extraction, transformation and loading</italic> [ETL]) na &#x2019;n verskeidenheid dataformate (Loshin <xref ref-type="bibr" rid="CIT0029">2013</xref>:68). Hive laat gebruikers toe om grootdata in tabelle en partisies te organiseer en voorsien ook HiveQL, &#x2019;n SQL-dialek waarmee gebruikers navrae kan skryf (Vaisman &#x0026; Zimanyi <xref ref-type="bibr" rid="CIT0058">2014</xref>). Hive is ook verantwoordelik om &#x2019;n HiveQL- navraag na &#x2019;n gerigte asikliese grafiek (<italic>directed acyclic graph</italic> [DAG]) van MapReduce-take te vertaal (Lee <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0027">2011</xref>). Aangesien die Hive op Hadoop gebou is, gee dit programmeerders indirek toegang tot die MapReduce-model. Dit stel hulle in staat om pasgemaakte kaart- en verminderingsfunksies van MapReduce te ontwikkel wat met HiveQL-navrae integreer (Loshin <xref ref-type="bibr" rid="CIT0029">2013</xref>:68). Een van die tekortkominge van Hive is die onvermo&#x00EB; om intydse navrae of ry-opdaterings te hanteer (Leverenz <xref ref-type="bibr" rid="CIT0028">2015</xref>). Hive se beste toepassing is dus eerder ontleding en nie gekoppelde transaksieverwerking (<italic>online transaction processing</italic> [OLTP]) of bondelverwerking nie (Celko <xref ref-type="bibr" rid="CIT0004">2014</xref>:60).</p>
<p>Pig bestaan uit datavloeitaal op ho&#x00EB; vlak genaamd Pig Latin en &#x2019;n gepaardgaande uitvoeringsraamwerk (Lee <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0027">2011</xref>). Pig Latin is deur Yahoo! ontwikkel as &#x2019;n ho&#x00EB;vlak-programmeringstaal om navrae te hanteer op HDFS-data en word as deel van die Hadoop-ekosisteem beskou (Vaisman &#x0026; Zimanyi <xref ref-type="bibr" rid="CIT0058">2014</xref>; Watson <xref ref-type="bibr" rid="CIT0062">2014</xref>). Aangesien Pig &#x2019;n prosedurele programmeringstaal is wat ho&#x00EB;vlak-abstraksies vir MapReduce verskaf (Intel <xref ref-type="bibr" rid="CIT0020">2013</xref>), kan opdragte op drie maniere uitgevoer word, naamlik geskrewe teks (<italic>script</italic>), bevellynopdrag en om Pig-opdragte te roep wat in Javabronkode ingebed is (Vaisman &#x0026; Zimanyi <xref ref-type="bibr" rid="CIT0058">2014</xref>).</p>
</sec>
<sec id="s30015">
<title>Mahout</title>
<p>Mahout is &#x2019;n oopbron-biblioteek van masjienleer en data-ontginningalgoritmes wat onder meer groepering, kategorisering, samewerkende filter, teksontginning en gereelde patroonontginning insluit (Watson <xref ref-type="bibr" rid="CIT0062">2014</xref>; Loshin <xref ref-type="bibr" rid="CIT0029">2013</xref>:70&#x2013;71). Mahout implementeer hierdie algoritmes op Hadoop deur weereens van die MapReduce-model (Sharda <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0048">2014</xref>:590) en bondelverwerking (Chen <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0006">2014</xref>:17) gebruik te maak. Van die belangrikste voordele wat Mahout inhou, is dat dit ontwerp is om met minimale opstelling op Hadoop ontplooi te kan word en ook baie effektief kan skaal (Celko <xref ref-type="bibr" rid="CIT0004">2014</xref>:240).</p>
</sec>
<sec id="s30016">
<title>Flume en Scoop</title>
<p>Apache Flume en Scoop is gereedskap wat ontwikkel is om te help met data-integrasie. Flume is &#x2019;n verspreide stelsel wat groot hoeveelhede data van verskeie bronne versamel, saamvoeg en dan oordra na &#x2019;n gesentraliseerde datastoor of HDFS (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>; Intel <xref ref-type="bibr" rid="CIT0020">2013</xref>). Voorbeelde sluit in logl&#x00EA;ers vanaf toepassingsbedieners of argieflogl&#x00EA;ers van ander stelsels (Intel <xref ref-type="bibr" rid="CIT0020">2013</xref>). Scoop, aan die ander kant, hanteer die invoer en uitvoer van data tussen relasionele databasisse en Hadoop (Hu <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0018">2014</xref>). Scoop kan data van byvoorbeeld &#x2019;n MySQL of Oracle-databasis na HDFS stuur, &#x2019;n MapReduce-taak uitvoer, en die MapReduce-resultate van HDFS dan weer as invoer na &#x2019;n relasionele databasis stuur (Intel <xref ref-type="bibr" rid="CIT0020">2013</xref>; Celko <xref ref-type="bibr" rid="CIT0004">2014</xref>:60). Scoop speel dus &#x2019;n belangrike rol om data vanaf &#x2019;n relasionele databasis na Hadoop in te voer en vergemaklik daarmee die taak van data-analiste.</p>
</sec>
<sec id="s30017">
<title>Apache Spark</title>
<p>Apache Spark is &#x2019;n oopbron-trosrekenaarraamwerk vir grootskaalse dataverwerking en kan as alternatief tot Hadoop/MapReduce gebruik word (White <xref ref-type="bibr" rid="CIT0064">2015</xref>:549; Rahman &#x0026; Iverson <xref ref-type="bibr" rid="CIT0041">2015</xref>). Apache Spark maak gebruik van interaktiewe bondelverwerking, in teenstelling met Hadoop/MapReduce se tradisionele bondelverwerking (Zaharia <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0067">2010</xref>). Verder beskik Apache Spark oor die vermo&#x00EB; om groot datastelle in-geheue te stoor en tussen verskillende verwerkingsopdragte te verwerk (Apache Spark n.d.). Hierdie vermo&#x00EB; maak dit baie aantreklik vir intydse dataverwerking en interaktiewe toepassings omdat die datastelle nie afhanklik is van skyfverwerking, soos in die geval van Hadoop/MapReduce nie (White <xref ref-type="bibr" rid="CIT0064">2015</xref>:550; Landset <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0026">2015</xref>). Apache Spark is ook vinniger, buigsamer en makliker om te programmeer as Hadoop/MapReduce, aangesien toepassings met ho&#x00EB;vlak-programmeringstale soos Python, R en Scala ontwikkel kan word (Landset <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0026">2015</xref>). Die Apache Spark-ekosisteem bestaan uit Spark SQL vir gestruktureerde data, GraphX vir grafiekverwerking, MLLib vir masjienleer en Spark Streaming vir datastroming (Databricks <xref ref-type="bibr" rid="CIT0009">2016</xref>). Dit is belangrik om te noem dat die ekosisteem versoenbaar is met Hadoop-data (HDFS, Hive en HBase) en dat YARN gebruik kan word om Apache Spark-opdragte uit te voer op &#x2019;n Hadoop-trosrekenaar (Apache Spark n.d.; Vavilapalli <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0059">2013</xref>).</p>
</sec>
<sec id="s30018">
<title>Kommersi&#x00EB;le grootdatastelsels</title>
<p>Nie alle grootdatastelsels is as oopbronprogrammatuur soos Apache Hadoop of Apache Spark beskikbaar nie. Verskeie databasisverskaffers het ook grootdatastelsels beskikbaar gestel, gewoonlik ten duurste. Een so &#x2019;n voorbeeld is SAP HANA, &#x2019;n ingeheue-databasisplatform vir intydse ontledings en toepassings (Minelli <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0032">2013</xref>:.8). Ander voorbeelde van kommersi&#x00EB;le grootdatastelsels wat hulle eie weergawe van Hadoop geskep het, sluit in Cloudera Hadoop, Hortonworks Hadoop, EMC Hadoop, Microsoft Hadoop, Intel Hadoop en MapR (B. G. Kim <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0023">2014</xref>; Davenport <xref ref-type="bibr" rid="CIT0010">2014</xref>). Van die belangrikste ontledings en toepassings waar kommersi&#x00EB;le grootdatastelsels tans gebruik word, sluit in geteikende kli&#x00EB;ntbemarking, sosialemedia-ontledings, bedrogopsporing-algoritmes en webwerf-aanbevelingenjins (Loshin <xref ref-type="bibr" rid="CIT0029">2013</xref>).</p>
</sec>
</sec>
</sec>
<sec id="s0019">
<title>Enkele grootdata-uitdagings</title>
<p>Die volume, verskeidenheid en spoed waarteen grootdata groei, skep heelwat uitdagings. Een van die uitdagings is om die heterogone aard van ongestruktureerde data te hanteer, aangesien masjien-ontledingalgoritmes homogene data verwag. Organisasies sal dus verskillende maniere benodig om die data &#x2018;gestruktureerd&#x2019; te kry voordat dit vir ontleding gebruik kan word (Jagadish <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0022">2014</xref>). Ander uitdagings is die feit dat grootdatabronne dikwels gekenmerk word deur foute, onbekendheid en onvoltooide data. Alhoewel die groot volume en oorbodigheid van grootdatastelle hierdie probleem gedeeltelik hanteer, is meer ontwikkeling nodig om rekenaarprogrammatuur te verbeter wat navrae kan hanteer op, byvoorbeeld, waarskynlikheidsdata (Jagadish <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0022">2014</xref>). &#x2019;n Ander interessante uitdaging met grootdata is dat datavolumes tans vinniger toeneem as wat die sentrale verwerkingseenheid (SVE) klokspoed verbeter (Jagadish <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0022">2014</xref>). Waar voorheen staatgemaak is op paralleldataverwerking oor verskeie nodes, word daar nou meer aandag geskenk aan parallellisasie op een node met &#x2019;n groter hoeveelheid kerns. Alternatiewe soos om, onder meer, van wolkgebaseerde oplossings gebruik te maak, vereis egter meer navorsing (Jagadish <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0022">2014</xref>). Volgens Jagadish <italic>et al</italic>. (<xref ref-type="bibr" rid="CIT0022">2014</xref>) en Hu <italic>et al</italic>. (<xref ref-type="bibr" rid="CIT0018">2014</xref>) is privaatheid, sekuriteit en eienaarskap van data belangrike aspekte van grootdata wat meer aandag moet geniet, aangesien organisasies nou toegang het tot meer datastelle wat verband hou met hulle ondernemings as voorheen, en gebruikers onwetend data aanstuur. Phillips-Wren <italic>et al</italic>. (<xref ref-type="bibr" rid="CIT0038">2015</xref>) voorsien &#x2019;n breedvoerige opsomming van navorsingsvrae en onopgeloste probleme wat van groot waarde vir navorsers en akademici kan wees.</p>
</sec>
<sec id="s0020">
<title>Grootdata in ho&#x00EB;r onderwys</title>
<p>Ten einde die waarde en geleenthede van grootdata in ho&#x00EB;r onderwys te verstaan, word die verskillende bronne en tipes bespreek, gevolg deur geleenthede en laastens die stand van grootdata- en datawetenskaponderrig aan Suid-Afrikaanse universiteite.</p>
<sec id="s20021">
<title>Bronne en tipes grootdata in ho&#x00EB;r onderwys</title>
<p>Leerbestuurstelsels (LBS), soos Blackboard of Moodle, versamel reeds volumes groeiende data van studente se akademiese prestasie, stelselinteraksie, sowel as persoonlike en demografiese inligting (Romero &#x0026; Ventura <xref ref-type="bibr" rid="CIT0043">2010</xref>). Hierdie data kan gebruik word om die profiel saam te stel van &#x2019;n student wat moontlik sou belangstel om by &#x2019;n betrokke universiteit te studeer. Dit kan weer aangevul word deur sentimentdata vanaf Twitter om &#x2019;n universiteit se sentimenttelling te bepaal.</p>
<p>Grafiekanalise kan ook gebruik word om &#x2019;n bestaande student se sosiale netwerk te analiseer om te bepaal watter vriende ook sou belangstel om by &#x2019;n betrokke universiteit te studeer (Schmarzo <xref ref-type="bibr" rid="CIT0047">2014</xref>). Grootdatastelle vanaf sosiale media, soos Linkedin.com en Facebook.com, kan universiteite ook in staat stel om studente se gedrag beter te verstaan, asook met wie hulle sou saamwerk in &#x2019;n groep (Daniel &#x0026; Butson <xref ref-type="bibr" rid="CIT0008">2014</xref>).</p>
<p>Ander bronne van grootdata van ho&#x00EB;r onderwysinstellings sluit in kampussensordata sowel as data oor webblad-soekpatrone van &#x2019;n LBS. Beskrywende analise kan op hierdie datastelle toegepas word om ondersoek in te stel na hoe gereeld &#x2019;n bladsy besoek word en kan dit met die sukseskoers van &#x2019;n kursus vergelyk word om te bepaal watter studente met &#x2019;n module gesukkel het (Daniel <xref ref-type="bibr" rid="CIT0007">2015</xref>). Nog tipes grootdatabronne sluit instelling-bemarkingsdata sowel as finansi&#x00EB;le vooruitskattingdata in, wat bestuur by universiteite in staat sou stel om proaktiewe besluite te neem in plaas van reaktief op te tree (Oracle <xref ref-type="bibr" rid="CIT0037">2015</xref>). Met inagneming van hierdie verskillende tipes grootdatabronne, is dit onafwendbaar dat universiteite in die nabye toekoms belangrike besluite ten opsigte van hul bestaande databasisstelsels sal moet neem.</p>
</sec>
<sec id="s20022">
<title>Grootdatageleenthede in ho&#x00EB;r onderwys</title>
<p>Een van die grootste geleenthede tans in ho&#x00EB;r onderwys is om gekwalifiseerde studente te lewer wat in staat is om grootdatastelle te kan verwerk. In die moderne werksomgewing, wat die akademie sowel as industrie insluit, word daar dikwels van hierdie gekwalifiseerde studente verwag om as datawetenskaplikes te funksioneer (Davenport &#x0026; Patil <xref ref-type="bibr" rid="CIT0011">2012</xref>). Dit vereis dat hulle op &#x2019;n wetenskaplike manier kennis en insig vanuit groot volumes gestruktureerde en ongestruktureerde data moet kan ontgin om datagedrewe besluitneming in &#x2019;n organisasie te verbeter (Dhar <xref ref-type="bibr" rid="CIT0013">2013</xref>; Provost &#x0026; Fawcett <xref ref-type="bibr" rid="CIT0039">2013</xref>).</p>
<p>Datawetenskaplikes moet dikwels verskillende databronne gebruik om vrae soos die volgende te beantwoord: &#x2018;Wat het gebeur?&#x2019;, &#x2018;Waarom het dit gebeur?&#x2019;, &#x2018;Wat gaan gebeur?&#x2019; en &#x2018;Wat is die beste wat kan gebeur?&#x2019; (Van der Aalst <xref ref-type="bibr" rid="CIT0057">2014</xref>). Om hierdie vrae te kan beantwoord, word daar van datawetenskaplikes verwag om hulle sake-, data- en analitiese vaardighede te gebruik om groot ongestruktureerde datastelle te ondersoek (Sharda <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0048">2014</xref>). Grootdatategnologie en datawetenskaptegnieke gebaseer op grootdata speel dus &#x2019;n belangrike rol om datawetenskaplikes in staat te stel om dit te vermag (Provost &#x0026; Fawcett <xref ref-type="bibr" rid="CIT0039">2013</xref>). Ten einde &#x2019;n suksesvolle datawetenskaplike te word, moet datawetenskaplikes verstaan hoe grootdata geberg word (RDBS, Hadoop, Hive, NoSQL), bronkodes kan skryf (Java, C, Python), skriptale kan gebruik (Unix Bash, Perl), data kan opsoek (SQL, Hive, Pig), data kan ontleed (R, MatLab, SAS) en hulle bevindinge kan kommunikeer aan topbestuur (Watson <xref ref-type="bibr" rid="CIT0062">2014</xref>; Sharda <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0048">2014</xref>:597; Dhar <xref ref-type="bibr" rid="CIT0013">2013</xref>). Datawetenskaplikes maak van datavisualisasie- gereedskap soos Gephi, Tableau en ggplot2 gebruik in die plek van verslae om hulle bevindinge voor te stel en aan bestuur te kommunikeer (Minelli <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0032">2013</xref>:118; Manoochehri <xref ref-type="bibr" rid="CIT0031">2014</xref>:90). Ander vaardighede en kennis wat datawetenskaplikes benodig, sluit in teksprosessering, teksontginning en kennis oor &#x2019;n uitlegtaal soos XML (Dhar <xref ref-type="bibr" rid="CIT0013">2013</xref>). Laastens moet datawetenskaplikes data-analities kan dink (Provost &#x0026; Fawcett <xref ref-type="bibr" rid="CIT0039">2013</xref>) en gaan hulle dus kennis benodig oor masjienleer, basiese statistiek soos Bayesiaanse statistiek, hipotesetoetsing en multiveranderlike ontleding, sowel as kennis oor korrelasies en die modellering van data (Dhar <xref ref-type="bibr" rid="CIT0013">2013</xref>).</p>
<p>Daar word gereken dat die Verenigde State van Amerika (VSA) alleen teen die jaar 2018 tussen 140,000 en 190,000 professionele mense met indringende analitiese vermo&#x00EB;ns in grootdata gaan benodig (Berman <xref ref-type="bibr" rid="CIT0003">2013</xref>). Wixom <italic>et al</italic>. (<xref ref-type="bibr" rid="CIT0065">2014</xref>) voer aan dat universiteite genoodsaak gaan word om bestaande grade in sake-intelligensie of sake-ontleding uit te brei en voorsiening te maak vir datawetenskap, eerder as om nuwe grade te skep wat spesifiek op datawetenskap fokus. Die Universiteit van Noord-Carolina (2016), wat gereken word as die leier op die veld van data-ontleding en datawetenskap (Davenport <xref ref-type="bibr" rid="CIT0010">2014</xref>), het onlangs &#x2019;n lys gepubliseer van meer as 80 voorgraadse kwalifikasies in sake-intelligensie, data-ontleding of datawetenskap wat by universiteite in die VSA aangebied word. Waar volledige datawetenskapprogramme aangebied is, was dit hoofsaaklik op meestersvlak gewees (Davenport <xref ref-type="bibr" rid="CIT0010">2014</xref>).</p>
<p>In Suid-Afrika het die aanvraag na datawetenskaplikes oor die laaste vyf jaar aansienlik toegeneem (Taylor <xref ref-type="bibr" rid="CIT0050">2015</xref>). In antwoord daarop, het die Departement van Wetenskap en Tegnologie (2015) die Inter-Universit&#x00EA;re Instituut vir Data-intensiewe Astronomie (IDIA) geloods om aan die behoeftes van onder meer die Suid-Afrikaanse SKA-projek (Square Kilometre Array) te voorsien. Die SKA-projek word gesien as een van twee w&#x00EA;reldwye projekte wat grootdata binne astronomie gaan dryf (Universiteit van Kaapstad 2013). Daar word voorsien dat die IDIA-projek kenners uit die veld van astronomie, rekenaarwetenskap en statistiek sal saambring om die kapasiteit van datawetenskap te ontwikkel, nie net vir die SKA-projek nie, maar ook ander velde in Suid-Afrika (Taylor <xref ref-type="bibr" rid="CIT0050">2015</xref>). Gedurende die afgelope paar jaar is studies ook uitgevoer oor die gebruik van grootdata in Suid-Afrika (Malaka &#x0026; Brown <xref ref-type="bibr" rid="CIT0030">2015</xref>; Nartey <xref ref-type="bibr" rid="CIT0033">2015</xref>; Ridge <italic>et al</italic>. <xref ref-type="bibr" rid="CIT0042">2015</xref>). In hierdie studies het die tekort aan vaardighede en grootdata-strategie, asook tegnologiese uitdagings konstant na vore getree as die belangrikste grootdata-uitdagings. Ten tye van hierdie studie was dit nie duidelik in hoe &#x2019;n mate Suid-Afrikaanse universiteite studente akademies voorberei om hierdie uitdagings die hoof te bied nie. Die volgende afdeling gee terugvoer hieroor.</p>
</sec>
<sec id="s20023">
<title>Stand van datawetenskap en grootdata by Suid-Afrikaanse universiteite</title>
<p>Die studie het ondersoek ingestel na die stand van grootdata- en datawetenskaponderrig aan Suid-Afrikaanse universiteite. Data is deur middel van internetsoektogte op Google.com versamel. Data is ook vanaf die Suid-Afrikaanse Kwalifikasie-Owerheid (SAQA) se databasis verkry. Al die data is ingesamel tussen Januarie en Maart 2016.</p>
<p>Die navorsingsvraag vir hierdie studie is: <italic>Watter universiteite in Suid-Afrika bied modules in datawetenskap en grootdata aan en wat behels die inhoud?</italic></p>
<p>Ten opsigte van grootdata, is die databasis van die Suid-Afrikaanse Kwalifikasie-Owerheid (SAQA) geraadpleeg ten opsigte van kwalifikasie- en eenheidstandaarde waar die titel &#x2018;<italic>big data</italic>&#x2019; voorkom. Die soektog het geen resultate opgelewer nie en is uitgebrei met woordsoektogte wat die terme &#x2018;<italic>nosql</italic>&#x2019;, &#x2018;<italic>hdfs</italic>&#x2019;, &#x2018;<italic>mapreduce</italic>&#x2019; en &#x2018;<italic>hadoop</italic>&#x2019; ingesluit het. Die soektog het weereens geen resultate opgelewer nie en daar is besluit om gebruik te maak van internetsoektogte. &#x2019;n Lys van topuniversiteite in Suid-Afrika is volgens die <italic>University Ranking</italic> by <italic>Academic Perfomance</italic> (URAP <xref ref-type="bibr" rid="CIT0056">2016</xref>) ge&#x00EF;dentifiseer. Hierdie universiteitelys is gebruik in uitgebreide internetsoektogte om te bepaal watter van die universiteite gevorderde databasismodules op nagraadse vlak aanbied. Di&#x00E9; modules het ingesluit datapakhuise (DP), sake-intelligensie (BI) en grootdata (GD). Bronne wat geraadpleeg is, sluit in jaarboeke sowel as modulehandleidings. Uit die lys universiteite, het net vyf universiteite &#x2019;n gevorderde databasiskursus in datapakhuise en/of sake-intelligensie aangebied. Van die vyf universiteite, het net twee grootdata-inhoud ingesluit in &#x2019;n module. <xref ref-type="table" rid="T0001">Tabel 1</xref> lys die universiteite met &#x2019;n DP/BI module-aanwyser sowel as &#x2019;n GD-aanwyser. Die aanwyser is as &#x2018;Ja&#x2019; gemerk indien die universiteit die inhoud aanbied en &#x2018;Nee&#x2019; andersins.</p>
<p>Die inhoud van Noordwes-Universiteit (2015) se twee nagraadse, gevorderde databasisstelsels-modules (ITRI611 en ITRI621) het gehandel oor datapakhuise en sake-intelligensie. Studente moes as &#x2019;n praktiese projek &#x2019;n datapakhuis en OLAP-kubus bou en inhandig vir assessering, tesame met genoegsame dokumentasie (Goede <xref ref-type="bibr" rid="CIT0016">2014</xref>). Geen grootdata-teorie of -tegnologie is in die twee modules aangebied nie. Die inhoud van die Universiteit van Pretoria (2015) se gevorderde databasisstelsel-module (INF785) het gehandel oor gevorderde databasisontwerp, databasisargitektuur, datapakhuise en datamarte. Geen grootdata-teorie of -tegnologie is aangebied in die module nie. Die Nelson Mandela Metropool-Universiteit (2015) het ook soos Noordwes-Universiteit, twee nagraadse gevorderde databasisstelsels-modules aangebied. Die inhoud van die twee modules, WRDW411 en WRBI411, het datapakhuise, data-ontginning, sake-intelligensie en OLAP behandel. Geen grootdata-teorie of -tegnologie is aangebied in die twee modules nie.</p>
<p>Die Universiteit van Kaapstad (2015) se nagraadse, gevorderde databasisstelsel-module (DBS) het inhoud oor verspreide databasis, datapakhuise, data-ontginning, asook grootdata en NoSQL ingesluit. Die doel van die module was om studente bloot te stel aan nuwe ontwikkelings in databasisstelsels en om nuwe tegnologie wat daarmee gepaardgaan, te bestudeer. Uit die modulehandleiding was dit nie duidelik hoe indringend grootdata en NoSQL behandel word nie. Die Universiteit van die Vrystaat (2015) het drie nagraadse, gevorderde databasisstelsel-modules aangebied, naamlik Oracle- databasisadministrasie (CSID6843), datapakhuise (CSID6853) en sake-intelligensie (CSID6823). Grootdata-teorie en toepassing word as deel van die datapakhuis-module aangebied. Die inhoud het tegnologie&#x00EB; soos Hadoop, MapReduce, HDFS en Hive ingesluit en studente se vaardighede is deur teoretiese en praktiese opdragte geassesseer. Die gebruik van datavisualiseringstegnologie, meer spesifiek Tableau, word as deel van die nagraadse sake-intelligensie-module aangebied.</p>
<table-wrap id="T0001">
<label>TABEL 1</label>
<caption><p>Universiteite in Suid-Afrika wat DP/BI en/of GD.</p></caption>
<table frame="hsides" rules="groups">
<thead>
<tr>
<th valign="top" align="left">Rang in Afrika</th>
<th valign="top" align="left">Universiteit</th>
<th valign="top" align="left">DP/BI</th>
<th valign="top" align="left">GD</th>
</tr>
</thead>
<tbody>
<tr>
<td align="left">1</td>
<td align="left">Universiteit van Kaapstad</td>
<td align="left">Ja</td>
<td align="left">Ja</td>
</tr>
<tr>
<td align="left">6</td>
<td align="left">Universiteit van Pretoria</td>
<td align="left">Ja</td>
<td align="left">Nee</td>
</tr>
<tr>
<td align="left">11</td>
<td align="left">Noordwes-Universiteit</td>
<td align="left">Ja</td>
<td align="left">Nee</td>
</tr>
<tr>
<td align="left">18</td>
<td align="left">Universiteit van die Vrystaat</td>
<td align="left">Ja</td>
<td align="left">Ja</td>
</tr>
<tr>
<td align="left">32</td>
<td align="left">Nelson Mandela Metropool-Universiteit</td>
<td align="left">Ja</td>
<td align="left">Nee</td>
</tr>
</tbody>
</table>
<table-wrap-foot>
<fn><p>DP/BI, datapakhuise/sake-intelligensie; GD, grootdata.</p></fn>
<fn><p>Nota: Datapakhuise, sake-intelligensie en grootdata is opgestel deur ondersoek in te stel of die instansies datapakhuis, sake-intelligensie en grootdata aanbied.</p></fn>
</table-wrap-foot>
</table-wrap>
<p>Die studie het vervolgens ondersoek ingestel na datawetenskaponderrig aan Suid-Afrikaanse universiteite. Die Suid-Afrikaanse Kwalifikasie-Owerheid (SAQA) se databasis is weereens geraadpleeg met die soekterm &#x2018;<italic>data science</italic>&#x2019; (SAQA <xref ref-type="bibr" rid="CIT0046">2015</xref>). Die soektog is aangevul deur uitgebreide internetsoektogte oor datawetenskapkwalifikasies aan Suid-Afrikaanse universiteite. <xref ref-type="table" rid="T0002">Tabel 2</xref> stel die resultaat van die soektogte voor.</p>
<p>Die kwalifikasies se inhoud is vergelyk met datawetenskapvaardighede uit die literatuur. Sol Plaatje-Universiteit (2016) se kwalifikasie fokus hoofsaaklik op Wiskunde en Rekenaarwetenskap. Ten opsigte van die vaardighede wat benodig word, is daar net vermelding gemaak van Microsoft SQL wat as bediener gebruik word om data te stoor, te bestuur en navrae met SQL te implementeer. Dit dek net &#x2019;n gedeelte van hoe grootdata geberg word, en meer spesifiek gestruktureerde data wat RDBS-tegnologie, soos Microsoft SQL gebruik. Noordwes-Universiteit (2016) se kwalifikasie dek bedryfsanalise en data-ontginning in die hoofstroom en maak vermelding van SAS Enterprise Miner as data-ontginningsgereedskap. Hierdie gereedskap sluit aan by die data-ontledingsvaardighede wat datawetenskaplikes benodig (Watson &#x0026; Marjanovic <xref ref-type="bibr" rid="CIT0063">2014</xref>).</p>
</sec>
</sec>
<sec id="s0024">
<title>Opsomming en toekomstige werk</title>
<p>Die snelle groei van grootdata en gepaardgaande tegnologie bied astronomiese geleenthede vir die industrie sowel as die akademie in Suid-Afrika. Die doel van die artikel is om &#x2019;n breedvoerige oorsig te gee oor grootdata, grootdatastelsels, relevante oopbronprogrammatuur wat met grootdatastelsels geassosieer word, sowel as grootdata-onderrig. Grootdata- en datawetenskaponderrig is &#x2019;n belangrike en &#x2019;n relevante onderwerp vir Suid-Afrika, aangesien die vraag na datawetenskaplikes die afgelope vyf jaar aansienlik toegeneem het.</p>
<table-wrap id="T0002">
<label>TABEL 2</label>
<caption><p>Datawetenskapkwalifikasies.</p></caption>
<table frame="hsides" rules="groups">
<thead>
<tr>
<th valign="top" align="left">Universiteite</th>
<th valign="top" align="left">Graad</th>
</tr>
</thead>
<tbody>
<tr>
<td align="left">Sol Plaatje-Universiteit</td>
<td align="left"><italic>B.Sc. in Data Science</italic></td>
</tr>
<tr>
<td align="left">Noordwes-Universiteit</td>
<td align="left"><italic>M.Sc. in Business Mathematics and Informatics</italic></td>
</tr>
</tbody>
</table>
</table-wrap>
<p>Die artikel rapporteer dat grootdata- en datawetenskaponderrig aan Suid-Afrikaanse universiteite wel aandag geniet. Daar word grootdatavaardighede aan nagraadse studente oorgedra, wat insluit hoe data geberg word (RDBS, HDFS, HBase), data verwerk word (Hadoop, MapReduce, Spark), data opgesoek word (Hive, SQL) en data gevisualiseer word (Tableau), maar op &#x2019;n beperkte skaal. Dit is egter nog nie seker of bestaande Suid-Afrikaanse akademiese programme genoegsame blootstelling aan nagraadse studente gee ten opsigte van die wetenskap, sowel as die grootdatategnologiese komponent van datawetenskap nie. Die volgende inhoud word aanbeveel as deel van toekomstige blootstelling aan en onderrig in grootdatategnologie:</p>
<list list-type="bullet">
<list-item><p>Bedryfstelsel: UNIX-verwante bedryfstelsel (Bash-tekste)</p></list-item>
<list-item><p>Grootdataberging: NoSQL, Hadoop, HDFS</p></list-item>
<list-item><p>Grootdata-programmeringmodel: MapReduce, Spark</p></list-item>
<list-item><p>Grootdataprogrammering: Python, Perl of Java</p></list-item>
<list-item><p>Grootdata-ontleding: Hive, SQL</p></list-item>
<list-item><p>Grootdata-ontginning: Mahout, R, SAS Enterprise Miner, IBM SPSS Modeler</p></list-item>
<list-item><p>Grootdatavisualisering: Tableau, Gephi of ggplot2.</p></list-item>
</list>
<p>Grootdata-onderrig gaan in die nabye toekoms &#x2019;n belangrike rol speel om in die vinnig toenemende tekort aan datawetenskaplikes te voorsien. Hierdie datawetenskaplikes se toekomstige bydraes in die sake- en wetenskapw&#x00EA;reld moet nie onderskat word nie, en het die potensiaal om aan Suid-Afrika &#x2019;n regmatige plek in die w&#x00EA;reld van grootdata te gee. Meer navorsing word vereis om te bepaal wat Suid-Afrika se werklike behoefte aan datawetenskaplikes met toepaslike grootdata-onderrig is. Verdere navorsing in terme van &#x2019;n ondersoek om vas te stel of die grootdatategnologie wel, soos voorgestel, deur organisasies in Suid-Afrika gebruik word, is egter nodig. Hierdie navorsing kan &#x2019;n waardevolle en belangrike bydrae lewer ten einde die akademiese opleiding van datawetenskaplikes in Suid-Afrika te bevorder.</p>
</sec>
</body>
<back>
<ack>
<title>Erkenning</title>
<sec id="s20025">
<title>Mededingende belange</title>
<p>Die outeur verklaar hiermee dat hy geen finansi&#x00EB;le of persoonlike verbintenisse het wat hom nadelig of voordelig be&#x00EF;nvloed het in die skryf van hierdie artikel nie.</p>
</sec>
</ack>
<ref-list id="references">
<title>Literatuurverwysings</title>
<ref id="CIT0001"><mixed-citation publication-type="other"><person-group person-group-type="author"><string-name><given-names>Apache</given-names> <surname>Spark</surname></string-name></person-group>, &#x2018;<article-title>Apache Spark documentation and open source release</article-title>&#x2019;, <comment>viewed on 21 June 2016, from <ext-link ext-link-type="uri" xlink:href="http://spark.apache.org/">http://spark.apache.org/</ext-link></comment></mixed-citation></ref>
<ref id="CIT0002"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Assun&#x00E7;&#x00E3;o</surname>, <given-names>M.D</given-names></string-name>., <string-name><surname>Calheiros</surname>, <given-names>R.N</given-names></string-name>., <string-name><surname>Bianchi</surname>, <given-names>S</given-names></string-name>., <string-name><surname>Netto</surname>, <given-names>M.A</given-names></string-name>.S. &#x0026; <string-name><surname>Buyya</surname>, <given-names>R</given-names></string-name></person-group>., <year>2015</year>. &#x2018;<article-title>Big data computing and clouds: Trends and future directions</article-title>&#x2019;, <source><italic>Journal of Parallel and Distributed Computing</italic></source>, <volume>79</volume>, pp. <fpage>3</fpage>&#x2013;<lpage>15</lpage>. <comment><ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.1016/j.jpdc.2014.08.003">http://dx.doi.org/10.1016/j.jpdc.2014.08.003</ext-link></comment></mixed-citation></ref>
<ref id="CIT0003"><mixed-citation publication-type="book"><person-group person-group-type="author"><string-name><surname>Berman</surname>, <given-names>J</given-names></string-name></person-group>., <year>2013</year>, <source><italic>Principles of big data: Preparing, sharing, and analyzing complex information</italic></source>, <publisher-name>Elsevier, Morgan Kaufmann</publisher-name>, <publisher-loc>Amsterdam</publisher-loc>.</mixed-citation></ref>
<ref id="CIT0004"><mixed-citation publication-type="book"><person-group person-group-type="author"><string-name><surname>Celko</surname>, <given-names>J</given-names></string-name></person-group>., <year>2014</year>, <source><italic>Complete guide to NoSQL</italic></source>, <publisher-name>Morgan Kaufmann</publisher-name>, <publisher-loc>Burlington, MA</publisher-loc>.</mixed-citation></ref>
<ref id="CIT0005"><mixed-citation publication-type="book"><person-group person-group-type="author"><string-name><surname>Chang</surname>, <given-names>F</given-names></string-name>., <string-name><surname>Dean</surname>, <given-names>J</given-names></string-name>., <string-name><surname>Ghemawat</surname>, <given-names>S</given-names></string-name>., <string-name><surname>Hsieh</surname>, <given-names>W.C</given-names></string-name>., <string-name><surname>Wallach</surname>, <given-names>D.A</given-names></string-name>., <string-name><surname>Burrows</surname>, <given-names>M</given-names></string-name>., <string-name><surname>Chandra</surname></string-name>, <etal>et al</etal></person-group>., <year>2006</year>, &#x2018;<chapter-title>Bigtable: A distributed storage system for structured data</chapter-title>&#x2019;, <source><italic>7th</italic></source> <source><italic>Symposium on Operating Systems Design and Implementation (OSDI &#x2019;06)</italic></source>, November <fpage>6</fpage>&#x2013;<lpage>8</lpage>, <publisher-loc>Seattle, WA</publisher-loc>, <publisher-name>USA</publisher-name>, pp. <fpage>205</fpage>&#x2013;<lpage>218</lpage>.</mixed-citation></ref>
<ref id="CIT0006"><mixed-citation publication-type="other"><person-group person-group-type="author"><string-name><surname>Chen</surname>, <given-names>M</given-names></string-name>., <string-name><surname>Mao</surname>, <given-names>S</given-names></string-name>., <string-name><surname>Zhang</surname>, <given-names>Y</given-names></string-name>. &#x0026; <string-name><surname>Leung</surname>, <given-names>V. C</given-names></string-name></person-group>., <year>2014</year>, <source><italic>Big data: Related technologies, challenges and future prospect</italic></source>.</mixed-citation></ref>
<ref id="CIT0007"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Daniel</surname>, <given-names>B</given-names></string-name></person-group>., <year>2015</year>, &#x2018;<article-title>Big data and analytics in higher education: Opportunities and challenges</article-title>&#x2019;, <source><italic>British Journal of Educational Technology</italic></source>, <volume>46</volume>(<issue>5</issue>), pp. <fpage>904</fpage>&#x2013;<lpage>920</lpage>. <comment><ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.1111/bjet.12230">http://dx.doi.org/10.1111/bjet.12230</ext-link></comment></mixed-citation></ref>
<ref id="CIT0008"><mixed-citation publication-type="other"><person-group person-group-type="author"><string-name><surname>Daniel</surname>, <given-names>B</given-names></string-name>. &#x0026; <string-name><surname>Butson</surname>, <given-names>R</given-names></string-name></person-group>., <year>2014</year>, &#x2018;<article-title>Foundations of big data and analytics in higher education</article-title>, in <source><italic>International Conference on Analytics Driven Solutions: ICAS2014</italic></source>.</mixed-citation></ref>
<ref id="CIT0009"><mixed-citation publication-type="book"><person-group person-group-type="author"><collab>Databricks</collab></person-group>, <year>2016</year>, <publisher-name>Apache Spark Ecosystem</publisher-name>, <comment>viewed on 21 June 2016, from <ext-link ext-link-type="uri" xlink:href="https://databricks.com/spark/about">https://databricks.com/spark/about</ext-link></comment></mixed-citation></ref>
<ref id="CIT0010"><mixed-citation publication-type="book"><person-group person-group-type="author"><string-name><surname>Davenport</surname>, <given-names>T.H</given-names></string-name></person-group>., <year>2014</year>, <source><italic>Big data at work</italic></source>, <publisher-name>Harvard Business School Publishing Corporation</publisher-name>, <publisher-loc>Boston, Massachusetts</publisher-loc>.</mixed-citation></ref>
<ref id="CIT0011"><mixed-citation publication-type="other"><person-group person-group-type="author"><string-name><surname>Davenport</surname>, <given-names>T.H</given-names></string-name>. &#x0026; <string-name><surname>Patil</surname>, <given-names>D.J</given-names></string-name></person-group>., <year>2012</year>, &#x2018;<article-title>Data scientist: The sexiest job of the 21st century</article-title>&#x2019;, <source><italic>Harvard business review</italic></source>, <fpage>90</fpage>. <comment><ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.15358/9783800648153">http://dx.doi.org/10.15358/9783800648153</ext-link></comment></mixed-citation></ref>
<ref id="CIT0012"><mixed-citation publication-type="other"><person-group person-group-type="author"><collab>Department of Science and Technology</collab></person-group>, <year>2015</year>, <comment>minister Naledi Pandor launched the Inter-University Institute for Data Intensive Astronomy (IDIA) | South African Government, viewed on 07 March 7 2016, from: <ext-link ext-link-type="uri" xlink:href="http://www.gov.za/speeches/minister-naledi-pandor-launch-inter-university-institute-data-intensive-astronomy-idia-3">http://www.gov.za/speeches/minister-naledi-pandor-launch-inter-university-institute-data-intensive-astronomy-idia-3</ext-link></comment></mixed-citation></ref>
<ref id="CIT0013"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Dhar</surname>, <given-names>V</given-names></string-name></person-group>., <year>2013</year>, &#x2018;<article-title>Data science and prediction</article-title>&#x2019;, <source><italic>Communications of the ACM</italic></source>, <volume>56</volume>(<issue>12</issue>), pp. <fpage>64</fpage>&#x2013;<lpage>73</lpage>. <comment><ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.1145/2500499">http://dx.doi.org/10.1145/2500499</ext-link></comment></mixed-citation></ref>
<ref id="CIT0014"><mixed-citation publication-type="other"><person-group person-group-type="author"><string-name><surname>Eckerson</surname>, <given-names>W</given-names></string-name></person-group>., <year>2011</year>, &#x2018;<article-title>Big data analytics: Profiling the use of analytical platforms in user organizations</article-title>&#x2019;, <source><italic>TDWI</italic></source>, (September), pp. <fpage>1</fpage>&#x2013;<lpage>49</lpage>, <comment>viewed on 11 November 2015, from <ext-link ext-link-type="uri" xlink:href="http://tdwi.org/login/default-login.aspx">http://tdwi.org/login/default-login.aspx</ext-link></comment></mixed-citation></ref>
<ref id="CIT0015"><mixed-citation publication-type="other"><person-group person-group-type="author"><collab>Gartner</collab></person-group>, <year>2016</year>, &#x2018;<article-title>What is big data? &#x2013; Gartner IT Glossary &#x2013; Big Data</article-title>&#x2019;, <comment>viewed on 17 February 2016, from <ext-link ext-link-type="uri" xlink:href="http://www.gartner.com/it-glossary/big-data/">http://www.gartner.com/it-glossary/big-data/</ext-link></comment></mixed-citation></ref>
<ref id="CIT0016"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Goede</surname>, <given-names>R</given-names></string-name></person-group>., <year>2014</year>, &#x2018;<article-title>An instructional design for data warehousing: Using design science research and project-based learning</article-title>&#x2019;, <source><italic>International Journal of Technology and Inclusive Education</italic></source>, <volume>1</volume>(<issue>3</issue>), pp. <fpage>493</fpage>&#x2013;<lpage>499</lpage>.</mixed-citation></ref>
<ref id="CIT0017"><mixed-citation publication-type="other"><person-group person-group-type="author"><string-name><surname>Hadoop</surname></string-name></person-group>, <year>n.d.</year>, &#x2018;<article-title>Hadoop documentation and open source release</article-title>&#x2019;, <comment>viewed on 08 March 2016, from: <ext-link ext-link-type="uri" xlink:href="http://hadoop.apache.org/">http://hadoop.apache.org/</ext-link></comment></mixed-citation></ref>
<ref id="CIT0018"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Hu</surname>, <given-names>H</given-names></string-name>., <string-name><surname>Wen</surname>, <given-names>Y</given-names></string-name>., <string-name><surname>Chua</surname>, <given-names>T</given-names></string-name>. &#x0026; <string-name><surname>Li</surname>, <given-names>X</given-names></string-name></person-group>. , <year>2014</year>, &#x2018;<article-title>Toward scalable systems for big data analytics: A technology tutorial</article-title>&#x2019;, <source><italic>Access, IEEE</italic></source>, vol. <volume>2</volume>, pp. <fpage>652</fpage>&#x2013;<lpage>687</lpage>. <comment><ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.1109/ACCESS.2014.2332453">http://dx.doi.org/10.1109/ACCESS.2014.2332453</ext-link></comment></mixed-citation></ref>
<ref id="CIT0019"><mixed-citation publication-type="other"><person-group person-group-type="author"><collab>IBM</collab></person-group>, <year>n.d.</year>, &#x2018;<article-title>What is big data?</article-title>&#x2019; <comment>viewed on 06 January 2015, from <ext-link ext-link-type="uri" xlink:href="http://www-01.ibm.com/software/data/bigdata/what-is-big-data.html">http://www-01.ibm.com/software/data/bigdata/what-is-big-data.html</ext-link></comment></mixed-citation></ref>
<ref id="CIT0020"><mixed-citation publication-type="other"><person-group person-group-type="author"><collab>Intel</collab></person-group>, <year>2013</year>, &#x2018;<article-title>Extract, transform, and load big data with Apache Hadoop</article-title>&#x2019;, p. <fpage>9</fpage>, <comment>viewed on 03 February 2016, from <ext-link ext-link-type="uri" xlink:href="https://software.intel.com/en-us/articles/extract-transform-and-load-big-data-with-apache-hadoop">https://software.intel.com/en-us/articles/extract-transform-and-load-big-data-with-apache-hadoop</ext-link></comment></mixed-citation></ref>
<ref id="CIT0021"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Jacobs</surname>, <given-names>A</given-names></string-name></person-group>., <year>2009</year>, &#x2018;<article-title>The pathologies of big data</article-title>, <source><italic>Communications of the ACM</italic></source>, <volume>52</volume>(<issue>8</issue>), pp. <fpage>36</fpage>&#x2013;<lpage>44</lpage>. <comment><ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.1145/1536616.1536632">http://dx.doi.org/10.1145/1536616.1536632</ext-link></comment></mixed-citation></ref>
<ref id="CIT0022"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Jagadish</surname>, <given-names>H.V</given-names></string-name>., <string-name><surname>Gehrke</surname>, <given-names>J</given-names></string-name>., <string-name><surname>Labrinidis</surname>, <given-names>A</given-names></string-name>., <string-name><surname>Papakonstantinou</surname>, <given-names>Y</given-names></string-name>., <string-name><surname>Patel</surname>, <given-names>J. M</given-names></string-name>., <string-name><surname>Ramakrishnan</surname>, <given-names>R</given-names></string-name>. &#x0026; <string-name><surname>Shahabi</surname>, <given-names>C</given-names></string-name></person-group>., <year>2014</year>, &#x2018;<article-title>Big data and its technical challenges</article-title>&#x2019;, <source><italic>Communications of the ACM</italic></source>, <volume>57</volume>(<issue>7</issue>), pp. <fpage>86</fpage>&#x2013;<lpage>94</lpage>. <comment><ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.1145/2611567">http://dx.doi.org/10.1145/2611567</ext-link></comment></mixed-citation></ref>
<ref id="CIT0023"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Kim</surname>, <given-names>B.G</given-names></string-name>., <string-name><surname>Trimi</surname>, <given-names>S</given-names></string-name>. &#x0026; <string-name><surname>Chung</surname>, <given-names>J</given-names></string-name></person-group>., <year>2014</year>, &#x2018;<article-title>Big-Data applications in the government sector</article-title>&#x2019;, <source><italic>Communications of the ACM</italic></source>, <volume>57</volume>(<issue>3</issue>), pp. <fpage>78</fpage>&#x2013;<lpage>85</lpage>. <comment><ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.1145/2500873">http://dx.doi.org/10.1145/2500873</ext-link></comment></mixed-citation></ref>
<ref id="CIT0024"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Kim</surname>, <given-names>W</given-names></string-name>., <string-name><surname>Jeong</surname>, <given-names>O.-R</given-names></string-name>. &#x0026; <string-name><surname>Kim</surname>, <given-names>C</given-names></string-name></person-group>., <year>2014</year>, &#x2018;<article-title>A holistic view of big data</article-title>&#x2019;, <source><italic>International Journal of Data Warehousing and Mining</italic></source>, <volume>10</volume>(<issue>3</issue>), pp. <fpage>59</fpage>&#x2013;<lpage>69</lpage>. <comment><ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.4018/ijdwm.2014070104">http://dx.doi.org/10.4018/ijdwm.2014070104</ext-link></comment></mixed-citation></ref>
<ref id="CIT0025"><mixed-citation publication-type="book"><person-group person-group-type="author"><string-name><surname>Krishnan</surname>, <given-names>K</given-names></string-name></person-group>., <year>2013</year>, <source><italic>Data warehousing in the age of big data</italic></source>, <publisher-name>Elsevier, Morgan Kaufmann</publisher-name>, <publisher-loc>Amsterdam</publisher-loc>.</mixed-citation></ref>
<ref id="CIT0026"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Landset</surname>, <given-names>S</given-names></string-name>., <string-name><surname>Khoshgoftaar</surname>, <given-names>T. M</given-names></string-name>., <string-name><surname>Richter</surname>, <given-names>A. N</given-names></string-name>. &#x0026; <string-name><surname>Hasanin</surname>, <given-names>T</given-names></string-name></person-group>., <year>2015</year>, &#x2018;<article-title>A survey of open source tools for machine learning with big data in the Hadoop ecosystem</article-title>&#x2019;, <source><italic>Journal of Big Data</italic></source>, <volume>2</volume>(<issue>1</issue>), p. <fpage>24</fpage>. <comment><ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.1186/s40537-015-0032-1">http://dx.doi.org/10.1186/s40537-015-0032-1</ext-link></comment></mixed-citation></ref>
<ref id="CIT0027"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Lee</surname>, <given-names>K.H</given-names></string-name>., <string-name><surname>Lee</surname>, <given-names>Y.J</given-names></string-name>., <string-name><surname>Choi</surname>, <given-names>H</given-names></string-name>., <string-name><surname>Chung</surname>, <given-names>Y.D</given-names></string-name>. &#x0026; <string-name><surname>Moon</surname>, <given-names>B</given-names></string-name></person-group>., <year>2011</year>, &#x2018;<article-title>Parallel data processing with MapReduce: a survey</article-title>&#x2019;, <source><italic>ACM SIGMOD Record</italic></source>, <volume>40</volume>(<issue>4</issue>), p. <fpage>11</fpage>. <comment><ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.1145/2094114.2094118">http://dx.doi.org/10.1145/2094114.2094118</ext-link></comment></mixed-citation></ref>
<ref id="CIT0028"><mixed-citation publication-type="other"><person-group person-group-type="author"><string-name><surname>Leverenz</surname>, <given-names>L</given-names></string-name></person-group>., <year>2015</year>, &#x2018;<article-title>Tutorial &#x2013; Apache Hive &#x2013; Apache Software Foundation</article-title>&#x2019;, <comment>viewed on 09 February 2016, from <ext-link ext-link-type="uri" xlink:href="https://cwiki.apache.org/confluence/display/Hive/Tutorial&#x0023;Tutorial-LoadingData">https://cwiki.apache.org/confluence/display/Hive/Tutorial&#x0023;Tutorial-LoadingData</ext-link></comment></mixed-citation></ref>
<ref id="CIT0029"><mixed-citation publication-type="book"><person-group person-group-type="author"><string-name><surname>Loshin</surname>, <given-names>D</given-names></string-name></person-group>., <year>2013</year>, <source><italic>Big data analytics: From strategic planning to enterprise integration with tools, techniques, NoSQL, and graph</italic></source>, <publisher-loc>Elsevier</publisher-loc>, <publisher-name>United States of America</publisher-name>.</mixed-citation></ref>
<ref id="CIT0030"><mixed-citation publication-type="book"><person-group person-group-type="author"><string-name><surname>Malaka</surname>, <given-names>I</given-names></string-name>. &#x0026; <string-name><surname>Brown</surname>, <given-names>I</given-names></string-name></person-group>., <year>2015</year>, &#x2018;<chapter-title>Challenges to the organisational adoption of big data analytics</chapter-title>&#x2019;, in <source><italic>Proceedings of the 2015 Annual Research Conference on South African Institute of Computer Scientists and Information Technologists - SAICSIT &#x2019;15</italic></source>, <publisher-name>ACM Press</publisher-name>, pp. <fpage>1</fpage>&#x2013;<lpage>9</lpage>, <publisher-loc>New York, NY</publisher-loc>. <comment><ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.1145/2815782.2815793">http://dx.doi.org/10.1145/2815782.2815793</ext-link></comment></mixed-citation></ref>
<ref id="CIT0031"><mixed-citation publication-type="book"><person-group person-group-type="author"><string-name><surname>Manoochehri</surname>, <given-names>M</given-names></string-name></person-group>., <year>2014</year>, <source><italic>Data just right</italic></source>, <publisher-name>Pearson, Crawfordsville</publisher-name>, <publisher-loc>Indiana</publisher-loc>.</mixed-citation></ref>
<ref id="CIT0032"><mixed-citation publication-type="book"><person-group person-group-type="author"><string-name><surname>Minelli</surname>, <given-names>M</given-names></string-name>., <string-name><surname>Chambers</surname>, <given-names>M</given-names></string-name>. &#x0026; <string-name><surname>Dhiraj</surname>, <given-names>A</given-names></string-name></person-group>., <year>2013</year>, <source><italic>Big data, big analytics: Emerging business intelligence and analytic trends for today&#x2019;s businesses</italic></source>, <publisher-name>John Wiley &#x0026; Sons</publisher-name>, <publisher-loc>Hoboken, NJ</publisher-loc>. <comment><ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.1002/9781118562260">http://dx.doi.org/10.1002/9781118562260</ext-link></comment></mixed-citation></ref>
<ref id="CIT0033"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Nartey</surname>, <given-names>C</given-names></string-name></person-group>., <year>2015</year>, &#x2018;<article-title>Entrepreneurship and innovation management big data and start-up businesses</article-title>&#x2019;, <source><italic>Entrepreneurship and Innovation Management Journal</italic></source>, <volume>3</volume>(<issue>3</issue>), pp. <fpage>155</fpage>&#x2013;<lpage>163</lpage>.</mixed-citation></ref>
<ref id="CIT0034"><mixed-citation publication-type="other"><person-group person-group-type="author"><collab>Nelson Mandela Metropole University</collab></person-group>, <year>2015</year>, &#x2018;<article-title>Postgraduate Modules</article-title>&#x2019;, <comment>viewed on 09 February 2016, from <ext-link ext-link-type="uri" xlink:href="http://cs.nmmu.ac.za/Postgraduate-Information/Postgraduate-Modules">http://cs.nmmu.ac.za/Postgraduate-Information/Postgraduate-Modules</ext-link></comment></mixed-citation></ref>
<ref id="CIT0035"><mixed-citation publication-type="other"><person-group person-group-type="author"><collab>Northwest University</collab></person-group> <year>2016</year>, &#x2018;<article-title>BMI brochure</article-title>&#x2019;, <comment>viewed on 16 February 2016, from <ext-link ext-link-type="uri" xlink:href="http://www.nwu.ac.za/sites/www.nwu.ac.za/files/files/p-bmi/documents/Bemarkingsmateriaal/Marketingbrochureforprospectivestudents.pdf">http://www.nwu.ac.za/sites/www.nwu.ac.za/files/files/p-bmi/documents/Bemarkingsmateriaal/Marketing brochure for prospective students.pdf</ext-link></comment></mixed-citation></ref>
<ref id="CIT0036"><mixed-citation publication-type="other"><person-group person-group-type="author"><collab>Northwest University</collab></person-group>, <year>2015</year>, &#x2018;<article-title>Information Sheet: Honours students 2015</article-title>&#x2019; <comment>viewed on 09 February 2016, from <ext-link ext-link-type="uri" xlink:href="http://www.nwu.ac.za/sites/www.nwu.ac.za/files/files/v-fesit-sit/it courses/FinalInformationSheet2015.pdf">http://www.nwu.ac.za/sites/www.nwu.ac.za/files/files/v-fesit-sit/it courses/Final InformationSheet2015.pdf</ext-link></comment></mixed-citation></ref>
<ref id="CIT0037"><mixed-citation publication-type="other"><person-group person-group-type="author"><collab>Oracle</collab></person-group>, <year>2015</year>, <article-title>Improving higher education performance with big data architect</article-title>&#x2019; <comment>s guide and reference architecture introduction, viewed on 29 March 2016, from <ext-link ext-link-type="uri" xlink:href="http://www.oracle.com/us/technologies/big-data/big-data-education-2511586.pdf">http://www.oracle.com/us/technologies/big-data/big-data-education-2511586.pdf</ext-link></comment></mixed-citation></ref>
<ref id="CIT0038"><mixed-citation publication-type="other"><person-group person-group-type="author"><string-name><surname>Phillips-Wren</surname>, <given-names>G</given-names></string-name>., <string-name><surname>Iyer</surname>, <given-names>L. S</given-names></string-name>., <string-name><surname>Kulkarni</surname>, <given-names>U</given-names></string-name>. &#x0026; <string-name><surname>Ariyachandra</surname>, <given-names>T</given-names></string-name></person-group>., <year>2015</year>, &#x2018;<article-title>Business analytics in the context of big data: A roadmap for research</article-title>&#x2019;, <source><italic>Communications of the Association for Information Systems</italic></source>, <string-name><surname>37</surname>, <given-names>p</given-names></string-name>. <comment>Article 23</comment>.</mixed-citation></ref>
<ref id="CIT0039"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Provost</surname>, <given-names>F</given-names></string-name>. &#x0026; <string-name><surname>Fawcett</surname>, <given-names>T</given-names></string-name></person-group>., <year>2013</year>, &#x2018;<article-title>Data science and its relationship to big data and data-driven decision making</article-title>&#x2019;, <source><italic>Data Science and Big Data</italic></source>, <volume>1</volume>(<issue>1</issue>).</mixed-citation></ref>
<ref id="CIT0040"><mixed-citation publication-type="other"><person-group person-group-type="author"><string-name><surname>Rabkin</surname>, <given-names>A</given-names></string-name>. &#x0026; <string-name><surname>Katz</surname>, <given-names>R</given-names></string-name></person-group>., <year>2010</year>, &#x2018;<article-title>Chukwa: A system for reliable large-scale log collection</article-title>&#x2019;, <source><italic>Proceeding LISA&#x2019;10 Proceedings of the 24th International Conference on Large Installation System Administration</italic></source>, pp. <fpage>1</fpage>&#x2013;<lpage>15</lpage>.</mixed-citation></ref>
<ref id="CIT0041"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Rahman</surname>, <given-names>N</given-names></string-name>. &#x0026; <string-name><surname>Iverson</surname>, <given-names>S</given-names></string-name></person-group>., <year>2015</year>, &#x2018;<article-title>Big data business intelligence in bank risk analysis</article-title>&#x2019;, <source><italic>International Journal of Business Intelligence Research</italic></source>, <volume>6</volume>(<issue>2</issue>), pp. <fpage>55</fpage>&#x2013;<lpage>77</lpage>, viewed on 30 March <year>2016</year>, from <comment><ext-link ext-link-type="uri" xlink:href="http://services.igi-global.com/resolvedoi/resolve.aspx?doi=10.4018/IJBIR.2015070104">http://services.igi-global.com/resolvedoi/resolve.aspx?doi=10.4018/IJBIR.2015070104</ext-link></comment></mixed-citation></ref>
<ref id="CIT0042"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Ridge</surname>, <given-names>M</given-names></string-name>., <string-name><surname>Kevin</surname>, <given-names>A.J</given-names></string-name>. &#x0026; <string-name><surname>Brian</surname>, <given-names>D</given-names></string-name></person-group>., <year>2015</year>, &#x2018;<article-title>The use of big data analytics in the retail industries in South Africa</article-title>&#x2019;, <source><italic>African Journal of Business Management</italic></source>, <volume>9</volume>(<issue>19</issue>), pp. <fpage>688</fpage>&#x2013;<lpage>703</lpage>. <comment><ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.5897/AJBM2015.7827">http://dx.doi.org/10.5897/AJBM2015.7827</ext-link></comment></mixed-citation></ref>
<ref id="CIT0043"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Romero</surname>, <given-names>C</given-names></string-name>. &#x0026; <string-name><surname>Ventura</surname>, <given-names>S</given-names></string-name></person-group>., <year>2010</year>, &#x2018;<article-title>Educational data mining: A review of the state of the art</article-title>&#x2019;, <source><italic>IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews)</italic></source>, <volume>40</volume>(<issue>6</issue>), pp. <fpage>601</fpage>&#x2013;<lpage>618</lpage>. <comment><ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.1109/TSMCC.2010.2053532">http://dx.doi.org/10.1109/TSMCC.2010.2053532</ext-link></comment></mixed-citation></ref>
<ref id="CIT0044"><mixed-citation publication-type="other"><person-group person-group-type="author"><string-name><surname>Russom</surname>, <given-names>P</given-names></string-name></person-group>., <year>2015</year>, &#x2018;<article-title>Can Hadoop replace a data warehouse?</article-title>&#x2019;, <comment>viewed on 22 June 2016, from <ext-link ext-link-type="uri" xlink:href="https://tdwi.org/articles/2015/01/27/hadoop-replace-data-warehouse.aspx">https://tdwi.org/articles/2015/01/27/hadoop-replace-data-warehouse.aspx</ext-link></comment></mixed-citation></ref>
<ref id="CIT0045"><mixed-citation publication-type="book"><person-group person-group-type="author"><string-name><surname>Sabherwal</surname>, <given-names>R</given-names></string-name>. &#x0026; <string-name><surname>Becerra-Fernandez</surname>, <given-names>I</given-names></string-name></person-group>., <year>2011</year>, <source><italic>Business intelligence: Practices, technologies and management</italic></source>, <publisher-loc>Wiley</publisher-loc>.</mixed-citation></ref>
<ref id="CIT0046"><mixed-citation publication-type="other"><person-group person-group-type="author"><collab>SAQA</collab></person-group>, <year>2015</year>, <comment>South African Qualifications Authority, viewed on 02 November 2015, from <ext-link ext-link-type="uri" xlink:href="http://www.saqa.org.za/">http://www.saqa.org.za/</ext-link></comment></mixed-citation></ref>
<ref id="CIT0047"><mixed-citation publication-type="other"><person-group person-group-type="author"><string-name><surname>Schmarzo</surname>, <given-names>B</given-names></string-name></person-group>., <year>2014</year>, &#x2018;<article-title>What universities can learn from big data &#x2013; higher education analytics</article-title>&#x2019;, <comment>viewed 18 March 2016 from <ext-link ext-link-type="uri" xlink:href="https://infocus.emc.com/william_schmarzo/what-universities-can-learn-from-big-data-higher-education-analytics/">https://infocus.emc.com/william_schmarzo/what-universities-can-learn-from-big-data-higher-education-analytics/</ext-link></comment></mixed-citation></ref>
<ref id="CIT0048"><mixed-citation publication-type="book"><person-group person-group-type="author"><string-name><surname>Sharda</surname>, <given-names>R</given-names></string-name>., <string-name><surname>Delen</surname>, <given-names>D</given-names></string-name>. &#x0026; <string-name><surname>Turban</surname>, <given-names>E</given-names></string-name></person-group>., <year>2014</year>, &#x2018;<chapter-title>Pearson Education &#x2013; Business intelligence and analytics: Systems for decision Support, Global Edition</chapter-title> <edition>10</edition>th ed., <publisher-name>Pearson Education</publisher-name>, <publisher-loc>Boston</publisher-loc>.</mixed-citation></ref>
<ref id="CIT0049"><mixed-citation publication-type="other"><person-group person-group-type="author"><collab>Sol Plaatje University</collab></person-group>, <year>2016</year>, &#x2018;<article-title>Bachelor of Science in Data Science</article-title>&#x2019;, <comment>viewed on 16 February 2016, from <ext-link ext-link-type="uri" xlink:href="http://allqs.saqa.org.za/showQualification.php?id=96105">http://allqs.saqa.org.za/showQualification.php?id=96105</ext-link></comment></mixed-citation></ref>
<ref id="CIT0050"><mixed-citation publication-type="other"><person-group person-group-type="author"><string-name><surname>Taylor</surname>, <given-names>R</given-names></string-name></person-group>., <year>2015</year>, &#x2018;<article-title>Data Science is the way of the future</article-title>&#x2019;, <comment>viewed on 07 March 2016, from <ext-link ext-link-type="uri" xlink:href="http://www.up.ac.za/en/news/post_2175699-data-science-is-the-way-of-the-future">http://www.up.ac.za/en/news/post_2175699-data-science-is-the-way-of-the-future</ext-link></comment></mixed-citation></ref>
<ref id="CIT0051"><mixed-citation publication-type="other"><person-group person-group-type="author"><collab>University of Cape Town</collab></person-group>, <year>2015</year>, &#x2018;<article-title>Honours Handbook 2015</article-title>&#x2019;, <comment>viewed on 09 February 2016, from <ext-link ext-link-type="uri" xlink:href="http://www.cs.uct.ac.za/honours/Honours_Handbook_2015.pdf">http://www.cs.uct.ac.za/honours/Honours_Handbook_2015.pdf</ext-link></comment></mixed-citation></ref>
<ref id="CIT0052"><mixed-citation publication-type="other"><person-group person-group-type="author"><collab>University of Cape Town</collab></person-group>, <year>2013</year>, &#x2018;<article-title>The big data revolution</article-title>&#x2019;, <comment>viewed on 01 March 2016, from <ext-link ext-link-type="uri" xlink:href="http://www.uct.ac.za/dailynews/id=8767">http://www.uct.ac.za/dailynews/id=8767</ext-link></comment></mixed-citation></ref>
<ref id="CIT0053"><mixed-citation publication-type="other"><person-group person-group-type="author"><collab>University of the Free State</collab></person-group>, <year>2015</year>, &#x2018;<article-title>Rule Book 2015</article-title>&#x2019;, <comment>viewed on 09 February 2016, from <ext-link ext-link-type="uri" xlink:href="http://apps.ufs.ac.za/dl/yearbooks/237_yearbook_eng.pdf">http://apps.ufs.ac.za/dl/yearbooks/237_yearbook_eng.pdf</ext-link></comment></mixed-citation></ref>
<ref id="CIT0054"><mixed-citation publication-type="other"><person-group person-group-type="author"><collab>University of North Carolina</collab></person-group>, <year>2016</year>, &#x2018;<article-title>Degree programs in analytics and data science</article-title>&#x2019;, <comment>viewed on 04 March 2016, from <ext-link ext-link-type="uri" xlink:href="http://analytics.ncsu.edu/page_id=4184">http://analytics.ncsu.edu/page_id=4184</ext-link></comment></mixed-citation></ref>
<ref id="CIT0055"><mixed-citation publication-type="other"><person-group person-group-type="author"><collab>University of Pretoria</collab></person-group>, <year>2015</year>, &#x2018;<article-title>Yearbooks 2015</article-title>&#x2019;, <comment>viewed on 09 February 2016, from <ext-link ext-link-type="uri" xlink:href="http://www.up.ac.za/yearbooks/modules/view/INF785">http://www.up.ac.za/yearbooks/modules/view/INF785</ext-link></comment></mixed-citation></ref>
<ref id="CIT0056"><mixed-citation publication-type="other"><person-group person-group-type="author"><collab>URAP</collab></person-group>, <year>2016</year>, <comment>University Ranking by Academic Performance, viewed on 05 February 2016, from <ext-link ext-link-type="uri" xlink:href="http://www.urapcenter.org/2015/region.php?rcode=AF">http://www.urapcenter.org/2015/region.php?rcode=AF</ext-link></comment></mixed-citation></ref>
<ref id="CIT0057"><mixed-citation publication-type="book"><person-group person-group-type="author"><string-name><surname>Van der Aalst</surname>, <given-names>W.M</given-names></string-name></person-group>., <year>2014</year>, &#x2018;<chapter-title>Data scientist: The engineer of the future</chapter-title>&#x2019;, in <source><italic>Enterprise Interoperability VI</italic></source>. <publisher-name>Springer International Publishing</publisher-name>, pp. <fpage>13</fpage>&#x2013;<lpage>26</lpage>. <comment><ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.1007/978-3-319-04948-9_2">http://dx.doi.org/10.1007/978-3-319-04948-9_2</ext-link></comment></mixed-citation></ref>
<ref id="CIT0058"><mixed-citation publication-type="book"><person-group person-group-type="author"><string-name><surname>Vaisman</surname>, <given-names>A</given-names></string-name>. &#x0026; <string-name><surname>Zimanyi</surname>, <given-names>E</given-names></string-name></person-group>., <year>2014</year>, <source><italic>Data warehouse systems design and implementation</italic></source>, <publisher-name>Springer-Verlag</publisher-name>, <publisher-loc>Heidelberg</publisher-loc>.</mixed-citation></ref>
<ref id="CIT0059"><mixed-citation publication-type="book"><person-group person-group-type="author"><string-name><surname>Vavilapalli</surname>, <given-names>V.K</given-names></string-name>., <string-name><surname>Murthy</surname>, <given-names>A.C</given-names></string-name>., <string-name><surname>Douglas</surname>, <given-names>C</given-names></string-name>., <string-name><surname>Agarwal</surname>, <given-names>S</given-names></string-name>., <string-name><surname>Konar</surname>, <given-names>M</given-names></string-name>., <string-name><surname>Evans</surname>, <given-names>R</given-names></string-name>., <string-name><surname>Graves</surname>, <given-names>T</given-names></string-name>., <string-name><surname>Lowe</surname>, <given-names>J</given-names></string-name>., <string-name><surname>Shah</surname>, <given-names>H</given-names></string-name>., <string-name><surname>Seth</surname>, <given-names>S</given-names></string-name>. and <string-name><surname>Saha</surname>, <given-names>B</given-names></string-name></person-group>., <year>2013</year>, &#x2018;<chapter-title>Apache Hadoop YARN</chapter-title>&#x2019;, in <source><italic>Proceedings of the 4th Annual Symposium on Cloud Computing - SOCC &#x2019;13</italic></source>, <publisher-name>ACM Press</publisher-name>, pp. <fpage>1</fpage>&#x2013;<lpage>16</lpage>, <publisher-loc>New York, NY</publisher-loc>. <comment><ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.1145/2523616.2523633">http://dx.doi.org/10.1145/2523616.2523633</ext-link></comment></mixed-citation></ref>
<ref id="CIT0060"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Wamba</surname>, <given-names>S.F</given-names></string-name>., <string-name><surname>Akter</surname>, <given-names>S</given-names></string-name>., <string-name><surname>Edwards</surname>, <given-names>A</given-names></string-name>., <string-name><surname>Chopin</surname>, <given-names>G</given-names></string-name>. and <string-name><surname>Gnanzou</surname>, <given-names>D</given-names></string-name></person-group>., <year>2015</year>. &#x2018;<article-title>How &#x201C;big data&#x201D; can make big impact: Findings from a systematic review and a longitudinal case study</article-title>&#x2019;, <source><italic>International Journal of Production Economics</italic></source>.</mixed-citation></ref>
<ref id="CIT0061"><mixed-citation publication-type="book"><person-group person-group-type="author"><string-name><surname>Warden</surname>, <given-names>P</given-names></string-name></person-group>., <year>2011</year>, <source><italic>Big data glossary</italic></source>, <publisher-name>O&#x2019;Reilly Media</publisher-name>, <publisher-loc>Sebastopol, CA</publisher-loc>.</mixed-citation></ref>
<ref id="CIT0062"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Watson</surname>, <given-names>H.J</given-names></string-name></person-group>., <year>2014</year>, &#x2018;<article-title>Tutorial: Big data analytics: Concepts, technologies, and applications</article-title>&#x2019;, <source><italic>Communications of the Association for Information Systems</italic></source>, <volume>34</volume>(<issue>1</issue>), p. <fpage>64</fpage>.</mixed-citation></ref>
<ref id="CIT0063"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Watson</surname>, <given-names>H.J</given-names></string-name>. &#x0026; <string-name><surname>Marjanovic</surname>, <given-names>O</given-names></string-name></person-group>., <year>2014</year>, &#x2018;<article-title>Big data: The fourth data management generation</article-title>&#x2019;, <source><italic>Business Intelligence Journal</italic></source>, <volume>18</volume>(<issue>3</issue>), pp. <fpage>4</fpage>&#x2013;<lpage>9</lpage>.</mixed-citation></ref>
<ref id="CIT0064"><mixed-citation publication-type="book"><person-group person-group-type="author"><string-name><surname>White</surname>, <given-names>T</given-names></string-name></person-group>., <year>2015</year>, <source><italic>Hadoop: The definitive guide</italic></source>, <edition>4th ed.</edition>, <publisher-name>O&#x2019;Reilly Media</publisher-name>, <publisher-loc>Sebastopol, CA</publisher-loc>.</mixed-citation></ref>
<ref id="CIT0065"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Wixom</surname>, <given-names>B</given-names></string-name>., <string-name><surname>Ariyachandra</surname>, <given-names>T</given-names></string-name>., <string-name><surname>Douglas</surname>, <given-names>D</given-names></string-name>., <string-name><surname>Goul</surname>, <given-names>M</given-names></string-name>., <string-name><surname>Gupta</surname>, <given-names>B</given-names></string-name>., <string-name><surname>Iyer</surname>, <given-names>L</given-names></string-name>., <string-name><surname>Kulkarni</surname>, <given-names>U</given-names></string-name>., <string-name><surname>Mooney</surname>, <given-names>J.G</given-names></string-name>., Phillips-<string-name><surname>Wren</surname>, <given-names>G</given-names></string-name>. and <string-name><surname>Turetken</surname>, <given-names>O</given-names></string-name></person-group>., <year>2014</year>, &#x2018;<article-title>The current state of business intelligence in academia: The arrival of big data</article-title>&#x2019;, <source><italic>Communications of the Association for Information Systems</italic></source>, <volume>34</volume>, pp. <fpage>1</fpage>&#x2013;<lpage>13</lpage>.</mixed-citation></ref>
<ref id="CIT0066"><mixed-citation publication-type="journal"><person-group person-group-type="author"><string-name><surname>Yin</surname>, <given-names>S</given-names></string-name>. &#x0026; <string-name><surname>Kaynak</surname>, <given-names>O</given-names></string-name></person-group>., <year>2015</year>, &#x2018;<article-title>Big data for modern industry: Challenges and trends</article-title>&#x2019;, <source><italic>Proceedings of the IEEE</italic></source>, <volume>103</volume>(<issue>2</issue>), pp. <fpage>143</fpage>&#x2013;<lpage>146</lpage>. <comment><ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.1109/JPROC.2015.2388958">http://dx.doi.org/10.1109/JPROC.2015.2388958</ext-link></comment></mixed-citation></ref>
<ref id="CIT0067"><mixed-citation publication-type="other"><person-group person-group-type="author"><string-name><surname>Zaharia</surname>, <given-names>M</given-names></string-name>., <string-name><surname>Chowdhury</surname>, <given-names>M</given-names></string-name>., <string-name><surname>Franklin</surname>, <given-names>M.J</given-names></string-name>., <string-name><surname>Shenker</surname>, <given-names>S</given-names></string-name>. and <string-name><surname>Stoica</surname>, <given-names>I</given-names></string-name></person-group>., <year>2010</year>, &#x2018;<article-title>Spark: Cluster computing with working sets</article-title>&#x2019;, <source><italic>Proceedings of the 2nd USENIX conference on hot topics in cloud computing</italic></source>, p. <fpage>10</fpage>.</mixed-citation></ref></ref-list>
<fn-group>
<fn><p><bold>How to cite this article:</bold> Kotz&#x00E9;, E., 2016, &#x2018;&#x2019;n Oorsig van grootdata- en datawetenskaponderrig aan Suid-Afrikaanse universiteite&#x2019;, <italic>Suid-Afrikaanse Tydskrif vir Natuurwetenskap en Tegnologie</italic> 35(1), a1387. <ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.4102/satnt.v35i1.1387">http://dx.doi.org/10.4102/satnt.v35i1.1387</ext-link></p></fn>
</fn-group>
</back>
</article>