Egyszerű és robusztus adattranszformáció a felhőben?
Minden nap egyre több adatunk keletkezik. A fő probléma nem az, hogy honnan vegyünk megfelelő mennyiségű és minőségű adatot a kísérleteinkhez, hanem az, hogy hogyan tudunk olyan megbízható és kellően robosztus adatelőkészítő és -feldolgozó futószalagot építeni, ami megfelel majd a követelményeinknek.
Az Azure Databricks szolgáltatás ennek a környezetnek a megteremtésében, adatelemzési folyamatunk megkönnyítésében tud segítséget nyújtani.
Mi is az Azure Databricks?
A Databricks nem más, mint az Apache Spark elemzési platform egy méltán népszerű megvalósítása. Az Azure Databricks egy teljesen felügyelt szolgáltatás, ezért egyszerű és kényelmes alternatívát kínál más hasonló megoldásokkal szemben. Célja, hogy egyszerűen telepíthető kollaboratív keretrendszerként segítse a Data Scientist, Data Engineer és Business Analyst munkakörben dolgozók együttműködését.
Az adatok előkészítéséért és tisztításáért felelős Data Engineer szerepét sok cégnél az eredetileg csak a már előkészített adatok elemzésével foglalkozó Data Scientistek végzik. A Data Scientistek munkájának egy jelentős része továbbá delegálható lenne a Data Engineerek felé, de például a platformok, eszközök és eljárások bonyolulttá teszik a kommunikációt.
Az Azure Databricks szolgáltatás lehetőséget nyújt arra, hogy a munkafüzeteinket megosszuk egymással, így ezek nemcsak a scriptjeink tárolására, futtatására szolgálnak, hanem a kommunikáció praktikus eszközei is. Az Azure Data Storage technológiákra, illetve az Azure Databricks szolgáltatásra épített adatfeldolgozó futószalag egységes munkakörnyezettel szorgalmazza az egyszerű együttműködést.
Az Azure Databricks munkafüzet alapú környezetet biztosít. Scriptjeinket írhatjuk Python, Scala, R vagy akár SQL nyelven, az Apache Spark klaszterünk pedig a munkafüzetekben válik elérhetővé. A munkafüzetek tartalmazzák az adattranszformáció lépéseit és rendelkeznek arról, hogy az előállított – immár strukturált, tisztított és előkészített – adatot hol tároljuk.
Milyen Adatforrásból dolgozik az Azure Databricks?
Az Azure Databricks több különböző adatforrásból származó adatok beolvasásában és transzformálásában nyújt nekünk segítséget.
Adatunkat bejuttathatjuk több különböző forrásból. Valós idejű gépi tanulás projektek számára például használhatunk Kafka, Event Hub vagy IoT adatforrásokat. Ezen kívül képesek vagyunk kötegelt adatfeldolgozásra az Azure Data Factory segítségével olyan adatforrásokból, mint az Azure Blob Storage, Azure Data Lake Storage Gen2, Azure Cosmos DB vagy Azure SQL Data Warehouse.
Bármilyen Azure tárolóba tápláljuk be az adatainkat, az Azure Databricks percek alatt összeköthető azokkal. A Spark klaszterrel és az adatainkkal kényelmes és modern webes felületen tudunk dolgozni. A klaszteren futtatott feladataink és scriptjeink révén a heterogén és zajos adatforrásokból a gépi tanulás, analitikai vagy más üzleti cél számára már könnyen értelmeztető, egységes adatforrásokat tudunk készíteni.
Kiemelendő, hogy az Azure Databricks egy teljesen felügyelt szolgáltatás. Nem kell bajlódnunk a Spark klaszterek adminisztrációjával: egyből rendelkezésünkre áll a támogatás minden szükséges eszköze, úgy mint monitoring, naplózás, riasztások. Ugyanakkor véd is minket a szolgáltatás, mivel a nem használt erőforrások felszabadíthatóak automatikusan, így fölösleges üresjáratról nem kell majd számot adnunk.
Akinek tehát Data Engineer feladatokat kell Azure-ban ellátnia, a Training 360 Azure Data megoldások implementálása (DP-200) tanfolyamán elsajátíthatja a szükséges tudást. Az alábbi linkre kattintva jelentkezhettek!
Források
- https://docs.microsoft.com/hu-hu/azure/azure-databricks/what-is-azure-databricks
- MSPress: DP-200T01 Implementing an Azure Data Solution