4.3 Adatbetöltések (ETL) megtervezése és kifejlesztése
Kapcsolódó tartalmak
Az adattárházmodellünk csak akkor lesz működőképes, ha feltöltjük a forrásrendszerekből származó adatokkal. Ezt az adatfeltöltést hívjuk ETL (Extract, Transform, Load) folyamatnak. Ennek során az alaprendszerekből előre definiált módon extraktumokat kell átvenni, majd az innen származó adatokat transzformációk során be kell tölteni az adattárházunkba. (Általában először egy ideiglenes tárolóba - ún. staging területre - kerülnek a forrásadatok.)
Az adatbetöltéseket az adattárház fejlesztője tervezi meg és fejleszti ki. Az adatbetöltés alapja az adattárház adatigénye, amit az extraktum specifikáció tartalmaz (10-es sablon). Az, hogy melyik adatok milyen alaprendszerből származik, a logikai tervezés során már rögzítésre került. Az alaprendszereket az alaprendszerek szállítói ismerik a legjobban, ezért célszerű, ha az alaprendszerekből való kinyerést ők végzik az extraktum specifikáció alapján. Az adattárház fejlesztőjének fontos feladata az egyes alaprendszerekből származó hasonló tartalmú adatok összekapcsolása. Például több alaprendszerben is szerepelhetnek oktatókra vonatkozó adatok - ezek között megfeleltetést kell tenni annak érdekében, hogy koherens legyen az adattárházmodell.
Tevékenységek
Kapcsolódó tevékenység |
Adatintegrációhoz szükséges előkészületek; Kézi adatbevitel megtervezése; Adattranszformációk, betöltések megtervezése; Adatfeldolgozások |
Kapcsolódó AVIR-kézikönyv fejezet |
5.4.3. Adatforrások típusai; 5.4.4. Forrásadatok elérése; 5.4.5. Forrásadatok feldolgozása és betöltése az adattárba; 5.4.6. Adatfrissítés, adatok öregítése; 5.5. Az adatminőség informatikai kérdései, adatellenőrzés, adattisztítás |
Kötelező előzmények |
Adatbázis tervezés |
Elvárt eredménytermékek |
Extraktum specifikáció Kifejlesztett adatbetöltő eljárások Adatbetöltő eljárások dokumentációja |
Felelősök |
Adattárház-fejlesztő, forrásrendszerek szállítói |
Időigény |
2-5 hét |
Sablonok |
Extraktum specifikáció |
Hol tart a projekt? |
Az alaprendszerekből az adattárházba történő adatbetöltések üzemszerűen működnek. |
Költség (a teljes költség arányában) |
30-40% |
Gyakran ismételt kérdések
A fejlesztés során az intézményi VIR-ek esetében két adattárházzal kell kapcsolatban lenni (intézményi, ágazati), itt melyikről van szó?
Az intézményi VIR fejlesztése során valóban nem elegendő az intézményi adattárház problémamentes működését megoldani, hanem mindenképpen (kötelezően!) figyelembe kell venni az Educatio által közzétett AVIR interfészt, ami a központ (ágazati) adattárházhoz való kapcsolódást írja le, de nem csak technikai, adatátviteli szempontból, hanem a tartalmi ügyek területén is!

