t.BA.DS.PM4.20HS (Big Data Project) 
Modul: Big Data Project
Diese Information wurde generiert am: 20.04.2024
Nr.
t.BA.DS.PM4.20HS
Bezeichnung
Big Data Project
Veranstalter
T InIT
Credits
4

Beschreibung

Version: 3.0 gültig ab 01.08.2023
 

Kurzbeschrieb

Der Schwerpunkt dieses Moduls liegt darauf, praktische Erfahrungen im Umgang mit Big-Data-Problemen zu sammeln. Das Modul basiert auf den theoretischen Grundlagen von "Data Engineering 1" und "Data Engineering 2". Die Studierenden werden ausgewählte Themen dieser Grundlagenkurse analysieren und dann skalierbare Anwendungen unter Verwendung der neuesten Big-Data-Technologien implementieren.

Modulverantwortung

Jonathan Fürst (fues)

Lernziele (Kompetenzen)

Ziel Kompetenzen Taxonomiestufen
Die Studenten vertiefen die Methoden und Tools aus anderen Kursen (z.B., Data Engineering 1 und Data  Engineering 2) durch Anwendung in einem grösseren Kursprojekt. F, M K3, K4
Die Studenten lernen über die praktische Anwendbarkeit von Big Data Systemen (z.B., Spark) und deren Vor- und Nachteile. F, M K3, K4
Die Studenten sind in der Lage, Python und das dazugehörige Data-Science-Ökosystem (z.B. pandas, numpy, scikit-learn) zu nutzen und selbständig in ihrem Kursprojekt anzuwenden. F, M K3
Die Studenten lernen, ihre erstellten Prototypen experimentell zu bewerten und mit einer ausgewählten Basislinie zu vergleichen. F, M K3, K6
Die Studenten sind in der Lage, einen kompletten Projektlebenszyklus im Team zu durchlaufen, vom Projektvorschlag bis zur Projektdurchführung und Präsentation. M, SO K3
Die Studenten sind in der Lage, über ihr Vorwissen hinauszugehen und geeignete Technologien zu wählen, die den Problemen ihres Kursprojekts entsprechen. SE K3

Modulinhalte

Die Implementierung eines typischen Big Data-Projekts könnte die folgenden Schritte erfordern:

• Wählen Sie ein zu lösendes Problem aus, z.B. analysieren Sie die Popularität von Filmen in den letzten zehn Jahren und vergleichen Sie die Unterschiede zwischen Brasilien, Frankreich und den USA.
• Wählen Sie die Datensätze aus, z.B. verwenden Sie den Inhalt aus der Internet-Filmdatenbank (IMDB), die in einer relationalen Datenbank gespeichert ist.
• Reichern Sie die Informationen über Filme mit Dokumenten an, die im Internet gefunden wurden.
• Wählen Sie ein Basissystem mit traditioneller Technologie, z.B. verwenden Sie PostgreSQL, um die in der IMDB gespeicherten Informationen zu analysieren, oder verwenden Sie Ihr bevorzugtes Information Retrieval System, um die Textdokumente zu den Filmen zu analysieren.
• Wählen Sie ein hochmodernes Big-Data-System zum Vergleich mit den Baselines.
• Implementieren Sie die Anwendung sowohl mit dem Basisliniensystem als auch mit dem Big-Data-System.
• Analysieren Sie den Leistungsunterschied der beiden Systeme anhand kleiner Datenmengen.
• Erhöhen Sie den Umfang der Daten beträchtlich und untersuchen Sie die Auswirkungen auf die Leistung.

Die Studierenden können jedes Thema ihres Interesses, jeden Datensatz oder jede vorhandene Codebasis frei wählen. Beispielsweise könnten die Studierenden ein Python-Programm wählen, das auf einem einzigen Computer läuft und einen kleinen Datensatz mit Tausenden von Datensätzen verwendet. Durch die Neuimplementierung des Programms unter Verwendung der Big-Data-Technologie sollten die Schülerinnen und Schüler demonstrieren, wie man eine skalierbare Anwendung erstellt, die auf großen Datensätzen auf Dutzenden von Computern mit großen Datensätzen läuft.

Durch die Implementierung des Big-Data-Projekts lernen die Studenten die folgenden Aspekte kennen:
• Funktionsweise von Big-Data-Systemen:
  - Welche Art von Problemen kann ich mit Big-Data-Systemen lösen?
  - Welche Probleme eignen sich nicht für Big-Data-Systeme?
  - Welche typischen datenwissenschaftlichen Algorithmen werden von Big- Data-Systemen unterstützt?
• Performance-Aspekte von Systemen mit Großen Daten:
  - Wie muss ich meine Anwendung neu schreiben, wenn die Größe des Datensatzes um den Faktor 10, 100, 1000 usw. zunimmt?
  - Welche Auswirkungen hat es auf die Performance, wenn die Anzahl der Benutzer um den Faktor 10, 100, 1000 usw. zunimmt?
  - Wie kann ich die Antwortzeit konstant halten?
  - Welche Art von Optimierungsschritten sind für die Implementierung einer Lösung im Unternehmensmaßstab erforderlich?
• Benutzerfreundlichkeit von Big Data-Systemen:
  - Wie sieht die Lernkurve der Big-Data-Technologie im Vergleich zur traditionellen Technologie aus?
  - Lohnt es sich für ein kleines, mittleres oder großes Unternehmen, in die Big-Data-Technologie zu investieren, wenn die Studierenden eine spezifische Anwendung implementiert haben?

Lehrmittel/Materialien

Vorlesungsunterlagen von Data Engineering 1 und 2

Ergänzende Literatur

Aktuelleste Literatur und Paper zum Thema Big Data.

Zulassungs-voraussetzungen 

Besuch von Data Engineering 1 und 2

Unterrichtssprache

(X) Deutsch (X) Englisch

Teil des Internationalen Profils

(X) Ja () Nein

Modulausprägung

Typ 4
  Details siehe unter: T_RL_Richtlinie_Modulauspraegungen_Stundengutschriften

Leistungsnachweise

Bezeichnung Art Form Umfang Bewertung Gewichtung
Leistungsnachweise während Studiensemester Projekt Programmierung, Präsentationen und Abschlussbericht     100%
Semesterendprüfung Keine        

Bemerkungen

 

Rechtsgrundlage

Die Modulbeschreibung ist neben Rahmenprüfungsordnung und Studienordnung Teil der Rechtsgrundlage. Sie ist verbindlich. Eine in der ersten Unterrichtswoche des Semesters schriftlich festgehaltene und kommunizierte Modulvereinbarung kann die Modulbeschreibung präzisieren. Die Modulvereinbarung ersetzt nicht die Modulbeschreibung.

Hinweis

Kurs: Big Data Project - Praktikum
Nr.
t.BA.DS.PM4.20HS.P
Bezeichnung
Big Data Project - Praktikum

Hinweis

  • Für das Stichdatum 02.08.2099 ist kein Modulbeschreibungstext im System verfügbar.