Von Liebe zu Hass und wieder zurück: Wer Data Engineer
Das Berufsbild des Data Engineers befindet sich im Wandel – mit zwei typischen Einstiegswegen: über die Backend-Entwicklung oder aus der Datenanalyse. Dieser Leitfaden beschreibt, welche technischen Grundlagen zählen, von SQL und Python bis zu Systemen wie Spark und Kafka, und warum ein analytisches Mindset entscheidend ist.
Veröffentlicht am 28.12.2022
Wer Data Engineer:innen sind und wie der Weg in diesen Beruf gelingt
Erste Schritte und typische Probleme, denen Sie auf Ihrem Weg ins Data Engineering wahrscheinlich begegnen werden
Zunächst müssen Sie die Rolle von Data Engineer:innen innerhalb der entsprechenden Hierarchie der Berufsfelder verstehen.

Data Engineer:in ist nur einer von vielen Berufen, die direkt mit Daten zu tun haben.
Die in der obigen Grafik skizzierte Hierarchie zeigt, welche Rolle Data Engineer:innen in dem Prozess spielen, der bei der Datenerfassung beginnt und mit der Erstellung von Modellen, Business Insights oder Berichten endet.
An der Basis der Hierarchie stehen die Backend-Engineer:innen und Architekt:innen. Darüber folgen die erfahrenen Data Engineer:innen, die auch an der Infrastruktur arbeiten, und schließlich die „gewöhnlichen“ Data Engineer:innen.
Wie aus der Abbildung ersichtlich ist, können auch die Datentransformation und -validierung Teil des Data Engineerings sein. Kurz gesagt: Ein:e Data Engineer:in ist eine Fachkraft, die Daten sammelt, bereitstellt, verarbeitet und speichert. Sie sind zudem dafür verantwortlich, die Daten aktuell zu halten und sicherzustellen, dass sie jederzeit verfügbar und korrekt sind.
Wie wird man Data Engineer:in?
Das Feld des Data Engineerings ist verhältnismäßig neu. Vor etwa fünf Jahren war es beispielsweise noch kaum präsent, und nur wenige wussten überhaupt, was sich dahinter verbirgt. Damals wurden die Aufgaben, die heute von Data Engineer:innen übernommen werden, oft noch von Entwickler:innen, Data Scientist:innen oder Analyst:innen miterledigt.
Der Markt wächst jedoch rasant, die Datenströme nehmen zu und viele Unternehmen stellen mittlerweile auf datengesteuerte Lösungen um. Dadurch reicht die Arbeit, die andere Spezialist:innen zuvor geleistet haben, nicht mehr aus.
So entstand die Notwendigkeit für Data Engineering. Das Feld ist äußerst facettenreich, und je nach Unternehmen und dessen individuellen Anforderungen können die Aufgaben und Verantwortlichkeiten von Data Engineer:innen stark variieren. Deshalb gibt es auch keine „Standard-Ausbildung“, mit der man alles von der Pike auf lernt und sofort als Data Engineer:in durchstartet. In diesem Bereich lernt man vor allem durch praktische Erfahrung, durch Trial and Error.

In den meisten Fällen gibt es zwei Hauptwege, um in den Bereich Data Engineering einzusteigen:
1. Der Wechsel vom Backend ins Data Engineering
Da sich viele Prinzipien dieser beiden Fachbereiche ähneln, verläuft der Übergang oft ziemlich reibungslos. Ein solcher Wechsel kann entweder durch die Anforderungen eines Unternehmens begründet sein oder durch den Wunsch der jeweiligen Person, ein völlig neues Terrain zu erkunden. Dabei geht es gar nicht so sehr darum, ob man Daten liebt oder hasst, denn für Entwickler:innen sind Daten in erster Linie eine Ressource, die genutzt werden will. Natürlich kann diese Ressource ihre Tücken haben, aber als IT-Profi nimmt man die Herausforderung eben an. Die wirklichen Herausforderungen beginnen jedoch oft erst in dem Moment, in dem man offiziell zur/zum Data Engineer:in wird und plötzlich von allen Seiten mit datenspezifischen Fragen, komplexen Aufgaben und Bugs bombardiert wird.“
2. Der Wechsel aus dem Bereich Data Analytics
Nehmen wir zum Beispiel jemanden, der:die schon immer gerne mit Daten gearbeitet hat, sie akribisch studiert und in der Lage ist, nicht nur eine bloße Abfolge von Symbolen zu sehen, sondern die wertvollen Informationen, die darin stecken. Wenn diese Person nun den Wunsch verspürt, tiefer in die technische Umsetzung, also das Engineering, einzusteigen, ist das ein klassischer Weg. Es ist wichtig zu erwähnen, dass dies natürlich nicht die einzige Karrieremöglichkeit für Data Analyst:innen ist, aber es ist die Option, auf die wir uns hier konzentrieren.
Was sind die Hauptgründe, in diesen speziellen Bereich einzusteigen? Es kann einfach daran liegen, dass sich eine Person beruflich in einem neuen und relevanten Arbeitsumfeld weiterentwickeln möchte.
Häufiger gibt es jedoch einen anderen Grund. Wenn es um die Liebe zu Daten geht, kann aus dieser Liebe schnell Hass werden, wenn man täglich mit ihnen arbeitet. Der ständige Mangel an dringend benötigten Informationen, der Mangel an Dokumentation, die Unmöglichkeit, Quellen selbst zu prüfen und Datenprobleme eigenständig zu beheben, oder das Warten darauf, dass andere Spezialist:innen diese Probleme lösen… die Liste ist lang.
Bestimmte Situationen, wie etwa zeitkritische Berichte, können dazu führen, dass Analyst:innen genau die Daten hassen, die sie einst so geschätzt haben, und schon bei den geringsten Unstimmigkeiten Frust empfinden. Was ist die Lösung? Wenn man andere nicht dazu bringen kann, es schneller und besser zu machen, macht man es eben selbst. Genau so finden viele Analyst:innen den Weg ins Data Engineering. Das ist natürlich kein Kinderspiel, denn man muss zuerst eine ganze Menge Training absolvieren. Schließlich sind Analyst:innen von Haus aus keine reinen Technik-Expert:innen. Aber am Ende des Tages eröffnen sich dadurch zahlreiche Möglichkeiten, die das Leben erleichtern und dafür sorgen, dass man sich wieder neu in Daten verliebt und die Arbeit mit ihnen wirklich genießt.“
Welche grundlegenden Konzepte muss eine Fachkraft beherrschen, um diesen Übergang zu meistern?

– Zuallererst muss man natürlich SQL verstehen. Es gibt ein passendes Zitat dazu: „Unser ganzes Leben besteht aus Daten, und um diese Daten aus einer Datenbank zu extrahieren, muss man dieselbe Sprache sprechen wie sie.“ Sie werden Informationen aus Datenbanken verarbeiten und bei der täglichen Arbeit mit Daten SQL verwenden müssen. Je versierter Sie in der Anwendung sind, desto schneller können Sie Aufgaben abschließen und desto höher wird Ihr Wert als Expert:in sein.
– Vertiefen Sie Ihre Programmierkenntnisse, rufen Sie sich Konzepte wie OOP (Objektorientierte Programmierung), den funktionalen Ansatz, Multithreading und vieles mehr ins Gedächtnis. Die derzeit populärsten Sprachen im Data Engineering sind Python und Scala.
– Der Aufbau von Daten-Pipelines ist wohl die Kernaufgabe von Engineer:innen – die Architektur für den gesamten Datenbereitstellungsprozess zu konstruieren. Dafür gibt es eine Vielzahl an Konzepten und Tools. Airflow ist momentan das beliebteste und am weitesten verbreitete Tool. Ein großer Vorteil für Einsteiger:innen ist, dass es vergleichsweise intuitiv zu bedienen ist. Wenn Sie Data Engineer:in werden möchten, ist es absolut ratsam, den sicheren Umgang mit diesem Tool zu erlernen.
– Sie müssen zudem die Grundlagen von Datenbanken verstehen – von Aufbau und Strukturen über die Anwendung bis hin zur Fehlersuche (Troubleshooting). Ebenso wichtig ist es, den Unterschied zwischen SQL und NoSQL zu kennen. Jede:r Engineer:in, dem:der dieses Wissen fehlt, arbeitet praktisch im Dunkeln.
– Arbeit mit der Cloud: Viele Unternehmen speichern, wenn nicht sogar alle, zumindest einen Teil ihrer Daten in der Cloud, weshalb Sie diese Anforderung häufig in Stellenausschreibungen finden werden. Was ist hierbei essenziell? Sie sollten wissen, wie man Daten in die Cloud hoch- und von dort herunterlädt und wie man die spezifischen Tools der jeweiligen Plattform nutzt. Zudem ist es wichtig zu verstehen, wie man Daten innerhalb der Cloud von einem Ort zum anderen transferiert, zum Beispiel von Containern in die Datenbank (Base).
– Eintauchen in das Thema verteilter Systeme: Dies ist ein recht etabliertes, umfangreiches und komplexes Feld. Doch wer mit Big Data arbeitet, wird früher oder später unweigerlich mit Clustern konfrontiert. Sie benötigen zumindest ein grundlegendes Verständnis dafür, wie diese interagieren, welche Probleme auftreten können und wie man sie behebt. Ziel ist es, Schwierigkeiten im Idealfall zu verhindern oder, falls das nicht möglich ist, zumindest in der Lage zu sein, eine schnelle Lösung zu finden.
– Processing-Tools: Die am häufigsten verwendeten Tools sind Spark, das eingesetzt wird, um komplexe Berechnungen innerhalb eines riesigen Datennetzwerks in mehreren Threads auszuführen und so Prozesse weiter zu beschleunigen, und Kafka. Letzteres ist ein Queuing-Service, der es ermöglicht, die Erfassung, Übertragung und Verarbeitung großer Datenmengen in kontinuierlichen Datenströmen zu zentralisieren und diese Big Data zu speichern, ohne sich um Risiken wie Datenverlust oder Einbußen bei der Systemleistung sorgen zu müssen.
Viele Menschen zögern, bei null anzufangen und den Weg ins Data Engineering einzuschlagen, weil ihnen das nötige Fachwissen fehlt. Es gibt momentan nicht viele Stellen für Junior-Data-Engineer:innen auf dem Markt. Oft wirken die Jobbeschreibungen und Anforderungen eher wie ein Anforderungsprofil für das Middle+-Level, besonders in den Augen von Einsteiger:innen, die die meisten dieser Technologien zum ersten Mal sehen.
Unser Team hat Initiativen zur beruflichen Weiterentwicklung schon immer unterstützt. Daher möchte ich drei Grundfertigkeiten hervorheben, die eine Fachkraft beherrschen muss, um für eine Rolle als Junior-Spezialist:in in Betracht gezogen zu werden.
Die ersten beiden finden sich an der Basis dieser Pyramide (Programmierung und SQL). Die dritte Fertigkeit, die ich für ebenso wichtig halte, ist eine analytische Denkweise.
Die Fähigkeit, Daten zu lesen und zu verstehen, Strukturen zu begreifen, Probleme zu erkennen und Insights zu gewinnen. Dies ist eine essenzielle Fähigkeit für Data Engineer:innen, denn wie ich bereits erwähnt habe, legen Ansprechpartner:innen aus den Fachabteilungen oft sehr vage Anforderungsdokumente (TOR) vor. Ein:e Data Engineer:in sollte in der Lage sein herauszufinden, wie eine bestimmte Aufgabe zu lösen ist, wie die angeforderten Daten gesammelt werden können und wo diese zu finden sind.
Es ist wichtig zu betonen, dass dies lediglich das absolute Minimum an Fähigkeiten ist, um in das Feld des Data Engineerings einzusteigen. Wie geht es weiter? Entwickeln Sie Ihre Kompetenzen ständig weiter, lösen Sie immer komplexere Aufgabenstellungen und lernen Sie kontinuierlich neue Technologien kennen.
