Publisher's Synopsis
Dieses Buch gewährt kostenlosen Zugang zu unserer E-Learning-Plattform mit folgenden Leistungen:
✅ Kostenloses Code-Repository mit allen in diesem Buch verwendeten Codeblöcken
✅ Zugang zu kostenlosen Kapiteln aus unserer gesamten Bibliothek veröffentlichter Programmierbücher
✅ Kostenloser Premium-Kundensupport
✅ Und vieles mehr...
Erschließen Sie die Macht des Data Engineering
Daten sind überall, aber nur mit den richtigen Fähigkeiten können Sie Rohdaten in Erkenntnisse umwandeln, die zu wirkungsvollen Entscheidungen führen. Data Engineering Foundations: Core Techniques for Data Analysis with Pandas, NumPy, and Scikit-Learn ist Ihr umfassender Leitfaden zur Beherrschung der grundlegenden Fähigkeiten, die für die Bereinigung, Transformation und Vorbereitung von Daten für maschinelles Lernen und Analytik erforderlich sind. Mit Fokus auf praktische Anwendungen vermittelt Ihnen dieses Buch das Wissen und die Zuversicht, reale Datenherausforderungen zu meistern.
Was Sie lernen werden
Data Engineering Foundations ist in drei umfassende Teile gegliedert, die aufeinander aufbauen, um ein vollständiges Verständnis der Data-Engineering-Grundlagen zu vermitteln:
1. Grundlegende Techniken zur Datenvorbereitung und -manipulation
- Datenbereinigung: Lernen Sie, fehlende und inkonsistente Daten zu erkennen, zu behandeln und zu transformieren, um die Genauigkeit und Zuverlässigkeit Ihrer Datensätze sicherzustellen.
- Datenaufbereitung mit Pandas und NumPy: Beherrschen Sie grundlegende Datenmanipulationstechniken, einschließlich Zusammenführen, Filtern, Aggregieren und Umformen von Daten. Mit praktischen Übungen verstehen Sie, wie Sie komplexe Datenaufgaben mit Pandas und NumPy optimieren und vereinfachen können.
- Effizienz- und Leistungsoptimierung: Verstehen Sie, wie Sie große Datensätze effizient verarbeiten können, indem Sie die Leistung mit NumPy optimieren und bewährte Praktiken in der Datenmanipulation anwenden.
2. Feature Engineering für verbesserte Modellleistung
- Feature-Transformation: Erkunden Sie Skalierungs-, Normalisierungs- und Kodierungstechniken, die jeweils darauf ausgerichtet sind, Daten für Machine-Learning-Modelle besser nutzbar zu machen.
- Umgang mit kategorischen Variablen: Entdecken Sie Strategien zur Verwaltung und Kodierung kategorischer Daten, einschließlich One-Hot-Encoding, Target-Encoding und Frequency-Encoding.
- Fortgeschrittene Feature-Erstellung: Lernen Sie, aussagekräftige Features zu erstellen, die komplexe Beziehungen erfassen, einschließlich polynomialer Features und Interaktionsterme, die die Vorhersagekraft Ihres Modells steigern.
3. Datenbereinigung und -vorverarbeitung für reale Projekte
- Ausreißererkennung und Anomaliebehandlung: Identifizieren und behandeln Sie Ausreißer, um die Datenqualität und Modellstabilität zu verbessern.
- Dimensionsreduktion: Verstehen Sie den Wert der Principal Component Analysis (PCA) und anderer Techniken, die hochdimensionale Daten optimieren und handhabbarer machen, ohne kritische Informationen zu verlieren.
- Aufbau reproduzierbarer Workflows mit Scikit-Learn Pipelines: Automatisieren und strukturieren Sie Ihre Datentransformationsschritte mithilfe der leistungsstarken Pipeline-Funktionalität von Scikit-Learn, um Konsistenz und Reproduzierbarkeit in Daten-Workflows sicherzustellen.
Praktisches Lernen mit realen Anwendungen
Jedes Kapitel ist mit praktischen Beispielen, Übungen und Fallstudien gefüllt, um Ihr Verständnis zu festigen. Sie werden mit Beispielen aus verschiedenen Branchen arbeiten - wie Gesundheitswesen, Einzelhandel und Kundenanalytik - die Einblicke geben, wie Data-Engineering-Techniken in verschiedenen Bereichen angew