Discover millions of ebooks, audiobooks, and so much more with a free trial

Only $11.99/month after trial. Cancel anytime.

Big Data, Fast Data
Big Data, Fast Data
Big Data, Fast Data
Ebook72 pages38 minutes

Big Data, Fast Data

Rating: 0 out of 5 stars

()

Read preview

About this ebook

Die Big-Data-Welt verändert sich. Mit diesem shortcut erfahren Sie, was hinter den Begriffen Fast Data und SMACK steckt, wie Daten mittels Kafka und Akka ins System kommen und auf welche Art und Weise eine Datenanalyse mit Spark und Apache Zeppelin funktioniert. Im abschließenden Kapitel erläutern die Autoren, wie Daten unter Verwendung von Spark und Cassandra gespeichert, verarbeitet, aktualisiert und mit weiteren Informationen zusammengebracht werden können.
LanguageDeutsch
Release dateAug 10, 2016
ISBN9783868027396
Big Data, Fast Data

Read more from Jochen Mader

Related to Big Data, Fast Data

Titles in the series (100)

View More

Related ebooks

Computers For You

View More

Related articles

Reviews for Big Data, Fast Data

Rating: 0 out of 5 stars
0 ratings

0 ratings0 reviews

What did you think?

Tap to rate

Review must be at least 10 words

    Book preview

    Big Data, Fast Data - Jochen Mader

    GmbH

    1 Next Generation Big Data mit SMACK

    Big Data verändert sich. Auf Konferenzen werden die bisherigen Buzzwords Hadoop, Storm, Pig und Hive immer mehr durch die Begriffe Fast Data und SMACK verdrängt. Eine derartige Veränderung in einem vergleichsweise jungen Ökosystem wirft einiges an Fragen auf: Was stimmt mit dem bisherigen Vorgehen nicht? Was unterscheidet Fast von Big Data? Und was ist eigentlich SMACK?

    Auf der I/O 2014 hat Google MapReduce offiziell in Rente geschickt: Man habe zu diesem Zeitpunkt bereits auf das neue Dataflow-Framework umgestellt und die bestehenden MapReduce-Jobs entfernt. Diese Meldung sorgte für Aufsehen, nahm man Hadoop und sein Ökosystem zu diesem Zeitpunkt doch immer noch als Innovationsträger wahr. Einige apokalyptische Blogposts und hitzige Diskussionen später kehrte wieder Ruhe in das Thema ein. Viele Unternehmen hatten gerade erst ihre Zehen in den Big-Data-Pool gesteckt und die bisherigen Technologien noch nicht annähernd ausgereizt. Jene Unternehmen, die sich tief genug in die Big-Data-Welt begeben, kommen früher oder später zu der Erkenntnis: Die Grenzen vieler Technologien sind zu eng für die gewünschten schnellen Analysezyklen. Ein neues Konzept war gefragt. Das folgende Kapitel wird den Weg von Big Data auf Hadoop zu Fast Data mit SMACK aufzeigen. Dabei dient es als Einleitung zum Thema Big Data und Fast Data.

    Am Anfang war das Lambda

    Über die Jahre hat sich die Big-Data-Welt zu einem schwer zu überblickenden Zoo miteinander verwobener Frameworks und Infrastrukturkomponenten entwickelt: HDFS, Ceph, ZooKeeper, HBase, Storm, Kafka, Pig, Hive und so weiter. Viele dieser Komponenten sind sehr spezialisiert und bilden nur eine Teilmenge der angestrebten Funktionalitäten ab. Erst ihre – nicht ganz problemlose – Kombination erlaubte die Umsetzung komplexerer Anwendungsfälle. Mit der Zeit hat sich gezeigt, dass viele der Frameworks grob in zwei Gruppen eingeteilt werden können: Da sind zum einen jene Frameworks, die sofort oder zeitnah antworten (Kasten: „Real Time"). In diese Kategorie fallen Storm, Samza, verschiedene CEP Engines, aber auch reaktive Frameworks wie Akka, Vert.x oder Quasar. Die zweite Gruppe sind Frameworks, die ihre Antwort erst nach einer etwas längeren Zeit liefern können. Hierunter fällt alles, was auf MapReduce aufbaut, z. B. Pig oder Hive. Da die beiden Gruppen immer gemeinsam aufgetreten sind, hat sich daraus ein entsprechender Architekturstil entwickelt. Dieser ist bis heute in praktisch allen Big-Data-Plattformen zu finden und hat von Nathan Marz die Bezeichnung Lambda Architecture [1] erhalten (Abbildung 1.1).

    Real Time

    Der Begriff Real Time verursacht mir regelmäßig Ausschlag. Leider verstehen viele Menschen unter Echtzeit etwas ganz anderes, als es die eigentliche Definition vorsieht. Echtzeit meint die Fähigkeit eines Systems, Ergebnisse in einer festgelegten Zeitspanne zu liefern. Bremscontroller, medizinische Geräte und viele Bestandteile von Satelliten müssen echtzeitfähig sein, um Katastrophen zu verhindern. Eine Bremse muss innerhalb einer festgelegten Zeitspanne auf das Treten des Pedals reagieren oder der Fahrer hat ein ernst zu nehmendes Problem. Es geht nicht um „die Antwort kommt so schnell wie möglich, sondern um „die Antwort kommt garantiert innerhalb dieser Zeitspanne. Viel passender erscheint mir der Begriff Near Time, um zu beschreiben, was wir in Big-Data-/Fast-Data-Anwendungen anstreben.

    Abbildung 1.1: Darstellung der Lambda-Architektur

    In dieser werden eingehende Daten (1) von zwei Layern konsumiert. Im Batch Layer (2) finden Langläuferanalysen basierend auf den abgelegten Rohdaten statt. Die Ergebnisse dieser Analysen werden dem Serving Layer (4) bereitgestellt, wo sie für Clients

    Enjoying the preview?
    Page 1 of 1