Hadoop in Practice

Heel algemeen omschreven heeft het boek ‘Hadoop in Practice’ als hoofddoel om verschillende technieken te behandelen’, waarmee Hadoop efficiënt en effectief kan worden toegepast in de praktijk. Binnen het beschrijven van alle technieken is gebruik gemaakt van een probleem/oplossing structuur voor al deze technieken.

Na het beknopte eerste hoofdstuk over Hadoop zelf, volgen er twee hoofdstukken waarin technieken worden behandeld over datalogistiek. De hoofdstukken 4 en 5 behandelen technieken van Big Data patterns, waarbij wordt gekeken naar het joinen en sorteren van data en het comprimeren van data voor efficiënte opslag van data. Hoofdstuk 6 laat zien wat er voor mogelijkheden zijn om de performance te kunnen analyseren en fine-tunen. De hoofdstukken 7, 8 en 9 bespreken technieken om de inhoud van de data zelf te utiliseren, bijvoorbeeld als statistiek, als filter, of bij classificatie voor bijvoorbeeld suggestieve doeleinden op een website. In hoofdstuk 8 wordt R scripting kort getoond in de technieken en hoofdstuk 9 behandeld een aantal toepassingsmogelijkheden van Mahout in deze context. Het laatste deel van het boek haalt een aantal programmeertalen en tools (zoals Hive, Pig, Crunch en Cascading) aan, die het makkelijker maken met Hadoop te werken.

Review

In het voorwoord van het boek wordt al aangegeven dat er van wordt uitgegaan dat het publiek al enige kennis heeft van Hadoop zelf en dat de lezer zich al heeft gecommitteerd om Hadoop te gaan toepassen. Nu weet ik oppervlakkig wel wat af van Hadoop, maar ik was eigenlijk meer geïnteresseerd in de precieze werking ervan. Dat wordt nou net niet uitgelegd in dit boek. In het boek wordt meerdere malen verwezen naar het boek 'Hadoop in Action' (van dezelfde uitgever) om meer te vinden over Hadoop zelf. Ik heb mezelf enkele dagen de tijd gegeven op internet wat meer te vinden over Hadoop, alvorens weer in 'Hadoop in Practice' verder te lezen. Ik stond al snel vrij sceptisch tegenover dit boek, omdat ik immers (nog) niet tot het bedoelde publiek behoorde. Na echter meerdere hoofdstukken gelezen te hebben, kwam ik tot de conclusie dat ik de technieken prima kon volgen en ik zag ook echt het nut in van de technieken.

Het beschrijven van de technieken in de probleem/oplossing structuur zorgt ervoor dat het boek snel leest en zeker een handig naslagwerk kan zijn. Om tot een goede toepassing van Hadoop te kunnen komen, is de combinatie van de boeken 'Hadoop in Action' en 'Hadoop in Practice' gewoon een pre. Het lijkt immers bijna een 'kip-of-het-ei-verhaal’. Zou je nu eerst Hadoop moeten begrijpen of misschien zelfs wel eerst alle pro's en cons van de in- en outputmogelijkheden van Big Data moet kennen? Zeker in het verwerken van Big Data zal constant moeten worden gelet op de performance en de bottlenecks die daarbij komen kijken. Ook het goed kunnen beheren van de toepassingen van Hadoop vergen goede voorbereidingen en de nodige kennis van de risico’s die er zijn. Ik ben er van overtuigd dat dit boek niet alleen geschikt is voor software-ontwikkelaars, maar zeker ook voor software-architecten en niet allerminst voor systeembeheerders. Wanneer het betreffende systeem immers in gebruik is, zal er constant moeten worden gecheckt of er bottlenecks optreden en of dit bijvoorbeeld de performance van de verwerking van Big Data niet teveel benadeelt. Of er verschijnt een nieuw type data op het toneel, dat ook verwerkt moet kunnen worden. Een continu proces dat moet worden beheerst, waar ook hier de kennis is vereist van risico’s en bestaande tools, zoals deze in het boek worden benoemd.

Conclusie

'Hadoop in Practice’ is een goed en overzichtelijk boek. Voor Java-ontwikkelaars heel zinvol, indien zij gaan werken met Hadoop. Zolang je niet de ins en outs van Big Data kent, is het succesvol inzetten van Hadoop namelijk ook lastig na te streven. Het boek is hiermee vooral een handig naslagwerk… Al zou ik de titel 'Using Hadoop Effectively in Practice' dan wel logischer ‚gevonden hebben. Maar misschien was deze titel simpelweg wel te lang 😉

Referentie

Titel: 'Hadoop in Practice'

Auteur: Alex Holmes

Uitgever: Manning Publications Co.

ISBN: 9781617290237