אמזון EMR - Elastic MapReduce הוא שירות (WEB SERVICE) המאפשר לעסקים, חוקרים, אנליסטים, ומפתחים לעבד כמויות של נתונים עצומות בקלות ובצורה חסכוניות.
איך EMR עובד?
1. טעינה (UPLOAD) – טעינה של הנתונים לתוך BUCKET של S3
2. יצירה (CREATE) – להגדיר ולייצר את ה CLUSTER תוך ציון של הנתונים הנכנסים והיוצאים, גודל הקלסטר, הגדרות אבטחת מידע ועוד.
3. ניטור (MONITOR) – ניטור של תפקוד, "בריאות" והתקדמות הקלסטר. אחזור של התפוקה ב S3.
יש להיכנס לפורטל ולבחור תחת ANALYTICS
לאחר מכן יש לבחור יצירה של CLUSTER
ישנן 2 אופציות:
1.הגדרות מהירות
2.הגדרות מתקדמות
אנו נתמקד במדריך זה ביצירה המהירה (לפי הביקוש ניצור מדריך להגדרות המתקדמות)
1.יש צורך לבחור שם
2.כשמסמנים את ה CHECKBOX של LOGGING אזי קבצי ה LOG של ה CLUSTER מועתקים ישירות ל S3 ואז יש צורך לבחור את הספריה המתאימה
3.ב LAUNCH MODE ישנם 2 אופציות :
•CLUSTER – EMR יוצר קלסטר עם סט של ישומים(אפליקציות) שצוינו
•Step Execution – במצב זה EMR יוצר קלסטר, מבצע מספר צעדים, וסוגר את הקלסטר בסיום.
בשלב ראשון יש לבחור בין אמזון ל MapR
בשלב שני יש לבחור את הגירסה אשר מכילה סט של ישומים (אפליקציות) שניתן להתקין על הקלסטר שאנו בונים.
אופצית MapR - קיימת אופציה אחת שכוללת את "כל האפלקיציות" - Hadoop 2.4.0, Hive 0.13.1, and Pig 0.12.0
אופצית אמזון - קיימות מספר אופציות
1. Core Hadoop: Hadoop 2.7.3 with Ganglia 3.7.2, Hive 2.1.1, Hue 3.11.0, Mahout 0.12.2, Pig 0.16.0, and Tez 0.8.4
2. HBase: HBase 1.2.3 with Ganglia 3.7.2, Hadoop 2.7.3, Hive 2.1.1, Hue 3.11.0, Phoenix 4.7.0, and ZooKeeper 3.4.9
3. Presto: Presto 0.152.3 with Hadoop 2.7.3 HDFS and Hive 2.1.1 Metastore
4. Spark: Spark 2.1.0 on Hadoop 2.7.3 YARN with Ganglia 3.7.2 and Zeppelin 0.6.2
כעת יש לבחור את החומרה הרצויה ומספר ה Instances (כאשר 1 הוא תמיד המאסטר והשאר הם כמות הנודים), בתמונה אנו רואים שישנם 3 מופעים (instances), 1 מהם הוא המאסטר ובנוסף יש 2 חברים(נודים) נוספים.
השלב האחרון עוסק באבטחת מידע וגישה
שימוש ב EC2 key pair – כלומר האם נשתמש EC2 key pair קיים או חדש כדי להתחבר עם SSH לתוך הצומת הראשית של קלסטר הEMR (יש אופציה לבחור בלי EC2 key pair)
סוגי הרשאות :
DEFAULT –
משתמש בהרשאות IAM שהם ברירת מחדל .
אם הROLEים לא קיימום הם יווצרו מיידית
• EMR role -- EMR_DefaultRole
• EC2 instance profile -- EMR_EC2_DefaultRole
CUSTOM – בחירת הרשאות מיוחדות (CUSTOM) כדי לתפור עבור הקלסטר שלך.
• EMR ROLE – מאפשר ל EMR לפנות לשירותי AWS אחרים כמו ec2 בשמך
• EC2 instance profile- מספק גישה לשירותי AWS אחרים כגון S3, DynamoDB מתוך EC2 המופעלים על ידי EMR.
אמזון EMR - Elastic MapReduce הוא שירות (WEB SERVICE) המאפשר לעסקים, חוקרים, אנליסטים, ומפתחים לעבד כמויות של נתונים עצומות בקלות ובצורה חסכוניות.
איך EMR עובד?
1. טעינה (UPLOAD) – טעינה של הנתונים לתוך BUCKET של S3
2. יצירה (CREATE) – להגדיר ולייצר את ה CLUSTER תוך ציון של הנתונים הנכנסים והיוצאים, גודל הקלסטר, הגדרות אבטחת מידע ועוד.
3. ניטור (MONITOR) – ניטור של תפקוד, "בריאות" והתקדמות הקלסטר. אחזור של התפוקה ב S3.
יש להיכנס לפורטל ולבחור תחת ANALYTICS
לאחר מכן יש לבחור יצירה של CLUSTER
ישנן 2 אופציות:
1.הגדרות מהירות
2.הגדרות מתקדמות
אנו נתמקד במדריך זה ביצירה המהירה (לפי הביקוש ניצור מדריך להגדרות המתקדמות)
1.יש צורך לבחור שם
2.כשמסמנים את ה CHECKBOX של LOGGING אזי קבצי ה LOG של ה CLUSTER מועתקים ישירות ל S3 ואז יש צורך לבחור את הספריה המתאימה
3.ב LAUNCH MODE ישנם 2 אופציות :
•CLUSTER – EMR יוצר קלסטר עם סט של ישומים(אפליקציות) שצוינו
•Step Execution – במצב זה EMR יוצר קלסטר, מבצע מספר צעדים, וסוגר את הקלסטר בסיום.
בשלב ראשון יש לבחור בין אמזון ל MapR
בשלב שני יש לבחור את הגירסה אשר מכילה סט של ישומים (אפליקציות) שניתן להתקין על הקלסטר שאנו בונים.
אופצית MapR - קיימת אופציה אחת שכוללת את "כל האפלקיציות" - Hadoop 2.4.0, Hive 0.13.1, and Pig 0.12.0
אופצית אמזון - קיימות מספר אופציות
1. Core Hadoop: Hadoop 2.7.3 with Ganglia 3.7.2, Hive 2.1.1, Hue 3.11.0, Mahout 0.12.2, Pig 0.16.0, and Tez 0.8.4
2. HBase: HBase 1.2.3 with Ganglia 3.7.2, Hadoop 2.7.3, Hive 2.1.1, Hue 3.11.0, Phoenix 4.7.0, and ZooKeeper 3.4.9
3. Presto: Presto 0.152.3 with Hadoop 2.7.3 HDFS and Hive 2.1.1 Metastore
4. Spark: Spark 2.1.0 on Hadoop 2.7.3 YARN with Ganglia 3.7.2 and Zeppelin 0.6.2
כעת יש לבחור את החומרה הרצויה ומספר ה Instances (כאשר 1 הוא תמיד המאסטר והשאר הם כמות הנודים), בתמונה אנו רואים שישנם 3 מופעים (instances), 1 מהם הוא המאסטר ובנוסף יש 2 חברים(נודים) נוספים.
השלב האחרון עוסק באבטחת מידע וגישה
שימוש ב EC2 key pair – כלומר האם נשתמש EC2 key pair קיים או חדש כדי להתחבר עם SSH לתוך הצומת הראשית של קלסטר הEMR (יש אופציה לבחור בלי EC2 key pair)
סוגי הרשאות :
DEFAULT –
משתמש בהרשאות IAM שהם ברירת מחדל .
אם הROLEים לא קיימום הם יווצרו מיידית
• EMR role -- EMR_DefaultRole
• EC2 instance profile -- EMR_EC2_DefaultRole
CUSTOM – בחירת הרשאות מיוחדות (CUSTOM) כדי לתפור עבור הקלסטר שלך.
• EMR ROLE – מאפשר ל EMR לפנות לשירותי AWS אחרים כמו ec2 בשמך
• EC2 instance profile- מספק גישה לשירותי AWS אחרים כגון S3, DynamoDB מתוך EC2 המופעלים על ידי EMR.
הודעתך לא התקבלה - נסה שוב מאוחר יותר
Oops! Something went wrong while submitting the form