יום שבת, 21 ביולי 2012

התמזגות, התאחדות, התערבבות

ערכים חסרים (missing) אינם זרים למרבית משתמשי ה – SAS. ב – SAS ערך חסר בעמודה נומרית מיוצג ע"י נקודה ואילו ערך חסר בעמודת טקסט מיוצג ע"י מחרוזת ריקה ("") או מחרוזת המכילה רווח אחד (" "). SAS אפילו מגדילה לעשות ומאפשרת לנו להגדיר 28 סוגים של ערכים נומרים חסרים. למה זה טוב אתם שואלים? ובכן זה מאפשר לנו לציין בצורה פשוטה לא רק שהערך חסר אלא גם את הסיבה לכך. לדוגמא, אם אנחנו מנתחים נתוני סקר ניתן להבדיל בין 'המשתמש לא ענה בכלל', 'המשתמש בחר באפשרות "לא רלוונטי"' ו – "לא הצלחנו להבין מה המשתמש ענה".
הרעיון של "ערך חסר " מונח בבסיס תיאוריית בסיס הנתונים הרלציוני (טבלאי) וכל בסיס נתונים כלשהו מאפשר ייצוג העובדה שתא כלשהו בטבלה איננו מכיל כלום. לרוב בהקשר של בסיסי נתונים ערך חסר מכונה NULL.
לטיפול בערכים חסרים קיימות ב – SAS מספר פונקציות ייעודיות ואחת השימושיות והנחבאות שבהן היא COALESCE. הפונקציה הזו מקבלת פרמטר אחד או יותר ומחזירה את הראשון (משמאל לימין) שהוא לא חסר או NULL. לדוגמא:

data sample;
length n1 n2 8 c1 c2 $1;
input n1 n2 c1 $ c2 $;
infile datalines dsd delimiter=',';
datalines;
1,2,X,Y
.,3,,Z
.,.,,
;
run;

proc print data=sample;
title 'Dataset: SAMPLE';
run;

proc sql;
create table sample_sql as
select
n1,
n2,
c1,
c2,
coalesce(n1,n2,4) as n3,
coalesce(n1,n2) as n4,
coalesce(c1,c2,'T') as c3,
coalesce(c1,c2) as c4
from
sample;
quit;

proc print data=sample_sql;
title 'Dataset: SAMPLE_SQL';
run;

נקודה שצריך לשים לה לב היא שכאשר משתמשים בפונקציה זו בתוך PROC SQL היא יודעת לטפל בערכים נומרים וטקסטואלים כאחד אבל אם אנחנו רוצים להשתמש בה בתוך DATA Step אז היא יודעת לעבוד עם ערכים נומרים בלבד. עבור שדות טקסטואלים צריך לקרוא לאחותה COALESCEC – עם האות C (בשביל character) בסוף. לדוגמא:

data sample_datastep;
set sample;
length n3 n4 8 c3 c4 $1;
n3=coalesce(n1,n2,4);
n4=coalesce(n1,n2);
c3=coalescec(c1,c2,'T');
c4=coalescec(c1,c2);
run;

proc print data=sample_datastep;
title 'Dataset: SAMPLE_DATASTEP';
run;

ולסיום, למי שתהה על כותרת הפוסט הזה אזי המילה coalesce באנגלית פירושה התמזגות, התאחדות, התערבבות וממנה הגיעה המילה קואליציה.
חגי

יום שני, 16 ביולי 2012

ד"ר ג'ים גודנייט בראיון ל- InformationWeek


הנתונים הטריים של IDC מראים כי שוק האנליטיקה המשגשג צמח ב-14.1% בשנת 2011 ועל-פי התחזיות ימשיך לצמוח ב-10% נוספים מדי שנה עד לשנת 2016. בראיון נשאלת השאלה כיצד הדברים קשורים לביג דאטה ומה מוביל את הביקוש? נשיא SAS העולמית, ד"ר גים גודנייט, מתראיין על עמדת SAS ביחס לתחרות הגוברת בשוק והשפעות ה-BIG DATA  והאנליטיקה על עסקים המבקשים לעשות יותר עם הנתונים שברשותם.


הצמיחה בהתענינות באנליטיקה השתלבה עם העניין ב-BIG DATA מה הוא הממשק בין שניהם?
גודנייט: "ובכן,
BIG DATA היא נושא בו מדברים רבות כעת... אולי משום שכולם התעייפו מלדבר על הענן... כל שנתיים אתה צריך לעבור לכותרת חדשה, והכותרת לשנה הקרובה ולזו שאחריה היא BIG DATA. אנו עובדים עם BIG DATA כבר שנים רבות ו-SAS מתוכננת לטפל
ב-
BIG DATA. בניגוד למערכות עבור טרנזאקציות המיועדות לטפל במהירות במקטעי נתונים קטנים, SAS היא מערכת אנליטית המיועדת לטפל בקריאת גושי נתונים גדולים ובדר"כ מעבדת את כל המידע."

עם כל מערכות הדיווח וה"דשבורדים" בשוק, מה תאמר על ההבדל בין מערכת "דשבורד" לבין אנליטיקה?
גודנייט: "המערכות שאנו קוראים להן כלי 'בינה עיסקית' (BI) הן לא באמת כל כך אינטליגנטיות... הן מבצעות שאילתות ומדווחות. הן ניגשות לבסיס הנתונים, מקבלות תוצאות ומציגות אותן. בדרך כלל הן מאפשרות לך להסתכל אחורה... אתה יכול להביט במראה לאחור ולראות היכן היית וכמה יחידות מכרת אתמול, כמה שמלות אדומות נמכרו השנה, כמה מכוניות נמכרו בחודש שעבר, זה סוג הדברים שבינה עיסקית עושה. אנליטיקה משתמשת בכל הנתונים של העבר על מנת לבנות מודלים שיחזו את העתיד. זה ההבדל הגדול בין מה שאנו קוראים לו אנליטיקה לבין מה שעסקי ה-BI קוראים לו אנליטיקה, בין להביט לאחור ולהציג את הגרפים לבין רגרסיה לוגיסטית, חישוב ההסתברויות, רשתות נוירוניות, היכולת לזהות אם עיסקת כרטיס אשראי היא כשרה או תרמית, אנו עוזרים לבנקים לחשב את הערך של הסיכון, זה נעשה באמצעות סימולציות המביטות לעבר, חוזות את מה שיקרה בעתיד, מתמחרות את הפעילות והמוצרים ומחשבות את ערך הסיכונים. לכן, אנליטיקה היא הרבה יותר עמוקה ממה שאתה רואה אצל חלק ממשווקי ה-BI. "

מול SAS יש תחרות חזקה מצד ענקים כמו SAP או IBM, כלקוח, מדוע שארצה לקנות מ-  SASולא מאותו ספק המציע לי את כל האפליקציות ואת בסיס הנתונים שלי?
גודנייט: "משום שהם ספקי בסיס הנתונים שלך, מדוע שתקנה פתרונות מהם? אם אתה רוצה ספק אמיתי של אנליטיקה אתה בא ל-SAS. אנו תומכים בכל בסיסי הנתונים הללו. העובדה שהנתונים שלך באורקל או DB2 אינה משנה, אנו יכולים לקרוא אותה... "
אך הם אומרים שהם מציעים גם אנליטיקה...
גודנייט: "ובכן, חלקם אכן מציעים. הם מציעים טווח מוגבל של אפשרויות אנליטיות, בדרך כלל לא תמצא את העומק של הפונקציונליות שתמצא ב-SAS. אנו גם מתקדמים למיחשוב מקבילי מאסיבי תוך שימוש במחשבי גריד זולים. אנו מסוגלים לעבד משימות כבדות מאוד הרבה יותר מהר מאשר בעבר... אנו נמצאים בחזית האנליטיקה במהירות ביצוע גבוהה".


יום ראשון, 8 ביולי 2012

שרון הרעוז - Big Data, Big Analytics בועידת ה - Big Data השנתית 2012

הכניסו ליומנים: יום שני, 23 ביולי 2012, בין השעות 15:00 - 08:30
מלון כפר המכביה - ברנשטיין 7, רמת גן- לעיון בתכניה המוגדלת - כאן.
בתכנית הרצאת שרון הרעוז, מנהלת תחום פתרונות אנליטיים במיה מחשבים בהרצאה - Big Data, Big Analytics .


מדוע SAS מדוע עכשיו? מחקר חדש מציג פוטנציאל אנליטיקת BIG DATA לגידול במשרות והכנסות.

לפניכם סרטון המציג את היתרונות של שימוש אנליטי בנתוני Big Data, הסרטון מתייחס למחקר שבחן את הפוטנציאל הכלכלי של שימושים אנליטיים בנתונים המציג את האפשרות לגידול של 216 מיליארד ליש"ט לכלכלה הבריטית ועשרות אלפי משרות חדשות - לקריאת ההודעה לעיתונות כאן. ולהורדת דו"ח המחקר כאן.

יום שני, 2 ביולי 2012