יש יותר במדעי הנתונים מאשר בפיתוח תוכנה

דעה

Oאחד הדברים המרגיזים ביותר שאני מוצא כשדיברתי עם מדעני נתונים הוא התמקדות כמו לייזר בפיתוח תוכנה. "האם אתה מקודד ב-R או ב-Python? לפנדה יש ​​תכונה חדשה! כמה שנות ניסיון יש לך עם ספריית 'x'?"

לאורך הקווים האלה, ראיתי לאחרונה ציוץ לפיו ל-Data Science יש חסמי כניסה נמוכים במיוחד. הציוץ הציע שכל מה שאתה צריך לעשות הוא לקחת כמה קורסי פיתוח תוכנה באינטרנט ואתה מוכן! זה גרם לי להתכווץ בבטן. זה בלבל את כל התחום של Data Science עם פיתוח תוכנה.

מדוע מדעני נתונים מתיימרים להיות מפתחי תוכנה? Data Science הוא הרבה יותר מזה. זה מאכזב מאוד לראות מדעני נתונים דוחפים באופן מיוחד את הצד של פיתוח התוכנה של התחום.

תמונה על ידי ג'יימס הילי on Unsplash

האם תוכנה חשובה למדעני נתונים? כמובן. האם קידוד מיומן הוא חלק גדול מהעבודה? כן. האם יש הרבה שמדעני נתונים יכולים ללמוד ממפתחי תוכנה? בהחלט. האם כישורי פיתוח תוכנה הם התכונה החשובה ביותר של מדען נתונים? לא.

כאשר אנו דוחפים פיתוח תוכנה כחלק החשוב ביותר ב-Data Science, אנו מסתכנים בהפיכת הצוותים שלנו, והתחום שלנו, למחלקת IT נוספת. זה לא כדי לבקר את עבודת ה-IT. עבדתי עם עסקים גדולים רבים, ולא יכולתי לספר לך כמה אנשים חכמים ומוכשרים להפליא פגשתי במחלקות IT. אבל הצוותים האלה ממלאים תפקידים מוגדרים בארגונים שלהם. באופן כללי, הם לא מניעים את האסטרטגיה העסקית הכוללת. עם זאת, אני רואה כל כך הרבה מדעני נתונים שנכנסים לתחום רוצים להשפיע על החלטות גדולות וחשובות בעסק ואז מתמקדים לחלוטין במקסום מיומנויות פיתוח תוכנה.

פיתוח תוכנה הוא כלי חשוב בחגורה שלך. אבל זה לא הכלי היחיד. אנחנו לא יכולים להבטיח הבטחות גבוהות לגבי תמיכה בקבלת החלטות עסקית קריטית ואז לחזור לדבר בלעדי על פיתוח תוכנה.

כתבתי על הכלים היותר יחסיים להם זקוקים מדעני נתונים כאן. עם זאת, גם בפן הטכני, יש יותר מסתם תוכנה.

אלו הן ארבעת הכישורים הקריטיים, מחוץ לפיתוח תוכנה, שחסרים להרבה מדעני נתונים.

רקע סטטיסטי בסיסי

לא תבין באמת מה הקוד שלך עושה אלא אם כן אתה יודע את הסטטיסטיקה הבסיסית מאחוריו. נתקלתי בהרבה מדעני נתונים שיכלו לקודד מודל למידה עמוקה מסובך תוך זמן קצר, אבל הם בקושי קלטו את המשמעות של התפלגות נורמלית.

מדעני נתונים מיומנים מכירים את יסודות הכלים שלהם. מייק טייסון אמר את זה טוב "לכולם יש תוכנית עד שהם מקבלים אגרוף לפנים". ובכן, כאשר מודל Data Science שלך ​​מתנהג בצורה לא נכונה ומכה אותך בפרצוף, לעתים קרובות זוהי הבנה של היסודות שיאפשרו לך לתקן את הקורס.

תמונה על ידי בוגדן יוכימצ'וק on Unsplash

עליך להיות בעל בסיס מתמטי וסטטיסטי מוצק. האם אתה מכיר את מושגי הליבה של סטטיסטיקה תדירותית? מה לגבי סטטיסטיקה בייסיאנית? אם היית צריך לכתוב פסאודוקוד עיקרי ראשון עבור מודל שאתה ממנף, היית יכול? מהם הפערים שחסרים לך ואיך משלימים אותם?

יתר על כן, הייתי טוען שלעתים קרובות הפתרונות הטובים ביותר במדעי הנתונים הם בסיסיים יותר ממה שרבים היו רוצים להודות. האלגנטיות של פתרונות פשוטים ובסיסיים היא לקח שמדעני הנתונים המצליחים ביותר הראו לי שוב ושוב.

חשיבה ביקורתית

מדעני הנתונים הטובים ביותר טובים בהבנת טיעונים, בשאלת אחרים, ובהקניית האמת של מה שמישהו מביא לשיחה. Data Science לא עוסק בהחזרת מידע שורה אחר שורה; יש בזה הרבה יותר אמנות מזה. אמנות שנובעת מהיכולת לפענח את איכות המידע שאתה מקבל.

כמה מההחמצות הגדולות ביותר שראיתי בפרויקטים של Data Science התחילו בכך שמישהו לקח מידע גרוע, או טיעון חלש, כמובן מאליו מבלי לערער עליו. אם אתה לוקח על עצמך פרויקט, זה התפקיד שלך לשאול את השאלות הנכונות ולנתח את המצב מההתחלה. להגיד שקיבלת פקודות או שיצאת לדרך עם מידע גרוע זה שוטר שלא יביא אותך רחוק.

אני מוצא שחשיבה ביקורתית היא אחד הגורמים החזקים ביותר לשאלה האם מישהו יצליח ב-Data Science. חשיבה ביקורתית נחוצה לכל תפקיד בעסק, אך היא חיונית במיוחד במדעי הנתונים. השאלות שנשאלו אינן חד משמעיות מכדי להתמודד איתם ללא בדיקה מתאימה. למה? כי בהקשר עסקי אתה עומד לקבל הרבה מידע, תיאוריות ודעות. חלק ממנו יהיה מבוסס וחלק לא כל כך. בתור מדען נתונים אתה מנסה להפוך את המידע הזה, ואת הרעיונות האלה, למודלים סטטיסטיים. אם לא תצליחו לפענח את איכות המידע שתקבלו, תלכו לאיבוד בים.

תמונה על ידי אנסטסיה טאיוגלו on Unsplash

כדי לבנות את השרירים האלה לוויכוח, מדעני נתונים צריכים ידע בסיסי בפילוסופיה. ישנם קורסים בחינם זמינים באינטרנט שיעזרו לך להגיע לשם. הטובים שבהם אינם ממוקדים במיוחד ל-Data Science. עבור מדעני נתונים רבים, הקורסים הללו ירגישו מתסכלים - התשובות הנכונות לא יהיו שחור ולבן. זו הנקודה.

תקשורת

זה מצער, אבל ראיתי דגמים באיכות גבוהה נכשלים בגלל תקשורת לקויה. מדען הנתונים לא הצליח להסביר בבירור מה המודל שלהם עושה או מה משמעות התוצאות. מאחר שאיש לא הצליח לתפוס את עבודתם, הפרויקט נחשב לכישלון. למעשה, התוצאות היו יכולות להיות בעלות תובנה עצומה. עם זאת, אם אינך יכול לשלוף את התובנות הללו בצורה ברורה, משמעותית ומתאימה ללקוחות שלך ולחברי הצוות, אז לעולם לא תהיה לך את ההשפעה הגדולה שאליה כיוונת.

הייתי מרחיק לכת ואומר שלא משנה עד כמה פרויקט Data Science מבוצע היטב, הוא לא ייחשב כהצלחה ללא תקשורת נכונה. אם אתה לא יודע איך זה נראה עבור הפרויקט שלך, אז אתה שם את כל העבודה הקשה שלך בסיכון של פיטורים מהירים.

תמונה על ידי יוצרי קמפיין on Unsplash

חלק מהתקשורת הטובה נובעת מבעל רקע סטטיסטי טוב, וחלק ממיומנויות חשיבה ביקורתיות חזקות. אבל תקשורת, כשלעצמה, היא מיומנות מפתח. זו הסיבה שלעתים קרובות אתה מוצא אנשים חכמים להפליא שנכבשו לאיזו פינה חשוכה ומבודדת במשרד. הם פשוט לא יודעים איך לתקשר והתוצאה היא שהרבה מההשפעה של העבודה שלהם אובדת.

יש מה לומר על תרגול תקשורת ספציפית. שוב, ישנם קורסים רבים באינטרנט כדי להביא אותך לרמה שאתה צריך להיות. ושוב, הקורסים הטובים ביותר אינם ספציפיים למדעי הנתונים.

תחום מומחיות

לאחרונה שמעתי דיון בין Data Scientists על ניתוח תמחור, תחום שיש לי קצת ניסיון איתו. יכולתי לראות את חוסר ההבנה של הצד העסקי של השאלה. מדעני הנתונים קפצו ישר לשאלות לגבי בחירת מודל, אבל כמעט לא היה להם מושג במגבלות הנתונים המעשיות שיעמדו בפניהם. ללא מומחיות בתחום, הם היו בדרך לכישלון מסוים.

זה שאתה יכול לגדל צמח בית, לא אומר שאתה יכול לנהל כרם. הניואנסים חשובים. זה קריטי ללמוד את הפרטים של הבעיה שאתה מתכנן לפתור.

תמונה על ידי חיימה קאסאפ on Unsplash

לפעמים אני מסתכל לאקדמיה ומבולבל מהמצב הנוכחי של מדע הנתונים. באקדמיה, אתה מתחיל עם מומחיות בתחום ואז מיישם מודלים סטטיסטיים. מודל סטטיסטי הוא משני להבנה תיאורטית. עם זאת, ב-Data Science אנו מתחילים במודלים סטטיסטיים ולעיתים קרובות מזניחים את ההבנה התיאורטית, את המומחיות בתחום, העומדת בבסיס השאלות הנשאלות.

האם אני חושב שהמודל האקדמי מושלם? רחוק מזה. ולא הייתי ממליץ שכל מדעני הנתונים יהיו מומחי תחום. אבל, מדעני נתונים אכן צריכים למצוא דרך לשלב מומחיות בתחום בעבודתם. בין אם באמצעות עבודה בנישה ספציפית בתעשייה או באמצעות מציאת שותפים עסקיים שיכולים לספק ידע רקע לפרויקט.

יש יותר במדעי הנתונים מאשר פיתוח תוכנה שפורסם מחדש מהמקור https://towardsdatascience.com/theres-more-to-data-science-than-software-development-eb8c2fd5ac0c?source=rss—-7f60cf5620c9—4 דרך https:// richtingdatascience.com/feed

<!–

->

בול זמן:

עוד מ יועצי בלוקצ'יין