پانڈاس پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ ڈیٹا ویژولائزیشن۔ عمودی تلاش۔ عی

پانڈوں کے ساتھ ڈیٹا ویژولائزیشن

پانڈا اب تک ڈیٹا پری پروسیسنگ کے مرحلے میں ہماری مدد کر رہے ہیں۔ اگرچہ، ایک مثال میں، ہسٹوگرام بناتے وقت، ہم نے پانڈوں سے ایک اور ماڈیول بھی استعمال کیا ہے۔ plotting.

ہم نے جان بوجھ کر اب تک اس سے گریز کیا ہے، کیونکہ اسے پہلے متعارف کروانے سے اس کے جوابات سے زیادہ سوالات اٹھیں گے۔ یعنی پانڈا۔ اور Matplotlib ایک ایسی عام جوڑی تھی، کہ پانڈوں نے Matplotlib کی فعالیت کو مربوط کرنا شروع کر دیا ہے۔ یہ بھاری کوئی بھی حقیقی سازش کرنے کے لیے Matplotlib پر انحصار کرتا ہے، اور آپ کو بہت سے Matplotlib فنکشنز سورس کوڈ میں لپٹے ہوئے ملیں گے۔ متبادل طور پر، آپ پلاٹ بنانے کے لیے دوسرے بیک اینڈ استعمال کر سکتے ہیں، جیسے چالاکی سے اور اگر bokeh.

تاہم، پانڈا ہمیں چند پلاٹوں سے بھی متعارف کراتے ہیں۔ نہیں ہیں Matplotlib کے معیاری پلاٹ کی اقسام کا ایک حصہ، جیسے کے ڈی ای, اینڈریوز کروز, بوٹسٹریپ پلاٹس اور سکیٹر میٹرکس.

۔ plot() پانڈوں کی تقریب DataFrame کی طرف سے مخصوص پسدید کا استعمال کرتا ہے plotting.backend، اور اس پر منحصر ہے۔ kind argument - دی گئی لائبریری کا استعمال کرتے ہوئے ایک پلاٹ تیار کرتا ہے۔ چونکہ ان میں سے بہت سارے اوورلیپ ہوتے ہیں - پلاٹ کی اقسام کو کور کرنے کا کوئی فائدہ نہیں ہے جیسے line, bar, hist اور scatter. وہ اسی کوڈ کے ساتھ بہت زیادہ وہی پلاٹ تیار کریں گے جیسا کہ ہم اب تک Matplotlib کے ساتھ کر رہے ہیں۔

ہم صرف مختصر طور پر اس پر ایک نظر ڈالیں گے۔ plot() فنکشن چونکہ بنیادی میکانزم کو اب تک دریافت کیا گیا ہے۔ اس کے بجائے، آئیے کچھ پلاٹوں پر توجہ مرکوز کریں جو ہم کرتے ہیں۔ نہیں کر سکتا Matplotlib کے ساتھ پہلے ہی آسانی سے کرتے ہیں۔

یہ ایک بہت ہی مختصر باب ہو گا، کیونکہ پانڈوں کی سازش اور تصور کی صلاحیتیں Matplotlib کے مقابلے میں ہلکی پڑ جاتی ہیں - لیکن ان میں سے کچھ کے بارے میں جاننا اب بھی مفید ہے، اور ساتھ ہی اس سے سازش کرنے کی صلاحیت سے آگاہ ہونا DataFrameبراہ راست

۔ DataFrame.plot() فنکشن

۔ plot() فنکشن قبول کرتا ہے۔ x اور y خصوصیات، اور a kind دلیل. متبادل طور پر، سے بچنے کے لیے kind دلیل، آپ بھی کال کر سکتے ہیں DataFrame.plot.kind() اس کے بجائے، اور میں پاس x اور y کی خصوصیات.

کے لیے قبول شدہ اقدار kind دلیل ہیں: line, bar, barh (افقی بار) hist, box, kde, density (کے لئے مترادف kde), area, pie, scatter اور hexbin (ہیٹ میپ کی طرح)۔

import pandas as pd
from matplotlib import pyplot as plt df = pd.read_csv('gdp_csv.csv')
df_eu = df.loc[df['Country Name'] == 'European Union'] df_eu.plot.bar(x = 'Year', y = 'Value')
df_eu.plot.line(x = 'Year', y = 'Value')
df_eu.plot.box(x='Value') plt.show()

فراہم کرنے کے بجائے Series مثالیں جیسے ہم Matplotlib کے لیے کرتے ہیں - یہ فراہم کرنے کے لیے کافی ہے۔ کالم کے نام، اور جب سے آپ کال کر رہے ہیں۔ plot() پر تقریب DataFrame آپ تصور کر رہے ہیں، پانڈوں کے لیے ان سٹرنگ ویلیوز کو مناسب کالم کے ناموں سے نقشہ بنانا آسان ہے۔

ان کالوں میں سے ہر ایک نئی کرتا ہے۔ Figure مثال کے طور پر اور اس پر مناسب اقدار کو پلاٹ کریں:

پانڈاس پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ ڈیٹا ویژولائزیشن۔ عمودی تلاش۔ عی

ایک ہی پر متعدد محوروں کو پلاٹ کرنا Figure، آپ ایک بنا سکتے ہیں۔ Figure اور ایک یا زیادہ Axes کی طرف سے plt.subplots() اور مناسب تفویض کریں Axes کرنے کے لئے ax ہر ایک کی دلیل plot.plot_type() کال:

import pandas as pd
from matplotlib import pyplot as plt df = pd.read_csv('gdp_csv.csv')
df_eu = df.loc[df['Country Name'] == 'European Union'] fig, ax = plt.subplots(3, 1) df_eu.plot.box(x='Value', ax = ax[0])
df_eu.plot.line(x = 'Year', y = 'Value', ax = ax[1])
df_eu.plot.bar(x = 'Year', y = 'Value', rot = 45, ax = ax[2]) plt.show()

کچھ معیاری دلائل، جیسے rotation دلائل اصل میں مختلف ہیں plot() کالز مثال کے طور پر، rotation تک مختصر کیا جاتا ہے۔ rot. یہ اسے تھوڑا مشکل بناتا ہے۔ صرف سوئچ Matplotlib اور Pandas کے درمیان، جیسا کہ آپ کو دستاویزات کے صفحات میں ختم ہونے کا امکان ہے، صرف یہ جانچنا کہ کون سے دلائل لاگو کیے جا سکتے ہیں اور کون سے نہیں۔

اب، ایک نیا بنانے کے بجائے Figure or Axes مثال کے طور پر، ان میں سے ہر ایک پلاٹ مناسب جگہ پر رکھا جائے گا۔ Axes مثالوں کے ساتھ ہم نے انہیں فراہم کیا ہے:

پانڈاس پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ ڈیٹا ویژولائزیشن۔ عمودی تلاش۔ عی

عام طور پر، پانڈوں کے ساتھ پلاٹ بنانا آسان اور تیز ہے - لیکن اس کے باوجود، بار پلاٹ، لائن پلاٹ اور باکس پلاٹ بنانے کے لیے، آپ شاید Matplotlib کے ساتھ جانا چاہیں گے۔ یہ دونوں بنیادی انجن پانڈاس لامحالہ استعمال کرتا ہے، اور اس میں حسب ضرورت کے مزید اختیارات بھی ہیں، اور آپ کو دلائل کا ایک نیا سیٹ یاد نہیں رکھنا پڑے گا جسے آپ پانڈاس پلاٹ کے ساتھ استعمال کر سکتے ہیں۔

یہ کہا جا رہا ہے، کچھ پلاٹوں کے لیے، آپ ترجیح دینا چاہیں گے۔ پانڈاس، چونکہ انہیں میٹپلوٹلیب میں دستی طور پر بنانا ہوگا، اور ان میں سے کچھ کو بنانے میں اتنی پریشانی ہے کہ یہ کوشش کے قابل نہیں ہے، جیسے کے ڈی ای لائنز۔

پانڈوں سازش کرنا ماڈیول

کیا DataFrames تصور کے لحاظ سے پیش کرنا ہمارے لئے بہت نیا نہیں ہے۔ تاہم، بنیادی ماڈیول جسے وہ کہتے ہیں، pandas.plotting کرتا ہے۔ plotting ماڈیول میں کئی فنکشنز ہیں جنہیں ہم استعمال کر سکتے ہیں، جیسے autocorrelation_plot(), bootstrap_plot()، اور scatter_matrix().

ان میں سے ہر ایک کو قبول کرتا ہے۔ Series یا ایک DataFrame, وہ جس قسم کی ویژولائزیشن تیار کر رہے ہیں اس پر منحصر ہے، نیز پلاٹ کی تصریح اور اسٹائلنگ کے مقاصد کے لیے کچھ پیرامیٹرز۔

بوٹسٹریپ پلاٹ

بوٹسٹریپنگ ڈیٹاسیٹ کے تصادفی نمونے لینے (متبادل کے ساتھ) کا عمل ہے، اور درستگی کے اقدامات کا حساب لگانا جیسے تعصب, متغیر اور اعتماد کے وقفے بے ترتیب نمونوں کے لیے۔ "متبادل کے ساتھ"، عملی اصطلاحات میں، کا مطلب ہے کہ ہر تصادفی طور پر منتخب کردہ عنصر کو دوبارہ منتخب کیا جا سکتا ہے۔ متبادل کے بغیر اس کا مطلب ہے کہ ہر تصادفی طور پر منتخب کردہ عنصر کے بعد، اسے اگلے نمونے کے لیے پول سے ہٹا دیا جاتا ہے۔

A بوٹسٹریپ پلاٹ, پانڈاس بوٹسٹریپ کے ذریعہ تخلیق کردہ ایک ڈیٹاسیٹ کے اوسط، درمیانی اور درمیانے درجے کے اعدادوشمار، نمونے کی بنیاد پر size، جس کے بعد پلاٹ کو بعد میں بذریعہ دکھایا جاتا ہے۔ plt.show(). کے لیے پہلے سے طے شدہ دلائل size اور samples ہیں 50 اور 500 بالترتیب.

اس کا مطلب یہ ہے کہ کسی خصوصیت کے لیے، ہم نمونہ بناتے ہیں۔ 50 اقدار پھر، ان 50 اقدار کے لیے ایک 50 عنصر کا ذیلی نمونہ تیار کیا جاتا ہے (مصنوعی ڈیٹا) اور ان کے لیے ایک خلاصہ شماریات (مطلب/میڈین/درمیانی حد) کا حساب لگایا جاتا ہے۔ یہ عمل دہرایا جاتا ہے۔ 500 اوقات، تو آخر میں، ہمارے پاس 500 خلاصہ کے اعداد و شمار ہیں:

import pandas as pd
from matplotlib import pyplot as plt df = pd.read_csv('./datasets/gdp_csv.csv')
df_eu = df.loc[df['Country Name'] == 'European Union'] pd.plotting.bootstrap_plot(df_eu['Value']) plt.show()

پانڈاس پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ ڈیٹا ویژولائزیشن۔ عمودی تلاش۔ عی

خودکار تعلق کا پلاٹ

خودکار تعلق پلاٹس ڈیٹا کی بے ترتیبی کی جانچ کرنے کے لیے استعمال کیا جاتا ہے، ٹائم سیریز کے ڈیٹا کے لیے۔ متعدد خود کار تعلقات مختلف ٹائم اسٹیمپ کے حساب سے حساب کیا جاتا ہے، اور اگر ڈیٹا واقعی بے ترتیب ہے تو - ارتباط صفر کے قریب ہوگا۔ اگر نہیں - ارتباط صفر سے بڑا ہوگا۔

آئیے دو خودکار تعلق پلاٹ بنائیں – ایک ہمارے ساتھ قدر خصوصیت، اور ایک کے ساتھ a Series بے ترتیب اقدار سے بھرا ہوا:

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt df = pd.read_csv('gdp_csv.csv')
# Filter DataFrame for the EU
df_eu = df.loc[df['Country Name'] == 'European Union']
# Generate 50 random integers between 0 and 100, and turn into a Series
random_series = pd.Series(np.random.randint(0, 100, size=50)) # Plot Autocorrelation Plot for the *Value* feature
pd.plotting.autocorrelation_plot(df_eu['Value'])
# Plot Autocorrelation Plot for the *random_series*
pd.plotting.autocorrelation_plot(random_series) plt.show()

کے لئے خودکار تعلق پلاٹ random_series کے ارد گرد گھومنا چاہئے 0چونکہ یہ بے ترتیب ڈیٹا ہے، جبکہ پلاٹ کے لیے Value خصوصیت نہیں کرے گی:

پانڈاس پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ ڈیٹا ویژولائزیشن۔ عمودی تلاش۔ عی

یہ بات قابل غور ہے کہ خودکار تعلق ایک کی پیمائش کرتا ہے۔ فارم بے ترتیب ہونے کا، جیسا کہ غیر متعلقہ، لیکن غیر بے ترتیب ڈیٹا موجود ہے۔ اگر یہ غیر بے ترتیب ہے، لیکن اس میں کوئی اہم ارتباط نہیں ہے - خودکار تعلق پلاٹ اس بات کی نشاندہی کرے گا کہ ڈیٹا بے ترتیب ہے۔

سکیٹر میٹرکس

سکیٹر میٹرکس پلاٹ a گرڈ تمام خصوصیات کے خلاف تمام خصوصیات کے لئے سکیٹر پلاٹس کا۔ چونکہ یہ لامحالہ ہر خصوصیت کا اپنے ساتھ موازنہ کرتا ہے، اسی طرح - اخترن جہاں ایسا ہوتا ہے اسے عام طور پر a سے بدل دیا جاتا ہے۔ ہسٹگرام اسکیٹر پلاٹ کے بجائے اس خصوصیت کا۔ سکیٹر میٹرکس کے طور پر جانا جاتا ہے جوڑا پلاٹ، اور Seaborn پیشکش کرتا ہے a pairplot() صرف اس کے لیے فنکشن۔

۔ scatter_matrix() فنکشن قبول کرتا ہے a DataFrame اور اپنی تمام عددی خصوصیات کے لیے سکیٹر میٹرکس تیار کرتا ہے اور Axes مثالیں جو سکیٹر میٹرکس پر مشتمل ہیں۔ ان کے بارے میں کچھ بھی موافقت کرنے کے لیے، آپ ان کے ذریعے اعادہ کرنا چاہیں گے:

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt df = pd.read_csv('worldHappiness2019.csv') axes = pd.plotting.scatter_matrix(df, diagonal='hist') for ax in axes.flatten(): # Rotate back to 0 degrees since they're automatically rotated by 90 ax.yaxis.label.set_rotation(0) # As to not overlap with the Axes instances, set the ticklabel # alignment to 'right' ax.yaxis.label.set_ha('right') plt.show()

اس کے نتیجے میں دیگر تمام خصوصیات کے مقابلے میں تمام خصوصیات کا ایک بڑا سکیٹر میٹرکس ہوتا ہے:

پانڈاس پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ ڈیٹا ویژولائزیشن۔ عمودی تلاش۔ عی

میں بھی پاس کر سکتے ہیں۔ diagonal دلیل، جو قبول کرتا ہے 'hist' or 'kde' یہ بتانے کے لیے کہ آپ کس قسم کے ڈسٹری بیوشن پلاٹ کو اخترن پر پلاٹ کرنا چاہتے ہیں، ساتھ ہی alpha, Scatter Plots میں مارکروں کی پارباسی کی وضاحت کرنا۔

ٹائم اسٹیمپ:

سے زیادہ Stackabuse