ডাটা প্রিপ্রসেসিং-এর পর্যায়ে পান্ডারা এখন পর্যন্ত আমাদের সাহায্য করছে। যদিও, একটি উদাহরণে, হিস্টোগ্রাম তৈরি করার সময়, আমরা পান্ডাস থেকে আরেকটি মডিউলও ব্যবহার করেছি - plotting
.
আমরা উদ্দেশ্যপ্রণোদিতভাবে এখন পর্যন্ত এড়িয়ে গেছি, কারণ এটিকে আগে পরিচয় করিয়ে দিলে এটি উত্তর দেওয়ার চেয়ে আরও বেশি প্রশ্ন উত্থাপন করবে। যথা, পান্ডা এবং ম্যাটপ্লটলিব এমন একটি সাধারণ একটি সর্বব্যাপী জুটি ছিল যে পান্ডাসরা ম্যাটপ্লটলিবের কার্যকারিতা একীভূত করতে শুরু করেছে। এটা প্রচন্ডভাবে যেকোন প্রকৃত প্লটিং করার জন্য Matplotlib-এর উপর নির্ভর করে এবং আপনি সোর্স কোডে মোড়ানো অনেক Matplotlib ফাংশন পাবেন। বিকল্পভাবে, আপনি প্লট করার জন্য অন্যান্য ব্যাকএন্ড ব্যবহার করতে পারেন, যেমন চক্রান্ত করে এবং বোকে.
যাইহোক, পান্ডাস আমাদেরকে কয়েকটি প্লটের সাথে পরিচয় করিয়ে দেয় যে নয় Matplotlib এর মানক প্লট প্রকারের একটি অংশ, যেমন কেডিই, অ্যান্ড্রুজ কার্ভস, বুটস্ট্র্যাপ প্লট এবং স্ক্যাটার ম্যাট্রিক্স.
সার্জারির plot()
পান্ডাদের কাজ DataFrame
দ্বারা নির্দিষ্ট ব্যাকএন্ড ব্যবহার করে plotting.backend
, এবং এর উপর নির্ভর করে kind
যুক্তি - প্রদত্ত লাইব্রেরি ব্যবহার করে একটি প্লট তৈরি করে। যেহেতু এইগুলির অনেকগুলি ওভারল্যাপ - প্লটের ধরনগুলিকে কভার করার কোন মানে নেই যেমন line
, bar
, hist
এবং scatter
. তারা একই কোডের সাথে একই প্লট তৈরি করবে যা আমরা এখনও পর্যন্ত Matplotlib এর সাথে করছি।
আমরা শুধুমাত্র সংক্ষিপ্তভাবে কটাক্ষপাত করব plot()
ফাংশন যেহেতু অন্তর্নিহিত প্রক্রিয়াটি এ পর্যন্ত অন্বেষণ করা হয়েছে। পরিবর্তে, আসুন আমরা যে প্লট কিছু ফোকাস নারা ইতিমধ্যেই Matplotlib এর সাথে সহজে কাজ করুন।
এটি একটি খুব সংক্ষিপ্ত অধ্যায় হবে, কারণ ম্যাটপ্লটলিবের তুলনায় পান্ডাদের প্লটিং এবং ভিজ্যুয়ালাইজেশনের ক্ষমতা ফ্যাকাশে – তবে এর মধ্যে কিছু জানার পাশাপাশি এটি থেকে প্লট করার ক্ষমতা সম্পর্কে সচেতন হওয়া এখনও দরকারী। DataFrame
সরাসরি।
সার্জারির DataFrame.plot() ক্রিয়া
সার্জারির plot()
ফাংশন গ্রহণ করে x
এবং y
বৈশিষ্ট্য, এবং ক kind
যুক্তি. বিকল্পভাবে, এড়াতে kind
যুক্তি, আপনি কল করতে পারেন DataFrame.plot.kind()
পরিবর্তে, এবং পাস x
এবং y
বৈশিষ্ট্য.
জন্য গৃহীত মান kind
যুক্তি হল: line
, bar
, barh
(অনুভূমিক বার), hist
, box
, kde
, density
(এর প্রতিশব্দ kde
), area
, pie
, scatter
এবং hexbin
(একটি হিটম্যাপের অনুরূপ)।
import pandas as pd
from matplotlib import pyplot as plt df = pd.read_csv('gdp_csv.csv')
df_eu = df.loc[df['Country Name'] == 'European Union'] df_eu.plot.bar(x = 'Year', y = 'Value')
df_eu.plot.line(x = 'Year', y = 'Value')
df_eu.plot.box(x='Value') plt.show()
পরিবর্তে প্রদান Series
দৃষ্টান্ত যেমন আমরা Matplotlib-এর জন্য করি - এটি প্রদান করার জন্য যথেষ্ট কলামের নাম, এবং যেহেতু আপনি কল করছেন plot()
ফাংশন DataFrame
আপনি কল্পনা করছেন, পান্ডাদের পক্ষে উপযুক্ত কলামের নামের সাথে এই স্ট্রিং মানগুলি ম্যাপ করা সহজ।
এই কলগুলির প্রতিটি একটি নতুন করে Figure
উদাহরণ এবং এটিতে উপযুক্ত মানগুলি প্লট করুন:
একই উপর একাধিক অক্ষ প্লট করতে Figure
, আপনি একটি করতে পারেন Figure
এবং এক বা একাধিক Axes
মাধ্যমে plt.subplots()
এবং উপযুক্ত বরাদ্দ করুন Axes
থেকে ax
প্রত্যেকের যুক্তি plot.plot_type()
কল:
import pandas as pd
from matplotlib import pyplot as plt df = pd.read_csv('gdp_csv.csv')
df_eu = df.loc[df['Country Name'] == 'European Union'] fig, ax = plt.subplots(3, 1) df_eu.plot.box(x='Value', ax = ax[0])
df_eu.plot.line(x = 'Year', y = 'Value', ax = ax[1])
df_eu.plot.bar(x = 'Year', y = 'Value', rot = 45, ax = ax[2]) plt.show()
কিছু স্ট্যান্ডার্ড আর্গুমেন্ট, যেমন rotation
যুক্তি আসলে ভিন্ন plot()
কল উদাহরণ স্বরূপ, rotation
পর্যন্ত সংক্ষিপ্ত করা হয় rot
. এটি একটি বিট চতুর করে তোলে শুধু সুইচ Matplotlib এবং Pandas এর মধ্যে, যেহেতু আপনি সম্ভবত ডকুমেন্টেশন পৃষ্ঠাগুলিতে শেষ করবেন, শুধু পরীক্ষা করে দেখুন কোন আর্গুমেন্ট প্রয়োগ করা যেতে পারে এবং কোনটি নয়।
এখন, পরিবর্তে একটি নতুন তৈরি Figure
or Axes
উদাহরণস্বরূপ, এই প্লটগুলির প্রতিটি যথাযথভাবে স্থাপন করা হবে Axes
দৃষ্টান্তগুলির সাথে আমরা তাদের সরবরাহ করেছি:
সাধারণভাবে, পান্ডাদের সাথে প্লট করা সুবিধাজনক এবং দ্রুত – কিন্তু তবুও, বার প্লট, লাইন প্লট এবং বক্স প্লট করার জন্য, আপনি সম্ভবত ম্যাটপ্লটলিবের সাথে যেতে চাইবেন। এটি উভয়ই অন্তর্নিহিত ইঞ্জিন পান্ডাস অনিবার্যভাবে ব্যবহার করে এবং এতে আরও কাস্টমাইজেশন বিকল্প রয়েছে এবং আপনাকে পান্ডাস প্লটের সাথে ব্যবহার করতে পারেন এমন একটি নতুন আর্গুমেন্ট মনে রাখতে হবে না।
বলা হচ্ছে, কিছু প্লটের জন্য, আপনি পছন্দ করতে চাইতে পারেন পান্ডাস, যেহেতু সেগুলিকে ম্যাটপ্লটলিবে ম্যানুয়ালি তৈরি করতে হবে, এবং তাদের মধ্যে কিছু এমন একটি ঝামেলা তৈরি করে যে এটি প্রচেষ্টার মূল্য নয়, যেমন KDE লাইন।
পান্ডা' চক্রান্ত মডিউল
কি DataFrame
ভিজ্যুয়ালাইজেশন পরিপ্রেক্ষিতে অফার আছে আমাদের জন্য খুব নতুন নয়. যাইহোক, অন্তর্নিহিত মডিউল তারা কল করে, pandas.plotting
আছে। দ্য plotting
মডিউলের বেশ কিছু ফাংশন আছে যা আমরা ব্যবহার করতে পারি, যেমন autocorrelation_plot()
, bootstrap_plot()
, এবং scatter_matrix()
.
এগুলির প্রত্যেকটি হয় একটি গ্রহণ করে Series
বা একটি DataFrame
, তারা যে ধরনের ভিজ্যুয়ালাইজেশন তৈরি করছে তার উপর নির্ভর করে, সেইসাথে স্পেসিফিকেশন এবং স্টাইলিং উদ্দেশ্যে প্লট করার জন্য নির্দিষ্ট পরামিতি।
বুটস্ট্র্যাপ প্লট
বুটস্ট্র্যাপিং এলোমেলোভাবে নমুনা (প্রতিস্থাপন সহ) একটি ডেটাসেট, এবং নির্ভুলতার পরিমাপ গণনা করার প্রক্রিয়া যেমন পক্ষপাত, অনৈক্য এবং আস্থা অন্তর এলোমেলো নমুনার জন্য। "প্রতিস্থাপনের সাথে", ব্যবহারিক পরিভাষায়, এর অর্থ হল প্রতিটি এলোমেলোভাবে নির্বাচিত উপাদান আবার নির্বাচন করা যেতে পারে। প্রতিস্থাপন ছাড়া মানে প্রতিটি এলোমেলোভাবে নির্বাচিত উপাদানের পরে, এটি পরবর্তী নমুনার জন্য পুল থেকে সরানো হয়।
A বুটস্ট্র্যাপ প্লট, পান্ডাস দ্বারা তৈরি নমুনার উপর ভিত্তি করে একটি ডেটাসেটের গড়, মধ্য এবং মধ্য-পরিসরের পরিসংখ্যান বুটস্ট্র্যাপ করে size
, যার পরে প্লটটি পরবর্তীতে এর মাধ্যমে দেখানো হয় plt.show()
. জন্য ডিফল্ট আর্গুমেন্ট size
এবং samples
হয় 50
এবং 500
যথাক্রমে.
এর মানে হল যে একটি বৈশিষ্ট্যের জন্য, আমরা নমুনা করি 50
মান তারপরে, সেই 50টি মানের জন্য একটি 50-উপাদানের উপ-নমুনা তৈরি করা হয় (সিন্থেটিক ডেটা) এবং তাদের জন্য একটি সংক্ষিপ্ত পরিসংখ্যান (গড়/মধ্য/মধ্য-পরিসীমা) গণনা করা হয়। এই প্রক্রিয়া পুনরাবৃত্তি হয় 500
বার, তাই শেষ পর্যন্ত, আমরা 500টি সংক্ষিপ্ত পরিসংখ্যান পেয়েছি:
import pandas as pd
from matplotlib import pyplot as plt df = pd.read_csv('./datasets/gdp_csv.csv')
df_eu = df.loc[df['Country Name'] == 'European Union'] pd.plotting.bootstrap_plot(df_eu['Value']) plt.show()
স্বয়ংক্রিয় সম্পর্ক প্লট
স্বয়ংক্রিয় সম্পর্ক প্লট সময়-সিরিজ ডেটার জন্য ডেটা এলোমেলোতা পরীক্ষা করতে ব্যবহৃত হয়। একাধিক স্বয়ংক্রিয় সম্পর্ক বিভিন্ন টাইমস্ট্যাম্পের জন্য গণনা করা হয়, এবং যদি ডেটা সত্যিই এলোমেলো হয় - পারস্পরিক সম্পর্ক শূন্যের কাছাকাছি হবে। যদি না হয় - পারস্পরিক সম্পর্ক শূন্যের চেয়ে বড় হবে।
আসুন দুটি অটোকোরিলেশন প্লট প্লট করি – একটি আমাদের সাথে মূল্য বৈশিষ্ট্য, এবং একটি সঙ্গে একটি Series
এলোমেলো মান দিয়ে ভরা:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt df = pd.read_csv('gdp_csv.csv')
# Filter DataFrame for the EU
df_eu = df.loc[df['Country Name'] == 'European Union']
# Generate 50 random integers between 0 and 100, and turn into a Series
random_series = pd.Series(np.random.randint(0, 100, size=50)) # Plot Autocorrelation Plot for the *Value* feature
pd.plotting.autocorrelation_plot(df_eu['Value'])
# Plot Autocorrelation Plot for the *random_series*
pd.plotting.autocorrelation_plot(random_series) plt.show()
জন্য স্বতঃসম্পর্ক প্লট random_series
চারপাশে ঘুরতে হবে 0
, যেহেতু এটি র্যান্ডম ডেটা, যখন এর জন্য প্লট Value
বৈশিষ্ট্য হবে না:
এটা লক্ষনীয় যে স্বয়ংক্রিয় সম্পর্ক একটি পরিমাপ করে ফর্ম এলোমেলোতার, অসম্পর্কিত হিসাবে, কিন্তু অ র্যান্ডম ডেটা বিদ্যমান। যদি এটি অ-র্যান্ডম হয়, কিন্তু কোন উল্লেখযোগ্য সম্পর্ক না থাকে - অটোকোরিলেশন প্লট নির্দেশ করবে যে ডেটা এলোমেলো।
স্ক্যাটার ম্যাট্রিক্স
স্ক্যাটার ম্যাট্রিক্স চক্রান্ত a গ্রিড সমস্ত বৈশিষ্ট্যের বিপরীতে সমস্ত বৈশিষ্ট্যের জন্য স্ক্যাটার প্লটগুলির। যেহেতু এটি অনিবার্যভাবে প্রতিটি বৈশিষ্ট্যকে নিজের সাথে তুলনা করে, পাশাপাশি - কর্ণ যেখানে এটি ঘটে সাধারণত একটি দিয়ে প্রতিস্থাপিত হয় বারলেখ একটি স্ক্যাটার প্লটের পরিবর্তে সেই বৈশিষ্ট্যের। স্ক্যাটার ম্যাট্রিক্স হিসাবে পরিচিত হয় পেয়ার প্লট, এবং Seaborn একটি প্রস্তাব pairplot()
শুধু এই জন্য ফাংশন.
সার্জারির scatter_matrix()
ফাংশন একটি গ্রহণ করে DataFrame
এবং এর সমস্ত সংখ্যাসূচক বৈশিষ্ট্যগুলির জন্য একটি স্ক্যাটার ম্যাট্রিক্স তৈরি করে এবং এর একটি 2D অ্যারে প্রদান করে Axes
স্ক্যাটার ম্যাট্রিক্স গঠিত উদাহরণ. তাদের সম্পর্কে কিছু পরিবর্তন করতে, আপনি তাদের মাধ্যমে পুনরাবৃত্তি করতে চাইবেন:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt df = pd.read_csv('worldHappiness2019.csv') axes = pd.plotting.scatter_matrix(df, diagonal='hist') for ax in axes.flatten(): # Rotate back to 0 degrees since they're automatically rotated by 90 ax.yaxis.label.set_rotation(0) # As to not overlap with the Axes instances, set the ticklabel # alignment to 'right' ax.yaxis.label.set_ha('right') plt.show()
এর ফলে অন্যান্য সমস্ত বৈশিষ্ট্যের বিপরীতে সমস্ত বৈশিষ্ট্যের একটি বরং বড় স্ক্যাটার ম্যাট্রিক্স হয়:
এছাড়াও আপনি পাস করতে পারেন diagonal
যুক্তি, যা গ্রহণ করে 'hist'
or 'kde'
আপনি তির্যক উপর প্লট করতে চান কি ধরনের বিতরণ প্লট নির্দিষ্ট করতে, পাশাপাশি alpha
, স্ক্যাটার প্লটগুলিতে মার্কারগুলির স্বচ্ছতা নির্দিষ্ট করে৷
- 100
- সম্পর্কে
- সব
- ইতিমধ্যে
- অন্য
- আর্গুমেন্ট
- কাছাকাছি
- হচ্ছে
- বিট
- বক্স
- কল
- ক্ষমতা
- অধ্যায়
- পরীক্ষণ
- কোড
- স্তম্ভ
- সাধারণ
- দেশ
- দম্পতি
- তৈরি করা হচ্ছে
- উপাত্ত
- বিভিন্ন
- বিতরণ
- ইউরোপিয়ান
- ইওরোপীয় ইউনিয়ন
- উদাহরণ
- বৈশিষ্ট্য
- বৈশিষ্ট্য
- কেন্দ্রবিন্দু
- ক্রিয়া
- কার্যকারিতা
- সাধারণ
- উত্পাদন করা
- HTTPS দ্বারা
- IT
- পরিচিত
- বড়
- বৃহত্তর
- লাইব্রেরি
- লাইন
- মানচিত্র
- জরায়ু
- সেতু
- যথা
- নাম
- কাছাকাছি
- অর্পণ
- অফার
- অপশন সমূহ
- অন্যান্য
- ফেজ
- পুকুর
- প্রক্রিয়া
- উৎপাদন করা
- প্রদান
- উদ্দেশ্য
- বৃদ্ধি
- RE
- প্রতিস্থাপিত
- ফলাফল
- আয়
- বলেছেন
- নির্বাচিত
- সেট
- সংক্ষিপ্ত
- গুরুত্বপূর্ণ
- অনুরূপ
- So
- সোর্স কোড
- সবিস্তার বিবরণী
- শুরু
- পরিসংখ্যান
- উৎস
- দ্বারা
- মিলন
- us
- মূল্য
- কল্পনা
- কি
- উইকিপিডিয়া
- মূল্য
- X
- বছর
- শূন্য