परिचय
एक डेटा विश्लेषक के रूप में, सटीक और भरोसेमंद अंतर्दृष्टि प्राप्त करने के लिए डेटा अखंडता सुनिश्चित करना हमारी ज़िम्मेदारी है। डेटा सफ़ाई इस प्रक्रिया में एक महत्वपूर्ण भूमिका निभाती है, और डुप्लिकेट मान डेटा विश्लेषकों के सामने आने वाली सबसे आम समस्याओं में से एक हैं। डुप्लिकेट मान संभावित रूप से अंतर्दृष्टि को गलत तरीके से प्रस्तुत कर सकते हैं। इसलिए, डुप्लिकेट मानों से निपटने के लिए कुशल तरीकों का होना महत्वपूर्ण है। इस लेख में, हम सीखेंगे कि डुप्लिकेट मानों को कैसे पहचानें और प्रबंधित करें, साथ ही डुप्लिकेट को प्रबंधित करने के सर्वोत्तम अभ्यास भी सीखेंगे।
डुप्लिकेट मानों की पहचान करना
डुप्लिकेट मानों को संभालने में पहला कदम उनकी पहचान करना है। डुप्लिकेट मानों की पहचान करना डेटा सफ़ाई में एक महत्वपूर्ण कदम है। पांडा डेटाफ़्रेम के भीतर डुप्लिकेट मानों की पहचान करने के लिए कई तरीके प्रदान करता है। इस अनुभाग में, हम चर्चा करेंगे duplicated()
समारोह और value_counts()
डुप्लिकेट मानों की पहचान करने के लिए फ़ंक्शन।
उसिन डुप्लीकेट ()
RSI duplicated()
फ़ंक्शन एक पांडा लाइब्रेरी फ़ंक्शन है जो डेटाफ़्रेम में डुप्लिकेट पंक्तियों की जांच करता है। का आउटपुट duplicated()
फ़ंक्शन इनपुट डेटाफ़्रेम के समान लंबाई वाली एक बूलियन श्रृंखला है, जहां प्रत्येक तत्व इंगित करता है कि संबंधित पंक्ति डुप्लिकेट है या नहीं।
आइए इसके एक सरल उदाहरण पर विचार करें duplicated()
समारोह:
import pandas as pd data = { 'StudentName': ['Mark', 'Ali', 'Bob', 'John', 'Johny', 'Mark'], 'Score': [45, 65, 76, 44, 39, 45]
}
df = pd.DataFrame(data) df_duplicates = df.duplicated()
print(df_duplicates)
आउटपुट:
0 False
1 False
2 False
3 False
4 False
5 True
dtype: bool
उपरोक्त उदाहरण में, हमने एक डेटाफ़्रेम बनाया जिसमें छात्रों के नाम और उनके कुल अंक शामिल हैं। हमने आह्वान किया duplicated()
डेटाफ़्रेम पर, जिसने एक बूलियन श्रृंखला उत्पन्न की False
अद्वितीय मूल्यों का प्रतिनिधित्व करना और True
डुप्लिकेट मानों का प्रतिनिधित्व करना।
इस उदाहरण में, मान की पहली घटना को अद्वितीय माना जाता है। हालाँकि, क्या होगा यदि हम चाहते हैं कि अंतिम मान को अद्वितीय माना जाए, और हम डुप्लिकेट मानों की पहचान करते समय सभी कॉलमों पर विचार नहीं करना चाहते हैं? यहां, हम इसे संशोधित कर सकते हैं duplicated()
पैरामीटर मानों को बदलकर कार्य करें।
पैरामीटर: सबसेट और रखें
RSI duplicated()
फ़ंक्शन अपने वैकल्पिक मापदंडों के माध्यम से अनुकूलन विकल्प प्रदान करता है। इसके दो पैरामीटर हैं, जैसा कि नीचे बताया गया है:
-
subset
: यह पैरामीटर हमें डुप्लिकेट डिटेक्शन के दौरान विचार करने के लिए कॉलम के सबसेट को निर्दिष्ट करने में सक्षम बनाता है। उपसमुच्चय पर सेट हैNone
डिफ़ॉल्ट रूप से, जिसका अर्थ है कि डेटाफ़्रेम में प्रत्येक कॉलम पर विचार किया जाता है। कॉलम नाम निर्दिष्ट करने के लिए, हम सबसेट को कॉलम नामों की सूची प्रदान कर सकते हैं।यहां सबसेट पैरामीटर का उपयोग करने का एक उदाहरण दिया गया है:
df_duplicates = df.duplicated(subset=['StudentName'])
आउटपुट:
0 False 1 False 2 False 3 False 4 False 5 True dtype: bool
-
keep
: यह विकल्प हमें यह चुनने की अनुमति देता है कि डुप्लिकेट पंक्ति के किस उदाहरण को डुप्लिकेट के रूप में चिह्नित किया जाना चाहिए। रखने के संभावित मान हैं:"first"
: यह इसके लिए डिफ़ॉल्ट मान हैkeep
विकल्प। यह पहली घटना को छोड़कर सभी डुप्लिकेट की पहचान करता है, पहले मान को अद्वितीय मानते हुए।"last"
: यह विकल्प अंतिम घटना को एक अद्वितीय मान के रूप में पहचानता है। अन्य सभी घटनाओं को डुप्लिकेट माना जाएगा।False
: यह विकल्प प्रत्येक इंस्टेंस को डुप्लिकेट मान के रूप में लेबल करता है।
यहाँ का उपयोग करने का एक उदाहरण दिया गया है keep
पैरामीटर:
df_duplicates = df.duplicated(keep='last')
print(df_duplicates)
आउटपुट:
0 True
1 False
2 False
3 False
4 False
5 False
dtype: bool
डुप्लिकेट मानों को विज़ुअलाइज़ करें
RSI value_counts()
फ़ंक्शन डुप्लिकेट की पहचान करने का दूसरा तरीका है। value_counts()
फ़ंक्शन किसी कॉलम में प्रत्येक अद्वितीय मान के प्रकट होने की संख्या की गणना करता है। लगाने से value_counts()
एक विशिष्ट कॉलम में फ़ंक्शन, प्रत्येक मान की आवृत्ति की कल्पना की जा सकती है।
यहाँ का उपयोग करने का एक उदाहरण दिया गया है value_counts()
समारोह:
import matplotlib.pyplot as plt
import pandas as pd data = { 'StudentName': ['Mark', 'Ali', 'Bob', 'John', 'Johny', 'Mark'], 'Score': [45, 65, 76, 44, 39, 45]
}
df = pd.DataFrame(data) name_counts = df['StudentName'].value_counts()
print(name_counts)
आउटपुट:
Mark 2
Ali 1
Bob 1
John 1
Johny 1
Name: StudentName, dtype: int64
आइए अब एक बार ग्राफ़ के साथ डुप्लिकेट मानों की कल्पना करें। हम बार चार्ट का उपयोग करके डुप्लिकेट मानों की आवृत्ति को प्रभावी ढंग से देख सकते हैं।
name_counts.plot(kind='bar')
plt.xlabel('Student Name')
plt.ylabel('Frequency')
plt.title('Duplicate Name Frequencies')
plt.show()
डुप्लिकेट मानों को संभालना
डुप्लिकेट मानों की पहचान करने के बाद, उन्हें संबोधित करने का समय आ गया है। इस अनुभाग में, हम पांडा का उपयोग करके डुप्लिकेट मानों को हटाने और अद्यतन करने के लिए विभिन्न रणनीतियों का पता लगाएंगे drop_duplicates()
और replace()
कार्य. इसके अतिरिक्त, हम का उपयोग करके डुप्लिकेट मानों के साथ डेटा एकत्र करने पर चर्चा करेंगे groupby()
समारोह.
डुप्लिकेट मान हटाना
डुप्लिकेट को संभालने का सबसे आम तरीका उन्हें डेटाफ़्रेम से हटाना है। डेटाफ़्रेम से डुप्लिकेट रिकॉर्ड को खत्म करने के लिए, हम इसका उपयोग करेंगे drop_duplicates()
समारोह। डिफ़ॉल्ट रूप से, यह फ़ंक्शन प्रत्येक डुप्लिकेट पंक्ति का पहला उदाहरण रखता है और बाद की घटनाओं को हटा देता है। यह सभी कॉलम मानों के आधार पर डुप्लिकेट मानों की पहचान करता है; हालाँकि, हम सबसेट मापदंडों का उपयोग करके विचार किए जाने वाले कॉलम को निर्दिष्ट कर सकते हैं।
का सिंटैक्स drop_duplicates()
पैरामीटर में डिफ़ॉल्ट मान इस प्रकार है:
dataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
RSI subset
और keep
पैरामीटर्स की व्याख्या भी वैसी ही है जैसी कि इसमें है duplicates()
. यदि हम तीसरा पैरामीटर सेट करते हैं inplace
सेवा मेरे True
, सभी संशोधन सीधे मूल डेटाफ़्रेम पर किए जाएंगे, जिसके परिणामस्वरूप विधि वापस आ जाएगी None
और मूल डेटाफ़्रेम को संशोधित किया जा रहा है। डिफ़ॉल्ट रूप से, inplace
is False
.
यहाँ का एक उदाहरण है drop_duplicates()
समारोह:
df.drop_duplicates(keep='last', inplace=True)
print(df)
आउटपुट:
StudentName Score
1 Ali 65
2 Bob 76
3 John 44
4 Johny 39
5 Mark 45
सर्वोत्तम प्रथाओं, उद्योग-स्वीकृत मानकों और शामिल चीट शीट के साथ, Git सीखने के लिए व्यावहारिक मार्गदर्शिका देखें। Googling Git कमांड को रोकें और वास्तव में सीखना यह!
उपरोक्त उदाहरण में, पहली प्रविष्टि हटा दी गई थी क्योंकि वह डुप्लिकेट थी।
डुप्लिकेट मान बदलें या अपडेट करें
डुप्लिकेट को संभालने की दूसरी विधि में पांडा का उपयोग करके मूल्य को बदलना शामिल है replace()
समारोह। replace()
फ़ंक्शन हमें डेटाफ़्रेम में विशिष्ट मानों या पैटर्न को नए मानों से बदलने की अनुमति देता है। डिफ़ॉल्ट रूप से, यह मान के सभी उदाहरणों को प्रतिस्थापित कर देता है। हालाँकि, सीमा पैरामीटर का उपयोग करके, हम प्रतिस्थापनों की संख्या को सीमित कर सकते हैं।
यहाँ उपयोग करने का एक उदाहरण है replace()
समारोह:
df['StudentName'].replace('Mark', 'Max', limit=1, inplace=True)
print(df)
आउटपुट:
StudentName Score
0 Max 45
1 Ali 65
2 Bob 76
3 John 44
4 Johny 39
5 Mark 45
यहां, पहले मान को बदलने के लिए सीमा का उपयोग किया गया था। यदि हम अंतिम घटना को प्रतिस्थापित करना चाहें तो क्या होगा? इस मामले में, हम गठबंधन करेंगे duplicated()
और replace()
कार्य. का उपयोग करते हुए duplicated()
, हम प्रत्येक डुप्लिकेट मान के अंतिम उदाहरण को इंगित करेंगे, का उपयोग करके पंक्ति संख्या प्राप्त करेंगे loc
फ़ंक्शन, और फिर इसका उपयोग करके इसे बदलें replace()
समारोह। यहां उपयोग का एक उदाहरण दिया गया है duplicated()
और replace()
एक साथ कार्य करता है.
last_occurrences = df.duplicated(subset='StudentName', keep='first') last_occurrences_rows = df[last_occurrences] df.loc[last_occurrences, 'StudentName'] = df.loc[last_occurrences, 'StudentName'].replace('Mark', 'Max') print(df)
आउटपुट:
StudentName Score
0 Mark 45
1 Ali 65
2 Bob 76
3 John 44
4 Johny 39
5 Max 45
जटिल प्रतिस्थापनों के लिए कस्टम फ़ंक्शन
कुछ मामलों में, डुप्लिकेट मानों को संभालने के लिए उन्हें हटाने या अपडेट करने की तुलना में अधिक जटिल प्रतिस्थापन की आवश्यकता होती है। कस्टम फ़ंक्शंस हमें हमारी आवश्यकताओं के अनुरूप विशिष्ट प्रतिस्थापन नियम बनाने में सक्षम बनाते हैं। पांडा का उपयोग करके apply()
फ़ंक्शन, हम अपने डेटा पर कस्टम फ़ंक्शन लागू कर सकते हैं।
उदाहरण के लिए, मान लें कि "छात्रनाम" कॉलम में डुप्लिकेट नाम हैं। हमारा लक्ष्य एक कस्टम फ़ंक्शन का उपयोग करके डुप्लिकेट को प्रतिस्थापित करना है जो डुप्लिकेट मानों के अंत में एक संख्या जोड़ता है, जिससे उन्हें अद्वितीय बना दिया जाता है।
def add_number(name, counts): if name in counts: counts[name] += 1 return f'{name}_{counts[name]}' else: counts[name] = 0 return name name_counts = {} df['is_duplicate'] = df.duplicated('StudentName', keep=False)
df['StudentName'] = df.apply(lambda x: add_number(x['StudentName'], name_counts) if x['is_duplicate'] else x['StudentName'], axis=1)
df.drop('is_duplicate', axis=1, inplace=True)
print(df)
आउटपुट:
StudentName Score
0 Mark 45
1 Ali 65
2 Bob 76
3 John 44
4 Johny 39
5 Mark_1 45
डुप्लिकेट मानों के साथ डेटा एकत्र करें
डुप्लिकेट मान वाले डेटा को सारांशित करने और डेटा से अंतर्दृष्टि प्राप्त करने के लिए एकत्रित किया जा सकता है। पांडा groupby()
फ़ंक्शन आपको डुप्लिकेट मानों के साथ डेटा एकत्र करने की अनुमति देता है। का उपयोग करके groupby()
फ़ंक्शन, आप एक या अधिक स्तंभों को समूहित कर सकते हैं और प्रत्येक समूह के लिए दूसरे स्तंभ के माध्य, माध्यिका या योग की गणना कर सकते हैं।
यहाँ उपयोग करने का एक उदाहरण है groupby()
तरीका:
grouped = df.groupby(['StudentName']) df_aggregated = grouped.sum()
print(df_aggregated)
आउटपुट:
Score
StudentName Ali 65
Bob 76
John 44
Johny 39
Mark 90
उन्नत तकनीकों
अधिक जटिल परिदृश्यों को संभालने और सटीक विश्लेषण सुनिश्चित करने के लिए, कुछ उन्नत तकनीकें हैं जिनका हम उपयोग कर सकते हैं। यह अनुभाग अस्पष्ट डुप्लिकेट, समय श्रृंखला डेटा में दोहराव और डुप्लिकेट इंडेक्स मानों से निपटने पर चर्चा करेगा।
फजी डुप्लिकेट
फ़ज़ी डुप्लिकेट ऐसे रिकॉर्ड होते हैं जो सटीक मेल नहीं खाते हैं लेकिन समान होते हैं, और वे विभिन्न कारणों से हो सकते हैं, जिनमें डेटा इनपुट गलतियाँ, गलत वर्तनी और फ़ॉर्मेटिंग में भिन्नताएं शामिल हैं। हम उपयोग करेंगे fuzzywuzzy
स्ट्रिंग समानता मिलान का उपयोग करके डुप्लिकेट की पहचान करने के लिए पायथन लाइब्रेरी।
यहां अस्पष्ट मानों को संभालने का एक उदाहरण दिया गया है:
import pandas as pd
from fuzzywuzzy import fuzz def find_fuzzy_duplicates(dataframe, column, threshold): duplicates = [] for i in range(len(dataframe)): for j in range(i+1, len(dataframe)): similarity = fuzz.ratio(dataframe[column][i], dataframe[column][j]) if similarity >= threshold: duplicates.append(dataframe.iloc[[i, j]]) if duplicates: duplicates_df = pd.concat(duplicates) return duplicates_df else: return pd.DataFrame() data = { 'StudentName': ['Mark', 'Ali', 'Bob', 'John', 'Johny', 'Mark'], 'Score': [45, 65, 76, 44, 39, 45]
}
df = pd.DataFrame(data) threshold = 70 fuzzy_duplicates = find_fuzzy_duplicates(df, 'StudentName', threshold)
print("Fuzzy duplicates:")
print(fuzzy_duplicates.to_string(index=False))
इस उदाहरण में, हम एक कस्टम फ़ंक्शन बनाते हैं find_fuzzy_duplicates
यह इनपुट के रूप में एक डेटाफ़्रेम, एक कॉलम नाम और एक समानता सीमा लेता है। फ़ंक्शन डेटाफ़्रेम में प्रत्येक पंक्ति के माध्यम से पुनरावृत्त होता है और इसका उपयोग करके बाद की पंक्तियों के साथ तुलना करता है fuzz.ratio
से विधि fuzzywuzzy
पुस्तकालय। यदि समानता स्कोर सीमा से अधिक या उसके बराबर है, तो डुप्लिकेट पंक्तियाँ एक सूची में जोड़ दी जाती हैं। अंत में, फ़ंक्शन फ़ज़ी डुप्लिकेट युक्त डेटाफ़्रेम लौटाता है।
आउटपुट:
Fuzzy duplicates:
StudentName Score Mark 45 Mark 45 John 44 Johny 39
उपरोक्त उदाहरण में, अस्पष्ट डुप्लिकेट की पहचान "स्टूडेंटनेम" कॉलम में की जाती है। 'Find_fuzzy_dulicates' फ़ंक्शन का उपयोग करके स्ट्रिंग के प्रत्येक जोड़े की तुलना करता है fuzzywuzzy
पुस्तकालय का fuzz.ratio
फ़ंक्शन, जो लेवेनशेटिन दूरी के आधार पर समानता स्कोर की गणना करता है। हमने सीमा 70 निर्धारित की है, जिसका अर्थ है कि 70 से अधिक मिलान अनुपात वाला कोई भी नाम अस्पष्ट मान माना जाएगा। अस्पष्ट मानों की पहचान करने के बाद, हम उन्हें "हैंडलिंग डुप्लिकेट" शीर्षक वाले अनुभाग में उल्लिखित विधि का उपयोग करके प्रबंधित कर सकते हैं।
समय श्रृंखला डेटा डुप्लिकेट को संभालना
जब एक ही टाइमस्टैम्प पर एकाधिक अवलोकन रिकॉर्ड किए जाते हैं तो डुप्लिकेट हो सकते हैं। अगर इन मूल्यों को ठीक से नियंत्रित नहीं किया गया तो ये पक्षपातपूर्ण परिणाम दे सकते हैं। समय श्रृंखला डेटा में डुप्लिकेट मानों को संभालने के कुछ तरीके यहां दिए गए हैं।
- सटीक डुप्लिकेट छोड़ना: इस विधि में, हम का उपयोग करके समान पंक्तियों को हटा देते हैं
drop_duplicates
पंडों में कार्य करें। - विभिन्न मूल्यों के साथ डुप्लिकेट टाइमस्टैम्प: यदि हमारे पास एक ही टाइमस्टैम्प है लेकिन अलग-अलग मान हैं, तो हम डेटा को एकत्रित कर सकते हैं और इसका उपयोग करके अधिक जानकारी प्राप्त कर सकते हैं
groupby()
, या हम सबसे हालिया मान का चयन कर सकते हैं और उपयोग करने वाले अन्य को हटा सकते हैंdrop_duplicates()
साथkeep
पैरामीटर 'अंतिम' पर सेट है।
डुप्लिकेट सूचकांक मानों को संभालना
डुप्लिकेट इंडेक्स मानों को संबोधित करने से पहले, आइए पहले परिभाषित करें कि पांडा में एक इंडेक्स क्या है। इंडेक्स डेटाफ़्रेम की प्रत्येक पंक्ति को निर्दिष्ट एक अद्वितीय पहचानकर्ता है। पांडा डिफ़ॉल्ट रूप से शून्य से शुरू होने वाला एक संख्यात्मक सूचकांक निर्दिष्ट करता है। हालाँकि, एक इंडेक्स को किसी भी कॉलम या कॉलम संयोजन को सौंपा जा सकता है। इंडेक्स कॉलम में डुप्लिकेट की पहचान करने के लिए, हम इसका उपयोग कर सकते हैं duplicated()
और drop_duplicates()
कार्य, क्रमशः। इस अनुभाग में, हम यह पता लगाएंगे कि इंडेक्स कॉलम में डुप्लिकेट का उपयोग कैसे करें reset_index()
.
जैसा कि इसके नाम से पता चलता है, reset_index()
पंडों में फ़ंक्शन का उपयोग डेटाफ़्रेम के सूचकांक को रीसेट करने के लिए किया जाता है। आवेदन करते समय reset_index()
फ़ंक्शन, वर्तमान सूचकांक स्वचालित रूप से खारिज कर दिया जाता है, जिसका अर्थ है कि प्रारंभिक सूचकांक मान खो जाते हैं। निर्दिष्ट करके drop
पैरामीटर के रूप में False
में reset_index()
फ़ंक्शन, हम इंडेक्स को रीसेट करते समय मूल इंडेक्स मान को बरकरार रख सकते हैं।
यहां उपयोग का एक उदाहरण दिया गया है reset_index()
:
import pandas as pd data = { 'Score': [45, 65, 76, 44, 39, 45]
}
df = pd.DataFrame(data, index=['Mark', 'Ali', 'Bob', 'John', 'Johny', 'Mark']) df.reset_index(inplace=True)
print(df)
आउटपुट:
index Score
0 Mark 45
1 Ali 65
2 Bob 76
3 John 44
4 Johny 39
5 Mark 45
सर्वोत्तम प्रथाएं
-
डुप्लिकेट डेटा की प्रकृति को समझें: कोई भी कार्रवाई करने से पहले, यह समझना महत्वपूर्ण है कि डुप्लिकेट मान क्यों मौजूद हैं और वे क्या दर्शाते हैं। मूल कारण की पहचान करें और फिर उनसे निपटने के लिए उचित कदम निर्धारित करें।
-
डुप्लिकेट को संभालने के लिए एक उपयुक्त विधि का चयन करें: जैसा कि पिछले अनुभागों में चर्चा की गई है, डुप्लिकेट को संभालने के कई तरीके हैं। आपके द्वारा चुनी गई विधि डेटा की प्रकृति और आपके द्वारा किए जाने वाले विश्लेषण पर निर्भर करती है।
-
दृष्टिकोण का दस्तावेजीकरण करें: डुप्लिकेट मानों का पता लगाने और उन्हें संबोधित करने की प्रक्रिया का दस्तावेजीकरण करना महत्वपूर्ण है, जिससे दूसरों को विचार प्रक्रिया को समझने में मदद मिल सके।
-
व्यायाम सावधानी: जब भी हम डेटा हटाते हैं या संशोधित करते हैं, तो हमें यह सुनिश्चित करना चाहिए कि डुप्लिकेट को हटाने से विश्लेषण में त्रुटियां या पूर्वाग्रह न आएं। विवेक परीक्षण करें और प्रत्येक क्रिया के परिणामों को मान्य करें।
-
मूल डेटा सुरक्षित रखें: डेटा पर कोई भी ऑपरेशन करने से पहले, मूल डेटा की एक बैकअप प्रतिलिपि बनाएं।
-
भविष्य के डुप्लिकेट को रोकें: भविष्य में डुप्लिकेट होने से रोकने के लिए उपाय लागू करें। इसमें डेटा प्रविष्टि के दौरान डेटा सत्यापन, डेटा क्लींजिंग रूटीन, या विशिष्टता लागू करने के लिए डेटाबेस बाधाएं शामिल हो सकती हैं।
निष्कर्ष
डेटा विश्लेषण में, डुप्लिकेट मानों को संबोधित करना एक महत्वपूर्ण कदम है। डुप्लिकेट मान गलत परिणाम दे सकते हैं। डुप्लिकेट मानों को कुशलतापूर्वक पहचानने और प्रबंधित करके, डेटा विश्लेषक सटीक और महत्वपूर्ण जानकारी प्राप्त कर सकते हैं। उल्लिखित तकनीकों को लागू करने और सर्वोत्तम प्रथाओं का पालन करने से विश्लेषकों को अपने डेटा की अखंडता को संरक्षित करने और इससे मूल्यवान अंतर्दृष्टि प्राप्त करने में मदद मिलेगी।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- ईवीएम वित्त। विकेंद्रीकृत वित्त के लिए एकीकृत इंटरफ़ेस। यहां पहुंचें।
- क्वांटम मीडिया समूह। आईआर/पीआर प्रवर्धित। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 डेटा इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- स्रोत: https://stackabuse.com/handling-duplicate-values-in-a-pandas-dataframe/
- :हैस
- :है
- :नहीं
- :कहाँ
- 1
- 11
- 12
- 20
- 70
- 8
- 9
- a
- ऊपर
- सही
- कार्य
- वास्तव में
- जोड़ा
- इसके अतिरिक्त
- पता
- को संबोधित
- उन्नत
- बाद
- योग
- उद्देश्य
- सब
- की अनुमति दे
- की अनुमति देता है
- के बीच में
- an
- विश्लेषण
- विश्लेषक
- विश्लेषकों
- और
- अन्य
- कोई
- प्रकट होता है
- लागू करें
- लागू
- दृष्टिकोण
- उपयुक्त
- हैं
- लेख
- AS
- सौंपा
- At
- स्वतः
- बैकअप
- बार
- आधारित
- BE
- से पहले
- जा रहा है
- नीचे
- BEST
- सर्वोत्तम प्रथाओं
- पूर्वाग्रह
- झुका हुआ
- अनाज
- सीमा
- लेकिन
- by
- गणना
- गणना
- कर सकते हैं
- मामला
- मामलों
- कारण
- चार्ट
- जाँचता
- चुनें
- सफाई
- स्तंभ
- स्तंभ
- संयोजन
- गठबंधन
- सामान्य
- जटिल
- समझना
- आचरण
- विचार करना
- माना
- पर विचार
- की कमी
- शामिल हैं
- इसी
- बनाना
- बनाया
- महत्वपूर्ण
- वर्तमान
- रिवाज
- अनुकूलन
- तिथि
- डेटा विश्लेषण
- आंकड़ा प्रविष्टि
- डाटाबेस
- व्यवहार
- चूक
- निर्भर करता है
- वर्णित
- खोज
- निर्धारित करना
- विभिन्न
- सीधे
- चर्चा करना
- चर्चा की
- दूरी
- दस्तावेज़
- कर देता है
- डॉन
- डुप्लिकेट
- दौरान
- से प्रत्येक
- प्रभावी रूप से
- कुशल
- कुशलता
- तत्व
- को खत्म करने
- नष्ट
- सक्षम
- सक्षम बनाता है
- समाप्त
- लागू करना
- सुनिश्चित
- प्रविष्टि
- बराबर
- त्रुटियाँ
- उदाहरण
- सिवाय
- मौजूद
- स्पष्टीकरण
- का पता लगाने
- उद्धरण
- कुछ
- अंत में
- प्रथम
- फोकस
- निम्नलिखित
- इस प्रकार है
- के लिए
- आवृत्ति
- से
- समारोह
- कार्यों
- भविष्य
- लाभ
- उत्पन्न
- जाना
- लक्ष्य
- ग्राफ
- अधिक से अधिक
- समूह
- गाइड
- संभालना
- हैंडलिंग
- हाथों पर
- है
- यहाँ उत्पन्न करें
- मंडराना
- कैसे
- How To
- तथापि
- HTTPS
- i
- समान
- पहचान
- पहचानकर्ता
- पहचानती
- पहचान करना
- पहचान
- if
- लागू करने के
- कार्यान्वयन
- महत्वपूर्ण
- in
- ग़लत
- शामिल
- शामिल
- सहित
- अनुक्रमणिका
- संकेत मिलता है
- इंगित करता है
- करें-
- प्रारंभिक
- निवेश
- अन्तर्दृष्टि
- अंतर्दृष्टि
- उदाहरण
- ईमानदारी
- में
- परिचय कराना
- परिचय
- लागू
- मुद्दों
- IT
- आईटी इस
- जॉन
- रखना
- लेबल
- पिछली बार
- नेतृत्व
- जानें
- सीख रहा हूँ
- लंबाई
- चलो
- LG
- पुस्तकालय
- सीमा
- सूची
- खोया
- निर्माण
- प्रबंधन
- प्रबंध
- निशान
- चिह्नित
- मैच
- मिलान
- matplotlib
- मैक्स
- मई..
- मतलब
- अर्थ
- साधन
- उपायों
- उल्लेख किया
- तरीका
- तरीकों
- गलतियां
- संशोधनों
- संशोधित
- संशोधित
- अधिक
- अधिकांश
- विभिन्न
- चाहिए
- नाम
- नामों
- प्रकृति
- की जरूरत है
- नया
- अभी
- संख्या
- प्राप्त
- घटनेवाला
- of
- ऑफर
- on
- ONE
- आपरेशन
- विकल्प
- ऑप्शंस
- or
- मूल
- अन्य
- अन्य
- हमारी
- आउट
- उल्लिखित
- उत्पादन
- जोड़ा
- पांडा
- प्राचल
- पैरामीटर
- पैटर्न उपयोग करें
- निष्पादन
- प्रदर्शन
- प्रदर्शन
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- निभाता
- संभव
- संभावित
- व्यावहारिक
- प्रथाओं
- ठीक
- को रोकने के
- पिछला
- प्रक्रिया
- अच्छी तरह
- प्रदान करना
- अजगर
- अनुपात
- कारण
- हाल
- दर्ज
- अभिलेख
- हटाना
- हटाने
- की जगह
- प्रतिस्थापन
- प्रतिनिधित्व
- का प्रतिनिधित्व
- की आवश्यकता होती है
- क्रमश
- जिम्मेदारी
- रोकना
- जिसके परिणामस्वरूप
- परिणाम
- बनाए रखने के
- लौटने
- रिटर्न
- अंगूठी
- भूमिका
- जड़
- आरओडब्ल्यू
- नियम
- s
- वही
- परिदृश्यों
- स्कोर
- दूसरा
- अनुभाग
- वर्गों
- कई
- सेट
- छाया
- चादर
- चाहिए
- महत्वपूर्ण
- समान
- सरल
- केवल
- के बाद से
- कुछ
- विशिष्ट
- स्टैकब्यूज
- मानकों
- शुरुआत में
- कदम
- कदम
- रुकें
- रणनीतियों
- तार
- छात्र
- छात्र
- आगामी
- संक्षेप में प्रस्तुत करना
- अनुरूप
- लेता है
- ले जा
- तकनीक
- परीक्षण
- से
- कि
- RSI
- भविष्य
- लेकिन हाल ही
- उन
- फिर
- वहाँ।
- इसलिये
- इन
- वे
- तीसरा
- इसका
- विचार
- द्वार
- यहाँ
- पहर
- समय श्रृंखला
- बार
- टाइमस्टैम्प
- शीर्षक से
- सेवा मेरे
- एक साथ
- कुल
- संक्रमण
- भरोसेमंद
- दो
- समझना
- अद्वितीय
- विशिष्टता
- अपडेट
- अद्यतन
- us
- उपयोग
- प्रयुक्त
- का उपयोग
- सत्यापित करें
- सत्यापन
- मूल्यवान
- मूल्य
- मान
- विभिन्न
- Ve
- महत्वपूर्ण
- करना चाहते हैं
- था
- तरीके
- we
- कुंआ
- क्या
- कब
- जब कभी
- या
- कौन कौन से
- जब
- क्यों
- मर्जी
- साथ में
- अंदर
- X
- आप
- जेफिरनेट
- शून्य