কিভাবে 3 ধাপে ওয়েবসাইট থেকে এক্সেলে ডেটা স্ক্র্যাপ করবেন?

কিভাবে 3 ধাপে ওয়েবসাইট থেকে এক্সেলে ডেটা স্ক্র্যাপ করবেন?

সেখানেই শেষ 2 বিলিয়ন ওয়েবসাইট এবং উপর 50 বিলিয়ন ওয়েব পেজ ইন্টারনেটে. তাদের সবকটিতেই বিভিন্ন ফরম্যাট, টেক্সট, ভিডিও, ছবি বা টেবিলে তথ্য রয়েছে।

আপনি যদি কখনও চান একটি ওয়েবপৃষ্ঠা থেকে ডেটা স্ক্র্যাপ করুন এক্সেল করার জন্য, সবচেয়ে সহজ বিকল্প হল ওয়েবপেজ কন্টেন্ট কপি পেস্ট করা। কিন্তু এটি করার সর্বোত্তম উপায় কারণ ডেটা সঠিকভাবে ফর্ম্যাট করা হবে না। (তথ্য ব্যবহার উপযোগী করতে সময় ব্যয় করা যথেষ্ট)।

এখানেই ওয়েব স্ক্র্যাপিং আসে। ওয়েব স্ক্র্যাপিং আপনার সময় এবং শ্রম সাশ্রয় করার সাথে সাথে অসংগঠিত ওয়েবসাইট ডেটাকে সেকেন্ডের মধ্যে একটি কাঠামোগত এক্সেল ফর্ম্যাটে রূপান্তর করে।

এই ব্লগে, আমরা ওয়েবসাইটগুলি থেকে ডেটা স্ক্র্যাপ করার এবং এটি এক্সেলে ডাউনলোড করার তিনটি উপায় অন্বেষণ করব। আপনি একজন ব্যবসার মালিক, বিশ্লেষক, বা ডেটা উত্সাহী হোন না কেন, এই ব্লগটি ওয়েবসাইটগুলি থেকে ডেটা কার্যকরভাবে স্ক্র্যাপ করতে এবং এটিকে মূল্যবান অন্তর্দৃষ্টিতে পরিণত করার সরঞ্জামগুলি সরবরাহ করবে৷

ওয়েবসাইট থেকে এক্সেলে ডেটা স্ক্র্যাপ করার 3 উপায়

ওয়েবসাইট থেকে এক্সেল পর্যন্ত ডেটা স্ক্র্যাপ করার জন্য আমরা এই তিনটি উপায়ে গভীরভাবে ডুব দেব।

  • স্বয়ংক্রিয় ওয়েব স্ক্র্যাপিং টুল ব্যবহার করে
  • এক্সেল VBA ব্যবহার করে
  • এক্সেল ওয়েব কোয়েরি ব্যবহার করে

একটি স্বয়ংক্রিয় ওয়েব স্ক্র্যাপিং টুল ব্যবহার করে

আপনি যদি অবিলম্বে এক্সেল করার জন্য ওয়েবপৃষ্ঠার তথ্য স্ক্র্যাপ করতে চান তবে আপনি একটি নো-কোড টুল ব্যবহার করে দেখতে পারেন Nanonets ওয়েবসাইট স্ক্র্যাপার. এই বিনামূল্যের ওয়েব স্ক্র্যাপিং টুল তাত্ক্ষণিকভাবে ওয়েবসাইট ডেটা স্ক্র্যাপ করতে পারে এবং এটিকে একটি এক্সেল ফর্ম্যাটে রূপান্তর করতে পারে।

Nanonets ব্যবহার করে স্বয়ংক্রিয়ভাবে এক্সেল করতে ওয়েবসাইট ডেটা স্ক্র্যাপ করার জন্য এখানে তিনটি ধাপ রয়েছে:

ধাপ 1: এগিয়ে যান Nanonets ওয়েবসাইট স্ক্র্যাপিং টুল এবং আপনার URL ঢোকান।

ধাপ 2: স্ক্র্যাপ নির্বাচন করুন এবং ডাউনলোড করুন এবং অপেক্ষা করুন।

ধাপ 3: টুলটি স্বয়ংক্রিয়ভাবে ওয়েবপৃষ্ঠা ডেটা সহ একটি ফাইল ডাউনলোড করে।

কিভাবে 3 ধাপে ওয়েবসাইট থেকে এক্সেলে ডেটা স্ক্র্যাপ করবেন? PlatoBlockchain ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.


এক্সেল VBA ব্যবহার করে

এক্সেল VBA বেশ শক্তিশালী এবং সহজেই অনেক জটিল কাজ স্বয়ংক্রিয় করতে পারে। আসুন একটি ওয়েবসাইট পৃষ্ঠা স্ক্র্যাপ করতে এটি ব্যবহার করার পদক্ষেপগুলি দেখুন।

ধাপ 1: এক্সেল খুলুন এবং একটি নতুন ওয়ার্কবুক তৈরি করুন।

ধাপ 2: Alt + F11 টিপে ভিজ্যুয়াল বেসিক এডিটর (VBE) খুলুন।

ধাপ 3: VBE-তে, একটি নতুন মডিউল তৈরি করতে Insert -> Module-এ যান।

ধাপ 4: মডিউলে নিম্নলিখিত কোডটি কপি করুন এবং পেস্ট করুন:

Sub ScrapeWebsite() 'Declare variables
Dim objHTTP As New WinHttp.WinHttpRequest
Dim htmlDoc As New HTMLDocument
Dim htmlElement As IHTMLElement
Dim i As Integer
Dim url As String 'Set the URL to be scraped
url = "https://www.example.com" 'Make a request to the URL
objHTTP.Open "GET", url, False
objHTTP.send 'Parse the HTML response
htmlDoc.body.innerHTML = objHTTP.responseText 'Loop through the HTML elements and extract data
For Each htmlElement In htmlDoc.getElementsByTagName("td") 'Do something with the data, e.g. print it to the Immediate window
Debug.Print htmlElement.innerText
Next htmlElement
End Sub

ধাপ 5: আপনি যে ওয়েবসাইটে স্ক্র্যাপ করতে চান তার কোডে URL পরিবর্তন করুন।

ধাপ 6: F5 টিপে বা VBE টুলবারে "রান" বোতামে ক্লিক করে ম্যাক্রো চালান।

ধাপ 7: স্ক্র্যাপ করা ডেটা দেখতে তাৎক্ষণিক উইন্ডো (দেখুন -> তাৎক্ষণিক উইন্ডো) চেক করুন।

একটি ওয়েবপৃষ্ঠা থেকে ডেটা স্ক্র্যাপ করতে VBA ব্যবহার করার সময় আপনার কী বিবেচনা করা উচিত?

যদিও এক্সেল ভিবিএ ওয়েবপৃষ্ঠাগুলি স্ক্র্যাপ করার জন্য একটি শক্তিশালী হাতিয়ার, বিবেচনা করার জন্য বেশ কয়েকটি ত্রুটি রয়েছে:

  • জটিলতা: VBA নন-কোডারদের জন্য জটিল হতে পারে। এটি সমস্যাগুলি সমাধান করা কঠিন করে তোলে।
  • সীমিত বৈশিষ্ট্য: VBA সীমিত ডেটা প্রকার বের করতে পারে। এটি জটিল HTML কাঠামো থেকে ডেটা বের করতে পারে না।
  • গতি: বড় ওয়েবসাইট স্ক্র্যাপ করার সময় এক্সেল VBA ধীর হতে পারে।
  • আইপি ব্লকিং ঝুঁকি: বড় ডেটা ওয়েবসাইটগুলি স্ক্র্যাপ করার সময় সবসময় আইপি ব্লক হওয়ার ঝুঁকি থাকে।

💡

সামগ্রিকভাবে, যদিও VBA ওয়েব স্ক্র্যাপিংয়ের জন্য একটি দরকারী টুল হতে পারে, উপরের ত্রুটিগুলি বিবেচনা করা এবং একটি নির্দিষ্ট স্ক্র্যাপিং প্রকল্পের জন্য এটি ব্যবহার করার আগে ভাল এবং অসুবিধাগুলি বিবেচনা করা গুরুত্বপূর্ণ।


এক্সেল ওয়েব কোয়েরি ব্যবহার করে

এক্সেল ওয়েব ক্যোয়ারী সহজেই ওয়েব পেজ স্ক্র্যাপ করতে পারে। মূলত এটি এক্সেলে টেক্সট ফাইল হিসাবে ওয়েব পৃষ্ঠাগুলি আমদানি করে। চলুন দেখি কিভাবে এক্সেল ওয়েব ক্যোয়ারী ব্যবহার করে এক্সেল ওয়েব পেজ স্ক্র্যাপ করতে হয়।

ধাপ 1: একটি নতুন ওয়ার্কবুক তৈরি করুন।

ধাপ 2: উপরের ডেটা ট্যাবে যান। "গেট অ্যান্ড ট্রান্সফর্ম ডেটা" বিভাগে ক্লিক করুন এবং তারপরে "ওয়েব থেকে" এ যান

ধাপ 3: "ওয়েব থেকে" ডায়ালগ বক্সে URL লিখুন।

ধাপ 4: "নেভিগেটর" উইন্ডোতে ওয়েবপৃষ্ঠাটি লোড করতে "ঠিক আছে" বোতামে ক্লিক করুন।

ধাপ 5: আপনি যে টেবিল বা ডেটা স্ক্র্যাপ করতে চান সেটির পাশের বাক্সে চেক করে নির্বাচন করুন।

ধাপ 6: একটি নতুন ওয়ার্কশীটে নির্বাচিত ডেটা লোড করতে "লোড" বোতামে ক্লিক করুন।

ধাপ 7: প্রয়োজন হলে, একই ওয়েবপৃষ্ঠা থেকে অতিরিক্ত টেবিল বা ডেটা স্ক্র্যাপ করতে উপরের পদক্ষেপগুলি পুনরাবৃত্তি করুন।

ধাপ 8: ডেটা রিফ্রেশ করতে, ওয়ার্কশীটে থাকা ডেটার উপর ডান-ক্লিক করুন এবং "রিফ্রেশ" নির্বাচন করুন।

[এম্বেড করা সামগ্রী]
  • ওয়েব ক্যোয়ারীগুলি ডায়নামিক ওয়েবপেজ বা জটিল HTML স্ট্রাকচার সহ ওয়েবপৃষ্ঠাগুলি থেকে ডেটা স্ক্র্যাপ করতে পারে না৷
  • ওয়েব কোয়েরিগুলি ওয়েবপৃষ্ঠার HTML কাঠামোর উপর নির্ভর করে। এটি পরিবর্তন হলে, ওয়েব ক্যোয়ারী ব্যর্থ হতে পারে বা ভুল ডেটা বের করতে পারে।
  • ওয়েব ক্যোয়ারীগুলি আনফরম্যাট করা ডেটা বের করতে পারে যেমন ডেটা সংখ্যা বা তারিখের পরিবর্তে পাঠ্য হিসাবে বের করা যেতে পারে।

VBA এবং ওয়েব ক্যোয়ারির মত এক্সেল টুলগুলি ওয়েবপেজ ডেটা বের করতে পারে কিন্তু তারা প্রায়ই জটিল ওয়েবপেজ স্ট্রাকচারের জন্য ব্যর্থ হয় বা আপনাকে যদি প্রতিদিন একাধিক পৃষ্ঠা বের করতে হয় তাহলে সেরা পছন্দ নাও হতে পারে। ইউআরএল পেস্ট করা, এক্সট্র্যাক্ট করা ডেটা চেক করা, পরিষ্কার করা এবং সংরক্ষণ করা অনেক ম্যানুয়াল প্রচেষ্টা।

Nanonets এর মতো প্ল্যাটফর্মগুলি আপনাকে কয়েকটি ক্লিকে সম্পূর্ণ প্রক্রিয়াটি স্বয়ংক্রিয় করতে সহায়তা করতে পারে। আপনি প্ল্যাটফর্মে URL-এর তালিকা আপলোড করতে পারেন। Nanonets স্বয়ংক্রিয়ভাবে আপনার অনেক সময় বাঁচাবে:

  • ওয়েবপেজ থেকে ডেটা বের করা হচ্ছে – Nanonets জটিল HTML স্ট্রাকচার এবং আরও অনেক কিছু সহ যেকোনো ওয়েবপেজ বা হেডলেস ওয়েবপেজ থেকে ডেটা বের করতে পারে।
  • তথ্য গঠন – ন্যানোনেটস এইচটিএমএল স্ট্রাকচার শনাক্ত করতে পারে এবং টেবিল স্ট্রাকচার, ফন্ট এবং আরও অনেক কিছু ধরে রাখতে ডেটা ফর্ম্যাট করতে পারে যাতে আপনাকে এটি করতে হবে না।
  • ডেটা পরিষ্কার করা হচ্ছে - ন্যানোনেট স্বয়ংক্রিয় ওয়ার্কফ্লো ব্যবহার করে সেকেন্ডে হারিয়ে যাওয়া ডেটা পয়েন্ট, তারিখ বিন্যাস, মুদ্রার প্রতীক প্রতিস্থাপন বা আরও অনেক কিছু প্রতিস্থাপন করতে পারে।
  • আপনার পছন্দের একটি ডাটাবেসে ডেটা রপ্তানি করা হচ্ছে - আপনি এক্সট্র্যাক্ট করা ডেটা গুগল শীট, এক্সেল, শেয়ারপয়েন্ট, সিআরএম বা আপনার পছন্দের অন্য কোনো ডাটাবেসে রপ্তানি করতে পারেন।

আপনার যদি কোন প্রয়োজনীয়তা থাকে, আপনি আমাদের দলের সাথে যোগাযোগ করতে পারেন, যারা আপনাকে ওয়েব স্ক্র্যাপিং প্রক্রিয়ার প্রতিটি অংশ স্বয়ংক্রিয় করতে স্বয়ংক্রিয় ওয়ার্কফ্লো সেট আপ করতে সহায়তা করবে।

সময় স্ট্যাম্প:

থেকে আরো এআই এবং মেশিন লার্নিং