বিভিন্ন ইন্ডাস্ট্রি জুড়ে কোম্পানিগুলি পিডিএফ ডকুমেন্টের বিশাল ভলিউম তৈরি, স্ক্যান এবং সঞ্চয় করে। অনেক ক্ষেত্রে, বিষয়বস্তু পাঠ্য-ভারী এবং প্রায়শই একটি ভিন্ন ভাষায় লেখা হয় এবং অনুবাদের প্রয়োজন হয়। এটি মোকাবেলা করার জন্য, এই পিডিএফগুলির মধ্যে বিষয়বস্তুগুলি বের করতে এবং দ্রুত এবং সাশ্রয়ীভাবে অনুবাদ করার জন্য আপনার একটি স্বয়ংক্রিয় সমাধান প্রয়োজন৷
অনেক ব্যবসার বৈচিত্র্যময় বিশ্বব্যাপী ব্যবহারকারী রয়েছে এবং তাদের মধ্যে আন্তঃভাষিক যোগাযোগ সক্ষম করতে পাঠ্য অনুবাদ করতে হবে। এটি একটি ম্যানুয়াল, ধীর, এবং ব্যয়বহুল মানুষের প্রচেষ্টা। মূল নথি বিন্যাস বজায় রেখে নথি অনুবাদ করার জন্য একটি পরিমাপযোগ্য, নির্ভরযোগ্য এবং ব্যয়-কার্যকর সমাধান খুঁজে বের করতে হবে।
স্বাস্থ্যসেবার মতো উল্লম্বগুলির জন্য, নিয়ন্ত্রক প্রয়োজনীয়তার কারণে, অনুবাদকৃত নথিগুলির জন্য মেশিন-অনুবাদিত নথির বৈধতা যাচাই করার জন্য লুপে অতিরিক্ত একজন মানুষের প্রয়োজন৷
যদি অনূদিত নথিটি মূল বিন্যাস এবং কাঠামো বজায় না রাখে তবে এটি তার প্রসঙ্গ হারায়। এটি একজন মানব পর্যালোচকের পক্ষে যাচাই করা এবং সংশোধন করা কঠিন করে তুলতে পারে।
এই পোস্টে, আমরা দেখিয়েছি কিভাবে একটি স্ক্যান করা পিডিএফ থেকে একটি নতুন অনুবাদ করা PDF তৈরি করা যায় যখন মূল নথির কাঠামো বজায় রাখা যায় এবং জ্যামিতি-ভিত্তিক পদ্ধতি ব্যবহার করে বিন্যাস করা যায়। অ্যামাজন টেক্সট্র্যাক, আমাজন অনুবাদ, এবং অ্যাপাচি পিডিএফবক্স.
সমাধান ওভারভিউ
এই পোস্টে উপস্থাপিত সমাধান নিম্নলিখিত উপাদান ব্যবহার করে:
- অ্যামাজন টেক্সট্র্যাক – একটি সম্পূর্ণরূপে পরিচালিত মেশিন লার্নিং (ML) পরিষেবা যা স্ক্যান করা নথিগুলি থেকে স্বয়ংক্রিয়ভাবে মুদ্রিত পাঠ্য, হাতের লেখা এবং অন্যান্য ডেটা বের করে যা সহজ অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) এর বাইরে যায় ফর্ম এবং টেবিল থেকে ডেটা সনাক্ত করতে, বুঝতে এবং বের করতে। অ্যামাজন টেক্সট্র্যাক্ট আর্থিক প্রতিবেদন, মেডিকেল রেকর্ড এবং ট্যাক্স ফর্ম সহ বিভিন্ন নথিতে পাঠ্য সনাক্ত করতে পারে।
- আমাজন অনুবাদ - একটি নিউরাল মেশিন অনুবাদ পরিষেবা যা দ্রুত, উচ্চ-মানের, এবং সাশ্রয়ী মূল্যের ভাষা অনুবাদ প্রদান করে। Amazon Translate 2,970 টিরও বেশি ভাষা জোড়া জুড়ে উচ্চ-মানের অন-ডিমান্ড এবং ব্যাচ অনুবাদ ক্ষমতা প্রদান করে, আপনার অনুবাদের খরচ কমিয়ে দেয়।
- PDF অনুবাদ - একটি ওপেন সোর্স লাইব্রেরি জাভাতে লেখা এবং প্রকাশিত হয়েছে GitHub এ AWS নমুনা। এই লাইব্রেরিতে অ্যামাজন টেক্সট্র্যাক্ট এবং অ্যামাজন ট্রান্সলেটের মাধ্যমে আপনার পছন্দসই ভাষায় অনূদিত পিডিএফ ডকুমেন্ট তৈরি করার যুক্তি রয়েছে। এটি পিডিএফ নথি তৈরি করতে ওপেন সোর্স জাভা লাইব্রেরি অ্যাপাচি পিডিএফবক্স ব্যবহার করে। উদাহরণস্বরূপ, অন্যান্য প্রোগ্রামিং ভাষায় অনুরূপ পিডিএফ প্রসেসিং লাইব্রেরি রয়েছে নোড PDFBox.
মেশিন অনুবাদ সম্পাদন করার সময়, আপনার এমন পরিস্থিতি হতে পারে যেখানে আপনি অনুবাদ হওয়া থেকে পাঠ্যের নির্দিষ্ট অংশগুলি সংরক্ষণ করতে চান, যেমন নাম বা অনন্য শনাক্তকারী। Amazon Translate ট্যাগ পরিবর্তনের অনুমতি দেয়, যা আপনাকে কোন পাঠ্য অনুবাদ করা উচিত নয় তা নির্দিষ্ট করতে দেয়। Amazon Translate এছাড়াও আনুষ্ঠানিকতা কাস্টমাইজেশন সমর্থন করে, যা আপনাকে আপনার অনুবাদ আউটপুটে আনুষ্ঠানিকতার মাত্রা কাস্টমাইজ করতে দেয়।
আমাজন টেক্সট্র্যাক্ট সীমা সম্পর্কে বিস্তারিত জানার জন্য, পড়ুন অ্যামাজন টেক্সট্র্যাক্টে কোটা.
সমাধানটি অ্যামাজন টেক্সট্র্যাক্ট দ্বারা নিষ্কাশন করা যায় এমন ভাষায় সীমাবদ্ধ, যা বর্তমানে ইংরেজি, স্প্যানিশ, ইতালীয়, পর্তুগিজ, ফরাসি এবং জার্মান সমর্থন করে। এই ভাষাগুলি অ্যামাজন অনুবাদ দ্বারা সমর্থিত। Amazon Translate দ্বারা সমর্থিত ভাষার সম্পূর্ণ তালিকার জন্য, পড়ুন সমর্থিত ভাষা এবং ভাষার কোড.
আমরা ইংরেজি থেকে স্প্যানিশ টেক্সট অনুবাদ প্রদর্শন করতে নিম্নলিখিত PDF ব্যবহার করি। সমাধানটি কোনো বিন্যাস ছাড়াই অনুবাদিত নথি তৈরি করতে সহায়তা করে। অনূদিত পাঠের অবস্থান বজায় রাখা হয়। উত্স এবং অনূদিত পিডিএফ ডকুমেন্টগুলিও পাওয়া যাবে AWS নমুনা GitHub রেপো.
নিম্নলিখিত বিভাগগুলিতে, আমরা একটি স্থানীয় মেশিনে অনুবাদ কোডটি কীভাবে চালাতে হয় তা প্রদর্শন করি এবং আরও বিশদে অনুবাদ কোডটি দেখুন।
পূর্বশর্ত
আপনি শুরু করার আগে, আপনার AWS অ্যাকাউন্ট সেট আপ করুন এবং এডাব্লুএস কমান্ড লাইন ইন্টারফেস (AWS CLI)। যেকোন AWS পরিষেবাগুলিতে অ্যাক্সেসের জন্য যেমন Textract এবং Translate, উপযুক্ত IAM অনুমতি প্রয়োজন৷ আমরা কমপক্ষে বিশেষাধিকারের অনুমতিগুলি ব্যবহার করার পরামর্শ দিই। IAM অনুমতি সম্পর্কে আরও জানতে দেখুন আইএএম-এ নীতি এবং অনুমতি সেইসাথে কিভাবে Amazon Textract IAM এর সাথে কাজ করে এবং কিভাবে Amazon Translate IAM এর সাথে কাজ করে.
একটি স্থানীয় মেশিনে অনুবাদ কোড চালান
এই সমাধানটি একটি পিডিএফ ডকুমেন্ট এক্সট্র্যাক্ট এবং অনুবাদ করার জন্য স্বতন্ত্র জাভা কোডের উপর ফোকাস করে। এটি সহজতর পরীক্ষা এবং কাস্টমাইজেশনের জন্য সেরা-রেন্ডার করা অনুবাদিত PDF নথি পেতে৷ কোডটি তখন AWS-এ স্থাপন এবং চালানোর জন্য একটি স্বয়ংক্রিয় সমাধানে একত্রিত করা যেতে পারে। দেখা Amazon Translate এবং Amazon Textract ব্যবহার করে PDF নথি অনুবাদ করা হচ্ছে একটি নমুনা আর্কিটেকচারের জন্য যা ব্যবহার করে আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) নথি সংরক্ষণ করতে এবং এডাব্লুএস ল্যাম্বদা কোড চালানোর জন্য।
একটি স্থানীয় মেশিনে কোড চালানোর জন্য, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন। কোড উদাহরণ পাওয়া যায় GitHub রেপো।
- GitHub রেপো ক্লোন করুন:
- নিম্নলিখিত কমান্ডটি চালান:
- ইংরেজি থেকে স্প্যানিশ অনুবাদ করতে নিম্নলিখিত কমান্ডটি চালান:
দুটি অনূদিত PDF নথি নথি ফোল্ডারে তৈরি করা হয়েছে, মূল বিন্যাস সহ এবং ছাড়াই (SampleOutput-es.pdf
এবং SampleOutput-min-es.pdf
).
অনুবাদিত পিডিএফ তৈরি করার জন্য কোড
নিম্নলিখিত কোড স্নিপেটগুলি দেখায় কিভাবে একটি পিডিএফ ডকুমেন্ট নিতে হয় এবং একটি সংশ্লিষ্ট অনূদিত পিডিএফ ডকুমেন্ট তৈরি করতে হয়। এটি অ্যামাজন টেক্সট্র্যাক্ট ব্যবহার করে টেক্সট বের করে এবং ইমেজে লেয়ার হিসেবে অনুবাদিত টেক্সট যোগ করে অনুবাদিত PDF তৈরি করে। এটি পোস্টে দেখানো সমাধানের উপর তৈরি করে অ্যামাজন টেক্সট্র্যাক্টের মাধ্যমে স্বয়ংক্রিয়ভাবে স্ক্যান করা নথিগুলি থেকে অনুসন্ধানযোগ্য পিডিএফ তৈরি করা হচ্ছে.
কোডটি প্রথমে অ্যামাজন টেক্সট্র্যাক্টের সাথে পাঠ্যের প্রতিটি লাইন পায়। আমাজন অনুবাদ অনুবাদ করা পাঠ্য পেতে এবং অনুবাদিত পাঠ্যের জ্যামিতি সংরক্ষণ করতে ব্যবহৃত হয়।
ফন্টের আকার নিম্নরূপ গণনা করা হয় এবং সহজেই কনফিগার করা যায়:
সংরক্ষিত জ্যামিতি এবং অনুবাদিত পাঠ্য থেকে অনুবাদিত PDF তৈরি করা হয়েছে। অনূদিত পাঠ্যের রঙে পরিবর্তন সহজেই কনফিগার করা যায়।
নিম্নলিখিত চিত্রটি মূল বিন্যাস সহ স্প্যানিশ ভাষায় অনুবাদ করা নথিটি দেখায় (SampleOutput-es.pdf
).
নিচের ছবিটি কোনো বিন্যাস ছাড়াই স্প্যানিশ ভাষায় অনুবাদ করা PDF দেখায় (SampleOutput-min-es.pdf
).
প্রক্রিয়াকরণের সময়
কর্মসংস্থানের আবেদন পিডিএফ অনূদিত পিডিএফ বের করতে, প্রক্রিয়া করতে এবং রেন্ডার করতে প্রায় 10 সেকেন্ড সময় নেয়। টেক্সট ভারী নথির জন্য প্রক্রিয়াকরণ সময় যেমন স্বাধীনতার ঘোষণা PDF এক মিনিটেরও কম সময় নিয়েছে।
মূল্য
অ্যামাজন টেক্সট্র্যাক্টের সাথে, আপনি প্রক্রিয়াকৃত পৃষ্ঠা এবং চিত্রের সংখ্যার উপর ভিত্তি করে অর্থ প্রদান করেন। Amazon Translate-এর মাধ্যমে, আপনি প্রসেস করা টেক্সট অক্ষরের সংখ্যার উপর ভিত্তি করে যেতে যেতে অর্থ প্রদান করেন। নির্দেশ করে আমাজন টেক্সট্র্যাক্ট মূল্য এবং আমাজন অনুবাদ মূল্য প্রকৃত খরচের জন্য।
উপসংহার
মূল নথির কাঠামো বজায় রেখে অনূদিত পিডিএফ নথি তৈরি করতে অ্যামাজন টেক্সট্র্যাক্ট এবং অ্যামাজন ট্রান্সলেট কীভাবে ব্যবহার করবেন এই পোস্টটি দেখিয়েছে। অনুবাদের গুণমান উন্নত করার জন্য আপনি ঐচ্ছিকভাবে Amazon Textract ফলাফল পোস্টপ্রসেস করতে পারেন, উদাহরণস্বরূপ নিষ্কাশিত শব্দগুলি ML-ভিত্তিক বানান পরীক্ষার মাধ্যমে পাস করা যেতে পারে যেমন SymSpell ডেটা যাচাইয়ের জন্য, বা ক্লাস্টারিং অ্যালগরিদমগুলি পড়ার ক্রম সংরক্ষণ করতে ব্যবহার করা যেতে পারে। আপনিও ব্যবহার করতে পারেন অ্যামাজন অগমেন্টেড এআই (Amazon A2I) মানব পর্যালোচনা কর্মপ্রবাহ তৈরি করতে যেখানে আপনি আরও নির্ভুলতা এবং প্রসঙ্গ প্রদানের জন্য মূল এবং অনূদিত PDF নথি পর্যালোচনা করতে আপনার নিজস্ব ব্যক্তিগত কর্মশক্তি ব্যবহার করতে পারেন। দেখা অ্যামাজন ট্রান্সলেট এবং অ্যামাজন অগমেন্টেড এআই-এর সাহায্যে মানব পর্যালোচনা কর্মপ্রবাহ ডিজাইন করা এবং ডোমেন-নির্দিষ্ট এবং ভাষা-নির্দিষ্ট কাস্টমাইজেশন সহ একটি বহু-ভাষিক নথি অনুবাদের কার্যপ্রবাহ তৈরি করা শুরু করতে.
লেখক সম্পর্কে
অনুভা সিংহল AWS প্রফেশনাল সার্ভিসেস সংস্থার Amazon Web Services-এর একজন সিনিয়র ক্লাউড আর্কিটেক্ট।
শন লরেন্স পূর্বে AWS এ ফ্রন্ট এন্ড ইঞ্জিনিয়ার ছিলেন। তিনি এডব্লিউএস প্রফেশনাল সার্ভিসেস অর্গানাইজেশন এবং অ্যামাজন প্রাইভেসি টিমের ফ্রন্ট এন্ড ডেভেলপমেন্টে বিশেষীকরণ করেছেন।
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
- প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- প্লেটোইএসজি। মোটরগাড়ি / ইভি, কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
- ব্লকঅফসেট। পরিবেশগত অফসেট মালিকানার আধুনিকীকরণ। এখানে প্রবেশ করুন.
- উত্স: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- : হয়
- :না
- :কোথায়
- $ ইউপি
- 1
- 10
- 100
- 15%
- 20
- 7
- 970
- a
- সম্পর্কে
- প্রবেশ
- হিসাব
- সঠিকতা
- দিয়ে
- আসল
- যোগ
- অতিরিক্ত
- ঠিকানা
- সাশ্রয়ী মূল্যের
- আলগোরিদিম
- অনুমতি
- এছাড়াও
- মর্দানী স্ত্রীলোক
- অ্যামাজন টেক্সট্র্যাক
- আমাজন অনুবাদ
- অ্যামাজন ওয়েব সার্ভিসেস
- an
- এবং
- কোন
- এ্যাপাচি
- আবেদন
- অভিগমন
- যথাযথ
- স্থাপত্য
- রয়েছি
- AS
- At
- উদ্দীপিত
- অটোমেটেড
- স্বয়ংক্রিয়ভাবে
- সহজলভ্য
- ডেস্কটপ AWS
- AWS প্রফেশনাল সার্ভিসেস
- ভিত্তি
- BE
- হচ্ছে
- মধ্যে
- তার পরেও
- কালো
- বাধা
- ব্লক
- বক্স
- নির্মাণ করা
- তৈরী করে
- ব্যবসা
- by
- গণিত
- CAN
- ক্ষমতা
- মামলা
- পরিবর্তন
- চরিত্র
- চরিত্র স্বীকৃতি
- অক্ষর
- মেঘ
- থলোথলো
- কোড
- রঙ
- যোগাযোগ
- সম্পূর্ণ
- কনফিগার
- ধারণ
- বিষয়বস্তু
- সুখী
- প্রসঙ্গ
- সংশোধণী
- অনুরূপ
- সাশ্রয়ের
- খরচ
- সৃষ্টি
- নির্মিত
- সৃষ্টি
- এখন
- স্বনির্ধারণ
- কাস্টমাইজ
- উপাত্ত
- বিতরণ
- প্রদর্শন
- স্থাপন
- আকাঙ্ক্ষিত
- বিস্তারিত
- বিস্তারিত
- উন্নয়ন
- বিভিন্ন
- কঠিন
- বিচিত্র
- দলিল
- কাগজপত্র
- না
- কারণে
- প্রতি
- সহজ
- সহজে
- প্রচেষ্টা
- আর
- চাকরি
- সক্ষম করা
- শেষ
- প্রকৌশলী
- ইংরেজি
- উদাহরণ
- উদাহরণ
- ব্যয়বহুল
- নির্যাস
- চায়ের
- মিথ্যা
- দ্রুত
- পূরণ করা
- আর্থিক
- আবিষ্কার
- প্রথম
- ভাসা
- গুরুত্ত্ব
- অনুসরণ
- অনুসরণ
- জন্য
- পূর্বে
- ফর্ম
- পাওয়া
- ফরাসি
- থেকে
- সদর
- সামনের অংশ
- সম্মুখ প্রান্ত উন্নয়ন
- সম্পূর্ণ
- সম্পূর্ণরূপে
- উত্পাদন করা
- উৎপাদিত
- জার্মান
- পাওয়া
- GitHub
- বিশ্বব্যাপী
- Go
- Goes
- আছে
- he
- স্বাস্থ্যসেবা
- ভারী
- উচ্চতা
- এখানে
- উচ্চ গুনসম্পন্ন
- ঘর
- কিভাবে
- কিভাবে
- এইচটিএমএল
- HTTP
- HTTPS দ্বারা
- মানবীয়
- সনাক্তকারী
- সনাক্ত করা
- if
- ভাবমূর্তি
- চিত্র
- উন্নত করা
- in
- অন্যান্য
- অন্তর্ভুক্ত করা
- সুদ্ধ
- শিল্প
- ইনপুট
- সংহত
- মধ্যে
- IT
- এর
- জাভা
- ভাষা
- ভাষাসমূহ
- বড়
- স্তর
- শিখতে
- শিক্ষা
- অন্তত
- বাম
- কম
- উচ্চতা
- লাইব্রেরি
- লাইব্রেরি
- সীমা
- লাইন
- লাইন
- তালিকা
- স্থানীয়
- যুক্তিবিদ্যা
- দেখুন
- হারায়
- মেশিন
- মেশিন লার্নিং
- করা
- পরিচালিত
- ম্যানুয়াল
- অনেক
- মে..
- চিকিৎসা
- মিনিট
- ML
- পরিবর্তন
- অধিক
- নাম
- প্রয়োজন
- প্রয়োজন
- নতুন
- সংখ্যা
- লক্ষ্য
- OCR করুন
- of
- প্রায়ই
- on
- চাহিদা সাপেক্ষে
- ওপেন সোর্স
- অপারেশন
- অপটিক্যাল ক্যারেক্টার রেকগনিশন
- or
- ক্রম
- সংগঠন
- মূল
- অন্যান্য
- আউটপুট
- নিজের
- পৃষ্ঠা
- পেজ
- জোড়া
- গৃহীত
- বেতন
- পিডিএফ
- করণ
- অনুমতি
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- পর্তুগীজ
- অবস্থান
- পোস্ট
- উপস্থাপন
- গোপনীয়তা
- ব্যক্তিগত
- সুবিধা
- প্রক্রিয়া
- প্রক্রিয়াকৃত
- প্রক্রিয়াজাতকরণ
- পেশাদারী
- প্রোগ্রামিং
- প্রোগ্রামিং ভাষা
- প্রদান
- উপলব্ধ
- প্রকাশিত
- গুণ
- দ্রুত
- পড়া
- স্বীকার
- সুপারিশ করা
- রেকর্ড
- এলাকা
- নিয়ন্ত্রক
- বিশ্বাসযোগ্য
- প্রতিবেদন
- প্রয়োজন
- আবশ্যকতা
- প্রয়োজন
- সীমাবদ্ধ
- ফলাফল
- রাখা
- ধারনকারী
- প্রত্যাবর্তন
- এখানে ক্লিক করুন
- চালান
- সংরক্ষণ করুন
- মাপযোগ্য
- স্ক্যান
- সেকেন্ড
- বিভাগে
- দেখ
- জ্যেষ্ঠ
- সেবা
- সেবা
- সেট
- উচিত
- প্রদর্শনী
- দেখিয়েছেন
- প্রদর্শিত
- শো
- অনুরূপ
- সহজ
- পরিস্থিতিতে
- আয়তন
- ধীর
- সমাধান
- উৎস
- স্প্যানিশ
- বিশেষজ্ঞ
- নির্দিষ্ট
- স্বতন্ত্র
- শুরু
- প্রারম্ভিক ব্যবহারের নির্দেশাবলী
- স্টোরেজ
- দোকান
- স্ট্রিং
- গঠন
- এমন
- সমর্থিত
- সমর্থন
- TAG
- গ্রহণ করা
- কর
- টীম
- পরীক্ষামূলক
- চেয়ে
- যে
- সার্জারির
- উৎস
- তাহাদিগকে
- তারপর
- সেখানে।
- এইগুলো
- এই
- দ্বারা
- সময়
- থেকে
- গ্রহণ
- শীর্ষ
- অনুবাদ
- অনুবাদ
- বোঝা
- অনন্য
- ব্যবহার
- ব্যবহৃত
- ব্যবহারকারী
- ব্যবহারসমূহ
- ব্যবহার
- ব্যবহার
- যাচাই করুন
- বৈধতা
- বৈচিত্র্য
- বিভিন্ন
- যাচাই
- উল্লম্ব
- চেক
- ভলিউম
- ছিল
- we
- ওয়েব
- ওয়েব সার্ভিস
- আমরা একটি
- কি
- যে
- যখন
- সাদা
- প্রস্থ
- সঙ্গে
- মধ্যে
- ছাড়া
- শব্দ
- কর্মপ্রবাহ
- কর্মপ্রবাহ
- কর্মীসংখ্যার
- কাজ
- লিখিত
- আপনি
- আপনার
- zephyrnet