কনটেন্ট মডারেশন এআইয়ের চেয়ে ভালো বুঝলেও মানবকর্মী ৪০ গুণ ব্যয়বহুল

August ৯, ২০২৫

০

কনটেন্ট মডারেশন এআইয়ের চেয়ে ভালো বুঝলেও মানবকর্মী ৪০ গুণ ব্যয়বহুল

নীতিবিরোধী কনটেন্ট শনাক্তে কৃত্রিম বুদ্ধিমত্তা (এআই) ব্যবহারে উল্লেখযোগ্য অগ্রগতি হলেও এখনো মানুষের দক্ষতা সবচেয়ে নির্ভরযোগ্য বলে প্রমাণিত হয়েছে। বিশেষ করে জটিল বা প্রসঙ্গভিত্তিক কনটেন্ট বিশ্লেষণে মানব কনটেন্ট মডারেটররা এআইয়ের চেয়ে স্পষ্টভাবে এগিয়ে। তবে এই নির্ভুল যাচাইয়ের পেছনে রয়েছে একটি বড় চ্যালেঞ্জ—খরচ। সম্প্রতি জেফার (Zefr) নামের একটি ব্র্যান্ড সুরক্ষা প্রযুক্তি প্রতিষ্ঠানের গবেষণায় দেখা গেছে, কনটেন্ট মডারেশনে মানুষের ব্যবহার এআইয়ের তুলনায় প্রায় ৪০ গুণ বেশি ব্যয়বহুল।

২০২৫ সালের ইন্টারন্যাশনাল কনফারেন্স অন কম্পিউটার ভিশনে অনুষ্ঠিতব্য কম্পিউটার ভিশন ইন অ্যাডভার্টাইজিং অ্যান্ড মার্কেটিং (সিভিএএএম) ওয়ার্কশপে গৃহীত একটি গবেষণা প্রবন্ধে এ তথ্য উঠে এসেছে।

গবেষণায় বলা হয়েছে, ব্র্যান্ড সেফটি বা নিরাপত্তা নিশ্চিত করতে এখনো মানুষের সহায়তা সবচেয়ে নির্ভরযোগ্য। তবে এই নির্ভরতার জন্য প্রচুর অর্থ খরচ করতে হয়। মেশিন লার্নিং সমাধানের চেয়ে মানব পর্যালোচনার খরচ প্রায় ৪০ গুণ বেশি।

ব্র্যান্ড সেফটি বলতে এমন এক প্রক্রিয়া বোঝানো হয়, যেখানে সহিংসতা, পর্নোগ্রাফি বা রাজনৈতিক বিতর্কের মতো অনুপযুক্ত কনটেন্টের পাশে ব্র্যান্ডের বিজ্ঞাপন দেখানো না হয়, তা নিশ্চিত করা। এটি মূলত বিজ্ঞাপনদাতার মানদণ্ড অনুসারে নির্ধারিত হয়।

গবেষকেরা বলেন, ‘বিজ্ঞাপনদাতারা নির্দিষ্ট কনটেন্ট ক্যাটাগরি এড়িয়ে চলতে চান। যেমন: সহিংসতা, প্রাপ্তবয়স্ক কনটেন্ট বা রাজনৈতিক বিতর্ক। তবে সাধারণ কনটেন্ট মডারেশন শুধু নীতিবিরুদ্ধ বিষয়বস্তু ঠেকাতেই সীমাবদ্ধ।’

এই গবেষণায় ১ হাজার ৫০০টি ভিডিও বিশ্লেষণ করা হয়। ভিডিওগুলোকে তিনটি বিভাগে ভাগ করা হয়—

১. ড্রাগ, অ্যালকোহল ও তামাক (DAT)

২. মৃত্যু, আঘাত ও সামরিক সংঘাত

৩. শিশুদের উপযোগী কনটেন্ট

এই পরীক্ষায় ছয়টি এআই মডেল ব্যবহৃত হয়েছে—জিপিটি ৪ও, জিপিটি ৪ও মিনি, জেমিনি ১.৫ ফ্ল্যাশ, জেমিনি ২.০ ফ্ল্যাশ, জেমিনি ২.০ ফ্ল্যাশ লাইট, এললামা ৩.২ –১১বি ভিশন। পাশাপাশি মানব পর্যালোচনার ফলাফলও তুলনা করা হয়।

গবেষকেরা বলেন, ‘জেমিনি’ মডেলগুলো সব মিলিয়ে সবচেয়ে ভালো করেছে এবং তাদের কমপ্যাক্ট সংস্করণগুলোও খুব বেশি পিছিয়ে নেই।’

তবে কয়েকটি জায়গায় ত্রুটি হয়েছে। যেমন—জাপানি ভাষায় ক্যাফেইন আসক্তি নিয়ে তৈরি একটি ভিডিওকে সব মডেলই ভুলভাবে মাদক সম্পর্কিত ভিডিও হিসেবে চিহ্নিত করেছে। গবেষকেরা বলেন, এটি হয়েছে ‘addiction’ শব্দের ভুল ব্যাখ্যা এবং জাপানি ভাষার প্রেক্ষাপট না বুঝতে পারার কারণে।

গবেষণায় বলা হয়েছে, ‘কমপ্যাক্ট এমএলএলএমগুলো খরচে অনেক কম হলেও এগুলোর ভুলের হার বেশি। তবে জটিল বা প্রেক্ষাপট-নির্ভর কনটেন্ট শনাক্তে এখনো মানবকর্মীই এগিয়ে রয়েছে।’

জেফারের প্রধান এআই কর্মকর্তা জন মোরা এক বিবৃতিতে বলেন, ‘জেমিনি ও জিপিটির মতো মডেলগুলো টেক্সট, অডিও এবং ভিজ্যুয়াল বিশ্লেষণে আশানুরূপ ফল দিচ্ছে এবং খরচও অনেক কম। তবে যেসব ক্ষেত্রে গভীর প্রেক্ষাপট বোঝা দরকার, সেখানে এখনো মানুষই শ্রেষ্ঠ। তাই সবচেয়ে কার্যকর ও সাশ্রয়ী পথ হলো হাইব্রিড মডেল—অর্থাৎ মানুষ ও এআইয়ের সমন্বয়।’

তথ্যসূত্র: দ্য রেজিস্টার

August ৯, ২০২৫

০