কৃত্রিম বুদ্ধিমত্তাঃ একবিংশ শতাব্দীর সেরা প্রযুক্তির আদ্যোপান্ত – ৩

 কৃত্রিম বুদ্ধিমত্তাঃ একবিংশ শতাব্দীর সেরা প্রযুক্তির আদ্যোপান্ত – ৩

কৃত্রিম বুদ্ধিমত্তা ও ডেটা সায়েন্সের সম্পর্কঃ

আগের পর্ব দু’টি তে যা যা পড়েছেন এর সবই এআই আর রোবটিক্স নিয়ে। কিন্তু শুরুতেই বলেছি, আপনাদের ডেটা সায়েন্স ও বিগডেটার সাথে এআই এর সম্পর্ক ও পার্থক্য গুলো কিভাবে বুঝা যাবে তা নিয়েও একটা মৌলিক ধারণা দেয়ার চেষ্টা করবো। চলুন এবার ডেটা সায়েন্স এবং বিগডেটা কি তা বুঝে নেয়া যাক।

ডেটা সায়েন্সঃ

ডেটা সায়েন্স এমন একটি আন্তঃশৃঙ্খলা ক্ষেত্র যা বৈজ্ঞানিক পদ্ধতি, প্রক্রিয়া ও অ্যালগোরিদম ব্যবহার করে এবং কাঠামোগত ও অকাঠামোগত ডেটা থেকে জ্ঞান বের করে আনে।

ছবিঃ ডেটা সায়েন্স ও এর প্রক্রিয়াকরণে নমুনা চিত্র

এপর্যন্ত অনেক শুনেছি, কিভাবে আর্টিফিশিয়াল ইন্টেলিজেন্স ও মেশিন লার্নিং বিশ্বকে পরিবর্তন করে যাচ্ছে এবং কিভাবে ইন্টারনেট অব থিংস (IoT) সকলের জীবনকে গড়ে তুলবে সহজ ও আরামদায়ক। কিন্তু এমন কি একটি জিনিস যা এইসব বিপ্লবী প্রযুক্তিগুলিকে অন্তর্ভুক্ত করে? উত্তরটি হলো ডেটা।

ডেটা সায়েন্সের সম্পূর্ণ প্রক্রিয়া বোঝার জন্য আমরা ক্যাব সার্ভিস প্রোভাইডার উবার (Uber) এর কথা চিন্তা করতে পারি। আমি নিশ্চিত আপনারা প্রত্যেকেই উবারের কথা শুনেছেন এবং অনেকেই ব্যবহার করেছেন। আপনার কি মনে হয়, যা উবার কে একটি মাল্টিবিলিয়ন মূল্যের কম্পানি হিসেবে গড়েছে? এটি কি শুধুমাত্র ক্যাব এর উপযোগিতা? নাকি তাদের সার্ভিস? না, আসলে এখানেও উত্তরটি হলো ডেটা। ডেটা উবারকে সম্পদশালি করছে। কিন্তু ডেটা কি একটি বিজনেস গড়তে যথেষ্ঠ? অবশ্যই না, প্রয়োজনী বিজনেস ইনসাইটস তৈরি করতে ও সমস্যা সমাধান করতে কিভাবে ডেটা ব্যবহার করবেন তা অবশ্যই জানতে হবে। ঠিক এই জায়গাটাতেই আসে ডেটা সায়েন্স।

সহজ কথায়, ডেটা সায়েন্স মূলত ডেটা ব্যবহারের এমন একটি প্রক্রিয়া যা সমস্যার সমাধান বের করার জন্য বা কোনো সমস্যার ফলাফলের পূর্বাভাস দেওয়ার জন্য।

আরো ভালোভাবে ডেটা সায়েন্স বুঝার জন্য, চলুন দেখি আমাদের দৈনন্দিন জীবনে এটি কিভাবে প্রভাবিত করে। ধরুন, একটি রবিবার সকালে, আপনাকে অফিসে মিটিং শুরু হওয়ার আগে যেতে হবে। তাই আপনি খুব দ্রুত ফোনে উবার অ্যাপ ওপেন করলেন এবং ক্যাব খোঁজা শুরু করলেন। কিন্তু সেখানে কিছু একটি অস্বাভবাবিক ব্যাপার আপনি লক্ষ্য করলেন, ক্যাব এর ভাড়া দিনের অন্যান্য সময় থেকে এই সময়ে বেশি। কেন এমন হলো? স্পষ্টত রবিবার সকাল বাছাইকৃত সময় এবং সবাই অফিসেও ছুটে। ক্যাব গুলির উচ্চ চাহিদা ক্যাব গুলির ভাড়া বাড়ায়। আমরা সবাই এইটা জানি। কিন্তু এই সবকিছু কিভাবে বাস্তবায়িত হয়? ডেটা সায়েন্স হলো উবারের এই প্রাইসিং এলগোরিদম সম্পাদানের প্রাণকেন্দ্র। সার্জ প্রাইসিং (Surge Pricing) এলগোরিদম নিশ্চিত করে যে তাদের যাত্রীরা সর্বদা প্রয়োজনে একটি রাইড পায়, এমনকি তখন স্ফীতমূল্যের ব্যয় হলেও। উবার ডেটা সায়েন্স প্রয়োগ করে বের করেন, কোন এলাকায় সবচেয়ে বেশি ও সবচেয়ে ব্যস্ততম কাস্টমার পাওয়া যাবে, যাতে সার্জ প্রাইসিং সক্রিয় করে উক্ত রোডে বেশি ড্রাইভার পেতে পারে। এই উপায়ে এটি যতো বেশি রাইড সরবরাহ করতে পারে ততো বেশি লাভবান হয়। উবারের সার্জ প্রাইসিং এলগরিদম ডেটা সায়েন্স ব্যবহার করে। চলুন দেখি, কিভাবে ডেটা সায়েন্স প্রক্রিয়া সর্বদা বিজনেসের প্রয়োজনীয়তা বা যে সমস্যাটি সমাধান করার চেষ্টা করা হয় তা বোঝার সাথে শুরু করে।

বিজনেসের প্রয়োজনীয়তা (Business Requirement):

ছবিঃ এখানে বিজনেস প্রয়োজনীয়তা হলো ক্যাব প্যাসেঞ্জার

এক্ষেত্রে, বিজনেসের প্রয়োজনীয়তা (Business Requirement) হলো পরিবর্তনশীল প্রাইসিং মডেল তৈরি করা যার কার্যকারিতা হলো যখন একই অঞ্চলে প্রচুর মানুষ একই সময়ে রাইড নেয়ার অনুরোধ করেন

তথ্য সংগ্রহ করা (Data Collection):

ছবিঃ ডেটা সংগ্রহ প্রক্রিয়ার নমুনা

উবার আবহাওয়া, ঐতিহাসিক তথ্য, ছুটির দিন, সময়, ট্রাফিক, রাইড নেয়ার ও ড্রোপের অবস্থানের মতো তথ্য সংগ্রহ করে এবং এগুলির উপর নজর রাখে।

তথ্য বাদ দেয়া (Data Cleaning):

ছবিঃ অপ্রোয়জনীয় তথ্য বাদ দেয়ার নমুনা চিত্র

কখনও কখনও অপ্রয়োজনীয় তথ্য সংগ্রহ করা কেবল সমস্যার জটিলতা বাড়ায়(এখানে মূলত কমপ্লেক্সিটির কথা বলা হচ্ছে; স্পেস ও টাইম কমপ্লেক্সিটি)। একটি উদাহরণ, উবার কাছাকাছি রেস্টুরেন্ট ও ক্যাফের অবস্থানের তথ্য সংগ্রহ করতে পারে। উবারের সার্ভিস বিশ্লেষণের জন্য এইসব তথ্য প্রয়োজন হয় না। সুতরাং, এই ধরনের তথ্য এই ধাপে অপসারণ করতে হবে।

ডেটা এক্সপ্লোরেশন  ও বিশ্লেষণ (Data Exploration And Analysis):

ছবিঃ ডেটা এক্সপ্লোরেশন ও বিশ্লেষণ নমুনা চিত্র

ডেটা অপসারণের পর আসে ডেটা এক্সপ্লোরেশন  ও বিশ্লেষণ (Data Exploration And Analysis)। ডেটা এক্সপ্লোরেশন পর্যায়টি ডেটা বিশ্লেষণের বুদ্ধিদীপ্তের মতো। এখানে আপনি আপনার ডেটার প্যাটার্ন বুঝতে পারেন।

ডেটা মডেলিং (Data Modelling):

ছবিঃ ডেটা মডেলিং প্রক্রিয়ার নমুনা চিত্র

মডেলিং পর্যায়ে মূলত একটি মেশিন লার্নিং মডেল তৈরি করা অন্তর্ভুক্ত থাকে যা উবার সার্জ প্রাইসিং (Surge Pricing) পূর্বাভাস দেয়। এক্সপ্লোরেশন পর্যায়ে সংগৃহীত সমস্ত ইন্সাইটস ও প্রবণতা ব্যবহার করে এই মডেলটি তৈরি করা হয়। মডেলটিকে হাজার হাজার গ্রাহকের রেকর্ড প্রদানের মাধ্যমে প্রশিক্ষণ দেয়া হয়েছে যাতে ফলাফলটি আরও স্পষ্টভাবে অনুমান করতে শিখতে পারে।

ডেটা ভ্যালিডেশন (Data Validation):

ছবিঃ ডেটা ভ্যালিডেশন প্রক্রিয়ার নমুনা চিত্র

এখানে মডেলটি কে পরীক্ষা করা হয় যখন কোনও নতুন গ্রাহক রাইড বুক করেন। নতুন বুকিং এর তথ্য ঐতিহাসিক তথ্যের তুলনা করে সার্জ প্রাইসিং এর কোনো অসঙ্গতি বা ভুল অনুমান রয়েছে কিনা তা পরীক্ষার জন্য। যদি এ জাতীয় কোনো অসঙ্গতিগতি সনাক্ত করা হয়, তবে অবিলম্বে উবারের ডাটা বিজ্ঞানীদের কাছে একটি নোটিফিকেশন প্রেরণ করা হবে যারা সমস্যা সমাধান করেন। এভাবেই কোনো একটি নির্দিষ্ট স্থান ও সময়ের জন্য উবার সার্জ প্রাইসিং অনুমান প্রদান করেন।

ডেটা ডেপলয়মেন্ট ও অপটিমাইজেশন (Data Deployment And Optimization):

ছবিঃ ডেটা ডেপলয়মেন্ট ও অপটিমাইজেশন প্রক্রিয়ার নমুনা চিত্র

 এ ধাপে মডেলটি পরীক্ষা ও দক্ষতা উন্নতির পর সমস্ত ব্যবহারকারীর উপর স্থাপন করা হয়। এই পর্যায়ে গ্রাহকের ফিডব্যাক প্রাপ্ত হয়, যদি কোনো সমস্যা থাকে তা ঠিক করা হয়। এর মাধ্যমে পুরো ডেটা সায়েন্স প্রক্রিয়া সম্পন্ন হয়।

এখন প্রশ্ন আসতে পারে, এখানে তো ডেটা সায়েন্সের সাথে এআই ও মেশিন লার্নিং এর সম্পর্ক বুঝা গেলো না? আপনারা যদি লক্ষ্য করে থাকেন, যখন উবারের ডাটা মডেলিং এর ব্যাপারে বলেছি, সেখানে মেশিন লার্নিং মডেলের কথাও উল্লেখ করা হয়েছে। মেশিন লার্নিং তো পূর্বে আলোচনা হয়েছে, আর যেখানে মেশিন লার্নিং আছে সেখানে ডিপ লার্নিং চলে আসে, চলে আসে নিউরাল নেটওয়ার্কও। সব মিলিয়ে বলা যায়, যখন আপনি মূলত এআই সিস্টেম তৈরি করছেন কিংবা মেশিন লার্নিং নিয়ে কাজ করছেন, সেখানে ডেটা সায়েন্স একটি সাবসেট হিসেবে কাজ করে। আবার যখন আপনি একটি সিস্টেমের ডেটা ডিজাইন ও ডেটা সম্পর্কিত সমস্যা সমাধান করেন অর্থাৎ মূলত ডেটা সায়েন্স নিয়ে কাজ করেন তখন মেশিন লার্নিং একটি ডেটা সায়েন্সের সাবসেট হিসেবে কাজ করে। নিচের ডায়াগ্রামে ডেটা সায়েন্স কে এআই এর সাবসেট বা ইউনিউন সেট হিসেবে দেখানো হয়েছে।

বিঃ এআই, মেশিন লার্নিং, ডেটা সায়েন্স ও বিগ ডেটা; এদের সম্পর্কের ভেনচিত্র

একইরকমভাবে, বিগ ডেটা ডেটা সায়েন্সের একটি টুল হিসেবে কাজ করে বলেই এআই এর সাথেও একই সম্পর্ক বিদ্যমান। চলুন এর সম্পর্কে একটি স্পস্ট ধারণা নিয়ে আজকের আলোচনা শেষ করি।

বিগ ডেটাঃ

বিগ ডেটা হলো ডেটা সংগ্রহের জন্য একটি বৃহৎ ও জটিল ব্যবহৃত পরিভাষা যা অনহ্যান্ড ডাটাবেস সিস্টেম সরঞ্জামগুলি বা ঐতিহ্যগত ডেটা প্রসেসিং সিস্টেম ব্যবহার করে প্রক্রিয়া করা কঠিন। বিগ ডেটা শুনলেই বুঝা যায় অনেক বড় ডেটা নিয়ে এর কাজ। তবে কত বড়? এর প্রয়োজনই বা কি? চলুন আগে ডেটা ইউনিট গুলি দেখি, অন্যথায় এর বাস্তব প্রভাব ও সুবিধা বোধগম্য নাও হতে পারে।

ছবিঃ আমাদের চারপাশে ছড়িয়ে ছিটিয়ে অসংখ্য ডেটা

ডেটা সংগ্রহ কিংবা ডেটা সাইজ বুঝার জন্য সবচেয়ে ক্ষুদ্র যে একক ব্যবহার করা হয় তাহলো বিট(Bit)। বিট হলো ডেটার বাইনারি তে রূপান্তরিত প্রত্যেকটি  0 ও 1 এর সিগনাল। এরকম 8 টি বিট কে একত্রে একটি বাইট(Byte) বলে।

1 Byte = 8 bits

1 Kilobyte (KB) = 1,024 Bytes; বিঃদ্রঃ 1Kb = 1 kilobits

1 Megabyte (MB) = 1,024 KB = 1,048,576 Bytes

1 Gigabyte (GB) = 1,024 MB = 1,073,741,824 Bytes

1 Terabyte (TB) = 1,024 GB = 1,099,511,627,776 Bytes

1 Petabyte (PB) = 1,024 TB = 1,125,899,907,962,624 Bytes

1 Exabyte (EB) = 1,024 PB = 1,152,921,505,191,102,976 Bytes

1 Zettabyte (ZB) = 1,024 EB = 1,180,159,621,004,586,471,424 Bytes

1 Yottabyte (YB) = 1,024 YB = 102,892,582,000,110,075,314,236 Bytes

1 Exabyte ঠিক কত বড় এর ধারণা নেয়াই অনেক কষ্ট সাধ্য, বাকি গুলো নিয়ে চিন্তা তো দূরের কথা। কিন্তু আপনি যদি একজন স্মার্টফোন ইউজার হন, তাহলে আপনি নিজেই আপনার ফোনের মাধ্যমে প্রতি মাসে প্রায় 40 Exabytes ডেটা জেনারেট করেন। এখন ভেবে দেখুন, 5 Billion স্মার্ট ফোন ইউজার প্রতি মাসে কত ডেটা জেনারেট করে? ঠিক এই ধরনের বৃহৎ ডেটা ভাণ্ডার সাধারণ কম্পিউটার ডেটাবেজ সামলাতে পারে না। আর এইসব ডেটা কে বিগ ডেটা তে কাউন্ট করা হয়। এবার ভেবে দেখুন, প্রতি মিনিটে ইন্টারনেটে কত পরিমাণ ডেটা জেনারেট হয়? প্রতি মিনিটে প্রায় 1.0 Million ফেসবুক ইউজার এক্টিভ থাকে, প্রতি মিনিটে প্রায় 3.8 Million সার্চ কুয়েরি Google এ হয়ে থাকে, প্রতি মিনিটে প্রায় 2.1 Million snaps স্ন্যাপ চ্যাটে শেয়ার হয়, প্রতি মিনিটে প্রায় 4.5 Million ভিউয়ার্স Youtube এ থাকে, প্রতি মিনিটে প্রায় 188 Million emails আদান-প্রদান হয়। এইগুলো একেকটি ডেটার পাহাড়।

তাহলে ডেটা কে কিভাবে বিগ ডেটা শ্রেণীভুক্ত করা হয়?

ছবিঃ বিগ ডেটা প্রসেসিং এর 5V’s Concept এর নমুনা চিত্র

এই শ্রেণীভুক্ত করণের জন্য ডেটা কে 5 টি প্যারামিটারি বিবেচনা করা হয়। এই প্যারামিটার সমূহকে একতে 5V’s বলা হয়। আলোচনার সুবিধার্থে একটি হেলথকেয়ার ইন্ডাস্ট্রি কে নিয়ে চিন্তা করা যাক, হাসপাতাল, ক্লিনিক ও মেডিকেল সমূহ সারা বিশ্বজুড়ে বৃহৎ ডেটা ভাণ্ডার জেনারেট করে। ডেটা ভাণ্ডার কে বিগ ডেটার Volume প্যারামিটারে বিবেচনা করা হয়। সারা বিশ্বে সকল হেলথকেয়ার সমূহ একত্রে বছরে প্রায় 2,314 Exabytes ডেটা জেনারেট করে। রোগীর রেকর্ডস ও টেস্ট রেজাল্ট খুব হাই স্পিডে জেনারেট ও আদান প্রদান হয়, একে বিগ ডেটার Velocity প্যারামিটারে বিবেচনা করা হয়। এইসকল ডেটা সমূহের অবশ্যই একটি ধরণ থাকে, যেমনঃ কাঠামোগত (Structured) ডেটা, অকাঠামোগত (Unstructured) ডেটা এবং অর্ধকাঠামোগত (Semi-structured) ডেটা হয়ে থাকে। কাঠামোগত ডেটা যেমনঃ এক্সেল শিট ডেটা, অকাঠামোগত ডেটা যেমনঃ এক্স-রে ইমেজ সমূহ এবং অর্ধকাঠামোগত ডেটা যেমনঃ লগ ফাইল ডেটা। এই ডেটার ধরণ কে বিগ ডেটার Variety প্যারামিটারে বিবেচনা করা হয়। ডেটা সমূহের সঠিকতা (Accuracy) এবং বিশ্বাসযোগ্যতা ( Trustworthiness) এর উপর ভিত্তি করে একে বিগ ডেটার Veracity প্যারামিটারে বিবেচনা করা হয়। একটি হেলথকেয়ারের রোগ নির্ণেয়, রোগ নিরাময় ও খরচ এর ডেটা সমূহের বিবেচনা করে এগুলিকে বিগ ডেটার Value প্যারামিটারে রাখা হয়। কিন্তু কিভাবে এই বিগ ডেটা কে প্রসেস ও স্টোর করা হয়? এই কাজ গুলো করতে বিগ ডেটা এনালিস্টস বিভিন্ন ফ্রেমওয়ার্ক ব্যবহার করেন। যেমনঃ Cassandra, Hadoop ও Spark। বিগ ডেটা এনালিস্টস একটি ফ্রেমওয়ার্কে ডিস্ট্রিবিউটেড ফাইল সিস্টেম তৈরি করে বিগ ডেটা কে একাধিক ডিভাসে প্রয়োজনে একাধিক ফাইল তৈরি করে ছোট সাইজে স্টোর করে রাখেন। একটি ডিভাউস বিগ ডেটা নিয়ে কাজ করতে গেলে সময়ের ও স্পেসেরও জটিলটা বেড়ে যায়, এজন্য একাধিক ডিভাইস কাজ গুলো কে মাল্টি টাস্কে ভাগ করে প্যারালাল প্রসেসে কাজ শেষ করে রেজাল্ট বের করে। এভাবে অকাঠামোগত ডেটা কে কাঠামোগত করে প্রসেস করাই বিগ ডেটা এনালিস্টদের কাজ। এই processed বিগ ডেটা কে ডেটা সায়েন্টিস্ট ইউজারের বিভিন্ন অ্যাপের উপর প্রয়োগ করে, যেন ইউজার ইন্টারফেজ (Ui & Ux) ডিজাইনে ইউজারের চাহিদার যোগান দিতে পারে। এছাড়াও বিগ ডেটার মাধ্যমে এআই সিস্টেম তৈরি করে আবহাওয়া অধিদপ্তর সহজে অনুমান করতে পারেন ভবিষ্যত আবহাওয়া সম্পর্কে। প্রকৃতপক্ষে, বিগ ডেটা, ডেটা সায়েন্টিস্টদের একটি হেল্পিং টুল।

ডেটা সায়েন্স প্রয়োগ করেই, ক্রেডিট কার্ড ফ্রড ডিটেকশন, ভার্চুয়াল এসিস্ট্যান্ট (alexa, siri, google assistant) গুলিকে ট্রেইন্ড করা হয়। ধরুন, আপনি amazon এ সুজ (Shoes) কেনার জন্য দেখলেন কিন্তু কিনলেন না, কিন্তু ফেসবুক ওপেন করে দেখলেন সাজেশনে বা রিকমেন্ডেশনে সুজ এর অ্যাড দেয়া হচ্ছে। এইটা কিভাবে হলো? এইটা কোনো কাকতালীয় ঘটনা নয়; গুগোল আপনার সার্চ কুয়েরি ট্র্যাক করে এবং আপনার সার্চ হিস্ট্রি অনুযায়ী অ্যাডস রেকমেন্ডস করে। এটি কে ডেটা সায়েন্সের অসাধারণ একটি প্রয়োগ বলাই যায়, কেননা প্রকৃতপক্ষে, তাঁরা ইউজারের সুবিধা কে বেশি প্রাধান্য দেয় ।

কৃত্রিম বুদ্ধিমত্তা ও অন্যান্য প্রযুক্তিগত বিদ্যার চর্চা বাংলাদেশের প্রেক্ষাপটেও বেড়েই চলেছে। বিভিন্ন বিশ্ববিদ্যালয়ের বিভিন্ন বিভাগে সিলেবাসের সাথে অন্তর্ভুক্ত হচ্ছে। আর বিশ্বজুড়ে অটোমেশনের চাহিদা যে হারে বেড়ে চলছে, এআই এর কদর বাড়ার সাথে সাথে এর সাথে সম্পর্কিত প্রযুক্তি গুলোর কদরও কোনো দিক দিয়ে কম নয়। এখন বাংলাদেশেও এই সংক্রান্ত বিভিন্ন ওয়ার্কশপ, সেমিনার ও এক্সিবিশন আয়োজিত হয়ে থাকে, সেসবে অংশ নিয়েও চাইলে আগ্রহের জায়গাটুকু আরও শক্ত করা যেতে পারে। তাছাড়া, ভালো লাগার বিষয়ে জ্ঞান থাকা উচিত পাঠ্য সূচির বাইরেও। প্রযুক্তি নিয়ে বাড়তি পড়াশুনা অবশ্যই নিজের জ্ঞান কে একধাপ এগিয়ে রাখবে।

Happy Learning!

লিখেছেনঃ মোহাম্মদ রুবেল দেওয়ান

ছদ্মনামঃ রাহ্সান

RedLive

Related post