> Artificial Intelligence কি?
কৃত্রিম বুদ্ধিমত্তা হলো অনুমান, সংশ্লেষণ ও তথ্য অনুসন্ধান, যা মেশিনের সাহায্যে প্রদর্শিত হয়ে থাকে, মানুষ ও অন্যান্য প্রাণীদের বিপরীতে। অন্যভাবে বলা যায় যে, কম্পিউটার সিস্টেমের তত্ত ও বিকাশের ফলে যদি এটি এমন কাজ করতে সক্ষম হয়, যাতে বুদ্ধিমত্তার প্রয়োজন হয়ে থাকে, তবেই তাকে কৃত্রিম বুদ্ধিমত্তা বলা যায়।[1]
আমাদের দৈনন্দিন ইন্টারনেট জীবনে মুলত এর অনেক ব্যবহার ছড়িয়ে ছিটিয়ে আছে। আপনারা কেউ হয়তোবা Voice Typing করেন। আপনি কি জানেন, এটি কিভাবে কাজ করে?
অনেক দেশে এখন রাস্তায় রাস্তায় Computer Vision সক্ষম ক্যামেরা বসানো হয়েছে। এতে জনগণের কঠোর নিরাপত্তা নিশ্চিত করা যাচ্ছে। আপনি কি কখন ভেবে দেখছেন কি, যে এগুলো কিভাবে কাজ করে?
খুব সম্প্রতি বিশেষ একটি মডেলের মাধ্যমে নিজের সামনের অংশের ছবি দিয়ে পুরো দেহের একটি আনুমানিক 3D Model তৈরি করা সম্ভব হয়েছে। কিন্তু সেটা কিভাবে এই কাজ টা করে?
আজকাল ChatGPT ও Midjourney AI বট দিয়ে অনেক কিছু করা যাচ্ছে। আপনি কি জানেন, এগুলো আসলে কিভাবে কাজ টা করে থাকে?
জি, হ্যাঁ। আজকে আমরা মুলত এরকম সব আকর্ষণীয় বিষয় নিয়ে আলোচনা করতে যাচ্ছি। চলেন হাতেখড়িতে যাওয়া যাক…
> মেশিন লার্নিং কি?
মেশিন লার্নিং হলো অনুসন্ধান বিষয়ক এমন একটি ক্ষেত্র, যা বোঝার ও মেশিন তৈরিতে নিবেদিত। যা কোনো কিছু ‘শিখতে’ সক্ষম, অর্থাৎ, কিছু নির্দিষ্ট পদ্ধতিতে তার কর্মদক্ষতা বাড়ানোর জন্য ডাটা ব্যবহার করে।[2]
শুরু করি, সরলতম বিষয় নিয়ে, গণিত এ যেমন অঙ্ক করতে যোগ-বিয়োগ, গুণ-ভাগ জানা থাকতে হয়, তেমনই মেশিন লার্নিং এর জন্য জানতে হয় কিছু মৌলিক বিষয়।
ধরে নেন, আপনি কোনো নতুন শহরে গেলেন বাসার খোজ করতে। সেখানে আপনি ধরেন, অনেকগুলো বাড়ির তথ্য যোগাড় করলেন। তারপর আপনি কিন্তু আনুমানিক একটা ধারণা করতে পারবেন, যে এই শহরে বাড়ির দাম কেমন।
এবার চলুন, দেখি আমরা কিভাবে এই কাজটা কম্পিউটার এর সাহায্যে করতে পারি। আপনি ধরেন বাড়ির তলার ভিত্তিতে দাম হিসাব করবেন। এজন্য আপনি গ্রাফ এ x অক্ষ বরাবর তলার সংখ্যা আর y অক্ষ বরাবর দাম নিলেন। তার পর আপনি যদি বিন্দু দিয়ে ডাটাগুলো গ্রাফ এ বসান, তাহলে কিছুটা মনে হবে যেন, একটা কাগজে অনেকগুলো বিন্দু ছড়িয়ে ছিটিয়ে আছে। আপনি কি জানেন, কম্পিউটারকে এখন কি করতে হবে? কম্পিউটার এখন এই বিন্দুগুলোতে কোনো একটি function এ fit করানোর চেষ্টা করবে। এখানে আপনার কম্পিউটার মুলত এখানে চলক গুলো সহগ (co-efficient) ও ধ্রুব পদ (constant) এর মান বের করবে। একটু চিন্তা করে দেখেন, আপনি একটি সরলরেখা এই গ্রাফ এ fit করাতে চাচ্ছেন। আপনি লক্ষ করলেন যে এইটা পুরোপুরি সম্ভব হচ্ছে না। এখন এখানে আপনাকে বের করতে হবে যে এই সরলরেখা এর কোন সহগ (co-efficient) ও ধ্রুব পদ (constant) এর জন্য সবচেয়ে কম ত্রুটি আসছে। (আমরা এখানে গাণিতিক কিছু দেখালে আরো ভালো বোঝা যেতে পারত, কিন্তু সেটা আপাতত দেখাচ্ছি না। সেটা জানতে রেফারেন্স দেখতে পারেন।) তো কম্পিউটার মুলত এই কাজ তাই করবে, বারবার একটা একটা করে দেখবে। তারপর যেটাতে সবচেয়ে কম ত্রুটি আশবে, সেটি আপনাকে জানাবে। এবার আপনি দেখুন তো, ১০০ তলা বাড়ির ভাড়া কত হতে পারে? (function এ সহগ ও ধ্রুব পদ বসিয়ে চলক এর মান ১০০ বসালে যেই মান পাবেন, সেটাই হলো ভাড়ার পরিমাণ)[3]
এতক্ষণ ধরে আপনারা যা পড়লেন, তা হলো Linear Regression, অর্থাৎ অনেকাংশে সরলতম মেশিন লার্নিং এর উদাহরণগুলোর মধ্যে একটি।
বাস্তবিক ক্ষেত্রে এখানে বিষয় গুলো আরো অনেক কমপ্লেক্স হয়ে থাকে। ধরেন আপনার তথ্য একদিকে কেন্দ্রিভূত আছে, কিংবা ধরেন range অনেক বেশি, সেজন্য বিভিন্ন ধরনের Normalization ব্যবহার করা হয়, যেগুলো নিয়ে আপনারা একটু ঘাটাঘাটি করলেই পেয়ে যাবেন। আর সেখানে এই সরল জিনিসকে কাজে লাগিয়ে জটিল অনেক কাজ করে থাকে। এবং এভাবে ক্রমাগত চেষ্টা করার মাধ্যমে এটি নিজেকে অনুশীলন করায় (ভালো ফলাফলের জন্য আরও বেশি চেষ্টা করে ভালো ফলাফল আনে)।[4]
তো এবার আসা যাক সেই প্রশ্নগুলোতে?
> Voice Typing প্রযুক্তির অভ্যন্তরে
প্রথমেই বলতে হবে, হ্যাঁ, এটি মেশিন লার্নিং এর-ই একটি উদাহরণ।
কিন্তু কিভাবে?
আসলে আমরা যখন কথা বলি তখন আমাদের কথার তরঙ্গকে বিশ্লেষণ করে কম্পিউটার। এটি আপনার কথার বিস্তার সহ অন্যান্য তরঙ্গ ধর্মের বিচারে তার জানা অন্য অক্ষরগুলোর তরঙ্গ ধর্মের সাথে মিলিয়ে দেখে। এভাবে কম্পিউটার যেটিকে সবচেয়ে ভালো ও উপযুক্ত মনে করে, সেটিকে আপনার সামনে text হিসেবে দেখায়।[5, 6] এজন্য দেখেবেন translate.google.com এ কোনো অনুবাদ দেখলে আপনাকে মাঝে মাঝে একাধিক অপশন দেখায়, ক্লিক করলে।
> Computer Vision: প্রযুক্তির আশ্চর্য
ভাবতেই অবাক লাগে! কম্পিউটার কিনা কোনো মানুষ কিংবা যেকোনো কিছু দেখে চিনতে পারে যে, সে কে। তাহলে কি ছোটবেলায় আমরা ভুল পড়েছিলাম? না, বরং, কম্পিউটার আসলেই 0, 1 ছাড়া কিছুই বুঝে না। আসলে এসবের মুলেও রয়েছে হিসাবনিকাশ। এটিও এক দিক দিয়ে মেশিন লার্নিং এর-ই উদাহরণ।
আসলে, এ সময় কম্পিউটার সেই ছবিটির প্রতিটি পিক্সেল এর বিশ্লেষণ করে, তার ভিত্তিতে অনেক ধাপে সর্বশেষে বস্তুটি হওয়ার সম্ভাবনা জানায়। মুলত Computer Vision এভাবে কাজ করে থাকে। অর্থাৎ কোনো ছবির পিক্সেলসমূহের পারস্পরিক হিসাবনিকাশ ও বিশ্লেষণ করার মাধ্যমে সবশেষে ছবিটির বিশ্লেষণের ফলাফল জানায়।[7]
> PiFuHD: নিজের 3D Model তৈরি মাত্র একটি ছবি দিয়ে
এখন আমাদের সবচেয়ে কঠিন বিষয় হলো এটি। কেননা এতক্ষণে অনেক ছোটোখাটো বিষয় থেকে এখন অনেক বড় বিষয়ে আলোচনা করতে যাচ্ছি। আসলে এখানে কোনো মানুষ দেহের কোনো জায়গায় কি কি বিশেষ এলাকা থাকতে পারে, সেই ভিত্তিতে 3D Model তৈরি করে। আসলে এসব কাজে অনেক ভালো মানের হার্ডওয়্যার প্রয়োজন হয় (একেকটি ক্ষুদ্র ধাপে বারবার বড় হিসাবনিকাশ হয়ে থাকে, এজন্য)। এই ক্ষেত্রে এখনো অনেক পিছিয়ে আছে বর্তমানের হার্ডওয়্যার। এজন্য এখনো এই পদ্ধতিতে খুব সূক্ষ্ম ত্রিমাত্রিক মডেল পাওয়া সম্ভব হয়নি। আসলে এই পদ্ধতিতে Deep Learning ও Machine Learning এর অনেক গভীর বিষয়াবলি ব্যবহৃত হয়ে থাকে।[8] এই Machine learning Model সম্পর্কে আরও জানতে ‘PiFuHD’ লিখে গুগল করে দেখতে পারেন।
> ChatGPT: বিস্ময়কর ভার্চুয়াল চ্যটবট
খুব সাম্প্রতিক সময়ে সোশ্যাল মিডিয়াতে এটি বেশ তাক লাগিয়ে দিয়েছে। মুলত OpenAI এটি রিলিজ করে। মজার বিষয় হলো, এই বট কে আপনি যা জিজ্ঞেস করবেন, সে তার-ই উত্তর দিতে সক্ষম (ভুল বলার সম্ভাবনাও আছে কিন্তু!)। আপনি যদি তাকে বলেন কোনো কিছু কোড করে দিতে, তাহলে ও সেটাও পারবে। আপনি কি জানেন, এটি কিভাবে কাজ করে?
মূলত, মেশিন লার্নিং এর একটি অংশ হলো, ‘Reinforcement Learning’। ইতোমধ্যে আমাদের দেয়া উদাহরণ গুলোতে এটির ব্যবহার রয়েছে। অর্থাৎ এইটি দ্বারা ChatGPT মূলত আমাদের প্রশ্নগুলোকে ব্যবহার করে নিজের আরও উন্নতি করে এবং আমাদের ফলাফল দেয়। মূলত এখানে প্রাথমিকভাবে GPT-3 মডেল ব্যবহৃত হয়েছে, যা এই ‘Reinforcement Learning’ এর মাধ্যমে আরও উন্নত হয়ে আমাদের কে এরকম উত্তর দিচ্ছে।[9]
ChatGPT এর সাথে কথোপকথনের কিছু ছবিঃ
[ছবিঃ [original.png (655×422) (theatlantic.com)](https://cdn.theatlantic.com/thumbor/aOD0o3WKgIZblV2BuKOSdZ3FuWQ=/0x0:1600x1032/655x422/media/img/posts/2022/12/part_1/original.png)]
)
[ছবিঃ [chatgpt-explaining-the-header-format-of-ipv6.jpg (640×378) (beebom.com)](https://beebom.com/wp-content/uploads/2022/12/chatgpt-explaining-the-header-format-of-ipv6.jpg?w=640)]
> Midjourney AI: যেকোনো ধরণের ছবির কৃত্রিম উৎস
আপনি কি কখনো ভেবে দেখেছেন কি, যে আপনি যে রকম ছবি চাচ্ছেন, কেউ আপনাকে ঠিক সেইরকম ছবি দিচ্ছে? হ্যাঁ, Midjourney AI সেটিকে বাস্তবে রূপ দিয়েছে। কিন্তু, এটি কিভাবে কাজ করে?
মূলত, আপনি যদি এইটিকে কোনো কিছুর ছবি দেখাতে বলেন, তাহলে সেটি আপনার লেখাগুলোকে বিশ্লেষণ করবে, এবং একে ছবিতে রূপ দিবে। এজন্য এটি প্রতিটি শব্দকে এটি ব্যবহার করবে, এবং সর্বশেষ এগুলর সমন্বয় করে আপনাকে কয়েকটি ছবি দেখাবে। বর্তমানে এটি Discord এর একটি বট দিয়ে একে এক্সেস করা যায়। আপনিও চাইলে এটি ট্রাই করে দেখতে পারেন।[10, 11]
Midjourney AI কর্তৃক প্রস্তুতকৃত কিছু ছবিঃ
[ছবিঃ [grid_0.png (1024×1024) (midjourney.com)](https://cdn.midjourney.com/fd2b4a88-5cde-4c2c-ad1a-60bd5de2d749/grid_0.png)]
[ছবিঃ [grid_0.png (512×512) (midjourney.com)](https://cdn.midjourney.com/edb5160d-a19b-41e5-bc58-d25b66887864/grid_0.png)]
> সবশেষে…
আসলে আমাদের এই আর্টিফিশিয়াল ইন্টেলিজেন্সের পরিধি শুধু মেশিন লার্নিং না। এটির পরিধি অনেক বিস্তৃত। কেননা বুদ্ধিমত্তা নানা Pattern সহ আরও অনেক কিছু ব্যবহার করে থাকে, যেটি সবক্ষেত্রে মেশিন লার্নিং নাও হতে পারে। কিন্তু যত প্রযুক্তির উন্নতি হচ্ছে আমাদেরকে এগুলোর ব্যবহার সম্পর্কে আরও সচেতন হতে হবে। এবং এর ভালো দিকগুলোর ব্যবহারের মাধ্যমে আমরা ইন-শা-আল্লাহ একে মানুষের (বিশেষত প্রতিবন্ধীদের) আরোও অনেক উপকারে আনতে কাজ চালাবো।
Sources:
1. [Artificial intelligence - Wikipedia](https://en.wikipedia.org/wiki/Artificial_intelligence)
2. [Machine learning - Wikipedia](https://en.wikipedia.org/wiki/Machine_learning)
3. [Supervised Machine Learning: Regression and Classification | Coursera](https://www.coursera.org/learn/machine-learning)
4. [Reinforcement learning - Wikipedia](https://en.wikipedia.org/wiki/Reinforcement_learning)
5. [What is Speech to Text? - Transcription Beginner's Guide - AWS (amazon.com)](https://aws.amazon.com/what-is/speech-to-text/)
6. [Deep Reinforcement Learning for Text and Speech | Request PDF (researchgate.net)](https://www.researchgate.net/publication/333687534_Deep_Reinforcement_Learning_for_Text_and_Speech)
7. [But what is a neural network? | Chapter 1, Deep learning - YouTube](https://www.youtube.com/watch?v=aircAruvnKk&themeRefresh=1)
8. [facebookresearch/pifuhd: High-Resolution 3D Human Digitization from A Single Image. (github.com)](https://github.com/facebookresearch/pifuhd)
9. [ChatGPT: The Most Advanced AI Chatbot in 2022](https://chatgpt.pro/)
10. [How Do DALL·E 2, Stable Diffusion, and Midjourney Work? - MarkTechPost](https://www.marktechpost.com/2022/11/14/how-do-dall%C2%B7e-2-stable-diffusion-and-midjourney-work/)
11. [Midjourney](https://www.midjourney.com/)
_________________
বানান ভুলের জন্য দয়া করে মাফ করবেন
কোনো তথ্য ভুল হলে জানাবেন।
Writer: Mohammad Kamrul Hasan