বিগ ডেটা (Big Data):
বিগ ডেটা হ’ল একটি বাক্যাংশ যা কাঠামোগত এবং কাঠামো ছাড়া উভয় তথ্যের বৃহৎ পরিমাণ বোঝাতে ব্যবহৃত হয় যা এত বড় যে, পুরাতন ডাটাবেস এবং সফ্টওয়্যার কৌশলগুলি ব্যবহার করে প্রক্রিয়া করা কঠিন। বেশিরভাগ ক্ষেত্রে দেখা যায় – এখানে ডেটার পরিমাণ অনেক বেশি থাকে যা অতি দ্রুত পরিবর্তনশীল যা কারেন্ট প্রসেসিং ক্ষমতাকে অতিক্রম করে। বিগ ডাটার বৈশিষ্ট্যগুলোকে অনেকেই 3V দ্বারা প্রকাশ করেন। এই 3V দ্বারা Volume, Velocity এবং Variety বোঝায়। Volume দ্বারা ডাটার পরিমাণ বোঝায়। কোন ডাটা সেটকে ‘বিগ ডাটা’ বলার জন্য ঠিক কি পরিমাণ ডাটা প্রয়োজন তার কোন নির্দিষ্ট সীমা নির্ধারণ করা হয়নি। অর্থাৎ বিগ ডাটা যেকোনো পরিমাণের বা সাইজের হতে পারে। তবে সাধারণত টেরাবাইট (১০১২ বাইট), পেটাবাইট (১০১৫ বাইট), এমনকি এক্সাবাইট (১০১৮ বাইট) পরিমাণ ডাটার সমষ্টিকে বিগ ডাটা বলা হয়। Variety বলতে বিগ ডাটায় উপস্থিত ডাটার বিভিন্ন টাইপ বা ধরন বোঝায়।
অনেকে 3V এর সাথে আরো দুটো V যোগ করেন –Veracity এবং Validity. বিগ ডাটা থেকে প্রাপ্ত তথ্য সাধারণত ব্যবসাক্ষেত্রে সিদ্ধান্ত গ্রহণের মত গুরুত্বপূর্ণ কাজে লাগানো হয়। কিন্তু সংগৃহীত সকল ডাটা কি বিশ্বাসযোগ্য বা বাস্তবসম্মত হয়? অনেক সময় এমন ডাটা পাওয়া যায় যাতে অপ্রয়োজনীয় তথ্য বা “নয়েজ” বেশি থাকে। আবার এমন ডাটাও থাকে যার নিরপেক্ষতা প্রশ্নবিদ্ধ। এ ধরনের নয়েজযুক্ত ডাটাকে বিগ ডাটার ভাষায় বলা হয় Veracity. ডাটার মাঝে নয়েজ যত কম থাকে সেটা আমাকে সঠিক সমাধান দিতে তত বেশি সক্ষম হবে।
মেশিন লার্নিং (Machine Learning):
যে মেশিন বা কম্পিউটার প্রোগ্রাম যা নিজে থেকে কোন কিছু শিখতে পারে এবং প্রয়োজনের সময় সিদ্ধান্ত নিতে পারে তাকে মেশিন লার্নিং বলে। অর্থাৎ এইখানে যেকোনো এপ্লিকেশন বা সফটওয়্যার এমন ভাবে তৈরি করা হয় যে তার এই প্রোগ্রামে কোনরকম হস্তক্ষেপ ছাড়াই নতুন কিছু শিখতে পারে এবং সেই ডেটা সম্পর্কিত তথ্যের পূর্বভাস দিতে পারে। বর্তমান যুগে প্রয়োজনীয় তথ্যপ্রযুক্তি দক্ষতার ক্ষেত্রে ওপরের দিকেই রয়েছে মেশিন লার্নিং বা এমএল-বিষয়ক দক্ষতা। বিশেষজ্ঞরা বলছেন, ভবিষ্যতে মেশিন লার্নিং ও আর্টিফিশিয়াল ইনটেলিজেন্সের মতো বিষয়গুলোতে অমিত সম্ভাবনা রয়েছে। তাই এ ধরনের প্রযুক্তি খাতে দক্ষতা অর্জন করা জরুরি।
এ ধরনের প্রযুক্তি আমাদের অজ্ঞাতসারে জীবনকে সহজ করে তুলছে। আমরা এ ধরনের প্রযুক্তির ওপর নির্ভরশীল হয়ে উঠছি। উদাহরণ হিসেবে বলা যায়, আপনি যখন ফোনে ভয়েস কমান্ড দেন বা ইন্টারনেট ছবির খোঁজ করতে বলেন, মেশিন লার্নিং আপনার চাহিদা অনুযায়ী ফল দেখাতে পারে।
বিগ ডেটা এবং মেশিন লার্নিং এর মধ্যে পার্থক্যঃ
বিগ ডেটা এবং মেশিন লার্নিং দুটি বিভিন্ন কাজ করতে এবং বিভিন্ন উদ্দেশ্যে ব্যবহৃত হয়, তাদের মধ্যে কিছু প্রধান পার্থক্য নিম্নে আলোচনা করা হয়েছে-
১. বিগ ডেটা হচ্ছে মেসারম্যান্ট ডেটা সেট যা মোটামুটি বেশ বড় এবং কমপ্লেক্স। এই ধরণের ডেটা সাধারণভাবে সংগ্রহ করা, স্টোর করা, এবং ব্যবহার করা হয় তাতে ব্যবহারকারীর সম্পর্কে বিভিন্ন ধরনের তথ্য প্রাপ্ত করা হতে পারে, যেমন ই-কমার্স সাইটে ক্রেতাদের ক্রয় ইতিহাস বা সোশ্যাল মিডিয়া সাইটে ব্যবহারকারীদের পোস্ট। অন্যদিকে, মেশিন লার্নিং একটি কৌশল যা সমস্যা সমাধানের জন্য কম্পিউটারের শেখানো হয়। এটি ডেটা থেকে বৈশিষ্ট্য শিখতে এবং সমস্যা সমাধানে সাহায্য করে।
২. বিগ ডেটা সাধারণভাবে বৃহত ডেটা সেটের সংগ্রহ, স্টোর, এবং প্রক্রিয়াজাত করতে ব্যবহার হয়, যা ডেটা ইনজিনিয়ারিং বা ডেটা প্রিপ্রসেসিং স্টেপে সাধারণভাবে হয়। অন্যদিকে, মেশিন লার্নিং মডেলের শিখানোর জন্য ডেটা প্রসেসিং অধিক গভীর এবং বৈশিষ্ট্য নির্ধারণ করার জন্য একটি প্রক্রিয়া। এটি ডেটা ফিচার ইঞ্জিনিয়ারিং, ফিচার স্কেলিং, এবং ডেটা সাইকাস্ট প্রয়োগ করতে পারে, যাতে মডেল সঠিকভাবে কাজ করতে পারে।
৩. বিগ ডেটা বৃহত ডেটা সেট থেকে সম্পর্কে জ্ঞান প্রাপ্ত করতে ব্যবহৃত হয়, যেটি স্থির বা পর্যাপ্ত প্রমাণের ডেটা থাকতে পারে। এটি ধর্মীয় বিশ্লেষণ, ট্রেন্ড বোঝার জন্য এবং ব্যবসায়িক নির্ধারণে ব্যবহৃত হতে পারে। অন্যদিকে, মেশিন লার্নিং মডেল তথ্য দেওয়া হয় তাতে মডেল একটি নির্দিষ্ট কাজ সম্পাদন করতে পারে, উদাহরণস্বরূপ চিত্র শ্রেণীকরণ, ভাষারূপ প্রদিত অনুভাগ বা প্রেডিকশন।
৪. বিগ ডেটা সাধারণভাবে অনেক বড় হওয়া সাথে সংগ্রহিত ডেটার মান সাধারণভাবে জনপ্রিয় নয়, কারণ এটি ডেটা সংগ্রহের সাথে সম্পর্কিত অনেক সময় এবং শ্রম প্রয়োজন করে। অন্যদিকে, মেশিন লার্নিং মডেল অক্যারেট হতে হলে ডেটা এবং মডেলের সঠিক প্রশিক্ষণ প্রদান করতে হয়, এবং এটি প্রায়শই প্রশিক্ষণ সেট এবং পরীক্ষা সেটের মধ্যে মৌলিক মানের সাথে তুলনা করা হয়।