বর্তমানে আমরা কমবেশি সবাই দৈনন্দিন জীবনে প্রযুক্তির উপর নির্ভর করে থাকি। প্রতিনিয়ত প্রযুক্তি আমাদের জীবনধারা সহজ করে দিচ্ছে। কোনো এক বিকেলের দখিনা বাতাসে বারান্দায় বসে মনে হলো, পুরনো দিনের একটা গান শুনি। হাতের কাছে মোবাইলটি নিয়ে ইউটিউবে গানটি সার্চ করতেই চলে আসলো। সেইসাথে আরও অনেক গান চলে আসলো, যেগুলোও প্রিয় গানের তালিকায় রয়েছে। কিংবা হঠাৎ বার্গার খেতে ইচ্ছে করলো আর তক্ষুনি ফেসবুকের নিউজফিডে ফুডপান্ডার বার্গারের উপর ধামাকা অফারের এড চলে আসলো। এরকম আরও অহরহ ঘটনা আমাদের সাথে প্রতিনিয়ত হচ্ছে প্রযুক্তির কল্যাণে। এই যে আমরা পার্সোনালাইজড সার্ভিস পাচ্ছি এটা কিন্তু শুধু ডাটার উপর নির্ভর করে হচ্ছে। আমরা যেখানেই থাকি না কেন ডাটার ব্যবহার সব জায়গায় রয়েছে। ডাটার ব্যবহার প্রতি বছর দ্বিগুন হারে বেড়েই চলেছে এবং ডাটার ব্যবহার বাড়ার সাথে সাথেই ডাটা জেনারেশন রেটও কয়েক গুন বেড়ে গিয়েছে। ডাটার গ্রোথ রেট সম্পর্কে IBM তাদের একটি রিপোর্ট বলেছে, ২.৫ বিলিয়ন গিগাবাইট ডাটা প্রতিদিন তৈরী হয়েছিলো ২০১২ সালে। ডাটার জেনারেশন এত বেশি যে , ফোর্বস তাদের একটি আর্টিকলে দেখিয়েছেন, ২০২০ সালে প্রতিটি মানুষ প্রতি সেকেন্ডে ১.৭ মেগাবাইট ডাটা তৈরী করেছিলো।
আমাদের আজকের আলোচনার বিষয় বিগ ডাটা (Big Data)। বিগ ডাটা হচ্ছে প্রচুর পরিমাণ তথ্য বা ডাটা, যা বড় বড় কোম্পানি কর্তৃক ব্যবহৃত ও সংরক্ষিত হয়ে থাকে। বিগ ডাটার তথ্যের কোনো মাপদণ্ড নেই। বিগ ডাটার তথ্যেগুলোর নির্দিষ্ট কোনো পরিমাণ নেই। বিগ ডাটা হল এমন এক ডাটাসেট যা সচরাচর ব্যবহারের জন্য নির্মিত ডাটাবেজ সফটওয়্যারের মাধ্যমে সংরক্ষণ করা যায়না। উদাহরণ হিসেবে বলা যায়, গুগলের সার্চ এর ইনডেক্স, ফেসবুক ইউজারদের প্রোফাইল, অ্যামাজনের প্রোডাক্ট লিস্ট ইত্যাদির তথ্য কোনো একক কম্পিউটারে বা স্টোরেজে সংরক্ষণ করা সম্ভব না। তাই এই তথ্যগুলো বড় বড় ডাটা সেন্টারের সার্ভারে রাখা হয়। কয়েকটি বিগ ডাটা ম্যানেজমেন্ট সফটওয়্যার হচ্ছে সোলারউইন্ডস (Solarwinds), ডিবিভিজুয়ালাইজার (Dbvisualizer), মাইএসকিউএল (mySQL), মাইক্রোসফট এসকিউএল সার্ভার (Microsoft SQL server) ও ইত্যাদি।
প্রযুক্তি উন্নয়নের সাথে সাথে আমাদের তথ্য আদান-প্রদানের পরিধিও বাড়ছে। আমরা প্রতিদিন একে অন্যর কাছ থেকে বিভিন্ন তথ্য নিচ্ছি ও দিচ্ছি। প্রতিনিয়ত বিভিন্ন যোগাযোগ মাধ্যম ইন্সটাগ্রাম, টুইটার, ফেসবুক ইত্যাদি থেকে প্রচুর পরিমানে গুরুত্বপূর্ণ তথ্য নির্গত হচ্ছে। এই বিপুল পরিমান তথ্যের সমষ্টি হল বিগ ডাটা। আইবিএম এর মতে, “বর্তমানে সারা বিশ্বে ২.৭ যেটাবাইট তথ্য আছে। এবং এর প্রায় ৯০% তথ্য যা নির্গত হয়েছে গত দুবছরে।” প্রতিদিন ফেসবুক ব্যবহারকারীর প্রায় ৩০+ পেটাবাইট তথ্য সংগ্রহ এবং বিশ্লেষণ করা হয়। ১০০ টেরাবাইট তথ্য প্রতিদিন ফেসবুকে ঢোকে এবং প্রতিমাসে ৩০ লক্ষ কোটি তথ্য ফেসবুকে বিভিন্ন ভাবে ভাগ হয়। টুইটারে প্রতিদিন প্রায় ১৭৫ লক্ষ টুইট হয়। ওয়াল মার্ট এ প্রতি ঘণ্টায় প্রায় ১ লক্ষ এর বেশী তথ্য আদান প্রদান হয়। আরও তথ্যমতে জানা গিয়েছে, ২০০৯ সালে প্রতিদিন গুগলে প্রায় ২০ পেটাবাইট তথ্য আদানপ্রদান করা হতো। ২০০৯ সালের থেকে ৪৪ গুণ বেশি তথ্য উৎপাদন হয়েছে ২০২০ সালে। এছাড়াও গত দুই বছরে যে পরিমাণ তথ্য নির্গত হয়েছে, তা দুই বছর আগের সম্পূর্ণ মানব সভ্যতায় সংগ্রহ করে থাকা তথ্যের থেকেও অনেক বেশি।
প্রতিদিন আমরা প্রায় ২৫,০০,০০,০০,০০,০০,০০,০০০ অর্থাৎ ২৫ কুইনটেলিয়ন বাইটস ডাটা আদান-প্রদান করি যা ১৯৯৯ সালের পুরো পৃথিবীর এক বছরের তৈরি হওয়া ডাটার থেকেও বেশি। বিগ ডাটা সম্পর্কে বিস্তারিত জানতে ইন্টারনেট থেকে পাওয়া কিছু তথ্যের উদাহরণ আলোচনা করা যাক, ডাটা এনালাইসিস এর মাধ্যমে জানা গিয়েছে ২৪ ঘন্টায় সারা পৃথিবীতে ৪০,০০,০০০ (৪ মিলিয়ন) স্মার্ট ফোন বিক্রি হয় এবং এই স্মার্টফোনের মাধ্যমে প্রায় ২০,০০,০০০ (২ মিলিয়ন) উবার রাইড বুক হয়। আবার এই মোবাইল ফোনের মাধ্যমেই ২,১০,০০,০০০ (২১ মিলিয়ন) গান শুধুমাত্র আইটিউনস থেকে ডাউনলোড হয় আর ইনস্টাগ্রামে ৬,৭০,০০,০০০ (৬৭ মিলিয়ন) ছবি আপলোড হয়। টিন্ডারে ১,৩০,০০,০০,০০০ (১.৩ বিলিয়ন) সোয়াইপ্স হয় এবং ২৩,০০,০০,০০,০০০ (২৩বিলিয়ন) টেক্সট মেসেজ আদান-প্রদান হয়। অন্যদিকে, ইউটিউব এ প্রতিদিন ৫,৭৬,০০০ (৫ লক্ষ ৭৬ হাজার) ঘন্টার ভিডিও আপলোড হয় আর প্রতিদিন ৫,০০,০০,০০,০০০ (৫ বিলিয়ন) ইউটিউব এর ভিডিও ভিউ হয়। প্রতিদিন স্ন্যাপচ্যাটের ভিউয়ার্সরা ৬,০০,০০,০০,০০০ (৬ বিলিয়ন) ভিডিও দেখে এবং উইকিপিডিয়াতে প্রায় ১০,০০০ আর্টিকেল সংযুক্ত হয়। টুইটারে প্রায় ৬৫,০০,০০,০০০ (৬৫০ মিলিয়ন) টুইটস হয় আর ফেসবুকে ১,৫০,০০,০০,০০০ (১.৫ বিলিয়ন) মানুষ লগ ইন করে। এ হিসাবকে ছাড়িয়ে প্রতিদিন গুগলে প্রায় ৩,৫০,০০,০০,০০০ (৩.৫ বিলিয়ন) সার্চ হয় এবং ডার্ক, ডিপ ও ভিজিবল সার্চইঞ্জিন মিলে প্রায় ৫,০০,০০,০০,০০০ (৫ বিলিয়ন) সার্চ হয়। আর ইমেইলে প্রতিদিন প্রায় ২২,৪০০,০০,০০,০০০ (২২৪ বিলিয়ন) ইমেইল আদান-প্রদান হয়। আমরা প্রতিনিয়ত এত বিশাল পরিমাণ ডাটা উৎপাদন করছি যা মাত্র কয়েক দিনেই দ্বিগুণ থেকে দ্বিগুণ হচ্ছে। এছাড়াও তথ্যসূত্রে জানা গিয়েছে, “২০১১ সালে প্রতি দুই দিনে ৫ বিলিয়ন গিগাবাইট ডাটা তৈরি হতো। ২০১৩ সালে এই পরিমাণ ডাটা তৈরি হয়েছিলো প্রতি দশ মিনিটে।” বিগ ডাটা প্রতি মুহূর্তে বড় হচ্ছে। ইন্টারনেট এবং সোশ্যাল মিডিয়ার প্রভাবে মানুষ আগের চেয়ে বেশি ডাটা উৎপন্ন করছে, যা প্রযুক্তি উন্নয়নে কাজে লাগানো যাবে। অসংখ্য মানুষের ব্যবহার, পছন্দ ইত্যাদি তথ্য বিগ ডাটার মাঝে সংরক্ষণ হচ্ছে যা সঠিকভাবে কাজে লাগাতে পারলে অর্থনৈতিক লাভের পাশাপাশি আমাদের জীবনধারার মান আরও অনেক উন্নত হবে।
বিগ ডাটা বিশ্লেষণ
বিগ ডাটার তিনটি বৈশিষ্ট্য রয়েছে। বিগ ডাটার বৈশিষ্ট্যগুলোকে 3V দ্বারা প্রকাশ করা হয়। সেগুলো হলো :-
– Volume
– Velocity
– Variety
১) Volume :- ভলিউম অর্থ ডাটা পরিমাপ। ডাটা পরিমাপ করা হয় Zettabytes(ZB), Yottabytes (YB), Exabyte ইত্যাদি এককে। অর্থাৎ ডাটা উৎপন্ন এবং সংরক্ষিত পরিমাণকে বলা হয় ভলিউম (volume)।
২) Velocity :- যে গতিতে ডাটা তৈরি, ডাটা প্রক্রিয়াকরণ, ডাটা উন্নয়নের অগ্রগতি, চাহিদা ও চ্যালেঞ্জ সম্পন্ন করা হয় তাকে Velocity বলা হয়।
৩) Variety :- ডাটা বিভিন্ন ধরণের হয়ে থাকে। সেমি-স্ট্রাকচার, আন-স্ট্রাকচার, অডিও, ভিডিও, টেক্সট, লগ, web, XML, JSON ইত্যাদি। সব ধরণের ডাটা নিয়েই বিগ ডাটা। ডাটা যে কোনো ধরনের ফরম্যাটে সৃষ্টি হতে পারে। এই ডাটাগুলো অর্গানাইজ (organize) করার পদ্ধতিকে ভেরাইটি (variety) বলা হয়।
3V এর সাথে আরো তিনটি V যোগ করা হয়। সেগুলো হলো :-
– Variability
– Veracity
– Viscocity
১) Variability :- ডাটা সেটের অসঙ্গতি ও ডাটা সেট পরিচালনা করার প্রক্রিয়ার ব্যাহত করাকে ভেরিয়েবিলিটি (variability) বলা হয়। Variability ও Variety এর বিষয় একে অপরের থেকে সম্পূর্ণই আলাদা। যেমন, আপনি প্রতিদিন একই ধরণের খাবার খান কিন্তু একেক দিন একেক রকমের টেস্ট পাচ্ছেন, এটাই Variability। একই ধরনের সব ডাটা কিন্তু প্রতিনিয়ত বদলায় সেগুলো পরিচালনা করার প্রক্রিয়াকে বলা হয় ভেরিয়েবিলিটি।
২) Veracity :- ডাটার গুণগতমান পরিবর্তিত হতে পারে, যা সঠিকভাবে বিশ্লেষণকে প্রভাবিত করবে। এক্ষেত্রে Veracity প্রাপ্ত ডাটাগুলো কতটুকু নিখুঁত তা নিশ্চিত করে।
৩) Viscocity :- ডাটা বিভিন্ন সময় অনেক কারণে প্রবাহ বেগ এবং প্রক্রিয়াজাতকরণের সময় বিভিন্ন জটিলতার সম্মুখীন হয়ে থাকে। এটি Viscosity এর মাধ্যমে সমাধান করা হয়। মুলতঃ velocity কে আরও সহজভাবে পরিচালনা করার জন্য ব্যবহার করা হয়।
উপরের সবগুলোর মূলে রয়েছে ভ্যালু (Value)। এটি বিগ ডাটার শেষ অংশ। এবং বিগ ডাটার সবচেয়ে গুরুত্বপূর্ণ অংশ হচ্ছে ভ্যালু। উপরের সবগুলো আছে কিন্তু ভ্যালু নাই, তাহলে সবই অনর্থক। কারণ ভ্যালু এর মাধ্যমেই ডিসিশন নেওয়া হয়ে থাকে।
বর্তমানে সব ধরণের সেক্টরে বিগ ডাটার ব্যবহার বাড়ছে। ফেসবুক, গুগল ও আমাজনের মতো জায়ান্ট টেক প্রতিষ্ঠানগুলো বিগ ডাটাকে কাজে লাগিয়ে নতুন নতুন সব প্রযুক্তি তৈরী করেছে। তাদের সার্ভারে প্রতিনিয়ত বিলিয়ন বিলিয়ন ডাটা জমা হচ্ছে এবং বিগ ডাটার মাধ্যমে কাঙ্খিত ডাটা’টি পাওয়া যাচ্ছে অনায়াসেই। ফ্রড এনালাইসিস, কাস্টমার এনালিটিক্স, অপারেশনাল এনালিটিক্স, স্মার্ট সিটি/ হোম/ কার ইত্যাদি সব কিছু বিগ ডাটা এনালাইসিস এর কারণে সহজ হয়ে গিয়েছে। ২০১৬ সালে ইউনিলিভার ২০০$ মিলিয়ন ডলার কম ব্যয় করতে পেরেছে শুধুমাত্র বিগ ডাটা এনালাইসিস এর মাধ্যমে। এটি সম্ভব হয়েছে, আমাদের সোশ্যাল মিডিয়ার মাধ্যমে সংগৃহীত ডাটার মাধ্যমে। আমরা কি ধরনের প্রোডাক্ট ইউজ করছি অথবা তাদের প্রোডাক্টগুলোতে কেমন প্রতিক্রিয়া করছি এইসব বিষয় ডাটার মাধ্যমে এনালাইসিস করে তারা খুব সহজেই সিদ্ধান্তে আসতে পেরেছিলো। ম্যাকেনজি গ্লোবাল ইনস্টিটিউট (McKinsey Global Institute) তাদের প্রকাশিত এক রিপোর্টে উল্লেখ করে যে, যুক্তরাষ্ট্রের জনস্বাস্থ্য ক্ষেত্রে বছরে ৩০০ বিলিয়ন ডলারের বেশি খরচ বাঁচাতে পারবে যদি তারা সঠিকভাবে বিগ ডাটার প্রয়োগ করে। ইউরোপের উন্নত দেশগুলো বিগ ডাটা কাজে লাগিয়ে সিদ্ধান্ত গ্রহণ এবং দক্ষতা বৃদ্ধি করে বছরে ১০০ বিলিয়ন ইউরোর বেশি বাঁচাতে পারবে।
বিগ ডাটা সব কোম্পানির জন্য আশীর্বাদস্বরূপ। এমনকি আমাদের জন্যও, আমরা যারা ইন্টারনেট ও প্রযুক্তি নিয়ে এগিয়ে যাচ্ছি। সবশেষে মোদ্দা কথা এই যে, প্রযুক্তি ও বিগ ডাটা একে অন্যের পরিপূরক। প্রযুক্তি উন্নয়ন সাধন একমাত্র বিগ ডাটার মাধ্যমেই সম্ভব। আগামী বিশ্ব হতে যাচ্ছে শুধুমাত্র বিগ ডাটা’র।এই ছিলো বিগ ডাটা সম্পর্কে বিস্তারিত আলোচনা। যেকোনো প্রশ্ন জাগলে নির্দ্বিধায় কমেন্টবক্সে কমেন্ট করুন। এবং টেকনোলজি সম্পর্কে আরও তথ্য জানতে আমাদের সঙ্গেই থাকুন। সেইসাথে আমাদের অন্যান্য আর্টিকেলগুলোও পড়তে পারেন। ধন্যবাদ।