

جدول المحتويات
تحديات البيانات الضخمة:
- تحديات البيانات الضخمة تشير إلى مجموعات البيانات الكبيرة التي لا يمكن للبرنامج العام معالجتها بسبب حجمها الكبير وهيكلها المعقد.
- تتطلب البيانات الضخمة برمجيات متخصصة يمكنها التعامل مع كميات كبيرة من البيانات التي يتم جمعها من مجموعة واسعة من المصادر.
- لا يمكن معالجة البيانات الضخمة بواسطة جهاز واحد ، وبالتالي الحاجة إلى إنشاء نظام للبرامج والآلة.
- تصل البيانات الضخمة إلى عدة تيرابايت وزيتابايت ، مما يجعلها كبيرة جدًا بالنسبة للحسابات بواسطة برنامج واحد.
1- تتكون البيانات الضخمة من 3 عناصر :
- (Volume) يشير الحجم إلى كمية البيانات التي تحتاج إلى تحليل تشير التقديرات إلى أنها تيرابايت أو زيتا بايت.
- (Velocity) تشير السرعة إلى السرعة التي يتم بها حساب البيانات الضخمة. بينما تستغرق العمليات الحسابية العادية أجزاء من الثانية ، يمكن أن تستغرق العمليات الحسابية للبيانات الضخمة ساعات أو أيام.
- (Variety) يشير التنوع إلى المصادر المختلفة للبيانات الضخمة. يجب أن تأتي البيانات الضخمة من مجموعة واسعة من المصادر لأنها تلتقط البيانات في قطاعات مختلفة.
2- تنوع البيانات الضخمة:
تأتي البيانات الضخمة من المصادر التالية:
- المحتويات التي ينشئها المستخدم (UGCs) هي البيانات التي يتم جمعها من التطبيقات مع مستخدمين كثيرين مثل المدونات والتغريدات والصور التي تتم مشاركتها عبر الإنترنت ومواقع الويب.
- يتم جمع بيانات المعاملات من الأنظمة التي تسجل عددًا كبيرًا من المعاملات مثل المعاملات التجارية.
- يتم جمع البيانات العلمية التجارب التي تنطوي على بيانات مثل بيانات الرعاية الصحية.
- يتم جمع بيانات الويب لأغراض دعم تطبيقات البحث مثل Google.
- تتضمن بيانات الرسم البياني بيانات الشبكة الاجتماعية التي يتم إنشاؤها عند ربط العديد من عقد المعلومات معًا.
*عادةً ما تكون البيانات الضخمة غير منظمة وتحتوي على صور ورسوم بيانية ونصوص وبيانات وصفية وعلامات ورسوم بيانية.
3- التكامل والتنظيف:
يجب دمج البيانات الكبيرة وتنظيفها للأسباب التالية:
- أولاً ، يتم جمعها من تعليقات المستخدمين والاستعانة بمصادر خارجية وهي أشكال من البيانات غير المنظمة التي لا يمكن استخدامها كما هي.
- ثانيًا ، يقلل التكامل والتنظيف من المطابقة مع المصدر.
4- تخفيض البيانات الضخمة:
- يشير تقليل البيانات الضخمة إلى الاختيار المنتظم للبيانات الصحيحة من كمية البيانات المتعددة. الهدف من هذا التمرين هو الحصول على أجزاء ذات مغزى ستخضع للتحليل.
- يتم تقليل البيانات باستخدام التعلم الآلي والمعالجة المتوازية على نطاق واسع.
- يشمل التعلم الآلي تحسين تقنيات تقليص البيانات التقليدية بينما تشير المعالجة المتوازية بشكل كبير إلى استخدام التقنيات الحديثة مثل تصميم منصات الحوسبة السحابية وقواعد البيانات الموزعة لتقليل البيانات الضخمة.
5- الاستعلام عن البيانات الضخمة وفهرستها:
- نظرًا للأحجام الكبيرة للبيانات الرقمية ، لا يمكن للبرامج والأشخاص معالجة البيانات. لا يمكن الاحتفاظ بهذه البيانات في جهاز واحد لأنها كبيرة ومعقدة وعالية الأبعاد وغير متجانسة.
- يمكن إجراء استعلامات البيانات باستخدام مؤشر B-tree القادر على توفير الوصول إلى المعاملات ، وتوفير الترحيل عبر الإنترنت لعقد الشجرة والإضافة الديناميكية.
- بالإضافة إلى ذلك ، يعتبر تراكب BATON مثاليًا للاستعلام الدقيق واستعلام النطاق.
6- التنقيب والتحليل:
- ظرًا لتعقيد تحليل البيانات الضخمة ، يجب على الباحثين استخدام طرق التحليل المعقدة مثل تحليل السلاسل الزمنية وتحليل ماذا- لو وتحليل المسار وتحليل الرسم البياني.
- يجب أن ينظر المحللون في دمج عدة طرق لعمل أدوات تحليل البيانات المعقدة. على سبيل المثال ، دمج IBM بين R و Hadoop و Weka و MapReduce من Google.
7- الاستنتاج:
- تكامل البيانات مهم في تحليل البيانات الضخمة. تحزيم المصادر مهم في تكامل البيانات.
- مطلوب تخفيض البيانات للحصول على الجودة المطلوبة للبيانات المراد معالجتها.
- مطلوب الاستعلام عن البيانات والفهرسة لتعديل أمثلية الاستعلام الموجودة.
- مطلوب تحليل عميق لتقديم نتائج مهمة.
Pingback:ACCENTURE LOCKBIT RANSOMWARE REPORT - Computer Science