البيانات المصنعة هي بيانات اصطناعية يتم إنشاؤها من البيانات الأصلية من خلال خوارزميات الذكاء الصناعي التي يتم تدريبها لإعادة مجموعة بيانات حقيقية، وذلك بهدف إعادة إنتاج الخصائص والأنماط الإحصائية لمجموعة البيانات الأصلية، فما هي؟ وما أهميتها؟ ولماذا نحتاج إليها؟ وما هي السلبيات التي يمكن أن تنتج عن استخدامها؟
كيف تصنف؟
يمكن تصنيف البيانات المصنعة حسب البيانات الأصلية: النوع الأول يستخدم مجموعات بيانات حقيقية، والثاني يستخدم المعرفة التي جمعها المحللون، والنوع الثالث هو مزيج من هذين النوعين.
ما أهمية البيانات المصنعة؟
تأتي أهمية البيانات المصنعة من كوننا نحتاج إليها لعدة أسباب مثل:
توفير الوقت والتكلفة
تساعد البيانات المصنعة على الاستغناء عن مرحلة جمع البيانات مما يقلل التكلفة والوقت الذي يحتاجه جمع البيانات، وتسمية البيانات اليدوية، فإدخال البيانات المصنعة على سبيل المثال يحول تكلفة صورة من 6 دولارات إلى 6 سنتات، وفقًا لتقديرات “بول والبورسكي”، الذي شارك في تأسيس واحدة من أولى خدمات البيانات التركيبية المخصصة.
تحسين دقة البيانات
تساعد في تحسين دقة البيانات، وتقليل التحيزات التي تحدث أثناء مرحلة جمع البيانات، من جانب الشخص نفسه، إذ يمكن أن يتجاهل بيانات في مقابل أخرى، مما يساعد في تمثيل العالم الحقيقي بشكل أكبر.
قابلية توسيع حجم البيانات
يعطي هذا النوع من جمع البيانات مرونة أكبر في تقديم حجم البيانات المطلوبة لتناسب الاحتياجات التدريبية لنماذج تعلم الذكاء الصناعي، مما يضمن تنوع البيانات لدى المستخدمين أيضًا.
حماية الخصوصية
تسهم هذه الطريقة في الجمع في حماية المعلومات الخاصة والحساسة للفرد الموجودة في مجموعة البيانات الحقيقية.
رفع السلامة والأمان
يمكن الاستعانة بالبيانات المصنعة لاختبار بعض تطبيقات الذكاء الاصطناعي في حالة وجود سيناريوهات من الصعب تنفيذها عمليًا، وذلك للتأكد من مدى مطابقتها لمعايير الأمان والسلامة.
التأثيرات الإيجابية المتوقعة على البيانات المصنعة:
هناك عدة تأثيرات إيجابية يمكن أن تسهم فيها البيانات المصنعة وهي:
تعزيز الخصوصية: من خلال نهج حماية البيانات يمكن أن توفر هذه التكنولوجيا، قيمة مضافة للأشخاص عبر عدم الكشف عن بياناتهم الشخصية.
عدالة محسّنة : قد تساهم البيانات المصنعة في تقليل التحيز باستخدام بيانات الذكاء الاصطناعي العادلة، ففي الواقع يتم التلاعب بهذه البيانات أحيانًا لتقديم تمثيل أفضل للعالم.
الآثار السلبية المتوقعة على البيانات المصنعة:
رغم ما أشرنا إليه من أهمية البيانات المصنعة، والآثار الإيجابية الناتجة عنها، ولكن ما يزال هناك مجموعة من الآثار السلبية التي يمكن أن تنتج عنها مثل:
صعوبة التحكم في النتائج: خاصة في حالة البيانات المعقدة، لذا فحتى الآن فإن أفضل طريقة لضمان دقة واتساق النتائج هي عن طريق مقارنة البيانات الاصطناعية مع البيانات الأصلية أو المعلن عنها بواسطة البشر.
صعوبة تعيين القيم المتطرفة: يمكن أن تحاكي البيانات الاصطناعية فقط البيانات الحقيقية؛ إذ أنها ليست نسخة طبق الأصل. وبالتالي، قد لا تتضمن البيانات الاصطناعية بعض القيم المتطرفة التي تحتويها البيانات الأصلية. ومع ذلك، يمكن أن تكون القيم المتطرفة في البيانات أكثر أهمية من نقاط البيانات العادية لبعض التطبيقات.
جودة النموذج تعتمد على مصدر البيانات: ترتبط جودة البيانات الاصطناعية ارتباطًا وثيقًا بجودة البيانات الأصلية، لذا قد تعكس البيانات الاصطناعية التحيزات الموجودة في البيانات الأصلية، وقد يؤدي إلى توفير بيانات غير دقيقة.