خرائط التظليل المساحي (الكوروبلث) مع تحليل البيانات الاستكشافي




خرائط التظليل المساحي (الكوروبلث) مع تحليل البيانات الاستكشافي
Choropleth Mapping with Exploratory Data Analysis

Ela Dramowicz(29/12/2004م)

(خرائط الكوروبلث : مشكلات مختلفة، منها: قضايا مهمة لإخراج خريطة مقبولة، مشكلة اختيار قيم الوحدة المساحية المناسبة، ومشكلة اختيار عدد الفئات، وهنا نحن نتحدث عن مشكلة اختيار طريقة التصنيف)

         من المعروف أن خرائط الكوربلث تعد من أشهر انواع الخرائط الموضوعية. فهي تركز على موضوع واحد ترتبط بياناته بوحدات مساحية (وتسمى ايضا بالوحدات الإحصائية) حيث تستخدم مدى أو نطاق من التدرج الفئوي ليمثل عدد الفئات المستخدمة في تصنيف البيانات ليرمز بعد ذلك بالوان تعكس الانطباع الكمي. إلا أن رسم هذا النوع من الخرائط يستلزم عدة متطلبات، منها ما هو خرائطي فني ومنها ما هو إحصائي رياضي. ولأن المحترفين الخرائطيين يأخذون هذه المتطلبات في الاعتبار إلا أن المبتدئين وغير المختصين عادة ما يتجاوزون هذه الاعتبارات خاصة في ظل توفر الأجهزة والبرامج التي تقدم تسهيلات لإنشاء الخرائط تصميما وإخراجا. مثل هؤلاء المستخدمين غير المحترفين قد لا يدركون تبعات إخراج خريطة يكتنف عملها أخطاء قد تقود إلى إيصال معلومات واستنتاجات خاطئة، ناهيك عن سوء الإتصال الخرائطي نفسه نتيجة سوء استخدام طرائق التصنيف والتمثيل.
إن المتوقع –وهذا مشاهد- أن نجد المستخدم غير الماهر يقوم بعمل تصنيف البيانات إلى فئات دون الرجوع إلى أسس في الإحصاء تساعده في تحديد طريقة التصنيف المناسبة، وعدد الفئات، واختبار مدى كفاءة التصنيف، تماما مثل تقديم خريطة موضوعية نوعية تبين تصنيف الغطاء الأرضي مشتقة من مرئية فضائية. وفي هذا النوع الأخير نجد أيضا إنه نادرا ما يلحق بالخريطة مؤشر يبين كفاءة صحة التصنيف رغم وجود أدوات تساعد على ذلك.

لذا تهدف هذه المذكرة إلى شرح وتوضيح كيفية استكشاف وتحليل البيانات من خلال ما يعرف بتحليل البيانات الإستكشافي (Exploratory Data Analysis –EDA)، مما يساعد في اختيار الطريقة المناسبة لإنشاء خرائط الكوربلث. بالإضافة إلى توضيح تبعات سوء التصنيف على المعلومات التي يُراد إيصالها للمستخدم. وبالرغم أن معظم أنواع التحليل باستخدام البيانات جغرافية ذات صلة استكشافية، فإن مصطلح تحليل البيانات الاستكشافي له معنى محدد للغاية. إن التحليل الاستكشافي للبيانات عملية بسيطة، وحديثة نسبيا (25 سنة تقريبا) حيث  تم تطويره في مجال الإحصاء، وهو يتضمن اختبار ما إذا كان توزيع البيانات متماثلا أو طبيعيا، مع التأكد من وجود قيم قصوى أو قيم متطرفة.  أيضا، يشتمل على اتعراض البيانات، وتحليل الأنماط في توزيع البيانات باستخدام الأدوات الرسومية مثل المدرج التكراري، والإطارات البيانية (Boxplots) أو الرسم البياني للاحتمالات الطبيعية الذي يرمز له بـ (Q-Q ) اختصاراً لـ Quantile-Quantile، وغير ذلك من الأدوات النموذجية الأخرى التي لم تناقش في هذه المقالة ومنها استخدام المتغيرات العاملية ، ورسوم التمثيل الشجري البيانية، واختبار مستوى تجانس الاختلافات.
أنظر إلى هذا:

التوزيعات الإحصائية والجغرافية
التحليل الاستكشافي للبيانات ينبغي له أن يسبق أي نوع آخر من التحليل، فالمدرج أو المضلع التكراري (Histogram) يساعد على تصوير أو توضيح التوزيع الإحصائي لمتغير معين، بينما الخريطة تساعد على فهم التوزيع الجغرافي. وهاتان الأداتان  (المضلع التكراري والخريطة) لهما علاقة مع بعضهما؛ لذلك يعتمد اختيار الطريقة المناسبة لرسم الخرائط على المضلع التكراري الذي يبين شكل توزيع القيم.
وهناك نوعان من التوزيعات الإحصائية اللذان يعدان أكثر مناسبةً لطريقيتن من طرائق رسم وتمثيل الخرائط. فالتوزيع الطبيعي (Normal distribution) هو الأكثر ملائمة لطريقة التصنيف باستخدام الانحراف المعياري، بينما التوزيع المتماثل (Uniform distribution) يعد أكثر ملائمة لطريقة التصنيف باستخدام الفئات المتساوية. إن التوزيعَ المتماثل من النادر وجوده في العالم الحقيقي، كما أن المتغير (الظاهرة) ذو التوزيع المتماثل تماما ليس مثيرا للاهتمام من النظرة التحليلية؛ فالمتغيرات تتــخذ نفس القيمة لكل سجل، كما أن كل عمود في المضلع التكراري يتساوى مع الآخر في الطول أو المدى، ومن ثم فإن خريطة الكوروبلث ستكون جميع وحداتها المساحية مظللة بنفس اللـــون. في حين أن التوزيعَ الطبيعيَ هو الأكثر شيوعاً في العالم الحقيقي.

ومع ذلك، فإن أغلب المتغيّرات لَها توزيعات غير منتظمة بحيث لا تشبه لا التوزيعات المتماثلة ولا الطبيعية. وتفيد اختبارات الحالة الطبيعية أنه لا يوجد إلا عدد قليل من المتغيرات ذات التوزيع الطبيعي. فالتوزيع بصفه عامة يعتمد على حجم العينة. وأيا كانت أحجام مناطق الدراسة، فقد يكون نفس المتغير ذا توزيع طبيعي وقد لا يكون، كما يمكن أن يكون ذا توزيع متماثل أو غير متماثل. كما أن حذف أو استثناء الوحدات ذات القيم الصفرية أَو القِيم المفقودة يمكن أَن يقود إلى تغيير في نتائج الاختبارات الإحصائية وشكلِ المضلع التكراري. فالاختبارات الإحصائية للتماثل أو الطبيعية تعتبر أدوات أكثر دقة من تحليل المضلع التكراري، بينما الفحص البصري للمضلع التكراري يظل عملية شخصية موضوعية على الرغم من عرضه لكامل نطاق قيم المتغيرات.

ما البيانات التي يمكن عرضها باستخدام طريقة التظليل المساحي (الكوربلث)؟
هناك نوعان من البيانات التي تُلخّص حسب المساحة: المجاميع (القيم المطلقة)، مثل، مجموع السكان، أو القيم المشتقة، مثل، الكثافة السكانية أو متوسط قيم المسكن. وهناك قاعدة عامة تنص على أنه في حالة أن المساحات لم تكن ذات أحجام متماثلة لا يجب استخدام القيم المطلقة لرسم خرائط الكوربلث، وإذا استخدمت القيم المطلقة لتمثيل مساحات مختلفة الأحجام فإن الناتج هو خرائط مضللة.

أما النسب (قيم مشتقة) فتوضح العلاقة بين كميتين، واستخدامها يلغي تأثير المساحة فتصبح الخريطة ذات معنى من خلال التمثيل الدقيق لتوزيع الظواهر. والنسب الأكثر شيوعا هي المتوسطات والنسب المئوية والكثافة. وبعض النسب تكون مستقلة عن المساحة مثل (الإنفاق على الطعام كنسبة مئوية من مجموع النفقات) وبعضها الآخر يرتبط حسابها بالمساحة مثل (قسمة السكان على المساحة للحصول على الكثافة السكانية). إذن، البيانات المستخدمة في خرائط الكوربلث يتم توحيدها (Normalizing) بطريقة أو بأخرى بحيث تسمح بمقارنة التوزيعات عبر المساحات.

يبين الشكل رقم (1) أن هناك عدد مماثل من الناس يعيشون في مضلعين، وبالتالي ينتميان إلى نفس الفئة المظللة بنفس اللون، ويظهران في شكل رقم (2) في المربع الأحمر. والخريطة في شكل رقم (2) ذات استخدام محدود للغاية لأنه تم استخدام القيم المطلقة لإنشائها. بينما يبين الشكل رقم (3) إنه في حالة استخدام القيم النسبية تصبح نفس المضلعات مننتمية إلى فئتين مختلفتين ومظللتين بألوان مختلفة، لذلك فالخريطة هنا تصور توزيع السكان في منطقة الدراسة بشكل ملائم.
============================
لتحميل الملف كاملاً: اضغط هنا

ليست هناك تعليقات:

اضف تعليقك