تصور تحليل Amazon Comprehend باستخدام سحابة الكلمات في Amazon QuickSight


يمكن أن يكون البحث عن رؤى في مستودع المستندات النصية ذات الشكل الحر مثل العثور على إبرة في كومة قش. قد يكون النهج التقليدي هو استخدام عدد الكلمات أو أي تحليل أساسي آخر لتحليل المستندات، ولكن بفضل قوة أدوات Amazon AI والتعلم الآلي (ML)، يمكننا جمع فهم أعمق للمحتوى.

Amazon Comprehend هي خدمة مُدارة بالكامل تستخدم معالجة اللغة الطبيعية (NLP) لاستخراج رؤى حول محتوى المستندات. تقوم Amazon Comprehend بتطوير الرؤى من خلال التعرف على الكيانات والعبارات الرئيسية والمشاعر والموضوعات والعناصر المخصصة في المستند. بإمكان Amazon Comprehend إنشاء رؤى جديدة بناءً على فهم بنية المستند وعلاقات الكيانات. على سبيل المثال، باستخدام Amazon Comprehend، يمكنك فحص مستودع المستندات بالكامل بحثًا عن العبارات الرئيسية.

يتيح Amazon Comprehend للخبراء غير المتخصصين في تعلم الآلة القيام بالمهام التي تستغرق عادةً ساعات من الوقت بسهولة. توفر خدمة Amazon Comprehend الكثير من الوقت اللازم لتنظيف النموذج الخاص بك وإنشائه وتدريبه. لبناء نماذج مخصصة أعمق في البرمجة اللغوية العصبية (NLP) أو أي مجال آخر، يمكّنك Amazon SageMaker من إنشاء النماذج وتدريبها ونشرها في سير عمل ML أكثر تقليدية إذا رغبت في ذلك.

في هذا المنشور، نستخدم Amazon Comprehend وخدمات AWS الأخرى لتحليل واستخراج رؤى جديدة من مستودع المستندات. بعد ذلك، نستخدم Amazon QuickSight لإنشاء سحابة كلمات مرئية بسيطة لكنها قوية لتحديد السمات أو الاتجاهات بسهولة.

نظرة عامة على الحل

ويوضح الرسم البياني التالي بنية الحل.

اختبار الصورة مل 13704

للبدء، نقوم بجمع البيانات لتحليلها وتحميلها في حاوية Amazon Simple Storage Service (Amazon S3) في حساب AWS. في هذا المثال، نستخدم ملفات بتنسيق نصي. ويتم بعد ذلك تحليل البيانات بواسطة Amazon Comprehend. يقوم Amazon Comprehend بإنشاء مخرجات بتنسيق JSON تحتاج إلى تحويلها ومعالجتها إلى تنسيق قاعدة بيانات باستخدام AWS Glue. نحن نتحقق من البيانات ونستخرج جداول بيانات منسقة محددة باستخدام Amazon Athena لتحليل QuickSight باستخدام سحابة الكلمات. لمزيد من المعلومات حول المرئيات، راجع تصور البيانات في Amazon QuickSight.

المتطلبات الأساسية

بالنسبة لهذه الإرشادات التفصيلية، يجب أن تتوفر لديك المتطلبات الأساسية التالية:

تحميل البيانات إلى حاوية S3

قم بتحميل بياناتك إلى حاوية S3. في هذا المنشور، نستخدم نص دستور الولايات المتحدة بتنسيق UTF-8 كملف الإدخال. وبعد ذلك تصبح جاهزًا لتحليل البيانات وإنشاء تصورات.

تحليل البيانات باستخدام Amazon Comprehend

هناك العديد من أنواع المعلومات المستندة إلى النصوص والصور التي يمكن معالجتها باستخدام Amazon Comprehend. بالإضافة إلى الملفات النصية، يمكنك استخدام Amazon Comprehend للتصنيف بخطوة واحدة والتعرف على الكيانات لقبول ملفات الصور وملفات PDF وملفات Microsoft Word كمدخلات، والتي لم يتم مناقشتها في هذا المنشور.

لتحليل بياناتك، أكمل الخطوات التالية:

  1. في وحدة تحكم Amazon Comprehend، اختر وظائف التحليل في جزء التنقل.
  2. يختار إنشاء مهمة التحليل.
  3. أدخل اسمًا لوظيفتك.
  4. ل نوع التحليل، يختار العبارات الرئيسية.
  5. ل لغةيختار إنجليزي.
  6. ل موقع إدخال البيانات، حدد المجلد الذي قمت بإنشائه كشرط أساسي.
  7. ل موقع بيانات الإخراج، حدد المجلد الذي قمت بإنشائه كشرط أساسي.
  8. يختار قم بإنشاء دور IAM.
  9. أدخل لاحقة لاسم الدور.
  10. يختار إنشاء وظيفة.

سيتم تشغيل المهمة وسيتم عرض الحالة على وظائف التحليل صفحة.

مل 13704 صورة 002

انتظر حتى تكتمل مهمة التحليل. سيقوم Amazon Comprehend بإنشاء ملف ووضعه في مجلد بيانات الإخراج الذي قدمته. الملف بتنسيق .gz أو GZIP.

يجب تنزيل هذا الملف وتحويله إلى تنسيق غير مضغوط. يمكنك تنزيل كائن من مجلد البيانات أو حاوية S3 باستخدام وحدة تحكم Amazon S3.

  1. في وحدة تحكم Amazon S3، حدد الكائن واختر تحميل. إذا كنت تريد تنزيل الكائن إلى مجلد معين، فاختر تحميل على ال أجراءات قائمة طعام.
  2. بعد تنزيل الملف على جهاز الكمبيوتر المحلي لديك، افتح الملف المضغوط واحفظه كملف غير مضغوط.

يجب تحميل الملف غير المضغوط إلى مجلد الإخراج قبل أن يتمكن زاحف AWS Glue من معالجته. في هذا المثال، نقوم بتحميل الملف غير المضغوط إلى نفس مجلد الإخراج الذي نستخدمه في الخطوات اللاحقة.

  1. على وحدة تحكم Amazon S3، انتقل إلى حاوية S3 الخاصة بك واختر رفع.
  2. يختار إضافة ملفات.
  3. اختر الملفات غير المضغوطة من جهاز الكمبيوتر المحلي الخاص بك.
  4. يختار رفع.

بعد تحميل الملف، احذف الملف المضغوط الأصلي.

  1. في وحدة تحكم Amazon S3، حدد الحاوية واختر يمسح.
  2. قم بتأكيد اسم الملف لحذف الملف نهائيًا عن طريق إدخال اسم الملف في مربع النص.
  3. يختار حذف الكائنات.

سيؤدي هذا إلى ترك ملف واحد متبقي في مجلد الإخراج: الملف غير المضغوط.

قم بتحويل بيانات JSON إلى تنسيق جدول باستخدام AWS Glue

في هذه الخطوة، تقوم بإعداد مخرجات Amazon Comprehend لاستخدامها كمدخل في Athena. يكون مخرج Amazon Comprehend بتنسيق JSON. يمكنك استخدام AWS Glue لتحويل JSON إلى بنية قاعدة بيانات ليتم قراءتها في النهاية بواسطة QuickSight.

  1. في وحدة تحكم AWS Glue، اختر الزواحف في جزء التنقل.
  2. يختار إنشاء الزاحف.
  3. أدخل اسمًا للزاحف الخاص بك.
  4. يختار التالي.
  5. ل هل تم تعيين بياناتك بالفعل إلى جداول الغراء؟، يختار ليس بعد.
  6. إضافة مصدر بيانات.
  7. ل مسار S3، أدخل موقع مجلد بيانات مخرجات Amazon Comprehend.

تأكد من إضافة زائدة / إلى اسم المسار. سيبحث AWS Glue في مسار المجلد عن جميع الملفات.

  1. يختار الزحف إلى كافة المجلدات الفرعية.
  2. يختار أضف مصدر بيانات S3.

مل 13704 صورة 003

  1. قم بإنشاء دور AWS Identity and Access Management (IAM) جديد للزاحف.
  2. أدخل اسمًا لدور IAM.
  3. يختار قم بتحديث دور IAM المختار للتأكد من تعيين الدور الجديد للزاحف.
  4. يختار التالي لإدخال معلومات الإخراج (قاعدة البيانات).
  5. يختار إضافة قاعدة بيانات.
  6. أدخل اسم قاعدة البيانات.
  7. يختار التالي.
  8. يختار إنشاء الزاحف.
  9. يختار تشغيل الزاحف لتشغيل الزاحف.

يمكنك مراقبة حالة الزاحف على وحدة تحكم AWS Glue.

استخدم Athena لإعداد الجداول لـ QuickSight

ستقوم Athena باستخراج البيانات من جداول قاعدة البيانات التي أنشأها زاحف AWS Glue لتوفير تنسيق سيستخدمه QuickSight لإنشاء سحابة الكلمات.

  1. على وحدة تحكم أثينا، اختر محرر الاستعلام في جزء التنقل.
  2. ل مصدر البيانات، يختار AwsDataCatalog.
  3. ل قاعدة البيانات، اختر قاعدة البيانات التي أنشأها الزاحف.

مل 13704 صورة 004

لإنشاء جدول متوافق مع QuickSight، يجب أن تكون البيانات غير متداخلة من المصفوفات.

  1. الخطوة الأولى هي إنشاء قاعدة بيانات مؤقتة تتضمن بيانات Amazon Comprehend ذات الصلة:
إنشاء درجة حرارة الجدول كعبارات رئيسية محددة، متداخلة من الإخراج CROSS JOIN UNNEST(output.keyphrases) AS t (متداخلة)

  1. يقتصر البيان التالي على عبارات مكونة من ثلاث كلمات ومجموعات على الأقل حسب تكرار العبارات:
إنشاء جدول tableforquicksight AS SELECT COUNT(*) AS count،nested.text FROM temp WHERE Nested.Score > .9 AND length(nested.text) - length(replace(nested.text, ' ', '')) + 1 > 2 المجموعة حسب Nested.text الترتيب حسب العد التنازلي

استخدم QuickSight لتصور الإخراج

وأخيرًا، يمكنك إنشاء المخرجات المرئية من التحليل.

  1. في وحدة تحكم QuickSight، اختر تحليل جديد.
  2. يختار مجموعة بيانات جديدة.
  3. ل إنشاء مجموعة بيانات، يختار من مصادر البيانات الجديدة.
  4. يختار أثينا كمصدر للبيانات.
  5. أدخل اسمًا لمصدر البيانات واختر إنشاء مصدر البيانات.

تغيير حجم الصورة ML 13704

  1. يختار تصور.

تغيير حجم الصورة ML 13704 image006

تأكد من أن QuickSight لديه حق الوصول إلى حاويات S3 حيث يتم تخزين جداول Athena.

  1. في وحدة تحكم QuickSight، اختر رمز ملف تعريف المستخدم واختر إدارة QuickSight.

مل 13704 صورة 007

  1. يختار الأمن والأذونات.
    مل 13704 صورة 008
  1. ابحث عن القسم الوصول السريع إلى خدمات AWS.

من خلال تكوين الوصول إلى خدمات AWS، يمكن لـ QuickSight الوصول إلى البيانات الموجودة في تلك الخدمات. يمكن التحكم في وصول المستخدمين والمجموعات من خلال الخيارات.

  1. تحقق من منح Amazon S3 حق الوصول.

الآن يمكنك إنشاء سحابة الكلمات.

  1. اختر سحابة الكلمة تحت أنواع مرئية.
  2. اسحب النص إلى مجموعة من والعد ل مقاس.

مل 13704 صورة 009
اختر قائمة الخيارات (ثلاث نقاط) في التمثيل المرئي للوصول إلى خيارات التحرير. على سبيل المثال، قد ترغب في إخفاء المصطلح "أخرى" من الشاشة. يمكنك أيضًا تحرير عناصر مثل العنوان والعنوان الفرعي لمرئيتك. لتنزيل Word Cloud بصيغة PDF، اختر تحميل على شريط أدوات QuickSight.

تنظيف

لتجنب تكبد رسوم مستمرة، احذف أي بيانات وعمليات أو موارد غير مستخدمة متوفرة على وحدة تحكم الخدمة الخاصة بها.

خاتمة

يستخدم Amazon Comprehend البرمجة اللغوية العصبية (NLP) لاستخراج رؤى حول محتوى المستندات. يقوم بتطوير الرؤى من خلال التعرف على الكيانات والعبارات الرئيسية واللغة والمشاعر والعناصر المشتركة الأخرى في المستند. يمكنك استخدام Amazon Comprehend لإنشاء منتجات جديدة بناءً على فهم بنية المستندات. على سبيل المثال، باستخدام Amazon Comprehend، يمكنك فحص مستودع المستندات بالكامل بحثًا عن العبارات الرئيسية.

يصف هذا المنشور خطوات إنشاء سحابة كلمات لتصور تحليل محتوى النص من Amazon Comprehend باستخدام أدوات AWS وQuickSight لتصور البيانات.

دعونا نبقى على تواصل عبر قسم التعليقات!


عن المؤلفين

كريس 100كريس جيدمان هي الشركة الرائدة في مبيعات التجزئة والسلع الاستهلاكية المعبأة في شرق الولايات المتحدة في Amazon Web Services. عندما لا يعمل، يستمتع بقضاء الوقت مع أصدقائه وعائلته، وخاصة فصل الصيف في كيب كود. كريس هو محارب نينجا متقاعد مؤقتًا لكنه يحب مشاهدة وتدريب ولديه في الوقت الحالي.

كلارك 100كلارك ليفافور هو أحد مهندسي الحلول الرائدين في Amazon Web Services، حيث يدعم عملاء المؤسسات في المنطقة الشرقية. يقع مقر كلارك في نيو إنجلاند ويستمتع بقضاء الوقت في تصميم الوصفات في المطبخ.



رابط المصدر

اترك رد

لن يتم نشر عنوان بريدك الإلكتروني. الحقول المطلوبة مشار إليها *

يمكنك استخدام علامات وسمات HTML هذه: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

arArabic