يمكن أن يكون البحث عن رؤى في مستودع المستندات النصية ذات الشكل الحر مثل العثور على إبرة في كومة قش. قد يكون النهج التقليدي هو استخدام عدد الكلمات أو أي تحليل أساسي آخر لتحليل المستندات، ولكن بفضل قوة أدوات Amazon AI والتعلم الآلي (ML)، يمكننا جمع فهم أعمق للمحتوى.
Amazon Comprehend هي خدمة مُدارة بالكامل تستخدم معالجة اللغة الطبيعية (NLP) لاستخراج رؤى حول محتوى المستندات. تقوم Amazon Comprehend بتطوير الرؤى من خلال التعرف على الكيانات والعبارات الرئيسية والمشاعر والموضوعات والعناصر المخصصة في المستند. بإمكان Amazon Comprehend إنشاء رؤى جديدة بناءً على فهم بنية المستند وعلاقات الكيانات. على سبيل المثال، باستخدام Amazon Comprehend، يمكنك فحص مستودع المستندات بالكامل بحثًا عن العبارات الرئيسية.
يتيح Amazon Comprehend للخبراء غير المتخصصين في تعلم الآلة القيام بالمهام التي تستغرق عادةً ساعات من الوقت بسهولة. توفر خدمة Amazon Comprehend الكثير من الوقت اللازم لتنظيف النموذج الخاص بك وإنشائه وتدريبه. لبناء نماذج مخصصة أعمق في البرمجة اللغوية العصبية (NLP) أو أي مجال آخر، يمكّنك Amazon SageMaker من إنشاء النماذج وتدريبها ونشرها في سير عمل ML أكثر تقليدية إذا رغبت في ذلك.
في هذا المنشور، نستخدم Amazon Comprehend وخدمات AWS الأخرى لتحليل واستخراج رؤى جديدة من مستودع المستندات. بعد ذلك، نستخدم Amazon QuickSight لإنشاء سحابة كلمات مرئية بسيطة لكنها قوية لتحديد السمات أو الاتجاهات بسهولة.
نظرة عامة على الحل
ويوضح الرسم البياني التالي بنية الحل.
للبدء، نقوم بجمع البيانات لتحليلها وتحميلها في حاوية Amazon Simple Storage Service (Amazon S3) في حساب AWS. في هذا المثال، نستخدم ملفات بتنسيق نصي. ويتم بعد ذلك تحليل البيانات بواسطة Amazon Comprehend. يقوم Amazon Comprehend بإنشاء مخرجات بتنسيق JSON تحتاج إلى تحويلها ومعالجتها إلى تنسيق قاعدة بيانات باستخدام AWS Glue. نحن نتحقق من البيانات ونستخرج جداول بيانات منسقة محددة باستخدام Amazon Athena لتحليل QuickSight باستخدام سحابة الكلمات. لمزيد من المعلومات حول المرئيات، راجع تصور البيانات في Amazon QuickSight.
المتطلبات الأساسية
بالنسبة لهذه الإرشادات التفصيلية، يجب أن تتوفر لديك المتطلبات الأساسية التالية:
تحميل البيانات إلى حاوية S3
قم بتحميل بياناتك إلى حاوية S3. في هذا المنشور، نستخدم نص دستور الولايات المتحدة بتنسيق UTF-8 كملف الإدخال. وبعد ذلك تصبح جاهزًا لتحليل البيانات وإنشاء تصورات.
تحليل البيانات باستخدام Amazon Comprehend
هناك العديد من أنواع المعلومات المستندة إلى النصوص والصور التي يمكن معالجتها باستخدام Amazon Comprehend. بالإضافة إلى الملفات النصية، يمكنك استخدام Amazon Comprehend للتصنيف بخطوة واحدة والتعرف على الكيانات لقبول ملفات الصور وملفات PDF وملفات Microsoft Word كمدخلات، والتي لم يتم مناقشتها في هذا المنشور.
لتحليل بياناتك، أكمل الخطوات التالية:
- في وحدة تحكم Amazon Comprehend، اختر وظائف التحليل في جزء التنقل.
- يختار إنشاء مهمة التحليل.
- أدخل اسمًا لوظيفتك.
- ل نوع التحليل، يختار العبارات الرئيسية.
- ل لغةيختار إنجليزي.
- ل موقع إدخال البيانات، حدد المجلد الذي قمت بإنشائه كشرط أساسي.
- ل موقع بيانات الإخراج، حدد المجلد الذي قمت بإنشائه كشرط أساسي.
- يختار قم بإنشاء دور IAM.
- أدخل لاحقة لاسم الدور.
- يختار إنشاء وظيفة.
سيتم تشغيل المهمة وسيتم عرض الحالة على وظائف التحليل صفحة.
انتظر حتى تكتمل مهمة التحليل. سيقوم Amazon Comprehend بإنشاء ملف ووضعه في مجلد بيانات الإخراج الذي قدمته. الملف بتنسيق .gz أو GZIP.
يجب تنزيل هذا الملف وتحويله إلى تنسيق غير مضغوط. يمكنك تنزيل كائن من مجلد البيانات أو حاوية S3 باستخدام وحدة تحكم Amazon S3.
- في وحدة تحكم Amazon S3، حدد الكائن واختر تحميل. إذا كنت تريد تنزيل الكائن إلى مجلد معين، فاختر تحميل على ال أجراءات قائمة طعام.
- بعد تنزيل الملف على جهاز الكمبيوتر المحلي لديك، افتح الملف المضغوط واحفظه كملف غير مضغوط.
يجب تحميل الملف غير المضغوط إلى مجلد الإخراج قبل أن يتمكن زاحف AWS Glue من معالجته. في هذا المثال، نقوم بتحميل الملف غير المضغوط إلى نفس مجلد الإخراج الذي نستخدمه في الخطوات اللاحقة.
- على وحدة تحكم Amazon S3، انتقل إلى حاوية S3 الخاصة بك واختر رفع.
- يختار إضافة ملفات.
- اختر الملفات غير المضغوطة من جهاز الكمبيوتر المحلي الخاص بك.
- يختار رفع.
بعد تحميل الملف، احذف الملف المضغوط الأصلي.
- في وحدة تحكم Amazon S3، حدد الحاوية واختر يمسح.
- قم بتأكيد اسم الملف لحذف الملف نهائيًا عن طريق إدخال اسم الملف في مربع النص.
- يختار حذف الكائنات.
سيؤدي هذا إلى ترك ملف واحد متبقي في مجلد الإخراج: الملف غير المضغوط.
قم بتحويل بيانات JSON إلى تنسيق جدول باستخدام AWS Glue
في هذه الخطوة، تقوم بإعداد مخرجات Amazon Comprehend لاستخدامها كمدخل في Athena. يكون مخرج Amazon Comprehend بتنسيق JSON. يمكنك استخدام AWS Glue لتحويل JSON إلى بنية قاعدة بيانات ليتم قراءتها في النهاية بواسطة QuickSight.
- في وحدة تحكم AWS Glue، اختر الزواحف في جزء التنقل.
- يختار إنشاء الزاحف.
- أدخل اسمًا للزاحف الخاص بك.
- يختار التالي.
- ل هل تم تعيين بياناتك بالفعل إلى جداول الغراء؟، يختار ليس بعد.
- إضافة مصدر بيانات.
- ل مسار S3، أدخل موقع مجلد بيانات مخرجات Amazon Comprehend.
تأكد من إضافة زائدة /
إلى اسم المسار. سيبحث AWS Glue في مسار المجلد عن جميع الملفات.
- يختار الزحف إلى كافة المجلدات الفرعية.
- يختار أضف مصدر بيانات S3.
- قم بإنشاء دور AWS Identity and Access Management (IAM) جديد للزاحف.
- أدخل اسمًا لدور IAM.
- يختار قم بتحديث دور IAM المختار للتأكد من تعيين الدور الجديد للزاحف.
- يختار التالي لإدخال معلومات الإخراج (قاعدة البيانات).
- يختار إضافة قاعدة بيانات.
- أدخل اسم قاعدة البيانات.
- يختار التالي.
- يختار إنشاء الزاحف.
- يختار تشغيل الزاحف لتشغيل الزاحف.
يمكنك مراقبة حالة الزاحف على وحدة تحكم AWS Glue.
استخدم Athena لإعداد الجداول لـ QuickSight
ستقوم Athena باستخراج البيانات من جداول قاعدة البيانات التي أنشأها زاحف AWS Glue لتوفير تنسيق سيستخدمه QuickSight لإنشاء سحابة الكلمات.
- على وحدة تحكم أثينا، اختر محرر الاستعلام في جزء التنقل.
- ل مصدر البيانات، يختار AwsDataCatalog.
- ل قاعدة البيانات، اختر قاعدة البيانات التي أنشأها الزاحف.
لإنشاء جدول متوافق مع QuickSight، يجب أن تكون البيانات غير متداخلة من المصفوفات.
- الخطوة الأولى هي إنشاء قاعدة بيانات مؤقتة تتضمن بيانات Amazon Comprehend ذات الصلة:
- يقتصر البيان التالي على عبارات مكونة من ثلاث كلمات ومجموعات على الأقل حسب تكرار العبارات:
استخدم QuickSight لتصور الإخراج
وأخيرًا، يمكنك إنشاء المخرجات المرئية من التحليل.
- في وحدة تحكم QuickSight، اختر تحليل جديد.
- يختار مجموعة بيانات جديدة.
- ل إنشاء مجموعة بيانات، يختار من مصادر البيانات الجديدة.
- يختار أثينا كمصدر للبيانات.
- أدخل اسمًا لمصدر البيانات واختر إنشاء مصدر البيانات.
- يختار تصور.
تأكد من أن QuickSight لديه حق الوصول إلى حاويات S3 حيث يتم تخزين جداول Athena.
- في وحدة تحكم QuickSight، اختر رمز ملف تعريف المستخدم واختر إدارة QuickSight.
- يختار الأمن والأذونات.
- ابحث عن القسم الوصول السريع إلى خدمات AWS.
من خلال تكوين الوصول إلى خدمات AWS، يمكن لـ QuickSight الوصول إلى البيانات الموجودة في تلك الخدمات. يمكن التحكم في وصول المستخدمين والمجموعات من خلال الخيارات.
- تحقق من منح Amazon S3 حق الوصول.
الآن يمكنك إنشاء سحابة الكلمات.
- اختر سحابة الكلمة تحت أنواع مرئية.
- اسحب النص إلى مجموعة من والعد ل مقاس.
اختر قائمة الخيارات (ثلاث نقاط) في التمثيل المرئي للوصول إلى خيارات التحرير. على سبيل المثال، قد ترغب في إخفاء المصطلح "أخرى" من الشاشة. يمكنك أيضًا تحرير عناصر مثل العنوان والعنوان الفرعي لمرئيتك. لتنزيل Word Cloud بصيغة PDF، اختر تحميل على شريط أدوات QuickSight.
تنظيف
لتجنب تكبد رسوم مستمرة، احذف أي بيانات وعمليات أو موارد غير مستخدمة متوفرة على وحدة تحكم الخدمة الخاصة بها.
خاتمة
يستخدم Amazon Comprehend البرمجة اللغوية العصبية (NLP) لاستخراج رؤى حول محتوى المستندات. يقوم بتطوير الرؤى من خلال التعرف على الكيانات والعبارات الرئيسية واللغة والمشاعر والعناصر المشتركة الأخرى في المستند. يمكنك استخدام Amazon Comprehend لإنشاء منتجات جديدة بناءً على فهم بنية المستندات. على سبيل المثال، باستخدام Amazon Comprehend، يمكنك فحص مستودع المستندات بالكامل بحثًا عن العبارات الرئيسية.
يصف هذا المنشور خطوات إنشاء سحابة كلمات لتصور تحليل محتوى النص من Amazon Comprehend باستخدام أدوات AWS وQuickSight لتصور البيانات.
دعونا نبقى على تواصل عبر قسم التعليقات!
عن المؤلفين
كريس جيدمان هي الشركة الرائدة في مبيعات التجزئة والسلع الاستهلاكية المعبأة في شرق الولايات المتحدة في Amazon Web Services. عندما لا يعمل، يستمتع بقضاء الوقت مع أصدقائه وعائلته، وخاصة فصل الصيف في كيب كود. كريس هو محارب نينجا متقاعد مؤقتًا لكنه يحب مشاهدة وتدريب ولديه في الوقت الحالي.
كلارك ليفافور هو أحد مهندسي الحلول الرائدين في Amazon Web Services، حيث يدعم عملاء المؤسسات في المنطقة الشرقية. يقع مقر كلارك في نيو إنجلاند ويستمتع بقضاء الوقت في تصميم الوصفات في المطبخ.
اترك رد