"يمكن أن تكون البيانات المخزنة في النصوص والصوت ووسائل التواصل الاجتماعي وغيرها من المصادر غير المنظمة ميزة تنافسية للشركات التي تكتشف كيفية استخدامها"
فقط 18% من المنظمات في أ استطلاع عام 2019 من قبل شركة ديلويت ذكرت القدرة على الاستفادة من البيانات غير المنظمة. غالبية البيانات، بين 80% و90%، هي بيانات غير منظمة. وهذا مورد كبير غير مستغل ولديه القدرة على منح الشركات ميزة تنافسية إذا تمكنت من معرفة كيفية استخدامه. قد يكون من الصعب العثور على رؤى من هذه البيانات، خاصة إذا كانت هناك حاجة إلى بذل جهود لتصنيفها أو وضع علامة عليها أو تصنيفها. يمكن أن يكون تصنيف Amazon Comprehend المخصص مفيدًا في هذه الحالة. Amazon Comprehend هي خدمة معالجة لغة طبيعية (NLP) تستخدم التعلم الآلي للكشف عن رؤى وروابط قيمة في النص.
تصنيف المستندات أو تصنيفها له فوائد كبيرة عبر مجالات الأعمال -
- تحسين البحث والاسترجاع – من خلال تصنيف المستندات إلى مواضيع أو فئات ذات صلة، فإنه يسهل على المستخدمين البحث عن المستندات التي يحتاجون إليها واسترجاعها. يمكنهم البحث ضمن فئات محددة لتضييق النتائج.
- إدارة المعرفة – تصنيف الوثائق بطريقة منظمة يساعد على تنظيم القاعدة المعرفية للمنظمة. فهو يسهل تحديد موقع المعلومات ذات الصلة ورؤية الروابط بين المحتوى ذي الصلة.
- سير العمل مبسط – يمكن أن يساعد الفرز التلقائي للمستندات في تبسيط العديد من العمليات التجارية مثل معالجة الفواتير أو دعم العملاء أو الامتثال التنظيمي. يمكن توجيه المستندات تلقائيًا إلى الأشخاص المناسبين أو مهام سير العمل.
- توفير التكلفة والوقت - يعد التصنيف اليدوي للمستندات أمرًا مملاً ويستغرق وقتًا طويلاً ومكلفًا. يمكن لتقنيات الذكاء الاصطناعي أن تتولى هذه المهمة الدنيوية وتصنيف آلاف المستندات في وقت قصير وبتكلفة أقل بكثير.
- جيل البصيرة – يمكن أن يوفر تحليل الاتجاهات في فئات المستندات رؤى تجارية مفيدة. على سبيل المثال، قد تشير الزيادة في شكاوى العملاء في فئة المنتج إلى بعض المشكلات التي تحتاج إلى معالجة.
- الحوكمة وإنفاذ السياسات - يساعد إعداد قواعد تصنيف المستندات على ضمان تصنيف المستندات بشكل صحيح وفقًا لسياسات المؤسسة ومعايير الإدارة. وهذا يسمح بمراقبة وتدقيق أفضل.
- تجارب شخصية – في سياقات مثل محتوى موقع الويب، يسمح تصنيف المستندات بعرض محتوى مخصص للمستخدمين بناءً على اهتماماتهم وتفضيلاتهم كما هو محدد من سلوك التصفح الخاص بهم. وهذا يمكن أن يزيد من تفاعل المستخدم.
يختلف تعقيد تطوير نموذج التعلم الآلي للتصنيف حسب الطلب اعتمادًا على مجموعة متنوعة من الجوانب مثل جودة البيانات والخوارزمية وقابلية التوسع ومعرفة المجال، على سبيل المثال لا الحصر. من الضروري البدء بتعريف واضح للمشكلة، وبيانات نظيفة وذات صلة، ثم العمل تدريجيًا خلال المراحل المختلفة لتطوير النموذج. ومع ذلك، يمكن للشركات إنشاء نماذج التعلم الآلي الفريدة الخاصة بها باستخدام تصنيف Amazon Comprehend المخصص لتصنيف المستندات النصية تلقائيًا إلى فئات أو علامات، لتلبية متطلبات الأعمال المحددة وتعيين تكنولوجيا الأعمال وفئات المستندات. وبما أن وضع العلامات البشرية أو التصنيف لم يعد ضروريًا، فقد يؤدي ذلك إلى توفير الكثير من الوقت والمال والعمالة للشركات. لقد جعلنا هذه العملية بسيطة من خلال أتمتة مسار التدريب بالكامل.
في الجزء الأول من منشور المدونة متعدد السلاسل هذا، ستتعلم كيفية إنشاء مسار تدريب قابل للتطوير وإعداد بيانات التدريب لفهم نماذج التصنيف المخصص. سنقدم مسارًا تدريبيًا مخصصًا للمصنفات يمكن نشره في حساب AWS الخاص بك بنقرات قليلة. نحن نستخدم مجموعة بيانات أخبار بي بي سي، وسوف نقوم بتدريب أحد المصنفين لتحديد الفئة (مثل السياسة والرياضة) التي تنتمي إليها الوثيقة. سيمكن المسار مؤسستك من الاستجابة بسرعة للتغييرات وتدريب النماذج الجديدة دون الحاجة إلى البدء من الصفر في كل مرة. يمكنك توسيع نطاق نماذج متعددة وتدريبها بناءً على طلبك بسهولة.
المتطلبات الأساسية
- حساب AWS نشط (انقر هنا لإنشاء حساب AWS جديد)
- الوصول إلى Amazon Comprehend وAmazon S3 وAmazon Lambda وAmazon Step Function وAmazon SNS وAmazon CloudFormation
- بيانات التدريب (شبه الهيكل أو النص) المعدة في القسم التالي
- المعرفة الأساسية حول لغة بايثون والتعلم الآلي بشكل عام
إعداد بيانات التدريب
يمكن أن يأخذ هذا الحل مدخلات أيضًا تنسيق النص (على سبيل المثال CSV) أو تنسيق شبه منظم (مثلا PDF).
إدخال النص
يدعم التصنيف المخصص من Amazon Comprehend وضعين: متعدد الفئات ومتعدد العلامات.
في الوضع متعدد الفئات، يمكن أن يكون لكل مستند فئة واحدة فقط مخصصة له. يجب إعداد بيانات التدريب كملف CSV مكون من عمودين بحيث يحتوي كل سطر من الملف على فئة واحدة ونص مستند يوضح الفصل.
مثال ل مجموعة بيانات بي بي سي الإخبارية:
في وضع التسميات المتعددة، يحتوي كل مستند على فئة واحدة على الأقل مخصصة له، ولكن يمكن أن يحتوي على المزيد. يجب أن تكون بيانات التدريب كملف CSV مكون من عمودين، حيث يحتوي كل سطر من الملف على فئة واحدة أو أكثر ونص وثيقة التدريب. يجب الإشارة إلى أكثر من فئة واحدة باستخدام الفاصل بين كل فئة.
لا ينبغي تضمين أي رأس في ملف CSV لأي من وضعي التدريب.
مدخلات شبه منظمة
بدءًا من عام 2023، تدعم Amazon Comprehend الآن نماذج التدريب باستخدام المستندات شبه المنظمة. تتكون بيانات التدريب الخاصة بالإدخال شبه الهيكلي من مجموعة من المستندات ذات العلامات، والتي يمكن أن تكون مستندات محددة مسبقًا من مستودع المستندات الذي يمكنك الوصول إليه بالفعل. فيما يلي مثال لبيانات ملف التعليقات التوضيحية CSV المطلوبة للتدريب (بيانات العينة):
يحتوي ملف التعليقات التوضيحية CSV على ثلاثة أعمدة: يحتوي العمود الأول على تسمية المستند، والعمود الثاني هو اسم المستند (أي اسم الملف)، والعمود الأخير هو رقم صفحة المستند الذي تريد تضمينه في ملف التعليقات التوضيحية. مجموعة بيانات التدريب. في معظم الحالات، إذا كان ملف التعليقات التوضيحية CSV موجودًا في نفس المجلد مع جميع المستندات الأخرى، فستحتاج فقط إلى تحديد اسم المستند في العمود الثاني. ومع ذلك، إذا كان ملف CSV موجودًا في موقع مختلف، فستحتاج إلى تحديد المسار إلى الموقع في العمود الثاني، مثل المسار/إلى/البادئة/document1.pdf
.
لمزيد من التفاصيل، وكيفية إعداد بيانات التدريب الخاصة بك، يرجى الرجوع هنا.
حل نظرة عامة
- يبدأ مسار تدريب Amazon Comprehend عند تحميل بيانات التدريب (ملف .csv لإدخال النص وملف .csv للتعليقات التوضيحية للإدخال شبه الهيكلي) إلى حاوية Amazon Simple Storage Service (Amazon S3) المخصصة.
- يتم استدعاء وظيفة AWS Lambda بواسطة مشغل Amazon S3 بحيث أنه في كل مرة يتم تحميل كائن إلى موقع Amazon S3 محدد، تسترد وظيفة AWS Lambda اسم مجموعة المصدر والاسم الرئيسي للكائن الذي تم تحميله وتمريره إلى سير عمل وظيفة خطوة التدريب.
- في وظيفة خطوة التدريب، بعد تلقي اسم مجموعة بيانات التدريب واسم مفتاح الكائن كمعلمات إدخال، يبدأ سير عمل تدريب النموذج المخصص كسلسلة من وظائف lambdas كما هو موضح:
ابدأ التدريب على الفهم
: تحدد وظيفة AWS Lambda أفهم المصنف
الكائن اعتمادًا على نوع ملفات الإدخال (على سبيل المثال، نصية أو شبه منظمة) ثم تبدأ مهمة التدريب على التصنيف المخصص لـ Amazon Comprehend عن طريق استدعاء create_document_classifier واجهة برمجة التطبيقات (API)، والتي تُرجع أسماء موارد أمازون الوظيفية (ARN) للتدريب. بعد ذلك، تقوم هذه الوظيفة بالتحقق من حالة مهمة التدريب عن طريق الاستدعاء description_document_classifier واجهة برمجة التطبيقات. وأخيرًا، تقوم بإرجاع ARN الخاص بالمهمة التدريبية وحالة الوظيفة، كمخرجات إلى المرحلة التالية من سير عمل التدريب.GetTrainingJobStatus
: تتحقق AWS Lambda من حالة مهمة مهمة التدريب كل 15 دقيقة، عن طريق الاتصال description_document_classifier API، حتى تتغير حالة مهمة التدريب إلى مكتملة أو فاشلة.إنشاء MultiClass
أوGenerateMultiLabel
: إذا قمت بتحديد نعم للحصول على تقرير الأداء عند تشغيل المكدس، سيقوم أحد جهازي AWS Lambdas بتشغيل التحليل وفقًا لمخرجات نموذج Amazon Comprehend، مما يؤدي إلى إنشاء تحليل أداء لكل فئة وحفظه في Amazon S3.إنشاء MultiClass
: سيتم استدعاء AWS Lambda إذا كانت مدخلاتك كذلك متعدد الفئات وأنت تختار نعم لتقرير الأداء.GenerateMultiLabel
: سيتم استدعاء AWS Lambda إذا كانت مدخلاتك كذلك متعدد التسمية وأنت تختار نعم لتقرير الأداء.
- بمجرد الانتهاء من التدريب بنجاح، يولد الحل المخرجات التالية:
- نموذج التصنيف المخصص: سيتوفر نموذج ARN مُدرب في حسابك للعمل الاستدلالي المستقبلي.
- الارتباك مصفوفة [خيارل]: مصفوفة الارتباك (
الارتباك مصفوفة
.json) سيكون متاحًا في مسار مخرجات Amazon S3 الذي يحدده المستخدم، اعتمادًا على اختيار المستخدم. - إشعار خدمة الإخطارات البسيطة من أمازون [خيارl]: سيتم إرسال إشعار بالبريد الإلكتروني حول حالة مهمة التدريب إلى المشتركين، اعتمادًا على اختيار المستخدم الأولي.
تجول
إطلاق الحل
لنشر خط الأنابيب الخاص بك، أكمل الخطوات التالية:
- يختار إطلاق المكدس زر:
- اختر التالي
- حدد تفاصيل خط الأنابيب مع الخيارات التي تناسب حالة الاستخدام الخاصة بك:
معلومات لكل تفاصيل المكدس:
- اسم المكدس (مطلوب) – الاسم الذي حددته لمكدس AWS CloudFormation هذا. يجب أن يكون الاسم فريدًا في المنطقة التي تقوم بإنشائه فيها.
- Q01ClassifierInputBucketName (مطلوب) - اسم حاوية Amazon S3 لتخزين بيانات الإدخال الخاصة بك. يجب أن يكون اسمًا فريدًا عالميًا وتساعدك حزمة AWS CloudFormation على إنشاء المجموعة أثناء إطلاقها.
- Q02ClassifierOutputBucketName (مطلوب) – اسم حاوية Amazon S3 لتخزين المخرجات من Amazon Comprehend والتدفق. ويجب أن يكون أيضًا اسمًا فريدًا عالميًا.
- Q03تنسيق الإدخال - اختيار القائمة المنسدلة، يمكنك الاختيار نص (إذا كانت بيانات التدريب الخاصة بك عبارة عن ملفات CSV) أو شبه هيكل (إذا كانت بيانات التدريب الخاصة بك شبه بنية [على سبيل المثال، ملفات PDF]) بناءً على تنسيق إدخال البيانات الخاص بك.
- Q04اللغة – اختيار القائمة المنسدلة، واختيار لغة المستندات من القائمة المدعومة. يرجى ملاحظة أنه حاليًا يتم دعم اللغة الإنجليزية فقط إذا كان تنسيق الإدخال الخاص بك شبه منظم.
- Q05MultiClass - اختيار القائمة المنسدلة، حدد نعم إذا كان الإدخال الخاص بك هو وضع MultiClass. خلاف ذلك، حدد لا.
- Q06LabelDelimiter – مطلوب فقط إذا كانت إجابتك Q05MultiClass هي لا. يتم استخدام هذا المحدد في بيانات التدريب الخاصة بك لفصل كل فصل.
- Q07ValidationDataset - اختيار القائمة المنسدلة، تغيير الإجابة إلى نعم إذا كنت ترغب في اختبار أداء المصنف المدرب باستخدام بيانات الاختبار الخاصة بك.
- Q08S3ValidationPath – مطلوب فقط إذا كانت إجابتك Q07ValidationDataset هي نعم.
- تقرير الأداء Q09 - اختيار القائمة المنسدلة، حدد نعم إذا كنت ترغب في إنشاء تقرير الأداء على مستوى الفصل بعد التدريب النموذجي. سيتم حفظ التقرير في مجموعة الإخراج المحددة في Q02ClassifierOutputBucketName.
- Q10إخطار البريد الإلكتروني - اختيار القائمة المنسدلة. يختار نعم إذا كنت تريد تلقي إشعار بعد تدريب النموذج.
- Q11معرف البريد الإلكتروني – أدخل عنوان بريد إلكتروني صالحًا لتلقي إشعار تقرير الأداء. يرجى ملاحظة أنه يتعين عليك تأكيد الاشتراك من بريدك الإلكتروني بعد تشغيل مكدس AWS CloudFormation، قبل أن تتمكن من تلقي إشعار عند اكتمال التدريب.
- في قسم خيارات حزمة Amazon Configure، أضف العلامات الاختيارية والأذونات والإعدادات المتقدمة الأخرى.
- يختار التالي
- راجع تفاصيل المكدس وحدد أقر بأن AWS CloudFormation قد ينشئ موارد AWS IAM.
- يختار يُقدِّم. يؤدي هذا إلى بدء نشر التدفق في حساب AWS الخاص بك.
- بعد نشر المكدس بنجاح، يمكنك البدء في استخدام المسار. إنشاء
/ بيانات التدريب
المجلد الموجود أسفل موقع Amazon S3 المحدد للإدخال. ملاحظة: تقوم Amazon S3 تلقائيًا بتطبيق التشفير من جانب الخادم (SSE-S3) لكل كائن جديد ما لم تحدد خيار تشفير مختلف. يرجى الرجوع إلى حماية البيانات في Amazon S3 للحصول على مزيد من التفاصيل حول حماية البيانات والتشفير في Amazon S3.
- قم بتحميل بيانات التدريب الخاصة بك إلى المجلد. (إذا كانت بيانات التدريب شبه منظمة، فقم بتحميل جميع ملفات PDF قبل تحميل معلومات التصنيف بتنسيق csv).
انت انتهيت! لقد نجحت في نشر خط الأنابيب الخاص بك ويمكنك التحقق من حالة خط الأنابيب في وظيفة الخطوة المنشورة. (سيكون لديك نموذج مدرب في لوحة التصنيف المخصصة الخاصة بك في Amazon Comprehend).
إذا اخترت النموذج وإصداره داخل Amazon Comprehend Console، فيمكنك الآن رؤية المزيد من التفاصيل حول النموذج الذي قمت بتدريبه للتو. ويتضمن الوضع الذي تحدده، والذي يتوافق مع الخيار Q05MultiClass، وعدد الملصقات، وعدد المستندات المدربة والاختبارية داخل بيانات التدريب الخاصة بك. يمكنك أيضًا التحقق من الأداء العام أدناه؛ ومع ذلك، إذا كنت تريد التحقق من الأداء التفصيلي لكل فئة، فيرجى الرجوع إلى تقرير الأداء الذي تم إنشاؤه بواسطة المسار المنشور.
حصص الخدمة
يحتوي حساب AWS الخاص بك على حصص افتراضية لـ Amazon Comprehend وAmazonTextract، إذا كانت المدخلات بتنسيق شبه هيكلي. لعرض حصص الخدمة، يرجى الرجوع هنا إلى Amazon Comprehend وهنا إلى AmazonTextract.
تنظيف
لتجنب تكبد رسوم مستمرة، احذف الموارد التي قمت بإنشائها كجزء من هذا الحل عند الانتهاء.
- في وحدة تحكم Amazon S3، احذف المحتويات الموجودة داخل الحاويات التي قمت بإنشائها لبيانات الإدخال والإخراج يدويًا.
- في وحدة تحكم AWS CloudFormation، اختر أكوام في جزء التنقل.
- حدد المكدس الرئيسي واختر يمسح.
يؤدي هذا إلى حذف المكدس المنشور تلقائيًا.
- سيظل نموذج التصنيف المخصص الذي تم تدريبه في Amazon Comprehend موجودًا في حسابك. إذا لم تعد بحاجة إليه، في وحدة تحكم Amazon Comprehend، فاحذف النموذج الذي تم إنشاؤه.
خاتمة
في هذا المنشور، أظهرنا لك مفهوم مسار التدريب القابل للتطوير لنماذج التصنيف المخصصة من Amazon Comprehend وتوفير حل تلقائي لتدريب النماذج الجديدة بكفاءة. يمكّنك قالب AWS CloudFormation المقدم من إنشاء نماذج تصنيف النص الخاصة بك بسهولة، بما يلبي مقاييس الطلب. يعتمد الحل ميزة Euclid التي تم الإعلان عنها مؤخرًا ويقبل المدخلات بتنسيق نصي أو شبه منظم.
والآن، نحن نشجعكم، أيها القراء، على اختبار هذه الأدوات. يمكنك العثور على مزيد من التفاصيل حول إعداد بيانات التدريب وفهم مقاييس المصنف المخصصة. جربه وشاهد بشكل مباشر كيف يمكنه تبسيط عملية التدريب النموذجية الخاصة بك وتعزيز الكفاءة. يرجى مشاركة ملاحظاتك معنا!
عن المؤلفين
سانديب سينغ هو أحد كبار علماء البيانات في خدمات AWS الاحترافية. إنه متحمس لمساعدة العملاء على الابتكار وتحقيق أهداف أعمالهم من خلال تطوير أحدث الحلول المدعومة بالذكاء الاصطناعي/التعلم الآلي. وهو يركز حاليًا على الذكاء الاصطناعي التوليدي، وماجستير إدارة الأعمال، والهندسة السريعة، وتوسيع نطاق التعلم الآلي عبر المؤسسات. إنه يجلب التطورات الحديثة في الذكاء الاصطناعي لخلق قيمة للعملاء.
يايان تشانغ هو أحد كبار علماء البيانات في فريق توصيل الطاقة لدى AWS Professional Services. إنها متحمسة لمساعدة العملاء على حل المشكلات الحقيقية باستخدام معرفة الذكاء الاصطناعي/تعلم الآلة. في الآونة الأخيرة، كان تركيزها منصبًا على استكشاف إمكانات الذكاء الاصطناعي التوليدي وماجستير إدارة الأعمال. خارج العمل، تحب السفر وممارسة الرياضة واستكشاف أشياء جديدة.
ويريك تالوكدار هو أحد كبار المهندسين المعماريين في فريق Amazon Comprehend Service. وهو يعمل مع عملاء AWS لمساعدتهم في اعتماد التعلم الآلي على نطاق واسع. خارج العمل، يستمتع بالقراءة والتصوير الفوتوغرافي.
اترك رد