Bina saluran paip klasifikasi dengan klasifikasi tersuai Amazon Comprehend (Bahagian I)


"Data yang terkunci dalam teks, audio, media sosial dan sumber tidak berstruktur lain boleh menjadi kelebihan daya saing bagi firma yang mengetahui cara menggunakannya"

Hanya 18% organisasi dalam a Tinjauan 2019 oleh Deloitte dilaporkan boleh mengambil kesempatan daripada data tidak berstruktur. Majoriti data, antara 80% dan 90%, adalah data tidak berstruktur. Itu adalah sumber besar yang belum diterokai yang berpotensi untuk memberikan perniagaan kelebihan daya saing jika mereka dapat mengetahui cara menggunakannya. Sukar untuk mencari cerapan daripada data ini, terutamanya jika usaha diperlukan untuk mengelaskan, menandai atau melabelkannya. Pengelasan tersuai Amazon Comprehend boleh berguna dalam situasi ini. Amazon Comprehend ialah perkhidmatan pemprosesan bahasa semula jadi (NLP) yang menggunakan pembelajaran mesin untuk menemui cerapan dan sambungan yang berharga dalam teks.

Pengkategorian atau klasifikasi dokumen mempunyai faedah yang ketara merentas domain perniagaan –

  • Carian dan perolehan yang lebih baik – Dengan mengkategorikan dokumen ke dalam topik atau kategori yang berkaitan, ia memudahkan pengguna mencari dan mendapatkan semula dokumen yang mereka perlukan. Mereka boleh mencari dalam kategori tertentu untuk mengecilkan hasil carian.
  • Pengurusan pengetahuan – Mengkategorikan dokumen dengan cara yang sistematik membantu menyusun pangkalan pengetahuan organisasi. Ia memudahkan untuk mencari maklumat yang berkaitan dan melihat hubungan antara kandungan yang berkaitan.
  • Aliran kerja diperkemas – Pengisihan dokumen automatik boleh membantu menyelaraskan banyak proses perniagaan seperti memproses invois, sokongan pelanggan atau pematuhan peraturan. Dokumen boleh dihalakan secara automatik kepada orang atau aliran kerja yang betul.
  • Penjimatan kos dan masa – Pengkategorian dokumen manual adalah membosankan, memakan masa dan mahal. Teknik AI boleh mengambil alih tugas biasa ini dan mengkategorikan beribu-ribu dokumen dalam masa yang singkat dengan kos yang jauh lebih rendah.
  • Penjanaan wawasan – Menganalisis arah aliran dalam kategori dokumen boleh memberikan pandangan perniagaan yang berguna. Sebagai contoh, peningkatan dalam aduan pelanggan dalam kategori produk boleh menandakan beberapa isu yang perlu ditangani.
  • Tadbir urus dan penguatkuasaan dasar – Menyediakan peraturan pengkategorian dokumen membantu memastikan dokumen dikelaskan dengan betul mengikut dasar dan piawaian tadbir urus organisasi. Ini membolehkan pemantauan dan pengauditan yang lebih baik.
  • Pengalaman peribadi – Dalam konteks seperti kandungan tapak web, pengkategorian dokumen membolehkan kandungan yang disesuaikan ditunjukkan kepada pengguna berdasarkan minat dan keutamaan mereka seperti yang ditentukan daripada tingkah laku menyemak imbas mereka. Ini boleh meningkatkan penglibatan pengguna.

Kerumitan membangunkan model pembelajaran mesin klasifikasi yang dipesan lebih dahulu berbeza-beza bergantung pada pelbagai aspek seperti kualiti data, algoritma, kebolehskalaan dan pengetahuan domain, untuk menyebut beberapa. Adalah penting untuk bermula dengan definisi masalah yang jelas, data yang bersih dan relevan, dan secara beransur-ansur bekerja melalui pelbagai peringkat pembangunan model. Walau bagaimanapun, perniagaan boleh mencipta model pembelajaran mesin unik mereka sendiri menggunakan klasifikasi tersuai Amazon Comprehend untuk mengklasifikasikan dokumen teks secara automatik ke dalam kategori atau teg, untuk memenuhi keperluan khusus perniagaan dan memetakan kepada teknologi perniagaan dan kategori dokumen. Memandangkan penandaan atau pengkategorian manusia tidak lagi diperlukan, ini boleh menjimatkan banyak masa, wang dan tenaga perniagaan. Kami telah menjadikan proses ini mudah dengan mengautomasikan keseluruhan saluran latihan.

Dalam bahagian pertama catatan blog berbilang siri ini, anda akan belajar cara membuat saluran paip latihan berskala dan menyediakan data latihan untuk Memahami model Pengelasan Tersuai. Kami akan memperkenalkan saluran paip latihan pengelas tersuai yang boleh digunakan dalam akaun AWS anda dengan beberapa klik. Kami menggunakan set data berita BBC dan akan melatih pengelas untuk mengenal pasti kelas (cth politik, sukan) yang dimiliki oleh dokumen. Saluran paip akan membolehkan organisasi anda bertindak balas dengan pantas kepada perubahan dan melatih model baharu tanpa perlu bermula dari awal setiap kali. Anda boleh meningkatkan dan melatih berbilang model berdasarkan permintaan anda dengan mudah.

Prasyarat

  • Akaun AWS yang aktif (Klik di sini untuk membuat akaun AWS baharu)
  • Akses kepada Amazon Comprehend, Amazon S3, Amazon Lambda, Amazon Step Function, Amazon SNS dan Amazon CloudFormation
  • Data latihan (separa struktur atau teks) disediakan dalam bahagian berikut
  • Pengetahuan asas tentang Python dan Pembelajaran Mesin secara umum

Sediakan data latihan

Penyelesaian ini boleh mengambil input sama ada format teks (cth. CSV) atau format separa berstruktur (cth. PDF).

Input teks

Pengelasan tersuai Amazon Comprehend menyokong dua mod: berbilang kelas dan berbilang label.

Dalam mod berbilang kelas, setiap dokumen boleh mempunyai satu dan hanya satu kelas yang ditetapkan kepadanya. Data latihan hendaklah disediakan sebagai fail CSV dua lajur dengan setiap baris fail mengandungi satu kelas dan teks dokumen yang menunjukkan kelas tersebut.

KELAS, Teks dokumen 1 KELAS, Teks dokumen 2 ...

Contoh untuk dataset berita BBC:

Perniagaan, Eropah menyalahkan AS kerana dolar yang lemah... Tech, Cabs mengumpul segunung telefon bimbit... ...

Dalam mod berbilang label, setiap dokumen mempunyai sekurang-kurangnya satu kelas yang ditetapkan kepadanya, tetapi boleh mempunyai lebih banyak. Data latihan hendaklah sebagai fail CSV dua lajur, yang setiap baris fail mengandungi satu atau lebih kelas dan teks dokumen latihan. Lebih daripada satu kelas hendaklah ditunjukkan dengan menggunakan pembatas antara setiap kelas.

CLASS, Teks dokumen 1 CLASS|CLASS|CLASS, Teks dokumen 2 ...

Tiada pengepala harus disertakan dalam fail CSV untuk mana-mana mod latihan.

Input separa berstruktur

Mulai tahun 2023, Amazon Comprehend kini menyokong model latihan menggunakan dokumen separa berstruktur. Data latihan untuk input separa struktur terdiri daripada satu set dokumen berlabel, yang boleh menjadi dokumen pra-dikenal pasti daripada repositori dokumen yang telah anda akses. Berikut ialah contoh data CSV fail anotasi yang diperlukan untuk latihan (Data Sampel):

KELAS, document1.pdf, 1 CLASS, document1.pdf, 2 ...

Fail CSV anotasi mengandungi tiga lajur: Lajur pertama mengandungi label untuk dokumen, lajur kedua ialah nama dokumen (iaitu, nama fail) dan lajur terakhir ialah nombor halaman dokumen yang anda ingin sertakan dalam set data latihan. Dalam kebanyakan kes, jika fail CSV anotasi terletak pada folder yang sama dengan semua dokumen lain, maka anda hanya perlu menentukan nama dokumen dalam lajur kedua. Walau bagaimanapun, jika fail CSV terletak di lokasi yang berbeza, maka anda perlu menentukan laluan ke lokasi dalam lajur kedua, seperti path/to/prefix/document1.pdf.

Untuk butiran, cara menyediakan data latihan anda, sila rujuk di sini.

Gambaran keseluruhan penyelesaian

ML14789 1 imej 1

  1. Saluran paip latihan Amazon Comprehend bermula apabila data latihan (fail .csv untuk input teks dan fail .csv anotasi untuk input separa struktur) dimuat naik ke baldi Perkhidmatan Penyimpanan Mudah Amazon (Amazon S3) khusus.
  2. Fungsi AWS Lambda digunakan oleh pencetus Amazon S3 supaya setiap kali objek dimuat naik ke lokasi Amazon S3 yang ditentukan, fungsi AWS Lambda mendapatkan semula nama baldi sumber dan nama kunci objek yang dimuat naik dan menghantarnya ke aliran kerja fungsi langkah latihan.
  3. Dalam fungsi langkah latihan, selepas menerima nama baldi data latihan dan nama kunci objek sebagai parameter input, aliran kerja latihan model tersuai bermula sebagai satu siri fungsi lambdas seperti yang diterangkan:
    1. StartComprehendTraining: Fungsi AWS Lambda ini mentakrifkan a ComprehendClassifier objek bergantung pada jenis fail input (iaitu, teks atau separa berstruktur) dan kemudian memulakan tugas latihan klasifikasi tersuai Amazon Comprehend dengan memanggil create_document_classifier Application Programming Interfact (API), yang mengembalikan latihan Job Amazon Resource Names (ARN) . Selepas itu, fungsi ini menyemak status kerja latihan dengan menggunakan describe_document_classifier API. Akhirnya, ia mengembalikan ARN Kerja latihan dan status kerja, sebagai output ke peringkat aliran kerja latihan seterusnya.
    2. GetTrainingJobStatus: AWS Lambda ini menyemak status kerja kerja latihan dalam setiap 15 minit, dengan membuat panggilan describe_document_classifier API, sehingga status kerja latihan bertukar kepada Selesai atau Gagal.
    3. GenerateMultiClass atau GenerateMultiLabel: Jika anda memilih ya untuk laporan prestasi semasa melancarkan tindanan, salah satu daripada dua AWS Lambdas ini akan menjalankan analisis mengikut output model Amazon Comprehend anda, yang menjana analisis prestasi setiap kelas dan menyimpannya ke Amazon S3.
    4. GenerateMultiClass: AWS Lambda ini akan dipanggil jika input anda adalah MultiClass dan anda pilih ya untuk laporan prestasi.
    5. GenerateMultiLabel: AWS Lambda ini akan dipanggil jika input anda adalah BerbilangLabel dan anda pilih ya untuk laporan prestasi.
  4. Setelah latihan dilakukan dengan jayanya, penyelesaian menjana output berikut:
    1. Model Klasifikasi Tersuai: Model terlatih ARN akan tersedia dalam akaun anda untuk kerja inferens masa hadapan.
    2. Matriks Kekeliruan [Pilihanl]: Matriks kekeliruan (matriks_kekeliruan.json) akan tersedia dalam laluan keluaran Amazon S3 yang ditentukan pengguna, bergantung pada pilihan pengguna.
    3. Pemberitahuan Perkhidmatan Pemberitahuan Mudah Amazon [Pilihanl]: E-mel pemberitahuan akan dihantar tentang status kerja latihan kepada pelanggan, bergantung pada pemilihan pengguna awal.

Walkthrough

Melancarkan penyelesaian

Untuk menggunakan saluran paip anda, lengkapkan langkah berikut:

  1. pilih Lancarkan Tindanan butang:

ML14789 1 imej 3

  1. Pilih Seterusnya

ML14789 1 imej 4

  1. Tentukan butiran saluran paip dengan pilihan yang sesuai dengan kes penggunaan anda:

ML14789 1 imej 5

Maklumat untuk setiap butiran tindanan:

  • Nama timbunan (Diperlukan) – nama yang anda tentukan untuk timbunan AWS CloudFormation ini. Nama mestilah unik di Wilayah tempat anda menciptanya.
  • Q01ClassifierInputBucketName (Diperlukan) – Nama baldi Amazon S3 untuk menyimpan data input anda. Ia mestilah nama yang unik secara global dan timbunan AWS CloudFormation membantu anda mencipta baldi semasa ia dilancarkan.
  • Q02ClassifierOutputBucketName (Diperlukan) – Nama baldi Amazon S3 untuk menyimpan output daripada Amazon Comprehend dan saluran paip. Ia juga harus menjadi nama unik di peringkat global.
  • Q03InputFormat – Pilihan lungsur turun, anda boleh pilih teks (jika data latihan anda ialah fail csv) atau separuh struktur (jika data latihan anda adalah separa struktur [cth, fail PDF]) berdasarkan format input data anda.
  • S04Bahasa – Pilihan lungsur turun, memilih bahasa dokumen daripada senarai yang disokong. Sila ambil perhatian, pada masa ini hanya Bahasa Inggeris disokong jika format input anda adalah separa struktur.
  • Q05MultiClass – Pilihan lungsur turun, pilih ya jika input anda ialah mod MultiClass. Jika tidak, pilih tidak.
  • Q06LabelDelimiter – Hanya diperlukan jika jawapan Q05MultiClass anda adalah tidak. Pembatas ini digunakan dalam data latihan anda untuk memisahkan setiap kelas.
  • Q07ValidationDataset – Pilihan lungsur turun, tukar jawapan kepada ya jika anda ingin menguji prestasi pengelas terlatih dengan data ujian anda sendiri.
  • Q08S3Laluan Pengesahan – Hanya diperlukan jika jawapan Q07ValidationDataset anda adalah ya.
  • S09Laporan Prestasi – Pilihan lungsur turun, pilih ya jika anda ingin menjana latihan model pasca laporan prestasi peringkat kelas. Laporan akan disimpan dalam baldi keluaran yang anda tentukan dalam Q02ClassifierOutputBucketName.
  • S10Pemberitahuan E-mel – Pilihan lungsur turun. Pilih ya jika anda ingin menerima pemberitahuan selepas model dilatih.
  • S11ID E-mel – Masukkan alamat e-mel yang sah untuk menerima pemberitahuan laporan prestasi. Sila ambil perhatian, anda perlu mengesahkan langganan daripada e-mel anda selepas tindanan AWS CloudFormation dilancarkan, sebelum anda boleh menerima pemberitahuan apabila latihan selesai.
  1. Dalam bahagian pilihan tindanan Amazon Configure, tambahkan teg pilihan, kebenaran dan tetapan lanjutan lain.

ML14789 1 imej 6

  1. pilih Seterusnya
  2. Semak butiran tindanan dan pilih Saya mengakui bahawa AWS CloudFormation mungkin mencipta sumber AWS IAM.

ML14789 1 imej 7

  1. pilih Hantar. Ini memulakan penggunaan saluran paip dalam akaun AWS anda.
  2. Selepas timbunan berjaya digunakan, maka anda boleh mula menggunakan saluran paip. Buat a /data-latihan folder di bawah lokasi Amazon S3 anda yang ditentukan untuk input. Nota: Amazon S3 secara automatik menggunakan penyulitan sisi pelayan (SSE-S3) untuk setiap objek baharu melainkan anda menetapkan pilihan penyulitan yang berbeza. Sila rujuk Perlindungan data dalam Amazon S3 untuk mendapatkan butiran lanjut tentang perlindungan data dan penyulitan dalam Amazon S3.

ML14789 1 imej 8 1

  1. Muat naik data latihan anda ke folder. (Jika data latihan adalah separa struktur, kemudian muat naik semua fail PDF sebelum memuat naik maklumat label format .csv).

Anda sudah selesai! Anda telah berjaya menggunakan saluran paip anda dan anda boleh menyemak status saluran paip dalam fungsi langkah yang digunakan. (Anda akan mempunyai model terlatih dalam panel klasifikasi tersuai Amazon Comprehend anda).

ML14789 1 imej 9 1

Jika anda memilih model dan versinya dalam Amazon Comprehend Console, maka anda kini boleh melihat butiran lanjut tentang model yang baru anda latih. Ia termasuk Mod yang anda pilih, yang sepadan dengan pilihan Q05MultiClass, bilangan label dan bilangan dokumen terlatih dan ujian dalam data latihan anda. Anda juga boleh menyemak prestasi keseluruhan di bawah; walau bagaimanapun, jika anda ingin menyemak prestasi terperinci untuk setiap kelas, sila rujuk Laporan Prestasi yang dijana oleh saluran paip yang digunakan.

Kuota perkhidmatan

Akaun AWS anda mempunyai kuota lalai untuk Amazon Comprehend dan AmazonTextract, jika input adalah dalam format separa struktur. Untuk melihat kuota perkhidmatan, sila rujuk di sini untuk Amazon Comprehend dan di sini untuk AmazonTextract.

Bersihkan

Untuk mengelakkan daripada dikenakan caj berterusan, padamkan sumber yang anda buat sebagai sebahagian daripada penyelesaian ini apabila anda selesai.

  1. Pada konsol Amazon S3, padam secara manual kandungan di dalam baldi yang anda buat untuk data input dan output.
  2. Pada konsol AWS CloudFormation, pilih Tumpukan dalam anak tetingkap navigasi.
  3. Pilih timbunan utama dan pilih Padam.

ML14789 1 imej 10 1

Ini secara automatik memadamkan timbunan yang digunakan.

  1. Model klasifikasi tersuai Amazon Comprehend anda akan kekal dalam akaun anda. Jika anda tidak memerlukannya lagi, dalam konsol Amazon Comprehend, padamkan model yang dibuat.

Kesimpulan

Dalam siaran ini, kami menunjukkan kepada anda konsep saluran paip latihan berskala untuk model klasifikasi tersuai Amazon Comprehend dan menyediakan penyelesaian automatik untuk melatih model baharu dengan cekap. Templat AWS CloudFormation yang disediakan membolehkan anda mencipta model klasifikasi teks anda sendiri dengan mudah, memenuhi skala permintaan. Penyelesaian itu menggunakan ciri Euclid yang diumumkan baru-baru ini dan menerima input dalam format teks atau separa berstruktur.

Sekarang, kami menggalakkan anda, pembaca kami, untuk menguji alatan ini. Anda boleh mendapatkan butiran lanjut tentang penyediaan data latihan dan memahami metrik pengelas tersuai. Cubalah dan lihat sendiri bagaimana ia boleh menyelaraskan proses latihan model anda dan meningkatkan kecekapan. Sila kongsi maklum balas anda kepada kami!


Mengenai Pengarang

snghigfSandeep Singh ialah Saintis Data Kanan dengan Perkhidmatan Profesional AWS. Dia bersemangat untuk membantu pelanggan berinovasi dan mencapai objektif perniagaan mereka dengan membangunkan penyelesaian berkuasa AI/ML yang terkini. Beliau kini menumpukan pada AI Generatif, LLM, kejuruteraan segera, dan penskalaan Pembelajaran Mesin merentas perusahaan. Dia membawa kemajuan AI terkini untuk mencipta nilai untuk pelanggan.

zhanyny 100Yanyan Zhang ialah Saintis Data Kanan dalam pasukan Penghantaran Tenaga dengan Perkhidmatan Profesional AWS. Dia bersemangat untuk membantu pelanggan menyelesaikan masalah sebenar dengan pengetahuan AI/ML. Baru-baru ini, tumpuannya adalah untuk meneroka potensi Generatif AI dan LLM. Di luar kerja, dia suka melancong, bersenam dan meneroka perkara baharu.

wrick talukdarWrick Talukdar ialah Arkitek Kanan dengan pasukan Amazon Comprehend Service. Dia bekerjasama dengan pelanggan AWS untuk membantu mereka menggunakan pembelajaran mesin secara besar-besaran. Di luar kerja, dia gemar membaca dan fotografi.



Pautan sumber

Tinggalkan pesanan

Alamat e-mel anda tidak akan diterbitkan. Medan yang diperlukan ditanda *

Anda boleh menggunakan tag dan atribut HTML ini: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

ms_MYMalay