Kurzusleírás

Részletes képzési vázlat

  1. Bevezetés az NLP-be
    • Az NLP megértése
    • NLP keretrendszerek
    • Az NLP kereskedelmi alkalmazásai
    • Adatok gyűjtése a web-ről
    • Különböző API-k használata szöveges adatok lekéréséhez
    • Szöveges korpuszok kezelése és tárolása, tartalom és releváns metaadatok mentése
    • A Python és az NLTK használatának előnyei – gyorstalpaló
  2. Gyakorlati megértés a korpuszról és adathalmazról
    • Miért van szükség korpuszra?
    • Korpusz elemzés
    • Adatattribútumok típusai
    • Különböző fájlformátumok korpuszokhoz
    • Adathalmaz előkészítése NLP alkalmazásokhoz
  3. A mondat szerkezetének megértése
    • Az NLP összetevői
    • Természetes nyelv megértése
    • Morfológiai elemzés – szótő, szó, token, beszédcímkék
    • Szintaktikai elemzés
    • Szematikus elemzés
    • Kétértelműség kezelése
  4. Szöveges adatok előfeldolgozása
    • Korpusz – nyers szöveg
      • Mondat tokenizálás
      • Szótőválasztás nyers szöveghez
      • Lemmatizálás nyers szöveghez
      • Stop szavak eltávolítása
    • Korpusz – nyers mondatok
      • Szó tokenizálás
      • Szó lemmatizálás
    • Term-Dokument/Dokument-Term mátrixok használata
    • Szöveg tokenizálás n-grammokra és mondatokra
    • Gyakorlati és testreszabott előfeldolgozás
  5. Szöveges adatok elemzése
    • Az NLP alapvető jellemzői
      • Elemzők és elemzés
      • POS címkézés és címkézők
      • Névazonosítás
      • N-grammok
      • Szózsák
    • Az NLP statisztikai jellemzői
      • Lineáris algebra alapjai az NLP-hez
      • Valószínűségszámítás az NLP-hez
      • TF-IDF
      • Vektorizálás
      • Kódolók és dekódolók
      • Normalizálás
      • Valószínűségi modellek
    • Haladó jellemzőmérnökség és NLP
      • A word2vec alapjai
      • A word2vec modell összetevői
      • A word2vec modell logikája
      • A word2vec koncepció kiterjesztése
      • A word2vec modell alkalmazása
    • Esettanulmány: A szózsák alkalmazása: automatikus szövegösszefoglalás egyszerűsített és valódi Luhn-algoritmusokkal
  6. Dokumentum klaszterezés, osztályozás és témamodellezés
    • Dokumentum klaszterezés és mintakeresés (hierarchikus klaszterezés, k-means klaszterezés stb.)
    • Dokumentumok összehasonlítása és osztályozása TFIDF, Jaccard és koszinusz távolságmérőkkel
    • Dokumentum osztályozás Naïve Bayes és Maximum Entropy módszerekkel
  7. Fontos szövegelemek azonosítása
    • Dimenziócsökkentés: Főkomponens-analízis, Szinguláris értékfelbontás, nem-negatív mátrix faktorizáció
    • Témamodellezés és információlehívás Latent Szeamtikus Analízissel
  8. Entitás kinyerése, hangulatelemzés és haladó témamodellezés
    • Pozitív vs. negatív: hangulat foka
    • Tételválasz elmélet
    • Szófaji címkézés és alkalmazása: személyek, helyek és szervezetek azonosítása szövegben
    • Haladó témamodellezés: Latent Dirichlet Allocation
  9. Esettanulmányok
    • Strukturálatlan felhasználói vélemények bányászata
    • Termékértékelési adatok hangulat osztályozása és vizualizálása
    • Keresési naplók bányászata használati mintákhoz
    • Szöveg osztályozás
    • Témamodellezés

Követelmények

Az NLP alapelveinek ismerete és az MI üzleti alkalmazásainak megértése

 21 Órák

Résztvevők száma


Ár per résztvevő

Vélemények (1)

Közelgő kurzusok

Rokon kategóriák