Lépjen kapcsolatba velünk

Kurzusleírás

Részletes képzési vázlat

  1. Bevezetés a Természetes Nyelvfeldolgozásba
    • A Természetes Nyelvfeldolgozás megértése
    • NLP keretrendszerek
    • A Természetes Nyelvfeldolgozás kereskedelmi alkalmazásai
    • Adatok gyűjtése a web-ről
    • Különböző API-k használata szöveges adatok lekéréséhez
    • Szöveges korpuszok kezelése és tárolása, tartalom és releváns metaadatok mentése
    • A Python és az NLTK használatának előnyei és gyorstalpaló
  2. Gyakorlati megértés a korpuszról és adathalmazról
    • Miért van szükség korpuszra?
    • Korpuszanalízis
    • Adatattribútumok típusai
    • Különböző fájlformátumok korpuszokhoz
    • Adathalmaz előkészítése NLP alkalmazásokhoz
  3. A mondatszerkezet megértése
    • A Természetes Nyelvfeldolgozás összetevői
    • Természetes nyelv megértése
    • Morfológiai elemzés - szótő, szó, token, beszédcímkék
    • Szintaktikai elemzés
    • Szematikus elemzés
    • Kétértelműség kezelése
  4. Szöveges adatok előfeldolgozása
    • Korpusz - nyers szöveg
      • Mondat tokenizálás
      • Szótőválasztás nyers szöveghez
      • Lemmatizálás nyers szöveghez
      • Stop szavak eltávolítása
    • Korpusz - nyers mondatok
      • Szó tokenizálás
      • Szó lemmatizálás
    • Term-Dokumentum/Dokumentum-Term mátrixok kezelése
    • Szöveg tokenizálása n-grammokra és mondatokra
    • Gyakorlati és testreszabott előfeldolgozás
  5. Szöveges adatok elemzése
    • NLP alapvető jellemzői
      • Elemzők és elemzés
      • POS címkézés és címkézők
      • Elnevezett entitások felismerése
      • N-grammok
      • Szókészlet
    • NLP statisztikai jellemzői
      • Lineáris algebra alapjai az NLP-hez
      • Valószínűségszámítás az NLP-hez
      • TF-IDF
      • Vektorizálás
      • Kódolók és dekódolók
      • Normalizálás
      • Valószínűségi modellek
    • Haladó jellemzőmérnökség és NLP
      • A word2vec alapjai
      • A word2vec modell összetevői
      • A word2vec modell logikája
      • A word2vec koncepció kiterjesztése
      • A word2vec modell alkalmazása
    • Esettanulmány: Szókészlet alkalmazása: automatikus szövegösszefoglalás egyszerűsített és valós Luhn-algoritmusokkal
  6. Dokumentumok csoportosítása, osztályozása és témamodellezés
    • Dokumentumok csoportosítása és mintakeresés (hierarchikus csoportosítás, k-közép csoportosítás stb.)
    • Dokumentumok összehasonlítása és osztályozása TFIDF, Jaccard és koszinusz távolságmérőkkel
    • Dokumentumok osztályozása Naïv Bayes és Maximum Entropy módszerekkel
  7. Fontos szövegelemek azonosítása
    • Dimenziócsökkentés: Főkomponens-analízis, Szinguláris Értékfelbontás, nem-negatív mátrix faktorizáció
    • Témamodellezés és információlekérdezés Latent Szemantikus Analízis segítségével
  8. Entitás kinyerése, érzelmek elemzése és haladó témamodellezés
    • Pozitív vs. negatív: érzelem mértéke
    • Elemválasz elmélet
    • Beszédrész címkézés és alkalmazása: személyek, helyek és szervezetek azonosítása szövegben
    • Haladó témamodellezés: Latent Dirichlet Allocation
  9. Esettanulmányok
    • Strukturálatlan felhasználói vélemények bányászata
    • Érzelmek osztályozása és termékértékelési adatok vizualizációja
    • Keresési naplók bányászata használati mintákhoz
    • Szövegosztályozás
    • Témamodellezés

Követelmények

Alapvető ismeretek a Természetes Nyelvfeldolgozás elveiről és a mesterséges intelligencia üzleti alkalmazásairól.

 21 Órák

Résztvevők száma


Ár per résztvevő

Vélemények (1)

Közelgő kurzusok

Rokon kategóriák