1. Text Classification
adalah tugas menetapkan kategori yang telah ditetapkan untuk dokumen teks bebas. Hal ini dapat memberikan pandangan konseptual koleksi dokumen dan memiliki aplikasi penting dalam dunia nyata.
Sebagai contoh, berita biasanya diselenggarakan oleh kategori subjek (topik) atau kode geografis; makalah akademis sering diklasifikasikan berdasarkan domain teknis dan sub-domain; laporan pasien dalam organisasi kesehatan sering diindeks dari beberapa aspek, menggunakan taksonomi kategori penyakit, jenis prosedur bedah, kode penggantian asuransi dan sebagainya. Aplikasi lain yang luas dari teks kategorisasi adalah spam filtering, di mana pesan email diklasifikasikan ke dalam dua kategori spam dan non-spam, masing-masing.
2. Information Retrieval
Information Retrieval adalah “studi tentang sistem pengindeksan, pencarian, dan mengingat data, khususnya teks atau bentuk tidak terstruktur lainnya.”
[virtechseo.com]
“Information Retrieval adalah seni dan ilmu mencari informasi dalam dokumen, mencari dokumen itu sendiri, mencari metadata yang menjelaskan dokumen, atau mencari dalam database, apakah relasional database itu berdiri sendiri atau database hypertext jaringan seperti Internet atau intranet, untuk teks , suara, gambar, atau data “
[Wikipedia]
Information Retrieval adalah “bidang di persimpangan ilmu informasi dan ilmu komputer. Berkutat dengan pengindeksan dan pengambilan informasi dari sumber informasi heterogen dan sebagian besar-tekstual. Istilah ini diciptakan oleh Mooers pada tahun 1951, yang menganjurkan bahwa diterapkan ke “aspek intelektual” deskripsi informasi dan sistem untuk pencarian (Mooers, 1951). “
Cara Kerja Information Retrieval (IR)
Untuk menemukan informasi relevan yang kita cari, maka kata kunci (Keyword, Kueri) yang dimasukan sebaiknya sesuai dengan informasi yang ingin didapat, lebih baik lagi jika kita memahami penggunaan kata kunci yang tepat. Mengapa demikian ?, karena dengan keyword yang seusai maka proses pencarian dalam index di mesin IR akan cepat, sehingga korpus yang sesuai dengan katakunci yang dimasukan akan ditampilkan kembali kepada si enduser.
- Keyword, Kueri : adalah inputan kata kunci pencarian yang diberikan pengguna kepada Mesin Pencari (Google, Yahoo, Being, Ask dll);
- Indexing : proses penyusunan index dari seluruh dokumen pada korpus, yang terdiri dari kata-kata (token)
- Korpus : adalah kumpulan dokumen yang disalin ke mesin IRMisalnya Google “menjepret” seluruh halaman website yang bisa diakses umum (tanpa login terlebih dahulu) kemudian menyalinnya ke mesin IR di ruang servernya google.
Bagaimana mesin IR menyalin dokumen-dokumen yang berada di dunia maya ?. mesin IR memiliki robot (BOT) sejenis program yang bisa disebut juga dengan crawler, program tersebutlah yang kemudian berfungsi untuk menyalin dokumen / informasi yang berada disalasatu sumber misal website/blog kepada server IR tersebut. Selain melakukan crawling BOT tersebut juga melakukan indexing (pemberian index atau pembaharuan index), index bersisi kata – kata (token) yang terdapat dalam suatu web/blog, lebih simplenya ketika kita akan memposting suatu informasi melualui blog kita selalu di minta memasukan TAG dalam artikel yang akan kita posting, begitulah gambaran indexing dalam google, jadi index yang berada di mesin pencari merupakan kumpulan miliyaran tag tag informasi.
- Tokenisasi : proses pembentukan token dari suatu dokumen, dengan memecah dokumen menjadi kata-kata, dapat berupa array kata.
- Retrieving : proses menemukan dokumen dari koleksi sesuai dengan kata kunci (kueri) user
3. HITS Algorithm (Hypertext Induced Topic Search)
Hyperlink-Induced Topic Search (HITS, juga dikenal sebagai hub dan otoritas) adalah algoritma analisis link yang tarif halaman Web, yang dikembangkan oleh Jon Kleinberg. Itu adalah pendahulu untuk PageRank. Ide di balik Hub dan Otoritas berasal dari wawasan tertentu ke dalam penciptaan halaman web ketika Internet awalnya membentuk; yaitu, halaman web tertentu, yang dikenal sebagai hub, menjabat sebagai direktori besar yang tidak benar-benar berwibawa dalam informasi yang diadakan, tetapi digunakan sebagai kompilasi dari katalog yang luas dari informasi yang menyebabkan pengguna langsung ke halaman otoritatif lainnya. Dengan kata lain, sebuah hub baik mewakili halaman yang menunjuk ke halaman lain, dan otoritas yang baik mewakili halaman yang dihubungkan oleh banyak hub berbeda. Dalam algoritma HITS , langkah pertama adalah untuk mengambil halaman yang paling relevan dengan permintaan pencarian . Set ini disebut set akar dan dapat diperoleh dengan mengambil halaman n top dikembalikan oleh algoritma pencarian berbasis teks . Satu set dasar yang dihasilkan dengan menambah set akar dengan semua halaman web yang terhubung dari itu dan beberapa halaman yang memiliki pranala ke itu . Halaman-halaman web di set dasar dan semua hyperlink di antara halaman tersebut membentuk subgraf terfokus . The HITS perhitungan dilakukan hanya pada subgraf terfokus ini . Menurut Kleinberg alasan untuk membangun satu set dasar adalah untuk memastikan bahwa sebagian besar ( atau banyak ) dari otoritas terkuat disertakan . Nilai otoritas dan hub didefinisikan dalam hal satu sama lain dalam rekursi bersama. Nilai otoritas dihitung sebagai jumlah dari nilai-nilai hub skala yang mengarah ke halaman tersebut. Nilai hub adalah jumlah dari nilai-nilai otoritas skala dari halaman ini menunjuk ke . Beberapa implementasi juga mempertimbangkan relevansi dari halaman yang terhubung . Algoritma ini melakukan serangkaian iterasi , masing-masing terdiri dari dua langkah dasar :
- Pembaruan Authority : Perbarui skor Authority setiap node untuk menjadi sama dengan jumlah dari Hub Skor dari setiap node yang menunjuk ke itu . Artinya , node diberi skor otoritas tinggi dengan menjadi terhubung ke halaman yang dikenali sebagai hub untuk informasi.
- Hub Update: Perbarui setiap node Hub Skor menjadi sama dengan jumlah dari Otoritas Skor dari setiap node yang menunjuk ke . Artinya , node diberi skor tinggi hub dengan menghubungkan ke node yang dianggap otoritas pada subjek .
The Hub skor dan skor Authority untuk node dihitung dengan algoritma berikut :
- Mulailah dengan setiap node memiliki skor hub dan skor kewenangan.
- Jalankan Aturan Authority Pembaruan
- Jalankan Aturan Hub Pembaruan
- Menormalkan nilai-nilai dengan membagi masing-masing nilai Hub dengan akar kuadrat dari jumlah kuadrat dari semua nilai Hub , dan membagi setiap skor Authority dengan akar kuadrat dari jumlah kuadrat dari semua nilai Authority .
- Ulangi dari langkah kedua yang diperlukan .
HITS , seperti Page dan Brin PageRank , merupakan algoritma iteratif didasarkan pada keterkaitan dokumen di web . Namun itu memang memiliki beberapa perbedaan utama :
- Ini adalah permintaan tergantung , yaitu, ( Hub dan Authority ) skor yang dihasilkan dari analisis link dipengaruhi oleh istilah pencarian ;
- Sebagai sebuah konsekuensi , dieksekusi pada saat permintaan , bukan pada saat pengindeksan , dengan hit terkait kinerja yang menyertai pemrosesan query – waktu .
- Ini menghitung dua nilai per dokumen , hub dan otoritas , sebagai lawan dari skor tunggal ;
- Hal ini diproses pada subset kecil dari dokumen ‘ relevan’ (a ‘ subgraph fokus ‘ atau dasar set) , tidak semua dokumen seperti yang terjadi dengan PageRank .
4.Prolog
Prolog adalah bahasa pemrograman logika atau di sebut juga sebagai bahasa non-procedural. Namanya diambil dari bahsa perancis programmation en logique (pemrograman logika). Bahasa ini diciptakan oleh ALAIN COLMERAUER dan ROBERT KOWALSKI sekitar tahun 1972 dalam upaya untuk menciptakan suatu bahasa pemrograman yang memungkinkan pernyataan logika alih-alih rangkaian perintah untuk dijalankan komputer. Berbeda dengan bahasa pemrograman yang lain, yang menggunakan algoritma konvensionl sebagai teknik pencariannya seperti pada Delphi, Pascal, BASIC, COBOL dan bahasa pemrograman yang sejenisnya, maka prolog menggunakan teknik pencarian yang di sebut heuristik (heutistic) dengan menggunakan pohon logika.