Pages

Senin, 19 November 2012

Tugas 2 IR (kelas A)


1.      TREC
Trec ini Teknis Prestasi
Trec bertujuan untuk meningkatkan sistem evaluasi IR melalui lima mekanisme utama.
Penciptaan baru, koleksi uji yang lebih besar. Sebelum tahun 1991, uji public koleksi yang kecil, yang terdiri dari paling banyak beberapa ribu dokumen dan dengan demikian memiliki dipertanyakan aplikasi untuk situasi dunia nyata, di mana sistem IR mungkin diperlukan untuk mencari ratusan ribu dokumen. Selama periode ini, yang terbesar koleksi uji populer digunakan berisi sekitar 12.000 dokumen (Voorhees dan Harman, 2005). Sebaliknya, koleksi uji yang digunakan pada Trec pertama pada tahun 1992 berisi sekitar 750.000 dokumen. Ini merupakan peningkatan lebih dari 80 -lipat dalam 1 tahun.
Pengembangan metode evaluasi IR standar. Program Trec dikembangkan dan didistribusikan “koleksi test” yang peneliti IR dapat digunakan untuk mengevaluasi mereka IR sistem. Koleksi uji terdiri dari tiga komponen: (1) koleksi dokumen, (2) satu set kebutuhan informasi atau pertanyaan, dan (3) seperangkat penilaian yang menunjukkan dokumen yang relevan untuk query yang berbeda. Dengan menggunakan koleksi pengujian yang sama dan metodologi pengujian yang sama dikembangkan oleh Trec, peneliti IR juga bisa menggunakan sumber daya untuk membandingkan kinerja sistem IR mereka secara lebih sistematis dan standar busana.
Trec awalnya menciptakan koleksi pengujian baru dan metodologi evaluasi untuk routing dan ad hoc tugas dan kemudian diperluas untuk mendukung bidang-bidang seperti IR novel sebagai video, e-discovery, dan spam. Trec cepat menjadi tempat dasar untuk mengembangkan baru IR evaluasi metodologi, pengujian baru IR algoritma, dan baru pelatihan IR peneliti. Selama 18 tahun terakhir, koleksi uji Trec dan metodologi telah menjadi de facto standar dengan mana peneliti IR mempublikasikan hasil penelitian yang dipertahankan, sebanding, dan direproduksi.
Organisasi lokakarya penelitian IR tahunan. 
Trec menggunakan sumber daya yang dikembangkan untuk memfasilitasi kompetisi tahunan dan tuan rumah lokakarya tahunan (di mana Hasil dari kompetisi tersebut disampaikan), tapi IR peneliti yang tidak berpartisipasi dalam kompetisi Trec dan / atau menghadiri lokakarya masih bisa menggunakan koleksi pengujian dan membaca deskripsi metodologi dan makalah yang diterbitkan setelah setiap lokakarya. Program Trec telah menciptakan suatu proses yang obyektif untuk teknik IR menjadi dibandingkan dan hasilnya didiskusikan dan disebarluaskan.
Distribusi hasil penelitian. Selain menciptakan sebuah proses obyektif untuk mengevaluasi teknik IR, Program Trec memfasilitasi penyebarluasan evaluasi hasil. Peserta Trec dapat membaca semua dokumen Trec di konferensi dan sesudahnya; makalah Trec dilepaskan untuk nonparticipants sekitar 6 bulan kemudian.
Pengembangan model untuk lokakarya IR lainnya. Membangun off teknik evaluasidan format yang pertama kali dirancang oleh Cyril Cleverdon di College Cranfield pada pertengahan 1950-an, Trec menciptakan pertama semakin banyak program dan lokakarya yang bertujuan untuk memfasilitasi evaluasi yang ketat sistem, tujuan IR.
Pengembangan metode evaluasi IR standar. Program Trec dikembangkan dan didistribusikan “koleksi test” yang peneliti IR dapat digunakan untuk mengevaluasi mereka IR sistem. Koleksi uji terdiri dari tiga komponen: (1) koleksi dokumen, (2) satu set kebutuhan informasi atau pertanyaan, dan (3) seperangkat penilaian yang menunjukkan dokumen yang relevan untuk query yang berbeda. Dengan menggunakan koleksi pengujian yang sama dan metodologi pengujian yang sama dikembangkan oleh Trec, peneliti IR juga bisa menggunakan sumber daya untuk membandingkan kinerja sistem IR mereka secara lebih sistematis dan standar busana.
Trec awalnya menciptakan koleksi pengujian baru dan metodologi evaluasi untuk routing dan ad hoc tugas dan kemudian diperluas untuk mendukung bidang-bidang seperti IR novel sebagai video, e-discovery, dan spam. Trec cepat menjadi tempat dasar untuk mengembangkan baru IR evaluasi metodologi, pengujian baru IR algoritma, dan baru pelatihan IR peneliti. Selama 18 tahun terakhir, koleksi uji Trec dan metodologi telah menjadi de facto standar dengan mana peneliti IR mempublikasikan hasil penelitian yang dipertahankan, sebanding, dan direproduksi.
Organisasi lokakarya penelitian IR tahunan. Trec menggunakan sumber daya yang  dikembangkan untuk memfasilitasi kompetisi tahunan dan tuan rumah lokakarya tahunan (di mana Hasil dari kompetisi tersebut disampaikan), tapi IR peneliti yang tidak berpartisipasi dalam kompetisi Trec dan / atau menghadiri lokakarya masih bisa menggunakan koleksi pengujian dan membaca deskripsi metodologi dan makalah yang diterbitkan setelah setiap lokakarya. Program Trec telah menciptakan suatu proses yang obyektif untuk teknik IR menjadi dibandingkan dan hasilnya didiskusikan dan disebarluaskan.
Distribusi hasil penelitian. Selain menciptakan sebuah proses obyektif untuk mengevaluasi teknik IR, Program Trec memfasilitasi penyebarluasan evaluasi hasil. Peserta Trec dapat membaca semua dokumen Trec di konferensi dan sesudahnya; makalah Trec dilepaskan untuk nonparticipants sekitar 6 bulan kemudian.
Pengembangan model untuk lokakarya IR lainnya. Membangun off teknik evaluasidan format yang pertama kali dirancang oleh Cyril Cleverdon di College Cranfield pada pertengahan 1950-an, Trec menciptakan pertama semakin banyak program dan lokakarya yang bertujuan untuk memfasilitasi evaluasi yang ketat sistem, tujuan IR. Sumber daya, apa nilai mereka menempatkan pada manfaat menggunakan sumber-sumber tersebut, dan bagaimana mereka percaya sumber daya ini mempengaruhi perkembangan sistem IR mereka. Pendekatan valuasi kontingen meminta perkiraan nilai Trec digunakan untuk sepenuhnya memperhitungkan perbedaan dalam pendekatan estimasi. Valuasi kontingen adalah teknik survey yang meminta individu secara langsung untuk memperkirakan berapa banyak nilai yang mereka terima dari tertentu sumber daya. Meskipun teknik yang jauh lebih canggih bisa digunakan, seperti eksperimen pilihan diskrit, variasi dari pendekatan terbuka sederhana bertekad untuk menjadi pendekatan yang paling tepat untuk penelitian ini karena besarnya manfaat dan ukuran sampel yang tidak menentu.RTI menerima hasil dari 404 responden, yang 93 yang berbasis di Amerika Serikat. Tigapuluh persen responden (28 orang) yang terletak di AS milik perangkat lunak atau layanan IR perusahaan dan mewakili 58% dari tahun 2008 sebesar R & D pengeluaran oleh perusahaan-perusahaan AS di IR. Sekitar 66% dari responden survei (61 orang) yang dipekerjakan oleh universitas AS atau laboratorium penelitian akademis dan mewakili 47% dari total 2008 belanja penelitian universitas.
 Track yang baru ditambahkan sebagai kebutuhan penelitian baru diidentifikasi, daftar ini adalah Trec 2011 :
  1.  Chemical Track - Goal: untuk mengembangkan dan mengevaluasi teknologi untuk pencarian skala besar dalam kimia yang berhubungan dengan dokumen, termasuk surat-surat akademik dan paten, untuk lebih memenuhi kebutuhan pencari profesional, dan pencari khusus paten dan ahli kimia.
  2. Crowdsourcing Track - Goal: untuk menyediakan tempat kolaboratif untuk menjelajahi metode crowdsourcing baik untuk mengevaluasi pencarian dan untuk melakukan tugas pencarian. Baru untuk tahun 2011.
  3.  Entity Track - Goal: untuk melakukan entitas terkait pencarian data Web. Tugas pencarian ini (seperti menemukan entitas dan sifat entitas) memenuhi kebutuhan informasi umum yang tidak baik dimodelkan sebagai pencarian hoc dokumen iklan.
  4.  Legal Track - Goal: untuk mengembangkan teknologi pencarian yang memenuhi kebutuhan pengacara untuk terlibat dalam penemuan efektif dalam koleksi dokumen digital.
  5.  Medical Records Track - Goal: untuk mengeksplorasi metode untuk mencari informasi terstruktur ditemukan dalam catatan medis pasien. Baru untuk tahun 2011.
  6.  Microblog Track - Goal: untuk mengeksplorasi informasi perilaku pencarian mikroblog. Baru untuk tahun 2011.
  7. Session Track - Goal: untuk mengembangkan metode untuk mengukur beberapa permintaan-sesi di mana informasi yang dibutuhkan melayang atau mendapatkan lebih atau kurang spesifik selama sesi.
  8. Web Track - Goal: untuk mengeksplorasi mencari informasi perilaku umum dalam pencarian web umum.    
Trec yang lama :
a)      Genomics Track - Goal: untuk mempelajari pengambilan data genom, bukan hanya urutan gen tapi dokumentasi juga mendukung seperti makalah penelitian, laporan laboratorium, dll terakhir berlari pada Trec 2007.
b)      Enterprise Track - Goal: untuk mempelajari pencarian atas data dari sebuah organisasi untuk menyelesaikan beberapa tugas. Terakhir berlari pada Trec2008.
c)      Cross-Language Track - Goal: untuk menyelidiki kemampuan sistempengambilan untuk menemukan dokumen topikal terlepas dari bahasa sumber.
d)     Filtering Track - Goal: untuk binarily memutuskan pengambilan dokumenmasuk baru diberikan kebutuhan informasi yang stabil.
e)      HARD Track - Goal: untuk mencapai Retrieval Akurasi Tinggi dari Dokumendengan memanfaatkan informasi tambahan tentang si pencari dan / ataukonteks pencarian.
f)       Interactive Track - Goal: untuk mempelajari interaksi pengguna dengan sistempencarian teks.
g)      Novelty Track - Goal: untuk menyelidiki kemampuan sistem ’untuk mencariinformasi baru (yaitu, non-berlebihan).
h)      Question Answering Track - Goal: untuk mencapai pencarian informasi lebih dari sekedar pengambilan dokumen dengan menjawab pertanyaan Factoid,daftar dan definisi gaya.
i)        Robust Retrieval Track - Goal: untuk fokus pada efektivitas topik individu.
j)        Relevance Feedback Track - Goal: untuk evaluasi mendalam lebih lanjut dariproses umpan balik relevansi.
k)      Spam Track - Goal: untuk memberikan evaluasi standar saat ini dan yang diusulkan pendekatan penyaringan spam.
l)        Terabyte Track - Goal: untuk menyelidiki apakah / bagaimana masyarakat IRdapat skala tradisional IR uji-koleksi berbasis evaluasi terhadap koleksisignifikan besar.
m)    Video Track - Goal: untuk penelitian di segmentasi otomatis, pengindeksan,dan konten berbasis pengambilan video digital. Pada tahun 2003, track inimenjadi evaluasi mandiri bernama TRECVID.
Acara terkait
Pada tahun 1997, seorang rekan Jepang Trec diluncurkan (workshop pertama tahun 1999), disebut NTCIR (NII Uji Koleksi untuk IR Systems), dan pada tahun 2000, seorang rekan Eropa diluncurkan, disebut CLEF (Cross Bahasa Forum Evaluasi).
Konferensi Kontribusi
Trec mengklaim bahwa dalam enam tahun pertama workshop, efektivitas sistem pengambilan sekitar dua kali lipat.Konferensi ini juga yang pertama untuk menahan skala besar evaluasi non-Inggris dokumen, pidato, video dan pengambilan di seluruh bahasa.Selain itu, tantangan telah menginspirasi tubuh besar publikasi.Teknologi pertama kali dikembangkan di Trec sekarang termasuk dalam banyak mesin komersial di dunia pencarian. Sebuah laporan independen oleh RTII menemukan bahwa “sekitar sepertiga dari perbaikan dalam mesin pencari web 1999-2009 disebabkan Trec Mereka perangkat tambahan kemungkinan disimpan hingga 3 miliar jam waktu menggunakan mesin pencari web ….. Selain itu, Laporan menunjukkan bahwa untuk setiap $ 1 yang NIST dan mitranya diinvestasikan dalam Trec, setidaknya $ 3,35 ke $ 5,07 manfaat yang diterima oleh peneliti AS pengambilan informasi baik di sektor swasta dan akademisi.”
Sementara satu studi menunjukkan bahwa keadaan seni untuk pencarian “ad-hoc” belum maju secara substansial dalam dekade terakhir, [4] itu merujuk hanya untuk mencari topikal dokumen yang relevan dalam berita kecil dan koleksi web dari beberapa gigabyte. Ada kemajuan dalam jenis lain ad-hoc pencarian dalam dekade terakhir. Misalnya, koleksi uji diciptakan untuk diketahui-item pencarian web yang ditemukan perbaikan dari penggunaan jangkar teks, pembobotan judul dan panjang url, yang tidak teknik yang berguna pada ad-hoc koleksi tua tes. Pada tahun 2009, koleksi web baru miliar-halaman diperkenalkan, dan spam filtering ditemukan menjadi teknik yang berguna untuk ad-hoc pencarian web, tidak seperti di masa lalu koleksi uji.
Koleksi Tes dikembangkan di Trec berguna tidak hanya untuk (berpotensi) membantu peneliti memajukan keadaan seni, tetapi juga untuk memungkinkan pengembang baru (komersial) produk pengambilan untuk mengevaluasi efektivitas mereka pada tes standar.Dalam dekade terakhir, Trec telah menciptakan tes baru untuk perusahaan e-mail, pencarian genomik, penyaringan spam, e-Discovery, dan beberapa domain pengambilan lainnya.
Sistem Trec sering memberikan dasar untuk penelitian lebih lanjut. Contoh meliputi:
Hal Varian, kepala ekonom di Google, mengatakan data yang lebih baik membuat untuk ilmu pengetahuan yang lebih baik.Sejarah pencarian informasi menggambarkan prinsip ini dengan baik, “dan menggambarkan kontribusi Trec itu. Track Hukum Trec telah mempengaruhi komunitas e-Discovery baik dalam penelitian dan evaluasi vendor komersial.
Peneliti IBM membangun tim IBM Watson (alias DeepQA), yang baru-baru mengalahkan Jeopardy terbaik di dunia! pemain, menggunakan data dan sistem dari Jalur QA Trec sebagai pengukuran kinerja dasar.
            Teks Retrieval Konferensi (Trec).The US National Institute of Standar dan Teknologi (NIST) telah menjalankan serangkaian tes besar IR tidur evaluasi sejak tahun 1992. Dalam kerangka ini, ada trek selama bertahun berbagai koleksi uji beda, tetapi koleksi terbaik pengujian diketahui adalah yang digunakan untuk melacak Trec Ad Hoc selama 8 evaluasi pertama Trec antara tahun 1992 dan 1999. Secara total, ini koleksi pengujian terdiri dari 6 CD yang mengandung 1,89 juta dokumen (terutama, tetapi tidak eksklusif, newswire artikel) dan penilaian relevansi untuk 450 kebutuhan informasi, yang disebut topik dan ditetapkan dalam bagian teks rinci. Koleksi uji individu didefinisikan lebih himpunan bagian yang berbeda dari data ini. Para TRECs awal setiap terdiri dari 50 kebutuhan informasi, dievaluasi lebih set berbeda tetapi tumpang tindih dokumen. TRECs 6-8 menyediakan 150 kebutuhan informasi selama sekitar 528,000 Newswire dan artikel Informasi Broadcast Dinas Luar Negeri. Ini mungkin adalah subcollection terbaik untuk digunakan dalam pekerjaan di masa depan, karena itu adalah terbesar dan topik yang lebih konsisten. Karena koleksi pengujian dokumen yang begitu besar, tidak ada penilaian relevansi lengkap.Sebaliknya, penilaian relevansi NIST asesor hanya tersedia untuk dokumen yang berada di antara $ k atas $ kembali untuk beberapa sistem yang masuk dalam evaluasi Trec yang kebutuhan informasi dikembangkan.
            Dalam tahun-tahun terakhir, NIST telah melakukan evaluasi pada koleksi dokumen yang lebih besar, termasuk koleksi 25 juta halaman GOV2 halaman web. Sejak awal, koleksi uji dokumen NIST adalah lipat lebih besar daripada apa yang tersedia untuk peneliti sebelumnya dan GOV2 sekarang koleksi Web terbesar mudah tersedia untuk tujuan penelitian. Namun demikian, ukuran GOV2 masih lebih dari 2 lipat lebih kecil dari ukuran saat ini koleksi dokumen yang diindeks oleh perusahaan pencarian web yang besar.
NII Uji Koleksi untuk IR Systems (NTCIR). Proyek NTCIR telah membangun koleksi pengujian berbagai ukuran mirip dengan koleksi Trec, fokus pada bahasa Asia Timur dan lintas-bahasa pencarian informasi, di mana permintaan yang dibuat dalam satu bahasa selama koleksi dokumen yang berisi dokumen dalam satu atau lebih bahasa lainnya.
Palang Bahasa Evaluasi Forum (CLEF).Rangkaian evaluasi telah berkonsentrasi pada bahasa-bahasa Eropa dan lintas-bahasa pencarian informasi.Pengambilan Teks Konferensi (Trec) adalah sebuah serial yang sedang berlangsung lokakarya berfokus pada daftar informasi daerah yang berbeda penelitian pengambilan (IR), atau trek. Hal ini disponsori oleh Institut Nasional Standar dan Teknologi (NIST) dan Riset Intelijen Proyek Kegiatan Lanjutan (bagian dari kantor Direktur Intelijen Nasional), dan mulai tahun 1992 sebagai bagian dari program Text TIPSTER. Tujuannya adalah untuk mendukung dan mendorong penelitian dalam komunitas pencarian informasi dengan menyediakan infrastruktur yang diperlukan untuk skala evaluasi metodologi pencarian teks dan untuk meningkatkan kecepatan lab-to-produk transfer teknologi.Setiap lagu memiliki tantangan dimana NIST menyediakan kelompok peserta dengan set data dan masalah uji. Tergantung pada jalur, masalah tes mungkin pertanyaan, topik, atau fitur sasaran diekstrak.Scoring Uniform dilakukan sehingga sistem dapat cukup dievaluasi. Setelah evaluasi hasil, lokakarya menyediakan tempat bagi peserta untuk mengumpulkan bersama-sama pikiran dan ide-ide dan mempresentasikan hasil kerja penelitian saat ini dan masa depan.
Teks Retrieval Konferensi (Trec). AS Institut Nasional Standar dan Teknologi (NIST) telah menjalankan serangkaian tes besar IR tidur evaluasi sejak tahun 1992. Dalam kerangka ini, ada trek selama bertahun berbagai koleksi uji beda, tetapi koleksi terbaik pengujian diketahui adalah yang digunakan untuk melacak Trec Ad Hoc selama 8 evaluasi pertama Trec antara tahun 1992 dan 1999. Secara total, ini koleksi pengujian terdiri dari 6 CD yang mengandung 1,89 juta dokumen (terutama, tetapi tidak eksklusif, newswire artikel) dan penilaian relevansi untuk 450 kebutuhan informasi, yang disebut topik dan ditetapkan dalam bagian teks rinci. Koleksi uji individu didefinisikan lebih himpunan bagian yang berbeda dari data ini. Para TRECs awal setiap terdiri dari 50 kebutuhan informasi, dievaluasi lebih set berbeda tetapi tumpang tindih dokumen. TRECs 6-8 menyediakan 150 kebutuhan informasi selama sekitar 528,000 Newswire dan artikel Informasi Broadcast Dinas Luar Negeri. Ini mungkin adalah subcollection terbaik untuk digunakan dalam pekerjaan di masa depan, karena itu adalah terbesar dan topik yang lebih konsisten. Karena koleksi pengujian dokumen yang begitu besar, tidak ada penilaian relevansi lengkap.Sebaliknya, penilaian relevansi NIST asesor hanya tersedia untuk dokumen yang berada di antara top kembali untuk beberapa sistem yang masuk dalam evaluasi Trec yang kebutuhan informasi dikembangkan.
Dalam tahun-tahun terakhir, NIST telah melakukan evaluasi pada koleksi dokumen yang lebih besar, termasuk halaman 25 juta GOV2 web koleksi halaman. Sejak awal, koleksi uji dokumen NIST adalah lipat lebih besar daripada apa yang tersedia untuk peneliti sebelumnya dan GOV2 sekarang koleksi Web terbesar mudah tersedia untuk tujuan penelitian. Namun demikian, ukuran GOV2 masih lebih dari 2 lipat lebih kecil dari ukuran saat ini koleksi dokumen yang diindeks oleh perusahaan pencarian web yang besar.
NII Uji Koleksi untuk Sistem IR ( NTCIR). Proyek NTCIR telah membangun koleksi pengujian berbagai ukuran mirip dengan koleksi Trec, fokus pada bahasa Asia Timur dan lintas bahasa pencarian informasi, di mana permintaan yang dibuat dalam satu bahasa selama koleksi dokumen yang berisi dokumen dalam satu atau lebih bahasa lainnya.
Sistem Trec sering memberikan dasar untuk penelitian lebih lanjut. Contoh meliputi:
Hal Varian, kepala ekonom di Google, mengatakan data yang lebih baik membuat untuk ilmu pengetahuan yang lebih baik.Sejarah pencarian informasi menggambarkan prinsip ini dengan baik, “dan menggambarkan kontribusi Trec itu.Track Hukum Trec telah mempengaruhi komunitas e-Discovery baik dalam penelitian dan evaluasi vendor komersial. Peneliti IBM membangun tim IBM Watson (alias DeepQA), yang baru-baru mengalahkan Jeopardy terbaik di dunia! pemain, menggunakan data dan sistem dari Jalur QA Trec sebagai pengukuran kinerja dasar.
2.      ROUTERS
            Reuters adalah penyedia global terkemuka keuangan informasi, berita dan teknologi untuk lembaga keuangan, media, bisnis dan individu. Itu juga merupakan dunia teks internasional terbesar dan berita televise lembaga, dengan lebih dari 2.000 wartawan, fotografer, dan Kamera operator di biro 190, melayani 151 negara. Pada hari-hari biasa, Editorial Reuters menghasilkan sekitar 11.000 cerita dalam 23 bahasa, bersama dengan kira-kira. 600 gambar, sekitar 23 jam video dan puluhan grafis. Volume Reuters Corpus 1 adalah sebuah arsip dari 806.791 English berita cerita bahasa yang tersedia secara bebas untuk komunitas riset. Ini mencakup semua bahasa Inggris cerita diproduksi oleh Reuters wartawan antara 20/8/1996 dan 19/8/1997. Kisah-kisah yang diformat menggunakan konsisten skema XML yang didasarkan pada versi awal dari NewsML – Standar terbuka dikandung dalam Reuters yang sejak itu telah dikembangkan melalui International Tekan Telekomunikasi Council (IPTC). Ini hadiah jelas keuntungan bagi para peneliti, seperti akses lebih mudah untuk isi dan potensi peningkatan pembangunan alat standar untuk manipulasi dan transformasi data.Sebuah aspek kunci dari skema ini adalah penggunaan ekstensif deskriptif metadata, dimana semua cerita sepenuhnya dijelaskan menggunakan kode kategori untuk topik, wilayah dan sektor industri. Metadata ini merupakan berjam-jam editorial usaha dan merupakan yang unik dan berharga sumber daya, khususnya kepada para anggota pembelajaran mesin masyarakat. Namun, nilai metadata ini pasti diatur oleh konsistensi dengan yang itu diterapkan. Terbukti, proses pengkodean mungkin tidak akan pernah benar-benar konsisten – sulit untuk menghasilkan sempurna konsisten penjelasan, terutama ketika coding yang kompleks skema yang terlibat (Carletta, 1996;.. Carletta et al, 1997, Cleverdon,  1991).Salah satu tujuan utama dari makalah ini adalah karena itu untuk mendokumentasikan prinsip-prinsip dan praktek yang digunakan dalam menerapkan kode untuk masing-masing cerita dalam RCV1. Idealnya (untuk kelompok karyawan Reuters), proses tersebut harus Latihan sederhana: Anda hanya meminta individu yang terlibat langsung untuk menggambarkan apa yang mereka lakukan.
Namun, dalam prakteknya, hal jarang yang sederhana: karyawan melanjutkan, perubahan praktik, dan tujuan perubahan (pada saat data corpus diproduksi beberapa mereka yang terlibat bisa dibayangkan bahwa akan kemudian kembali bertujuan sebagai corpus teks untuk ilmiah penelitian). Akibatnya, pada saat penulisan (Maret, 2002), tidak ada spesifikasi formal dari praktek coding ada. Namun, dengan pekerjaan detektif yang tepat, itu adalah mungkin untuk menggabungkan dokumentasi terkait dengan wawancara personil kunci untuk menciptakan, handal kohesif rekening proses. Makalah ini merupakan perwujudan utama Hasil investigasi yang bekerja.
Pada akhir 1990-an, Reuters coding operasi yang tunduk pada dua kekuatan pasar berbeda. Pertama, jauh lebih besar jumlah informasi yang menjadi tersedia melalui berbagai saluran dan media. Sebagai hasil dari ini ‘informasi yang berlebihan’, upaya manual tambahan adalah diperlukan untuk memberikan metadata kaya untuk lebih akurat pencarian dan penyaringan. Namun, persaingan di pasar berarti bahwa biaya produksi harus dikontrol, dan ini diperlukan tingkat yang lebih besar otomatisasi dalam proses pengkodean. Pada saat itu, sistem kategorisasi berbasis aturan yang dikenal sebagai ‘TIS’ (Topik Sistem Identifikasi) telah digunakan.
Namun, pendekatan berbasis aturan memiliki beberapa kelemahan:
• Membuat aturan diperlukan pengetahuan khusus, yang membuatnya sulit untuk menambahkan kode baru atau beradaptasi perubahan input.
• Aturan tidak memberikan indikasi kepercayaan dalam output mereka, sehingga tidak ada cara untuk memfokuskan upaya editorial pada paling tidak pasti kasus, maupun cara menunjukkan bahwa topik baru yang muncul dalam cerita-cerita yang akan membutuhkan perubahan atau penambahan pada set kode. Isu-isu dan sejumlah faktor operasional dikurangi terhadap pengembangan lebih lanjut dari TIS, dan itu menjadi jelas bahwa pendekatan yang sama sekali baru untuk kategorisasi diperlukan. Itu juga jelas bahwa setiap solusi baru harus memperhitungkan faktor-faktor seperti sebagai biaya pemeliharaan, daya tahan, dan kemampuan untuk mengakomodasi topik baru yang muncul dalam data.Meskipun demikian, perhatian utama masih kemampuan untuk menerapkan kode akurat, dan untuk mengukur ini perusahaan membutuhkan pengumpulan data uji yang sesuai.Salah satu solusinya, karena itu, adalah untuk menciptakan sebuah korpus cerita kode untuk beberapa patokan standar. Proses ini akan melibatkan pasang editor independen menerapkan kode untuk seperangkat cerita, dan kemudian
mengidentifikasi dan membahas setiap ketidakkonsistenan yang muncul. Sebuah proses berulang akan memastikan bahwa praktek coding akhirnya berkumpul. Terbukti, hal ini Proses yang terjadi pada tingkat tertentu sebagai bagian dari editor ‘ interaksi sehari-hari, tapi tidak sedemikian rupa bahwa setiap “Cerita patokan” dapat dibedakan dari Output operasional secara keseluruhan. Selain itu, membangun corpus patokan substansial menggunakan pendekatan ini akan mengambil waktu yang cukup lama, dan akhirnya terbukti terlalu padat karya untuk operasional lingkungan. Meskipun demikian, jelas bahwa perusahaan akan mendapat manfaat dari memiliki corpus besar pelatihan data untuk evaluasi masa mendatang, sehingga pembangunan Corpus Reuters dimulai.
             RCV1 dan sebelumnya corpora
Menariknya, meskipun RCV1 adalah yang pertama “resmi” Reuters corpus, itu bukan pertama kalinya bahwa berita Reuters cerita telah digunakan untuk penelitian. Koleksi sebelumnya cerita, yang dikenal sebagai koleksi “Reuters-21.578″, memiliki telah tersedia dari situs web publik selama bertahun-tahun. Corpus ini merupakan adaptasi yang lebih tua “Reuters-22173″ corpus yang terdiri dari 22.173 Newswire cerita Reuters tanggal dari tahun 1987. Reuters-21.578 telah terbukti sangat sumber daya populer dan telah digunakan dalam berbagai penelitian. Memang, diperkirakan bahwa korpus ini telah memberikan data yang untuk lebih dari 100 makalah penelitian yang dipublikasikan, terutama di bidang pencarian informasi, pengolahan bahasa alami dan mesin pembelajaran (misalnya Joachims, 1998; Nigam, 1998; Yang, 1999). Ini merupakan indikasi dari nilai tersebut corpora dan Reuters sejak menerima banyak permintaan untuk menyediakan data lebih lanjut untuk tujuan penelitian, tetapi sampai sekarang kita umumnya telah dicegah dari melakukannya karena hukum pembatasan hak cipta /. Sebuah motivasi jauh di belakang baru Reuters Corpus dengan demikian untuk memberikan standar koleksi, cocok untuk tujuan penelitian, dengan pembatasan minimum yang mungkin.Meskipun popularitasnya, Reuters-21.578 tidak memiliki sejumlah kelemahan yang signifikan, terutama yang dari Ukuran keseluruhan (hanya 21.578 dokumen). Sebaliknya, RCV1 adalah sekitar 35 kali lebih besar. Selain itu, Reuters-21.578 hanya mencakup sebagian kecil dari setahun, dengan agak konsisten cakupan jangka waktu tersebut. Sebaliknya, RCV1 mencakup tahun lengkap output editorial, yang memungkinkan penyelidikan masalah duniawi seperti deteksi topic & Pelacakan (Wayne, 2000), konflik prediksi (Obligasi et al, 1997) atau peramalan pasar keuangan (Giles et al.. 1997). Selain itu, RCV1 diciptakan dari arsip berita produk (yaitu database) daripada pakan Newswire baku, yang membantu untuk memastikan konsistensi (karena harus ada sedikit duplikat, koreksi, peringatan singkat, dll) Namun, salah satu keuntungan bahwa koleksi yang lebih tua tidak miliki adalah bahwa banyak upaya telah diterapkan dalam mengidentifikasi pelatihan yang sesuai / tes split untuk berbagai aplikasi, terutama kategorisasi teks dan mesin belajar (misalnya Lewis, 1992). Bekerja pada Corpus baru baru saja mulai dalam hal ini, tetapi diharapkan banyak dari apa yang telah dipelajari dengan Reuters-21.578 akan menjadi nilai dalam studi masa depan. Pada saat penulisan, Corpus baru telah dipasok ke 242 organisasi terpisah, dimana 120 merupakan institusi akademis dan 110 organisasi komersial (Sisanya makhluk organisasi pemerintah, individu, dll). Ini didistribusikan di 40 berbeda negara – dengan Amerika Serikat memiliki jumlah tertinggi pemohon (75) diikuti oleh Inggris (43) dan Jerman (21). Menariknya, banyak dari permintaan awal adalah dihasilkan hampir seluruhnya oleh kata-mulut-, sebelum publisitas formal atau promosi telah terjadi. Banyak dari pelamar ini adalah awal peserta Trec, karena Reuters Corpus adalah dataset resmi untuk tahun 2001 penyaringan track (Robertson dan Callan, 2001).
Dikenal Reuters 22.173 koleksi tes, yang secara signifikan lebih besar dari koleksi tes yang paling tradisional. Selain itu, Reuters memiliki tidak ada perhitungan recall masalah biasanya terkait dengan beberapa koleksi uji yang lebih besar sekarang tersedia. Makalah inimenjelaskan metode (berasal dari Lewis [Lewis 91]) digunakan untuk melakukan percobaan pada pengambilan Reuters koleksi. Kemudian, untuk menggambarkan penggunaan Reuters, beberapa eksperimen sederhana adalah pengambilan juga disajikan yang membandingkan kinerja algoritma stemming.
  • contoh kasus
Elan Microelectronics Corp (EMC), sebuah perusahaan touch design yang bermarkas di Taiwan, pada Kamis kemarin (5 Jan) mengatakan bahwa Apple akan membayar US$5 juta sebagai bagian dari sebuah kesepakatan dalam kasus pelanggaran hak paten.Apa yang disampaikan EMC juga menyebut bahwa dua perusahaan yang terlibat kasus paten itu akan bertukar kewenangan untuk memakai paten masing-masing.
Di tahun 2009, EMC menggugat Apple di pengadilan Amerika atas pelanggaran dua paten. Di tahun yang sama Apple ganti menggugat EMC.Komisi Perdagangan Internasional Amerika (ITC) selanjutnya pada bulan Juni 2009 memutuskan bahwa Apple tidak bersalah karena tidak melanggar hukum perdagangan Amerika.Selain dengan EMC, Apple juga masih dalam perang paten dan saling gugat dengan perusahaan lain. Yang terpanas pastinya perseteruan Apple kontra Samsung terkait paten iPhone/iPad dan smartphone/tablet Galaxy Series.
Laporan Reuters menyebut bahwa perang paten telah menjadi hal yang lumrah di dunia teknologi karena produsen pastinya ingin melindungi teknologi yang ada di produk mereka sehingga tidak dipakai oleh pesaingnya. Tapi dari semua kasus paten yang pernah ada, sebagian besar bisa diselesaikan di luar pengadilan karena perusahaan besar lebih suka menghindari pertarungan panjang di meja hijau. Sementara persidangan terus berlangsung, bisa jadi teknologi yang diperebutkan telah ketinggalan jaman karena munculnya teknologi lain yang lebih baru.
3.      CLEF
CLEF (A Cross-Language Evaluation Forum)
Sebuah inisiatif yang penting untuk evaluasi sistem pencarian informasi multibahasa, sekarang sedang diluncurkan di Eropa. Kegiatan ini akan disponsori oleh Jaringan Delos of Excellence untuk Perpustakaan Digital dan didanai oleh program Masyarakat Teknologi Informasi dari Komisi Eropa. Ini akan dilakukan dengan bekerja sama dengan US National Institute of Standar dan Teknologi (NIST) dan seri konferensi Trec. Disini menyajikan agenda dan tenggat waktu yang paling penting bagi CLEF 2000.
Telah dibuktikan secara luas oleh teks pencarian seri Konferensi (Trec) bahwa ketersediaan prosedur evaluasi dapat memberikan kontribusi yang signifikan terhadap peningkatan kinerja sistem. Untuk alasan ini, pada tahun 1997, ia memutuskan untuk memasukkan lintas-bahasa sistem evaluasi sebagai salah satu trek di Trec. Tujuannya adalah untuk memberikan pengembang dengan infrastruktur yang memungkinkan mereka untuk menguji dan menyempurnakan sistem mereka dan membandingkan hasil yang dicapai dengan menggunakan berbagai lintas bahasa strategi. Dari tahun 2000 inisiatif lintas-bahasa untuk bahasa-bahasa Eropa akan dikoordinasikan di Eropa sementara Trec akan fokus pada bahasa-bahasa Asia. Ini bergerak dan dimasukkannya lagu monolingual untuk evaluasi sistem IR dirancang untuk bahasa lain selain bahasa Inggris akan membantu untuk merangsang partisipasi Eropa dan memungkinkan kita untuk fokus pada isu-isu yang lebih luas.
 Contoh kasus
Sidang terbuka atas terdakwa kasus ecstasy Muhamad Said, kembali digelar di Pengadilan Negeri Amsterdam Kamis (27/3). Dalam sidang yan dipimpin Hakim Ketua A van der Perk, Jaksa Penuntut Umum A Mooy kembali menyatakan bahwa Said merupakan anggota sindikat kriminal yang memperdagangkan obat-obat terlarang dengan daerah operasi Amsterdam, Rotterdam, dan Eindhoven.Jaksa juga mengatakan bahwa Said yang merupakan kapten pilot Garuda Indonesia telah melanggar opium wet (hukum Belanda yang berkaitan dengan obat-obat terlarang), karena dengan sengaja berupaya menyelundupkan ribuan pil ecstasy dari Amsterdam ke Jakarta pada 29 September 1996. Sidang terbuka kali ini yang berlangsung cukup panjang, yakni sekitar 12 jam, adalah yang kedua kali setelah yang pertama berlangsung tanggal 9 Januari 1997.
Menurut pembantu Kompas di Belanda, Bob Mantiri, persidangan hari itu memasuki tahapan pengujian materi dengan menghadirkan beberapa saksi penting atas permintaan tim penasihat hukum Said. Seperti sebelumnya, said didampingi tim penasihat hukumnya, Nicolaas Meijering, Leon van Cleef (dari Belanda), serta OC Kaligis dan Ritasari Suwandi (dari Indonesia). Rita Suwandi yang dihubungi Kompas per telepon Jumat kemarin menambahkan, dalam sidang tersebut jaksa kembali menegaskan bahwa dalam kasus ini tidak ada keterkaitan pihak Kedutaan Besar Republik Indonesia (KBRI) di Belanda.
Karena itu, ketika pihaknya meminta berkas-berkas Peristiwa Zevenaar yang menurut Kepala Tim Unit 7 Antinarkotika Kepolisian Amsterdam Olierook ada keterlibatan KBRI dalam penyelundupan ecstasy yang dilakukan Said, jaksa Mooy menolaknya. “Ia menyatakan bahwa Peristiwa Zevenaar itu tidak ada kaitannya dengan Said. KBRI di Belanda pun tidak terlibat dalam kasus ini, karena itu ia tidak perlu memberi berkas-berkas peristiwa dimaksud,” demikian penegasan jaksa sebagaimana diutarakan Rita.
 
Penjelasan saksi 
Menurut Rita, sidang yang menghadirkan saksi Dirk van Tijlingen (dari Tim Reserse Kepolisian Amsterdam) dan Olierook, berlangsung cukup menarik. Setidaknya dalam sidang yang mulai berlangsung pukul 10.00 hingga 21.40 waktu setempat, pihak penasihat hukum bisa mempersilangkan keterangan Olierook sebagaimana yang pernah diungkapkannya pada persidangan tertutup sebelumnya. Sebagai contoh Rita menyatakan, penasihat hukum meminta penjelasan  Olierook tentang keterlibatan Said dalam Peristiwa Zevenaar, Olierook ternyata tidak bisa berkata banyak. “Ia hanya berucap bahwa informasi tentang itu ia dapatkan dari rekannya di kepolisian juga, tapi ia memiliki berkas-berkasnya,” kata Rita. Ketika didesak apakah ia sudah mempelajari dengan baik apa yang disebut dengan Peristiwa Zevenaar itu, Olierook kembali menyatakan belum. “Itu menunjukkan bahwa dia telah melakukan suatu kecerobohan,” tandas Rita.Kehadiran van Tijlingen sendiri, menurut Rita, untuk “mengoreksi” keterangan dari informan 1500 (istilah untuk salah seorang informan kepolisian setempat). Menurut Tijlingen, kata Rita, informasi yang dimiliki pihak kepolisian “yang beragam” dibuat oleh informan 1500 tersebut. Dalam arti, ada beberapa keterangan yang disebut polisi terkait merupakan keterangan dari dua orang yang berbeda, tetapi sesungguhnya dibuat oleh informan 1500 itu saja.
            Dalam sidang tertutup sebelumnya, lanjut Rita, pihaknya memang sempat mengajukan sejumlah pertanyaan kepada informan 1500, namun hal itu hanya diperkenankan berlangsung melalui telepon.Alasan yang digunakan hakim pemeriksa adalah, jiwa informan 1500 itu terancam, sehingga tidak diperkenankan untuk dipertemukan secara langsung.“Kita juga mengajukan keberatan tentang hal ini kepada hakim di sidang kemarin,” tambahnya.
            Pada sidang terbuka Kamis itu, tim penasihat hukum Said kembali meminta agar kliennya dikenakan tahanan luar dengan suatu jaminan.Namun, Jaksa Mooy kembali menyatakan keberatan dengan pertimbangan, Said merupakan kapten pilot Garuda yang sepatutnya bertanggung jawab terhadap seluruh penumpangnya. Sedangkan majelis hakim belum bisamemberi jawaban. “Hal ini masih dipertimbangkan,” tutur hakim seperti diungkapkan Rita
4.      Cranfield
Pada tahun 1950, banyak ide (memang ada banyak) tentang bagaimana melakukan pencarian informasi dapat ditelusuri kembali ke skema klasifikasi perpustakaan dan perwujudan dalam katalog kartu. Dicetak indeks, yang sekarang bertahan hidup hanya sebagai back-of-the-buku indeks, juga umum, ada juga pre-komputer bentuk mekanisasi, khususnya berbagai macam bentuk yang berbeda dari kartu menekan digunakan dengan cara yang berbeda. Tapi model klasifikasi perpustakaan adalah yang dominan. Dalam model ini dokumen harus diklasifikasikan / diindeks oleh manusia, dan hasil dari proses ini adalah deskripsi singkat atau representasi dari dokumen dalam lebih -atau- kurang formal pengindeksan bahasa. Bentuk khusus dari bahasa pengindeksan, jenis analisis yang masuk ke membangun itu di tempat pertama, dan kemudian menerapkannya pada dokumen, jumlah detail yang Anda bisa mewakili dalam cara ini, kekhususan representasi dan dibagi-nya, semua ini dan lebih adalah subyek sengit argumen.

Argumen
Beberapa argumen ini berkisar anekdot. Artinya, para peneliti akan mencoba untuk datang dengan contoh untuk memahami perbedaan antara metode, atau untuk menunjukkan mengapa satu sistem tertentu akan bekerja dan lain-lain tidak akan. Dua contoh seperti itu ‘venetian blinds’ (sebagai berbeda dari ‘Venesia buta’) Dan ‘memimpin lapisan pada tembaga pipa ‘.Tapi inti dari argumen itu umumnya tidak empiris, tetapi filosofis. Perpustakaan klasifikasi skema cenderung untuk membawa bersama mereka seluruh filosofis pandangan dunia, mengenai sifat pengetahuan manusia, dan untukbatas tertentu perwakilannya dalam dokumen. Tetapi sifat bahasa seperti  agak terpisah dan perifer – dalam arti tertentu objek klasifikasi formal atau sistem pengindeksan adalah untuk menghindari semua liku-liku dan perangkap bahasa alami. Tentu saja salah satu harus menggambarkan dan mendefinisikan konsep atau kategori dari skema di bahasa alami, namun fungsi dari deskripsi ini mungkin dianggap sebagai pedagogik – untuk membantu pustakawan atau pengguna menuju pemahaman tentang apa konsep atau kategori sebenarnya, dan untuk melihat di bawah permukaan bahasa. Dalam membangun skema tersebut, salah satu mungkin menarik bagi perintah sastra, tapi itu tidak akan membebaskan salah satu dari tanggung jawab memahami konsep. Doge 39 Venesia pada pergantian abad ketiga belas, Enrico Dandolo, buta. Satu agak diingatkan contoh yang terkenal Noam Chomsky, yang berasal dari periode yang sama, dari kalimat yang tata bahasa yang benar tapi rupanya berarti: ‘ide-ide hijau berwarna tidur marah’. Dalam konteks argumen ini, empirisisme (apalagi eksperimen ilmiah formal) adalah gagasan radikal.Ada resistensi terhadap pandangan ketat fungsional skema tersebut, terlepas dari kesulitan pertama merumuskan fungsi dan kemudian operasionalisasi kerangka eksperimental.
Awal eksperimen
Beberapa ide sedang melayang dalam literatur pada tahun 1950 (dirangsang oleh Royal Society Ilmiah Informasi Konferensi tahun 1948 [3]), dan satu atau dua percobaan kecil dilaporkan di Inggris, Amerika Serikat dan Belanda. Bunga dikembangkan lebih lanjut oleh Konferensi Internasional Informasi Ilmiah di Washington DC pada tahun 1958 [4]). Tetapi pada saat ini Cyril Cleverdon, Pustakawan di Universitas Cranfield kemudian dari Aeronautika, telah mendapat sedikit antara giginya, dan mulai (dengan pendanaan dari US National Science Yayasan) yang pertama dari dua proyek Cranfield, akhirnya diterbitkan pada tahun 1962 [5]. Proyek ini ditangani filosofis divisi di bidang kepala-on, dengan menundukkan skema pengindeksan empat – eksemplar pandangan yang bertentangan bagaimana informasi harus diatur – untuk kompetisi eksperimental langsung.Setiap skema untuk dioperasikan oleh para ahli dalam skema itu. Mereka akan membangun skema itu sendiri, indeks dokumen, merancang strategi dan melakukan pencarian pencarian. Jadi kita mungkin menganggap manusia yang diperlukan keahlian sebagai bagian dari ‘sistem’ dalam arti luas. Keempat skema itu: Klasifikasi Desimal Universal (a perpustakaan klasifikasi) hirarki, sebuah katalog Subjek Abjad (judul subjek dinyatakan sebagai frase); a Klasifikasi faceted Skema (memungkinkan pembangunan kategori kompleks dengan kombinasi dari unsure yang berbeda aspek), dan Sistem Uniterm dari Co-ordinat Indexing (istilah yang relatif bebas dan ditugaskan digabungkan).
Kedua metode yang digunakan dan hasil yang diperoleh banyak perdebatan terprovokasi dan menyebabkan perumusan kedua Cranfield proyek. Metode yang akan dibahas lebih lanjut di bawah ini, tapi salah satu hasil dicatat. Pada primary ukuran efektivitas yang digunakan, keempat sistem bersaing tidak menunjukkan perbedaan besar, namun faceted skema klasifikasi keluar terburuk dari empat. Sebuah analisis kegagalan kemudian diidentifikasi masalah dengan terpilih
Kartu-indeks representasi dari klasifikasi faceted (suatu bentuk ‘pengindeksan rantai’ yang disebut), dan alternative representasi dicoba – ini mendorong skema untuk terbaik dari empat. Ini agak mengejutkan bagi pendukung berbagai skema: itu berarti bahwa setidaknya sampai taraf tertentu, faktor-faktor penentu efektivitas mungkin tidak menjadi prinsip utama di mana skema didasarkan, tetapi rincian pelaksanaan.