TarCite tidak mencari web terbuka, Google Scholar, atau database makalah jarak jauh. Aplikasi ini menjalankan alur 7 tahap di atas PDF dan indeks yang tersimpan di komputer Anda, lalu memakai profil AI pilihan Anda untuk menilai makalah dari pustaka lokal yang mendukung paragraf tersebut. Dengan profil AI Lokal, seluruh alur tetap di perangkat.
Sebelum pencarian lokal dimulai, TarCite meminta LLM pilihan Anda menulis cuplikan sumber ideal yang bersifat hipotetis: 2-4 kalimat yang mungkin muncul dalam makalah relevan. Jika memakai AI Lokal, prompt ini diproses oleh model di komputer Anda; TarCite tidak mencari Google, Crossref, atau database web untuk kandidat makalah.
Langkah ini membantu menjembatani perbedaan bahasa antara paragraf naskah dan bahasa artikel ilmiah. Paragraf Anda mungkin menulis "aktivitas otak saat belajar", sementara makalah relevan memakai istilah "plastisitas sinaptik pada jaringan hipokampus". HyDE membuat kueri yang lebih mirip bahasa makalah, sehingga pencarian semantik menjadi lebih kuat.
Jika HyDE gagal, TarCite otomatis memakai paragraf asli Anda sebagai kueri cadangan, sehingga proses saran sitasi tetap berjalan.
Tiga strategi pencarian berjalan bersamaan terhadap indeks ChromaDB dan SQLite yang tersimpan di komputer Anda. Tidak ada pencarian web, katalog makalah jarak jauh, atau sinkronisasi cloud. Masing-masing menangkap jenis kecocokan di pustaka lokal, sehingga hasilnya lebih andal daripada memakai satu metode saja.
Mengukur kemiripan lokal antara embedding HyDE dan potongan dokumen yang sudah tersimpan di ChromaDB pada komputer Anda. Cocok untuk menemukan makalah di pustaka sendiri yang konsepnya sama meskipun kata-katanya berbeda.
Pencarian teks penuh lokal dengan SQLite FTS5 pada PDF yang Anda impor. Berguna untuk istilah yang harus cocok persis, seperti nama gen, senyawa kimia, teori, akronim, atau istilah teknis.
Mencocokkan istilah kueri langsung dengan judul makalah di pustaka lokal. Jika judul cocok, kandidat diberi bobot lebih tinggi karena judul adalah sinyal topik yang kuat.
Teks dari PDF yang Anda impor dipotong dan disimpan lokal sebagai segmen sekitar 900 karakter dengan overlap dan batas kalimat, sehingga bukti tidak mudah terputus di tengah kalimat.
Tiga daftar hasil digabungkan menjadi satu peringkat menggunakan Reciprocal Rank Fusion (RRF), teknik untuk menggabungkan beberapa daftar pencarian yang punya skala skor berbeda.
Skor gabungan setiap potongan dihitung dari bobot / (60 + peringkat) di semua daftar. Hasil vektor dan BM25 memakai bobot 1,0; kecocokan judul memakai bobot 2,0 karena judul yang cocok langsung biasanya sangat relevan.
Kandidat yang sudah digabungkan dinilai ulang di komputer Anda oleh model cross-encoder, yaitu model kecil yang membaca pasangan paragraf dan bukti secara bersamaan.
Metode ini lebih teliti daripada sekadar menghitung kemiripan vektor. Cross-encoder membandingkan paragraf dan bukti dalam satu proses, sehingga dapat menilai apakah bukti benar-benar mendukung klaim.
Hingga 1.024 karakter dari bukti terbaik setiap makalah dipakai sebagai masukan, cukup untuk menangkap inti argumen, bukan hanya potongan pendek.
BAAI/bge-reranker-base (bawaan) atau cross-encoder/ms-marco-MiniLM-L-6-v2Setelah pemeringkatan ulang, Max Marginal Relevance (MMR) memastikan kandidat akhir tidak terlalu mirip satu sama lain. Tanpa langkah ini, Anda bisa mendapat beberapa sitasi yang semuanya mendukung poin yang sama.
Setiap kandidat dinilai sebagai: λ × relevansi − (1−λ) × kemiripan_maks_ke_yang_sudah_terpilih
Dengan λ = 0,7 (70% relevansi, 30% keragaman), MMR memilih sumber yang relevan tetapi tetap saling melengkapi, bukan mengulang bukti yang sama.
Kandidat yang sudah dipilih diberikan ke LLM sesuai profil AI Anda untuk evaluasi akhir. Dengan profil AI Lokal, proses ini tetap berjalan di komputer Anda melalui Ollama; dengan profil cloud atau kustom, hanya paragraf dan potongan bukti terpilih yang dikirim ke penyedia tersebut, bukan PDF penuh atau seluruh pustaka. LLM menerima judul, penulis, tahun, DOI, jurnal, dan sampai enam kutipan bukti dari setiap kandidat. Tugasnya adalah:
Perlindungan anti-halusinasi: Format sitasi dibuat oleh sistem, bukan dikarang bebas oleh LLM. Setiap ID makalah yang dikembalikan dicek terhadap hasil pencarian nyata; sitasi yang tidak valid dibuang. Jika LLM mengembalikan JSON rusak, sistem mencoba ulang dengan instruksi yang lebih ketat lalu melakukan perbaikan otomatis.
Setiap saran memiliki tombol suka / tidak suka. Umpan balik disimpan lokal di SQLite pada komputer Anda, dikaitkan dengan proses serta makalah tertentu, dan tidak diunggah. Jika tombol yang sama diklik lagi, umpan balik dibatalkan.
Data ini dapat dipakai untuk personalisasi peringkat di masa mendatang, misalnya memberi bobot lebih tinggi pada sumber yang sering Anda anggap berguna.
Unduh TarCite, pilih folder PDF Anda, lalu jalankan saran sitasi pertama dalam beberapa menit. Tanpa akun, tanpa unggah pustaka ke cloud, dan tanpa pengaturan cloud.