Kembali ke TarCite
Di Balik Layar

Cara kerja saran sitasi
di TarCite.

TarCite tidak mencari web terbuka, Google Scholar, atau database makalah jarak jauh. Aplikasi ini menjalankan alur 7 tahap di atas PDF dan indeks yang tersimpan di komputer Anda, lalu memakai profil AI pilihan Anda untuk menilai makalah dari pustaka lokal yang mendukung paragraf tersebut. Dengan profil AI Lokal, seluruh alur tetap di perangkat.

Tahap 2-5 dan penyimpanan umpan balik selalu berjalan lokal. Tahap 1 dan Tahap 6 memakai LLM pilihan Anda. Jika profil AI Lokal dipilih, kedua tahap LLM juga berjalan di komputer Anda, tanpa internet atau permintaan cloud.

1
LLM · profil AI Anda

HyDE — Perluasan Kueri

Sebelum pencarian lokal dimulai, TarCite meminta LLM pilihan Anda menulis cuplikan sumber ideal yang bersifat hipotetis: 2-4 kalimat yang mungkin muncul dalam makalah relevan. Jika memakai AI Lokal, prompt ini diproses oleh model di komputer Anda; TarCite tidak mencari Google, Crossref, atau database web untuk kandidat makalah.

Langkah ini membantu menjembatani perbedaan bahasa antara paragraf naskah dan bahasa artikel ilmiah. Paragraf Anda mungkin menulis "aktivitas otak saat belajar", sementara makalah relevan memakai istilah "plastisitas sinaptik pada jaringan hipokampus". HyDE membuat kueri yang lebih mirip bahasa makalah, sehingga pencarian semantik menjadi lebih kuat.

Jika HyDE gagal, TarCite otomatis memakai paragraf asli Anda sebagai kueri cadangan, sehingga proses saran sitasi tetap berjalan.

Mengapa ini efektif

  • Memakai cuplikan hipotetis sebagai kueri pencarian vektor di indeks lokal, bukan paragraf mentah
  • Vektor yang dihasilkan biasanya lebih dekat dengan cuplikan makalah sungguhan
  • Meningkatkan peluang menemukan sumber relevan dibanding pencarian langsung dari paragraf asli
2
Sepenuhnya lokal

Pencarian Tiga Jalur

Tiga strategi pencarian berjalan bersamaan terhadap indeks ChromaDB dan SQLite yang tersimpan di komputer Anda. Tidak ada pencarian web, katalog makalah jarak jauh, atau sinkronisasi cloud. Masing-masing menangkap jenis kecocokan di pustaka lokal, sehingga hasilnya lebih andal daripada memakai satu metode saja.

Pencarian Vektor

Mengukur kemiripan lokal antara embedding HyDE dan potongan dokumen yang sudah tersimpan di ChromaDB pada komputer Anda. Cocok untuk menemukan makalah di pustaka sendiri yang konsepnya sama meskipun kata-katanya berbeda.

Kata Kunci BM25

Pencarian teks penuh lokal dengan SQLite FTS5 pada PDF yang Anda impor. Berguna untuk istilah yang harus cocok persis, seperti nama gen, senyawa kimia, teori, akronim, atau istilah teknis.

Pencarian Judul

Mencocokkan istilah kueri langsung dengan judul makalah di pustaka lokal. Jika judul cocok, kandidat diberi bobot lebih tinggi karena judul adalah sinyal topik yang kuat.

Teks dari PDF yang Anda impor dipotong dan disimpan lokal sebagai segmen sekitar 900 karakter dengan overlap dan batas kalimat, sehingga bukti tidak mudah terputus di tengah kalimat.

3
Sepenuhnya lokal

Penggabungan Peringkat dengan RRF

Tiga daftar hasil digabungkan menjadi satu peringkat menggunakan Reciprocal Rank Fusion (RRF), teknik untuk menggabungkan beberapa daftar pencarian yang punya skala skor berbeda.

Skor gabungan setiap potongan dihitung dari bobot / (60 + peringkat) di semua daftar. Hasil vektor dan BM25 memakai bobot 1,0; kecocokan judul memakai bobot 2,0 karena judul yang cocok langsung biasanya sangat relevan.

Setelah fusi

  • Hasil dikelompokkan per makalah agar potongan dari dokumen yang sama tidak tercecer
  • Enam potongan bukti terbaik dari setiap makalah disimpan
  • Metadata seperti judul, penulis, tahun, DOI, dan jurnal diambil dari database SQLite lokal
4
Sepenuhnya lokal

Pemeringkatan Ulang Cross-Encoder

Kandidat yang sudah digabungkan dinilai ulang di komputer Anda oleh model cross-encoder, yaitu model kecil yang membaca pasangan paragraf dan bukti secara bersamaan.

Metode ini lebih teliti daripada sekadar menghitung kemiripan vektor. Cross-encoder membandingkan paragraf dan bukti dalam satu proses, sehingga dapat menilai apakah bukti benar-benar mendukung klaim.

Hingga 1.024 karakter dari bukti terbaik setiap makalah dipakai sebagai masukan, cukup untuk menangkap inti argumen, bukan hanya potongan pendek.

Model

  • BAAI/bge-reranker-base (bawaan) atau cross-encoder/ms-marco-MiniLM-L-6-v2
  • Berjalan di CPU, Apple Silicon MPS, atau NVIDIA CUDA, dan perangkat terdeteksi otomatis
  • Model diunduh sekali, disimpan lokal, lalu dipakai ulang; tidak perlu akses jaringan dan tidak ada teks dokumen yang keluar dari komputer saat pemeringkatan ulang
5
Sepenuhnya lokal

Seleksi Keragaman dengan MMR

Setelah pemeringkatan ulang, Max Marginal Relevance (MMR) memastikan kandidat akhir tidak terlalu mirip satu sama lain. Tanpa langkah ini, Anda bisa mendapat beberapa sitasi yang semuanya mendukung poin yang sama.

Setiap kandidat dinilai sebagai: λ × relevansi − (1−λ) × kemiripan_maks_ke_yang_sudah_terpilih

Dengan λ = 0,7 (70% relevansi, 30% keragaman), MMR memilih sumber yang relevan tetapi tetap saling melengkapi, bukan mengulang bukti yang sama.

6
LLM · profil AI Anda

Evaluasi & Validasi LLM

Kandidat yang sudah dipilih diberikan ke LLM sesuai profil AI Anda untuk evaluasi akhir. Dengan profil AI Lokal, proses ini tetap berjalan di komputer Anda melalui Ollama; dengan profil cloud atau kustom, hanya paragraf dan potongan bukti terpilih yang dikirim ke penyedia tersebut, bukan PDF penuh atau seluruh pustaka. LLM menerima judul, penulis, tahun, DOI, jurnal, dan sampai enam kutipan bukti dari setiap kandidat. Tugasnya adalah:

Apa yang dilakukan LLM

  • Memilih dan mengurutkan sumber yang paling relevan
  • Mengambil kutipan bukti langsung dari makalah, bukan parafrase
  • Memberi tingkat keyakinan: tinggi, sedang, atau rendah
  • Menilai cakupan bukti: kuat, sebagian, atau hanya satu poin
  • Mengembalikan data terstruktur agar bisa ditampilkan aplikasi

Perlindungan anti-halusinasi: Format sitasi dibuat oleh sistem, bukan dikarang bebas oleh LLM. Setiap ID makalah yang dikembalikan dicek terhadap hasil pencarian nyata; sitasi yang tidak valid dibuang. Jika LLM mengembalikan JSON rusak, sistem mencoba ulang dengan instruksi yang lebih ketat lalu melakukan perbaikan otomatis.

7
Sepenuhnya lokal

Umpan Balik Pengguna

Setiap saran memiliki tombol suka / tidak suka. Umpan balik disimpan lokal di SQLite pada komputer Anda, dikaitkan dengan proses serta makalah tertentu, dan tidak diunggah. Jika tombol yang sama diklik lagi, umpan balik dibatalkan.

Data ini dapat dipakai untuk personalisasi peringkat di masa mendatang, misalnya memberi bobot lebih tinggi pada sumber yang sering Anda anggap berguna.

Siap mencoba?

Unduh TarCite, pilih folder PDF Anda, lalu jalankan saran sitasi pertama dalam beberapa menit. Tanpa akun, tanpa unggah pustaka ke cloud, dan tanpa pengaturan cloud.