Benzerlik öbeklerinin çoğu ayet çiftleri olmakla birlikte, 40'tan fazla ayet içeren bir öbek de mevcut.
Yukarıdaki ilk madde, Kitabımızı anlamak için elbette daha önemli. Lakin, yazılımda kullanılan "mavi işaretli ayetler" anlam yönünde çok fayda sağlamadı. Öte yandan, ikinci maddedeki korunmuşluğun göstergesi olan bir çok örneği bu yöntemle buldum.
A Rajab'in FSMV Üniversitesinde mezuniyet projesi olarak yaptığı Rehber yazılımının Simi modülü verilen bir ayetin benzerlerini bulur. Örnek olarak seçilen ayetin benzerlerini şu linkte görebilirsiniz:
okuyun.github.io/Rehber/simi#39:72
Iqra içinde, Simi modülünün hazırladığı benzerlik dosyası kullanılıyor:
okuyun.github.io/Kuran/data/simi.txt
Bu dosyada bulunan ayetlerin numarası, Iqra yazılımımnda mavi renkle gösterilen bir menü olarak çalışır. Bir uygulama kısıtı: eleman sayısını 12 ile sınırladık. Benzer ayetler varsa, bu menüden kolayca seçilir. Mesela Neml suresinin 30. ayetinden 3 farklı yere gidebiliriz:
Metin benzerliği alanında iyi bilinen kosinüs ölçüsünü kullandık. Her ayette geçen isim, sıfat ve fiillerin kökleri ile bir vektör yaptık. İki ayetin benzerliği, vektörlerin arasındaki açının kosinüsü olarak tanımlandı. Deneme-yanılma ile bulunan 0.8 gibi sabit bir değerin üstündeki ayet çiftleri benzerlik dosyasına eklendi.
Bu şekilde tanımlanan benzerlik bağıntısı simetriktir: A B'ye benziyorsa, B A'ya benzer. Fakat geçişli (transitive) değildir: A B'ye ve B C'ye benziyorsa, A C'ye benzemek zorunda değil. Benzerlik öbeklerini "transitive closure" olarak görebiliriz. Lakin, uygulamada mavi menülerdeki ayet sayısına koyduğumuz 12 sınırı, bazı yerlerde simetriyi bozuyor. Bu nedenle, öbekler denklik bağıntısı üretmiyor, bazı ayetlerden başlayınca öbeğin tamamı görülmüyor.