Arama Motoru Yandex Yenilikler. Arama motoru Yandex nasıl çalışır? Arama motorunun kavramı ve işlevi

Bu yazıda, size bu arama motorunun çalışmasında arama motorunun ne olduğunu söyleyeceğim ve Arama Motoru Yandex'in sıralamasında sınırlandırdığı sitelerin örnekleri görünecektir.

Yandex'in arama motoru, popülerliğinde, dünyadaki 20. sırayı ve Rusya'daki 1. yer kaplar. Resmen, Yandex, 1997 yılına kadar 23 Eylül'de onaylandı, gelişimi COMPLY TEK International şirketinde başladı ve 2000 yılında Yandex ayrı bir şirket olarak var olmaya başladı.

Şirketin kurucuları, genel müdür ve Segalovich Ilya Valentinovich (1964-2013) olan Volozh Arkady Yuryevich, Yandex'in kurucusu ve Teknoloji ve Kalkınma Müdürü olan Segalovich Ilya Valentinovich (1964-2013). Yandex hikayesi ile tanıştım, şimdi onun arama motoru hakkında konuşalım.

Ve yani Yandex'in ana odağı, ayırt edici bir özellik olan, bir arama sorgusunun tam olarak ayarlanması olan bir arama motorudur. Arama Motoru Yandex, morfolojik yazılarını göz önünde bulundurarak, Rus, Ukrayna, Belarus, Tatar, Kazakistan, İngilizce, Türkçe, Tatar, Kazakistan, İngilizce, Türkçe, Almanca ve Fransızca'da seçtiğiniz talebinizi aramanıza izin verir.

Ayrıca, Yandex, farklı kodlamalardaki kopyaları hariç, belgeleri kontrol etme ve kontrol etme ilkesini değerlendirmek için kapsamlı bir algoritma geliştirmiştir. Google'ın aksine, PR - PageRank Sıralama algoritmasından daha kesin olarak, Yandex arama motorunun bir diğer önemli noktası, tematik bir alıntı endeksinin tanıtılmasıdır - Tic.

İş arama sistemi Yandex

http://www.yandex.ru.
Yandex arama motoru, alaka düzeyinde siteleri kontrol etmek için belirli bir programı temsil eden robotlara sahiptir. Arama robotları, doğrudan bağlantılar, yeni sayfaları endeksleyerek ve bunları veritabanına tutarak siteye gider. Endekslenmiş site sayfasının üste gitmesi için, bu çok önemli olan, bu, indeksleme anlarını, sayfadaki anahtar kelimelerin frekansı, sitenize giden çevre bağlantılarının sayısını, olarak dikkate almak gerekir. ve Sitenin, Yandex Titz olarak böyle bir gösterge ile ölçülen toplam ağırlığı.

SİZİN SİSTEMİNİN SIRASINDA SINIRLANDIRILMIŞ SİTELERİ BİR BÖLGESİ

Diğer sitelerden kopyalanmış veya yeniden yazılan yayınlanmamış içeriği olan siteler.

Grupların yoğun bir şekilde birbirlerine atıfta bulunduğu siteler.

Anlamsız dolgulu siteler.

Hileli teknoloji kullanan siteler.

Forumlar ve çok sayıda referans spam içeren bülten panoları.

Yazarın kaynağını ziyaret etme teklifi olmayan dış referanslarla alaka düzeyi kazanmaya çalışan siteler.

İyi günler, CEO Blogumun Sevgili Okuyucuları . Bu makale hakkında arama Sistemi Yandex Sıralama siteleri için teknolojiyi ve algoritmaları kullanır, bu da kullanıcılara cevabı hazırlamayı sağlar. Birçok insan, Rus Arama'nın bu amiral gemisinin runetteki tonu belirlediğini, Avrasya'daki en büyük veritabanına sahip olduğunu, bir milyardan fazla sayfanın içeriğine sahip olduğunu biliyor, herhangi bir sorunun cevabını bilir. Ağustos 2012 için LiveInternet'e göre, Yandex'in Rusya'daki payı% 60,5'dir. Portalın aylık kitlesi 48,9 milyon insandır. Ancak, en önemlisi, bizim için, arama motorunun isteklerimizi nasıl aldıklarını, nasıl işlendiklerini ve sonuçta sonuçlandıkları blogcular için blogcular. Bir yandan, bu bilgiyi bilmek ve anlamak, yandan, diğer yandan, tüm kaynaklarını kullanmamız daha kolaydır - bloglarımızı tanıtmak daha kolaydır. Bu nedenle, en iyi arama motoru runetinin en önemli teknolojilerini görmem için bana öneriyorum.

İnternet kullanıcısı ilk önce arama motorunda bilgi aramak istediğinde, bir sorusu olabilir: "Arama nasıl?" Ama onu aldığında, sık sık bu soru diğerine geçiyor: "Neden bu kadar hızlı?" Ve aslında, neden bilgisayardaki bazı dosyaların aranması 20 saniye sürer ve dünyadaki tüm bilgisayar ağındaki sorgunun sonucu bir saniye sonra görünür? En ilginç olan şey, ilk iki sorunun (bir arama olarak ve neden 1 saniye) tek bir cevapta olabileceğidir - arama motoru kullanıcının isteğine önceden hazırlanmıştır.

Yandex'in operasyonunun ilkesini anlamak, başka bir arama motoru gibi, telefon rehberi ile bir analoji çizeceğiz. Herhangi bir telefon numarasını bulmak için, abonenin soyadını bilmeniz gerekir ve herhangi bir arama bu durumda en fazla bir dakika sürer, çünkü tüm dizin sayfaları sağlam bir alfabetik işaretçidir. Ancak, aramanın telefon numaralarının sayıların kendileri tarafından sipariş edileceği başka bir seçenek tarafından takip edilip izlendiğini hayal edin. Daha uzun süre ertelenen aramalardan sonra, aramanın gözünden önceki sayılar hala çok uzun olacaktır. 🙂

Böylece arama motoru, internetten gelen tüm bilgilere bunun için uygun bir biçimde karar verir. Ve en önemlisi, tüm bu veriler, ziyaretçi istekleri ile birlikte gelmeden önce rehberine önceden verilir. Yani, Yandex'e bir soru sorduğumuzda, cevabımızı zaten biliyor. Ve bize bir saniye boyunca verir. Ancak bu ikinci, artık ayrıntılı olarak düşüneceğimiz bir dizi temel süreç içerir.

İnternet endekslemesi

Yandex RU, ulaşabilecek olan internetteki tüm bilgileri toplar. Özel ekipmanların yardımıyla, görsel parametrelerdeki görüntüler de dahil olmak üzere tüm içerik görülür. Arama motorunun böyle bir koleksiyonuna girerek ve verilerin toplanması ve hazırlanması işlemi indeksleme denir. Böyle bir makinenin temeli, arama robotunda farklı bir bilgisayar sistemi içerir. Düzenli olarak dizinlenmiş siteleri atlar, yeni içerik için kontrol eder ve ayrıca interneti uzak sayfa arayışı içinde tarar. Böyle bir sayfanın artık bulunmadığını veya indekslemeden kapandığını tespit ederse, onu aramadan kaldırır.

Arama robotu yeni siteler nasıl bulur? İlk olarak, diğer sitelerden bağlantılar sayesinde. Çünkü zaten endeksli bir sitedeki bir bağlantı yeni bir web kaynağına yerleştirilirse, bir sonraki ikinciyi bir sonraki ziyaretinizde, robot ilk ziyarete gidecektir. İkincisi, harika bir hizmet var, insanlar "ek olarak" olarak adlandırılan insanlar (İngilizce -AndDurl'daki ifadeden). Yeni sitenizin adresini, bir süre sonra arama robotunu ziyaret edecek şekilde yapmak mümkündür. Üçüncüsü, "Yandex.Bar" özel programının yardımıyla, kullanan kullanıcıları izlenir. Buna göre, eğer bir kişi yeni bir web kaynağına girerse, yakında bir robot görülür.

Tüm sayfalar aramaya giriyor mu? Her gün milyonlarca sayfa endekslendi. Bunlar arasında, çeşitli bilgilerin içerebileceği çeşitli kalitelerin sayfalarıdır - benzersiz içeriğe katı çöplere kadar. Dahası, istatistikler diyor ki, internetteki çöpler çok daha fazlasıdır. Her belge arama robotu özel algoritmalarla analiz eder. Kullanıcının isteğine cevap verebilirse, faydalı bir bilgiye sahip olup olmadığını belirler. Değilse, bu sayfalar "Astronotlara" almazsa, öyleyse, aramaya dahil edilir.

Robot sayfayı ziyaret ettikten ve yardımcı programını belirledikten sonra, arama motoru deposunda görünür. İşte herhangi bir belgenin otomatik merkezinin ustaları olarak, vidalara göre analizi. Sayfa HTML İşaretlemesi'nden temizlenir, temiz metin tam bir envanteri geçer - her kelimenin yeri hesaplanır. Böyle bir demonte formda, sayfa farklı bir dizin olarak adlandırılan sayılar ve harflerle bir tabloya dönüşür. Şimdi, bu sayfayı içeren Web kaynağına gelmeyecek şekilde, son kopyası her zaman aranıyor. Site artık yok olsa bile, belgelerinin atışları hala internette saklanır.

Her endeks, belge türleri, kodlama, dil, kopyalarla birlikte verilerle birlikte, arama üssü . Periyodik olarak güncellenir, bu nedenle, arama motoru kullanıcı isteklerinin kullandığı özel sunucular üzerindedir.

Endeksleme işlemi ne sıklıkla gerçekleşir? Her şeyden önce, sitelerin türlerine bağlıdır. İlk tip web kaynağı çok sık sayfalarının içeriğini değiştirir. Yani, bir arama robotu her seferinde bu sayfalara geldiğinde, her seferinde başka bir içerik içerirler. Onlar için, bir dahaki sefere hiçbir şey bulunamamıştır, bu nedenle bu siteler endekste dahil değildir. İkinci tip Siteler - Veri Ambarı, sayfalarda periyodik olarak indirme için belgelere bağlantılar eklenir. Bu sitenin içeriği genellikle değişmez, bu yüzden robotu son derece nadiren ziyaret eder. Diğer siteler, malzeme güncellemesinin sıklığına bağlıdır. Bu, aşağıdakileri ifade eder - daha hızlı yeni içerik sitede görünür, arama robotu daha sık gelir. Öncelikle öncelikli olarak en önemli web kaynakları verilir (Haber sitesi, örneğin, herhangi bir blogdan daha önemli bir büyüklük sırasıdır).

Endeksleme, ilk arama motoru işlevini gerçekleştirmenize olanak tanır - İnternetteki yeni sayfalarla ilgili bilgileri toplayın. Ancak Yandex, ikinci fonksiyona sahip - kullanıcının isteğine zaten hazırlanmış arama tabanındaki bir cevabı arayın.

Yandex cevabı hazırlıyor

İlgili cevapların isteğinin ve ihracı işleme işlemi nişanlanmaktadır. bilgisayar sistemi "Metapoisk" . Çalışması için, ilk başta tüm tanıtım bilgisini toplar: hangi bölgeden bir talepte bulunuldu, hangi sınıfa inandığı, istekteki herhangi bir hata var mı? Bu işlemden sonra, Metapoisk, veritabanındaki aynı parametrelerle tam olarak aynı isteklerin olup olmadığını kontrol eder. Cevap pozitifse, sistem kullanıcıyı önceden kaydedilmiş sonuçlarda gösterir. Veritabanında böyle bir soru yoksa, Metapoisk, dizin verilerini içeren arama tabanını belirtir.

Ve burada şaşırtıcı şeyler var. Arama robotları tarafından işlenen tüm interneti tutan bir süper güçlü bilgisayar olduğunu hayal edin. Kullanıcı isteği belirtir ve bellek hücrelerinde, sorguya dahil olan tüm belgeleri aramaya başlar. Cevap bulundu ve hepsi memnun. Ancak vücudunuzda aynı kelimeler içeren birçok istek olduğunda başka bir dava alın. Sistem, her seferinde aynı bellek hücrelerinden geçmelidir; bu, zaman zaman veri işlemenin zamanını artırabilir. Buna göre, kullanıcı kaybına neden olabilecek zaman artar - başka bir arama motoruna yardım istenecektir.

Böylece böyle bir gecikme yoktur, site endeksindeki tüm kopyalar farklı bilgisayarlar aracılığıyla dağıtılır. Bir istek gönderdikten sonra, Metapoisk, metninizi araştırmak için bu tür sunuculara komut verir. Bundan sonra, bu makinelerden gelen tüm veriler merkezi bilgisayara geri döner, elde edilen tüm sonuçları birleştirir ve kullanıcıya en iyi cevapların ilk 10'unu verir. Böyle bir teknolojiyle, iki tavşan hemen öldürülür: Arama süresi birkaç kez azalır (cevap bir saniyenin payı başına) ve platformlardaki artış sayesinde, bilgi çoğaltılır (ani arızalar nedeniyle veriler kaybolmaz) . Yinelenen bilgiler içeren bilgisayarlar Veri Merkezi'ni oluşturur - bu sunucuları olan bir oda.

Arama Motoru kullanıcısı isteğini belirlediğinde, 100'teki 20 vakada, soruda belirsiz hedefler elde edilir. Örneğin, arama dizgisinde yazarsa, "Napoleon" kelimesinin cevabın ne olduğunu henüz bilinmemektedir - pastanın tarifi veya büyük komisyoncunun biyografisi. Ya da "kardeşler Grimm" ifadesi - masallar, filmler, müzik grubu. Yandex'te belirli cevapları daraltmak için bu kadar olası bir hedefe özel bir teknoloji var. Spektrum. Arama sorgularının istatistiklerini kullanarak kullanıcıların ihtiyaçlarını dikkate alır. Yandex ziyaretçilerinde belirtilen tüm soruların tümü, spektrum içlerinde çeşitli nesneler tahsis eder (insanların, kitapların, modellerin, modellerin vb. Adları) bu nesnelerin bazı kategorilerde dağıtılır. Bugüne kadar bu kategorilerin 60'tan fazla olması. Onları kullanarak, arama motoru, kullanıcı isteklerindeki veritabanındaki farklı kelimelerin sözcükleri vardır. İlginç bir şekilde, bu kategoriler periyodik olarak kontrol edilir (analiz haftada birkaç kez gerçekleşir), yandex'in soruların cevaplarını daha doğru bir şekilde vermesini sağlar.

Teknoloji temelinde, Yandex spektrumu diyalog ipuçları düzenledi. Kullanıcının belirsiz talebini çevirdiği arama dizesi altında görünürler. Bu çizgi, nesne nesnesinin ilişkili olabileceği kategorileri yansıtır. Diğer arama sonuçları, böyle bir kategorinin kullanıcı seçimine bağlıdır.

Yandex arama motorunun tüm kullanıcılarının% 15 ila 30'u, yalnızca yerel bilgileri almak istiyor (yaşadıkları bölgenin verileri). Örneğin, şehrinizin sinemalarındaki yeni filmler hakkında. Bu nedenle, böyle bir talebe verilen cevap her bölge için farklı olmalıdır. Bu bağlamda Yandex teknolojisini kullanır bölgeleri arayın . Örneğin, bu tür cevaplar, Ekim sinemasında filmlerin repertuarını arayan sakinleri alabilir:

Ancak böyle bir sonuç aynı isteğe göre Stavropol şehrinin sakinlerini alacak:

Kullanıcı bölgesi öncelikle IP adresine göre belirlenir. Bazen bu veriler doğru değildir, çünkü bir dizi sağlayıcı hemen birkaç bölgeye girebilir ve bu nedenle IP adreslerini kullanıcılara değiştirebilir. Prensip olarak, bu size olursa, bölgenizi kolayca arama motoru ayarlarında değiştirebilirsiniz. Sonuç sayfasındaki sağ üst köşede belirtilmiştir. Değiştirebilirsin.

Arama Motoru Yandex Ru - Yanıt Sonuçları

Metapoisk cevabı hazırladığında, Yandex arama motoru sonuçları ile sayfada vermelidir. Her biri hakkında küçük bilgiler içeren belgeleri bulacak referansların bir listesidir. Çıkarma sonuçları teknolojisinin görevi, kullanıcıya en alakalı cevaplara daha fazla bilgi vermektir. Böyle bir bağlantının şablonu şöyle görünür:

Sonucun bu formunu daha ayrıntılı olarak düşünün. İçin Arama Sonucu Başlığı Yandex, genellikle sayfanın başlık adını kullanır (optimize edenlerin başlık etiketinde öngörüldüğü gerçeği). Değilse, makalenin veya gönderi başlığından gelen kelimeler burada görünür. Başlığın metni büyükse, arama motoru, belirtilen sorgula en uygun olan bu alana fragmanını koyar.

Çok nadirdir, ancak başlığın talebin içeriğine karşılık gelmemesidir. Bu durumda Yandex, makale veya gönderideki metni kullanarak arama sonucu başlığını oluşturur. Kesinlikle bir sorgu sözcüğü olacak.

İçin snippeet Arama motoru, sayfadaki tüm metni kullanır. Cevabın isteğe bağlı olduğu tüm parçaları seçer ve ardından en çok alakalı seçer ve belgeye belgeye bir bağlantı ekler. Bu yaklaşım sayesinde, yetkili iyileştirici, SnippePeet'i gördükten sonra, referansın çekiciliğini arttırdıktan sonra onu yeniden verebilir.

Daha iyi performans algısı için, kullanıcının talebi, başlıklar metinde referans olarak hazırlanır (vurgu ile maviyi vurgulayarak). Web kaynağının çekiciliğinin ve tanınması için Favon eklenir - küçük bir marka sitesi simgesi. Başlıktan önce ilk satırdaki metnin solunda görünür. Yanıt isteğine dahil olan tüm kelimeler, algı rahatlığı için de cesurca vurgulanmaktadır.

Son zamanlarda, bir snippette, Yandex arama motoru, kullanıcıya daha hızlı yardımcı olacak çeşitli bilgiler ekler ve cevaplarını daha doğru bir şekilde bulur. Örneğin, kullanıcı isteğinde herhangi bir kuruluşun adını yazarsa, Snippet'te Yandex adresini, iletişim telefonlarını ve coğrafi haritalardaki konuma referansı ekleyecektir. Arama motoru sitenin yapısına aşinsa, kullanıcının cevabına sahip bir belge bulunduğunda, kesinlikle gösterecektir. Ayrıca, Yandex, böyle bir web kaynağının en çok ziyaret edilen sayfalarının bir snippetine ekleyebilir, böylece, eğer istenirse, ziyaretçiye derhal ihtiyacınız olan bölüme gidip gelebilir.

Bir çevrimiçi mağaza, otel derecelendirmesi veya yıldız şeklinde bir restoran için herhangi bir ürünün değerini içeren snipipler var. Arama belgelerindeki nesnelerle ilgili farklı sayılarla ilgili diğer ilginç bilgiler. Bu tür bilgilerin görevi, bu konularda veya kullanıcıyla ilgilenen nesnelerde eksiksiz veri listesi vermektir.

Genel olarak, farklı örneklerle, cevapları olan sayfa şöyle görünecektir:

Sıralama ve izler

Yandex görevi sadece olası tüm cevapların aramasını değil, aynı zamanda en iyisini (ilgili) seçimini de içerir. Ne de olsa, kullanıcı Yandex Arama sonucunda sağlanacağı tüm bağlantılarda dolandırılmayacak. Arama sonuçlarını sipariş etme süreci denir sıralama . Yani, sunulan cevapların kalitesini belirleyen sıralamadır.

Yandex'in ilgili sayfaları tanımladığı kurallar var:

  • sonuçları olan sayfadaki pozisyonlarda indirilmesi, daha önce arama kalitesini kötüleştiren siteleri bekliyor. Genellikle bunlar, sahipleri arama motorunu aldatmaya çalışan bu tür web kaynaklarıdır. Örneğin, bunlar anlamsız veya görünmez metin olan sayfaları olan sitelerdir. Tabii ki, arama robotu tarafından görülebilir ve anlaşılıyor, ancak bu belgeyi okuyan bir ziyaretçi değil. Veya Siteler, ihraç bölgesindeki bağlantıya geçerken derhal kullanıcıyı başka bir siteye çevirir.
  • erotik içerik içeren sıralama alanlarında sonuçların verilmesine veya kesinlikle azalmazlar. Bu, çoğu zaman bu tür web kaynaklarının agresif tanıtım yöntemleri kullanması nedeniyledir.
  • virüslerle enfekte olmuş siteler, iadede azaltılmaz ve arama sonuçlarından hariç tutulmaz - bu durumda, kullanıcının özel bir simge kullanılarak tehlike hakkında bilgi verilir. Bu, Yandex'in bu tür web kaynaklarının, arama motoru ziyaretçisinin talebi üzerine önemli belgeleri içerebileceğini önermesidir.

Örneğin, Yandex siteleri istek üzerine "Apple":

Sıralama faktörlerine ek olarak, Yandex, arama motorunun kullanıcılarının en uygun olduğu düşünüldüğü istekler ve cevapları olan özel örnekleri kullanır. Bu tür örnekleri şu anda hiçbir araba yapamaz - bu bir kişinin ayrıcalığıdır. Yandex'te, bu uzmanlar denir asistanlar . Görevleri, tüm arama belgelerinin tam bir analizini ve belirtilen taleplere verilen yanıtların değerlendirilmesini içerir. En iyi cevapları seçerler ve özel bir eğitim örneği oluştururlar. İçinde, arama motoru ilgili sayfalar ve özellikleri arasındaki ilişkiyi görür. Bu tür bir bilgiye sahip olmak Yandex, her istek için optimum bir sıralama formülü için seçebilir. Böyle bir formül inşa etme yöntemi MATRIXNET olarak adlandırılır. Ayrıca bu sistem, gereğince tahmin ve kalıpların sayısını artırmadan, çok sayıda sıralama faktörünü göz önünde bulundurmayı mümkün kılan, yeniden eğitmeye dayanıklı olmasıdır.

Yayınımın sonunda, Size Çalışmanızın Sürecinde Yandex Arama Motoru tarafından toplanan ilginç istatistikleri göstermek istiyorum.

1. Rusya ve Rus şehirlerinde kişisel isimlerin popülaritesi (Mart 2012'de Blogcular ve Sosyal Ağ Kullanıcılarından veri alınır).

Harika sağlama

1863'te, büyük yazar Jules Verne, yirminci yüzyılda bir paris yarattı. İçinde, metro, araba, elektrikli sandalye, bilgisayar ve hatta internet ayrıntılı olarak açıklanmıştır. Bununla birlikte, yayıncı kitabı yazdırmayı reddetti ve 1989'da Jules Verne'nin büyük büyükbabası tarafından bulunana kadar 120 yıldan fazla bir süredir uzadı. Yayınlandı 1994 yılında bir kitaptı.

Biz bu kadar eşsiz değiliz, düşündüğümüz gibi: Milyonlarca insan bize ve milyonlarca bir araya geldikten sonra, arama motorunu hemen hemen aynı konular. Öte yandan, çok tahmin edilemeziz: İsteğimizin formülasyonu bilinçsiz faktör sayısını etkiler. Ve bu nedenle en azından her birimizin bir talebi, nasıl olduğu önemli değil, bireysel bir yaklaşım gerektirir.

Aslında, Yandex arama motorunun tüm çalışmaları iki basit şeye düşürülür: Kişinin gerçekte bilmek istediğini anlamak ve birkaç saniye ağda milyarlarca belge arasında bulur.

Baskıları kaldır

Arama motoru sistemi, Matris'e benzer bir şeydir ve Smith Agent'ta - Arama Robotu (BT karmaşık tarafından oluşturulduğu karmaşıktır) - - Smith Agent.

Birinin bir şeyi bilmesi gereken her zaman interneti aramamak için, arama motoru çalışmanın bir bölümünü önceden bildirir - ağda ve binlerce arama robotuyla nerede olduğunu kontrol eder. Onlar iki türdür: ana ve hızlı. Ana, interneti bir bütün olarak taahhüt eder ve işler ve birkaç saniye önce bir dakika veya hatta bir dakika önce ortaya çıkan hızlı belgeler. Robot programının görevi, kullanıcılar için uygun ve yararlı bilgileri seçmek, geri dönüştürmek, eski ve gereksiz her şeyi çıkarmak. Bir şeyde, çöplerin sıralamasına benziyor: bir konteynerde kağıt, başka bir yerde cam, üçüncüde plastik, dördüncüde gıda atıkları ...

Robotlar tarafından toplanan bilgiler, internet atışını oluşturur. Binlerce Yandex sunucusunda depolanır ve sürekli güncellenir. Oyuncu, hangi bilgilerin bulabileceğinizi belirttiği listeye benzer. Bu listede, her bir anahtar kelime yalnız değil, ancak milyonlarca "sayfa" olarak gösterilir. Böylece tüm döküm güncellemelerinin kullanıcılara uygun olması durumunda, depolanmadan "temel aramaya" aktarılır. Ana robottan gelen veriler birkaç gün sonra ve hızlı robottan gerçek zamanlı olarak transfer edilir.

Kazımak



Çizim: Evgeny Tonky

Hazırlanan veritabanındaki verilen bir sorunun cevabını boşaltın, araba iki ana zorlukla karşı karşıya. İlk karmaşıklık - dil. Soruya bir cevap aramadan önce, makinenin hangi dili yaptığını anlaması önemlidir. Örneğin, Rusça konuşan bir kişi için "Druzhina Prince Igor" isteğinde, arama, ordu hakkında bilgi içeren belgeleri bulacak ve Ukraynaca, Prenses Olga'dan bahsedilen belgeler de Ukrayna Prens Igor'a verilecek ve Eşi, Ukrayna "karısı" da "Druzhina" olduğundan. Evet ve zengin Rusça, aynı kelime veya türevleri farklı şeyler ifade edebilir. Örneğin, "çelik" kelimesi, "çelik" ve "olmak" fiilinin formlarından biridir. İkinci karmaşıklık - insan psikolojisi. Talebi tanıtmak, beyin makinesinin çalıştığı uyarınca, talebin formülasyonuna uygun olarak, doğal olarak, doğal olarak, doğal olarak, matematiksel analiz ilkelerine uygun olarak hızlı ve doğru bir cevap bekliyoruz. Örneğin, "napolyon" kelimesini arama dizesine girerek, bir kişinin almak istediğini, bir kişinin almak istiyor: bir kek tarifi veya Fransız imparatorunun biyografisi, brendi satın almak veya bir psikiyatrik hastanenin adresini bulmak?


Bu gibi durumlarda, birkaç teknoloji göz önünde bulundurulur. Size arama çubuğunun altına verebilirsiniz. İsteği belirten birkaç bilgi istemi. Gibi, ihtiyacınız olanı seçin: Napolyon tarifleri veya Napolyon - Bonaparte. Kullanıcı makinenin talebine cevap vermezse ve Napolyon'a kelimeler eklemezse, "Spektrum" teknolojisi yardımcı olur: yardımı ummadan, araba hemen birkaç kategori hakkında bilgi arar (ve pastası ve İmparator ve at hakkında ..). Buna ek olarak, kişiselleştirme mekanizmaları, bu kullanıcının bilgisayar gününden veya iki veya üç ay önce aradığı makinenin bilgisini anlamaya yardımcı oluyor: eğer sık \u200b\u200bsık "Yandex" sorduysanız, yemek pişirme hakkında sorular, sonra araba Size ilk başta hoparlörleri göster Napolyon bir pasta.

Kombinasyonlar: Faiz Kulüpleri

Arama motorunun görevi, arama sorgusundan kelimelerin ve cümlelerin bulunduğu belgeleri seçmemesi gerekmez. Makine, hangi belgelerin çelişkili gereksinimlerimize ve neden onlara karşılık geldiklerini anlamalıdır. Napolyon - bir pasta hakkında bilgi almak ister miyiz ya da belki birkaç yıl boyunca bir patoral ismi ile fitness kulübünü ziyaret ettik, hatta bile düşük büyüme insanlarının kompleksleri konusunda endişeleniyoruz. Her durumda, sorunun çözümü önemsiz bir yaklaşım gerektirir.


Yandex arama programının yaratıcıları, bu tür bir yaklaşım buldu ve makineyi seçme hakkını delet. Bir yandan, ruhsuz, ama çok hızlı ve akıllı bir araba, kişisel eşyalar olarak bizim hakkımızda bir şey bilmek istemiyor ve istemiyor, ama diğerleri - her birini mümkün olduğunca öğrenmeye çalışıyor.

Kullanıcının coğrafi konumuna ve isteklerinin dilsel analizine ek olarak, arama motoru birkaç bin kriter kullanır, kesinlikle insanlar için açık değildir.

Odak, bu kriterlerin makinenin geliştirdiği ve güncellenmesi.

Milyonlarca insanın tercihleri \u200b\u200bve kullanıcı davranışları hakkında veri kullanır ve taleplerimizin tarihçesiyle "aritmetik ortalamayı" bağlar. Matrisin kendi içinde rehberlik eden ilkeler, binlerce özel çıkarlar kategorisini karşılaştıran, genellikle "İlgi alanlarının" olabileceği hakkında genellikle geleneksel insan fikirlerine uymuyor. On binlerce kişi var. Farklı, bazen komik kombinasyonlar yaratırlar. Örneğin, bu tür kombinasyonlardan biri, triton yayılan bir kişinin çıkarları için arama sonuçlarının uyumluluğu olabilir. Aynı zamanda, bir kişi sadece Tritonlarla ilgilenmiyor ve zaten onları üremek, ama sadece ilk yıl.

Tahminler. Eller yardım


Tabii ki matris, kendisine (daha yüksek matematik yardımı ile), onlarca on binlerce kriter temelinde hangi dizinin gösterilmesi gerektiğine karar verir. Ancak yaşayan insanlar Matrix ayrıca - 1000 Yandex çalışanlarını, sözde değerlendiriciler, belirli bir talep için arama sonuçlarını değerlendirir (elbette, her istek değerlendirilmez ve bu gerçek zamanlı değildir) beklentilere uygunluk için Her zamanki kullanıcının: bir makine kadar rasyonel değil, ifadeler, çelişkili ve duygusal olarak doğru değil.

Merhaba sevgili arkadaşlar! Bu yazıda, Yandex arama motorunu göz önünde bulundurmaya devam edeceğiz ve hatırladığınız gibi, bu Büyük Şirket'in yaratılmasının tarihi, ilk önce Rusya'daki rakipler arasında, sadece Rusya'daki rakipler arasında yer alıyor.

Bütün bunlar iyidir, ancak yeni gelenler ve deneyimli web sitesi inşaatçıları, elbette en önemli soruyla ilgileniyor, projelerini en öndeki ilk yerlerde nasıl geri çekileceklerle ilgilidir.

Bu nedenle, Yandex Arama Motorunun ne zaman kullanılabileceğini anlamak için nasıl çalıştığına bakalım ve Rus arama motorundan beklemeye değer.

Son makalede, sizinle görüştük. Konu oldukça ilginç ve faydalı olduğu ortaya çıktı. Bu nedenle, eklemeye karar verdim, konuşmayı derinleştirin.

Öyleyse, muhtemelen "neden arama motoru indeksleri belgeleri" sorusuyla heyecanlandım - aynı zamanda bir tavuk. "Nasıl." Sorusunu bulmak için kalır.

Site Sıralama Algoritmaları

Başlamak için, herhangi bir arama motoru için temel olan bazı algoritmalarla tanışalım:

- Doğrudan arama algoritması.

Nedir - kitaplardan birinde harika bir hikaye okuduğunu hatırlıyorsun. Ve aramaya başlarsın. Bir kitap aldı - baktı - bulamadılar, başka bir şey alıyorlardı ... prensip açık, ancak bu yöntem son derece uzun. Aynı zamanda açık.

- Ters Arama Algoritması.

Bunun için, algoritma blogunuzun her sayfasından oluşturulur - bir metin dosyası oluşturulur. Bu dosyada, kullandığınız tüm kelimeler alfabetik sırayla listelenir. Bu kelimenin metindeki pozisyonu bile (metinde koordinatlar) gösterir.

Bu yeterli hızlı yolAncak arama zaten bir hata ile gerçekleşiyor.

Burada, asıl şey, bu algoritmanın internette olmadığını, blog'u aramadığını anlamaktır. Ve uzun zaman önce bir kez oluşturulmuş ayrı bir metin dosyasında. Robot sana geldiğinde. Ve bu dosyalar (geri indeksler) Yandex sunucularında saklanır.

Böylece bunlar temel arama algoritmaları idi. Şunlar. Yandex gerekli belgeleri nasıl bulur? Bununla, sorun olmamalı gibi görünüyor.

Fakat Yandex belgeleri, 100'ü değil, 100 bile olmadığını bilmiyor, ancak kaynaklarımdaki en son verilere göre - Yandex, yaklaşık 11 milyar belge (10,727,736,489 sayfa) bilir.

Ve tüm bu miktar arasında, istek için uygun belgeleri seçmeniz gerekir. Ve daha da önemlisi - bir şekilde onları sıralamalısın. Şunlar. Önem derecesini ya da reader için fayda derecesini düşürür.

Matematiksel arama modelleri

Matematiksel modeller bu sorunu çözmeye gelir. Burada en basit modeller hakkında konuşacağız.

Boolean Mat.Model - Kelime belgede bulunursa - belgenin bulunduğu kabul edilir. Sadece tesadüf ve karmaşık bir şey yok.

Ama sorunlar var. Örneğin, bir kullanıcı olarak, bazı popüler bir kelimeyi girerseniz ve hatta Rusça'daki en yaygın kelime olan ve her belgede bulunan "B" yazılarını daha iyi hale getirin - o zaman size böyle sonuçları vereceksiniz. Böyle bir figürü bile anlamayın, kaç belge geldiniz? Bu nedenle, bir sonraki mat modeli ortaya çıktı.

Vektör Mate.Model - Bu model, belgenin "ağırlığını" tanımlar. Sadece tesadüf bulunur, ancak bu kelime birkaç kez buluşmalıdır. Dahası, kelime ne kadar çok bulunur - alaka düzeyi (uyum) ne kadar yüksek olur.

Tüm arama motorlarını kullanan vektör modelidir.

Probabilistik model - daha karmaşık. Bunun ilkesi: Arama motoru sayfa standardını buldu. Örneğin, Yandex'in tarihi hakkında bilgi arıyorsunuz. Yandex bazı standartları tutar, yandex hakkındaki önceki makalem olacağını söyleyelim.

Ve bu makale ile karşılaştıracağı diğer tüm belgeler. Ve buradaki mantık şudur: Blogunuz makalem gibi görünürse, blog sayfanızın da okuyucu için faydalı olacağı ve ayrıca Yandex'in tarihini de söyler.

Kullanıcıya gösterilecek belgelerin sayısını azaltmak için - Alaka Kavramı tanıtıldı, yani. uyma.

Blogunuz gerçekten doğru olduğu kadar. Bu, arama kalitesini ilgilendiren önemli bir konudur.

Değerlendiriciler - bu kim ve sorumlu olan

Algoritmaların çalışmasının kalitesini değerlendirmek için de bu alaka düzeyine ihtiyacımız var.

Bunun için özel bir kuvvet merkezi var - değerlendiriciler denir. Bunlar arama sonuçlarına bakan özel insanlardır.

Talimatları var, siteleri nasıl kontrol edersin, nasıl değerlendirileceğini, vb. Ve sayfa arama sorgularınıza uyması için ellerini belirlerler veya uygun değildir.

Ve arama algoritmalarının kalitesi, değerlendiricilerin görüşüne bağlıdır. Tüm değerlendiriciler, ihracı aramanın istekleriyle eşleşmemesini söylerse - yanlış sıralama algoritması ve burada şarabın sadece Yandex'in olduğu anlamına gelir.

Değerlendiriciler, yalnızca bir sitenin talebiyle eşleşmemesini öneriyorsa - sitenin çok uzak bir yerde uçması ve iade edilmesinde azaldığı anlamına gelir. Daha kesin olarak, tüm site değil, sadece bir makale, ancak bu özü değil.

Tabii ki, özenler tüm makaleleri gözleri ve gözleriyle göremez ve değerlendiremezler. Peki anlaşılabilir.

Ve kurtarma için diğer parametreler, sayfaların sıralamasına geliyor.

Çok fazla var, örneğin:

  • sayfa Ağırlığı (Vic, PageRank, pukomerki genellikle);
  • etki alanı güvenilirliği;
  • metin isteğinin uygunluğu;
  • harici Bağlantıların İsteğinin Metinlerinin Uygunluğu;
  • diğer birçok sıralama faktörünün yanı sıra.

Yardımcılar, Comdens'i ve zaten bir matematiksel sıralama modeli ayarlamaktan sorumlu olan kişiler, sırayla, arama motorunun daha iyi çalıştığı formülü düzenleyin.

Formülün çalışmalarını değerlendirmek için ana kriterler:

1. Arama motorunun doğruluğu - İsteğe karşılık gelen belgelerin yüzdesi (ilgili). Şunlar. İsteğe karşılık gelmeyen sayfaların daha küçük olması daha iyidir.

2. Arama motorunun eksiksizliği - Bu, bu istek üzerine ilgili Web sayfalarının, koleksiyonda bulunan toplam ilgili belge sayısına (arama motorundaki sayfaların) ilişkisidir.

Örneğin, ilgili sayfaların tüm koleksiyonunda arama sonuçlarından daha fazla ise, bu eksiklik anlamına gelir. Bu, ilgili web sayfalarının bir kısmının filtrenin altına girmesi nedeniyle gerçekleşti.

3. Arama motorunun alaka düzeyi - Bu, snippet'te yazılan web sayfasının uygunluğudur. Örneğin, bir belge çok farklı olabilir ya da hiç yok, ancak iadede.

İhracın alaka düzeyi doğrudan, arama robotunun koleksiyonlarından ne sıklıkla sık sık taranmasına bağlıdır.

Koleksiyon koleksiyonu (indeksleme sitesi sayfaları) gerçekleştirilir Özel program - Robotu ara.

Arama robotu, endeksleme için adreslerin bir listesini alır, bunları kopyalar, ardından kopyalanan web sayfalarının içeriği, onları dizinleri tersine çevirmeye dönüştüren algoritmanın işlenmesini sağlar.

Burada, burada "iki kelimeyle", söyleyebiliyorsanız, arama motorunun ilkelerini tartıştık.

Özetleyelim:

  1. Arama robotu blogunuza gelir.
  2. Arama robotu, sonraki arama için sayfanın arka dizini kaydeder.
  3. Matematiksel bir modelin yardımıyla, belge işlenir ve formül aramada ve değerlendiricinin görüşünü dikkate alarak verilir.

Bu, çok, çok basitse. Böylece Yandex arama motorunun çalışmasının temel anlayışı gelişti.

Şimdi çok fazla metin yazdım ve belki de çok açık değil. Bu nedenle, bu makaleye biraz sonra geri dönmenizi öneririm ve bu videoyu görmenizi öneririm.

Bu, zamanında ve çalıştığım için mükemmel bir el kitabıdır.

Umut bu bilgi Bazı sitelerinizden bazılarının neden ilgili pozisyonları işgal ettiğini ve onları geliştirmek için her şeyi yapmanıza daha iyi anlamaya yardımcı olacaktır.

Bu konuda, eğer sorular varsa size elveda diyorum, yorumlarda onlara cevap vermekten her zaman mutluyum. Ya da belki bir makale eklemek istiyorsun?

Her durumda, fikrinizi ifade edin. K!

Uzun zamandır Rus internetin ayrılmaz bir parçası olmuştur. Arama motorları artık sadece bir arama aracı olmayan, aynı zamanda iş için cazip alanlar olan büyük ve karmaşık mekanizmalardır.

Çoğu arama motoru kullanıcısı, arama motorlarının çalışma prensibi hakkında, bu sistemlerin ne yapıldığı ve nasıl çalıştıkları hakkında, arama motorlarının çalışma prensibi hakkında hiçbir zaman düşünmedi (ya da düşünmedim ancak düşünmedim).

Bu ana sınıf, arama sistemlerinin nasıl çalıştığının sorusunu cevaplamayı amaçlamaktadır. Ancak, belgelerin sıralamasını etkileyen faktörleri bulamazsınız. Ve daha çok, Yandex'in çalışmaları için algoritmanın ayrıntılı bir açıklamasına güvenmemelisiniz. Onun, Ilya Segalovich'e göre, - Yandex Arama Motorunun Teknolojileri ve Geliştirilmesi Direktörü, sadece Ilya Segalovich'in "İşkencesi Altında" bulunabilir.

2. Arama motorunun kavramı ve işlevi

Arama motoru, internette arama yapmak ve bir metin ifadesi (Arama Sorgusu) biçiminde belirtilen bir kullanıcı isteğine (Arama Sorgusu) formunda belirtilen bir kullanıcı isteğine cevap vermek için tasarlanmış bir yazılım ve donanım kompleksidir. sorgu). En büyük uluslararası arama motorları: "Google" , Yahoo, "msn". Rus internette "Yandex", "Rambler", "Aport".

Yandex arama motoru örneğinde bir arama sorgusu kavramını düşünün. Arama sorgusu, kullanıcı tarafından mümkün olduğunca kısaca ve basit bulmak istediğine göre formüle edilmelidir. Yandex'te bir araba seçeceğiniz hakkında bilgi bulmak istediğimizizi varsayalım. Bunu yapmak için, "Yandex" ana sayfasını açın ve arama sorgusunun metnini "bir araba nasıl seçilir" yazın. Ayrıca, görevimiz internet üzerinden bilgi kaynaklarına olan istek üzerine verilen bağlantıları açmak için aşağı iner. Ancak, ihtiyacınız olan bilgileri bulamamak oldukça mümkün. Eğer böyle olursa, isteğinizi yeniden doldurmanız gerekir veya arama motorunun veritabanında, istek üzerine güncel bir bilgi yoktur (bu, "bir araba seçmek için çok" dar "istekleri belirlerken olabilir. arkhangelsk ")

Herhangi bir arama motorunun öncelikli görevi, aradıkları bilgilerin insanlara ulaşmaktır. Ve kullanıcıların sisteme "doğru" istekleri yapmalarını öğretin, yani. Arama motorlarının prensiplerini karşılayan talepler imkansızdır. Bu nedenle, geliştiriciler bu tür algoritmalar ve kullanıcıların onları aradığınız bilgileri bulmalarını sağlayacak olan arama motorlarının eserlerini oluştururlar.

Bu, arama motorunun "düşünün" olduğu gibi, kullanıcının bilgi ararken olduğunu düşünmesi gerektiği anlamına gelir. Kullanıcı istekleri arama motoruna geri döndüğünde, mümkün olduğunca çabuk ve basit olanı bulmak istiyor. Sonucu alma, birkaç temel parametre tarafından yönlendirilen, sistemin çalışmasını değerlendirir. Aradığım şeyi buldu mu? Eğer bulamazsam, istediğim kaç kez, istenenleri bulmak için isteğini yeniden doldurmak zorunda kaldı? Ne kadar alakalı bilgi buldu? Arama motoru ne kadar çabuk işlenir? Arama sonuçları ne kadar uygun sunuldu? İstenilen birinci ya da yüzüncü sonucu oldu? Yararlı bilgilere sahip bir par üzerinde kaç tane gereksiz çöp bulundu? Arama motoruna erişirken gerekli bilgilere sahip misiniz, bir haftada veya bir ay içinde mi söyleyelim?

Tüm bu soruları karşılamak için, arama motoru geliştiricileri sürekli olarak algoritmaları ve arama prensiplerini iyileştirir, yeni özellikler ve fırsatlar ekler, sistemi hızlandırmaya çalışırken.

3. Arama motorunun ana özellikleri

Arama motorlarının ana özelliklerini açıklıyoruz:

  • Dolgunluk

    Dolgunluk, arama motorunun ana özelliklerinden biridir, bu talebi karşılayan toplam belge sayısının toplam belge sayısının bulunduğu belge sayısının oranıdır. Örneğin, internetteyse, "bir araba nasıl seçileceği" ifadesini içeren 100 sayfa vardır ve bunların sadece 60'ı ilgili istek üzerine bulundu, ardından 0,6 dolu arama. Açıkçası, aramayı ne kadar eksiksiz olursa, kullanıcının ihtiyacınız olan belgeyi bulamadığı, genellikle internette bulunması şartıyla daha az olasılığı yoktur.

  • Doğruluk

    Doğruluk - Kullanıcı isteğinin bulunduğu belgelere uygunluk derecesi ile belirlenen arama motorunun bir başka temel özelliği. Örneğin, "Bir araba nasıl seçileceğini" istemek üzerine 100 belgeniz varsa, 50 tanesi "bir araba nasıl seçilir" ifadesini içerir ve diğerlerinde bu kelimeleri ("bir radyo teyp kaydedici nasıl seçilir) ve arabaya takın "), daha sonra arama doğruluğu 50/100'e (\u003d 0.5) eşit olarak kabul edilir. Arama ne kadar doğru olursa, kullanıcının ihtiyacınız olan belgeleri daha da bulacağını, aralarında, aralarındaki çeşitli "çöp" nin karşılanacağı, bulunacak olan belgeler sorguyu karşılamayacak.

  • İlgi

    Alaka düzeyi, arama motorunun indeks tabanına getirilinceye kadar, internetteki belgelerin yayınlanmasından itibaren, internetteki belgelerin yayınlanması anından itibaren akan aramanın eşit derecede önemli bir bileşenidir. Örneğin, ilginç haberlerin ortaya çıkmasından sonraki gün, çok sayıda kullanıcı arama motorlarına ilgili istekleri olan aramaya başvurdu. Objektif olarak, bu konudaki haber bilgilerinin yayınlanması üzerine bir günden az geçti, ancak ana belgeler zaten "Hızlı Taban" olarak adlandırılan büyük arama motorlarının varlığı nedeniyle, birkaç kez güncellenen büyük arama motorlarının varlığı nedeniyle daha önce indekslendi ve erişilebilirdi. bir gün.

  • Arama hızı

    Arama hızı istikrarıyla yakından ilgilidir. Örneğin, Rambler Internet Holding LLC'ye göre, çalışma saatleri için, Rambler çalışma saatlerine, saniyede yaklaşık 60 istek üzerine gelir. Bu tür bir iş yükü, ayrı bir talebin işleme süresinde bir azalma gerektirir. Burada kullanıcı ve arama motorunun çıkarları aynıdır: Ziyaretçi sonuçları olabildiğince çabuk dile getirir ve arama motoru, aşağıdaki isteklerin hesaplanmasını yavaşlatmamak için mümkün olduğunca çabuk çalışmalıdır.

  • Görsellik

4. Arama motorlarının geliştirilmesinin kısa tarihçesi

İnternetin gelişiminin ilk döneminde, kullanıcısı sayısının küçüktü ve mevcut bilgilerin miktarı nispeten küçüktür. Çoğunlukla, yalnızca araştırma alanının çalışanları internete erişimi vardı. Şu anda, internette bilgi bulma görevi şu anda olduğu gibi değildi.

Ağ bilgisi kaynaklarına erişimin erişimini organize etmenin ilk yollarından biri, açık dizin sitelerinin oluşturulmasıydı, konulara göre gruplandırılmış kaynaklara referanslar. Bu tür ilk proje, 1994 baharında açılan Yahoo.com sitesiydi. Katalogdaki site sayısı önemli ölçüde arttıktan sonra, katalogda istenen bilgileri arayabilme yeteneği eklendi. Bir anlamda, bu henüz bir arama motoru olmamıştır, çünkü arama alanı sadece katalogda bulunan ve tüm İnternet kaynakları tarafından değil, katalogdaki kaynaklarla sınırlandırılmıştır.

Bağlantı katalogları yaygın olarak daha önce kullanılmıştır, ancak şu anda popülerliklerini neredeyse tamamen yitirdiler. Hacimimizdeki modern, büyük kataloglar bile, sadece internetin önemsiz küçük kısmı hakkında bilgi içerir. DMOZ ağının en büyük dizini (de açık Dizin Projesi olarak da bilinir) yaklaşık 5 milyon kaynak içeriyorsa, Google arama sisteminin Google'ı 8 milyardan fazla belgeden oluşur.

1995'te Lycos ve Altavista arama motorları ortaya çıktı. Son yıllarca internette bilgi arayışında liderdi.

1997 yılında Sergey Brin ve Larry Paige, Google'ın arama motorunu Standford Üniversitesi'ndeki bir araştırma projesinin bir parçası olarak yarattı. Halen Google, dünyadaki en popüler arama motorudur!

Eylül 1997'de, Arama Motoru Yandex, Rusça konuşan internette en popüler olan resmen duyuruldu.

Şu anda, üç ana arama motoru var (uluslararası) - Google, Yahoo ve kendi üsleri ve algoritmaların bulunduğu. Diğer arama motorlarının çoğu (KOIM, büyük bir sayıdır), bir biçimde listelenen üçünün sonuçlarını veya başka bir şekilde kullanır. Örneğin, AOL (Search.aol.com) arama Google'ın tabanını ve Altavista, Lycos ve AllTheweb - Yahoo tabanı kullanır.

5. Arama motorunun bileşimi ve prensipleri

Rusya'da, ana arama motoru "Yandex", sonra - Rambler.ru, google.ru, aport.ru, mail.ru. Ayrıca, şu anda Mail.ru, "Yandex" aramasının mekanizması ve veritabanını kullanır.

Neredeyse tüm önemli arama motorlarının diğerlerinden başka bir yapısı var. Bununla birlikte, tüm arama motorlarında ortak olan ana bileşenler ayırt edilebilir. Yapıda farklılıkları, yalnızca bu bileşenlerin etkileşimi mekanizmalarının uygulanması şeklinde olabilir.

Endeksleme modülü

Endeksleme modülü üç yardımcı programdan oluşur (robotlar):

Örümcek (Örümcek) - Web sayfalarını indirmek için tasarlanmış bir program. "Örümcek" Sayfanın indirilmesini sağlar ve bu sayfadan tüm dahili bağlantıları çıkarır. Her sayfanın HTML kodu indiriliyor. Sayfaları indirmek için robotlar HTTP protokollerini kullanır. "Örümcek" çalışır. Sunucudaki robot, "GET / PATH / DOKEGRAM" isteğini ve diğer bazı HTTP istek komutlarını iletir. Buna cevaben, robot servis bilgilerini içeren ve doğrudan belgenin kendisini içeren bir metin akışı alır.

  • URL Sayfaları
  • sayfa indirildiğinde tarih
  • sunucu Yanıt HTTP Header
  • sayfa gövdesi (HTML kodu)

Paletli ("Seyahat" Örümcek), sayfada bulunan tüm bağlantılardan otomatik olarak geçen bir programdır. Sayfada bulunan tüm bağlantıları all. Görevi, örümceğin, bağlantılara dayanarak veya önceden belirlenmiş bir adres listesine dayanarak nerede daha ileri gitmesi gerektiğini belirlemektir. Paletli, bulunan bağlantıların ardından, yeni belgeler aranıyor, hala bilinmeyen arama motoru.

Indexer (Robot Indexer), örümcekler tarafından indirilen web sayfalarını analiz eden bir programdır. Endeksleyici sayfayı bileşenlere söküyor ve kendi sözcüksel ve morfolojik algoritmalarını uygulayarak onları analiz eder. Metin, başlıklar, bağlantılar, yapısal ve stil özellikleri, özel servis html etiketleri vb. Gibi çeşitli sayfa öğeleri analiz ediliyor.

Böylece, indeksleme modülü, kaynak kümesi tarafından belirtilen referansları atlamanıza, karşılaşılan sayfaları indirmenize, alınan belgelerden yeni sayfalara bağlantıları çıkarmanıza ve bu belgelerin tam bir analizini oluşturmanıza olanak sağlar.

Veri tabanı

Veritabanı veya Arama Motoru Endeksi, tüm indirilenlerin dönüştürülmüş parametrelerinin ve indeksleme modülü tarafından işlenen belgelerin depolandığı bir bilgi dizisi olan bir veri depolama sistemidir.

Arama sunucusu.

Arama sunucusu, işlevinin altındaki algoritmaların doğrudan, aramanın kalitesine ve hızına bağlı olduğu için tüm sistemin önemli bir unsurudur.

Arama sunucusu aşağıdaki gibi çalışır:

  • Kullanıcıdan alınan istek morfolojik analize tabi tutulur. Bilgi ortamı, veritabanında bulunan her belge (daha sonra formda, yani, yani arama sonuçları sayfasındaki ilgili metin bilgi talebi) tarafından oluşturulur.
  • Elde edilen veriler, özel bir sıralama modülüne sahip giriş parametreleri olarak iletilir. Tüm belgelerdeki veri işleme, bunun bir sonucu olarak, her bir belge için, kullanıcı tarafından girilen isteğin alaka düzeyini ve bu belgenin çeşitli bileşenlerini arama motoru indeksinde saklanır.
  • Kullanıcının seçimine bağlı olarak, bu derecelendirme ek koşullarla ayarlanabilir (örneğin, "Gelişmiş Arama" adı verilen).
  • Daha sonra, knippet tarafından üretilir, yani belge tablosundan bulunan her belge için, başlık alınır, kısa özet, belgenin kendisine en uygun sorgu ve referans ve bulunan kelimeler vurgulanır.
  • Elde edilen arama sonuçları, kullanıcıya SERP şeklinde (Arama Motoru Sonuç Sayfası) - Arama Sonuçları Verme Sayfaları'na iletilir.

Görülebileceği gibi, tüm bu bileşenler birbirleriyle yakından ilişkilidir ve etkileşimde çalışmak, arama motorunun çalışmaları için net, oldukça karmaşık bir mekanizma oluşturur, muazzam kaynaklar maliyeti gerektirir.

6. Sonuç

Şimdi yukarıdakilerin hepsini özetleyin.

  • Herhangi bir arama motorunun öncelikli görevi, aradıkları bilgilerin insanlara ulaşmaktır.
  • Arama motorlarının ana özellikleri:
    1. Dolgunluk
    2. Doğruluk
    3. İlgi
    4. Arama hızı
    5. Görsellik
  • İlk tam teşekküllü arama motoru, 1994 yılında yayınlanan WebCrawler projesiydi.
  • Arama motoru bileşenleri içerir:
    1. Endeksleme modülü
    2. Veri tabanı
    3. Arama sunucusu.

Usur Sınıfımızın PS kavramı ile tanışmanıza izin vereceğini umuyoruz, arama motorlarının ana işlevlerini, özelliklerini ve prensibini bilmek daha iyidir.