ForumTayfa  

Go Back   ForumTayfa > Güvenlik & Bilgisayar & İnternet & Webmaster & Programlama Bölümü > Güvenlik & Bilgisayar & İnternet & Webmaster & Programlama > Ağ ve İnternet

Ağ ve İnternet Ağ ve internet ayarları, soru ve sorunlarımızı tartıştığımız bölüm...

Yeni Konu aç  Cevapla
 
LinkBack Seçenekler Stil
Alt 27.07.09, 21:41   #1 (permalink)
Süper Tayfa
 
3RSAN - ait Kullanıcı Resmi (Avatar)
 
Üyelik Tarihi: Nov 2008
Nereden: SAMSUN Slogan:Siyah......Beyaz
Mesaj Sayısı: 10.175
Konu Sayısı: 1165
Takım: Beşiktaş
Rep Gücü: 385615
Rep Puanı: 38559367
Rep Derecesi : 3RSAN 0-100000003RSAN 0-100000003RSAN 0-100000003RSAN 0-100000003RSAN 0-100000003RSAN 0-100000003RSAN 0-100000003RSAN 0-100000003RSAN 0-100000003RSAN 0-100000003RSAN 0-10000000
Ruh Hali:

Lightbulb Google nasıl buluyor; sistem nasıl çalışıyor?




Google küçük bir anahtar kelime yardımıyla ilgili sonuçları nasıl buluyor; diğerlerinden farkı ne?

Google'ın ağda gezen örümcekleri

Google gibi arama motorları nasıl oluyor da aradığımız bilgiyi bir saniyeden kısa bir sürede karşımıza getiriyor? Nasıl çalışıyor hiç merak ettiniz mi?

Arama motorlarının hızlı ve doğru arama sonuçları sunmak için yaptığı üç işlem var. Devamlı interneti tarayarak sayfaları bulmak, okumak ve endeksleyerek arama geldiğinden içinden uygun sonuçları sıraya dizip kullanıcının karşısına getirmek. Üçten fazla mı oldu? Hayır, temelde arama, kıyaslama ve sıralama üçlüsü var, diğerleri ara işlemler.

"Spidering" denilen tabir, ağ ve örümcek ilişkisi gibi arama motorunun yuvası olan ağı dolaşıp nerede ne var bilmesi anlamına geliyor. Kısaca interneti taramak diyebiliriz. Bu işi yapan, internet sitelerini okuyarak kaynak kodu analiz eden ve bağlantıları takip eden algoritmalar oldukça özel. Bu sayfaları kaydedip daha sonra detaylı bir şekilde analiz ediyorlar. İnternette bu "Web crawler", "web robot" veya "bot" da denilen programları yazmanın yolu yordamı da var. Ancak işin incelikleri, arama motorlarının kullandığı başarılı sürümlerin sırları saklı.

Hızlı açılış, hızlı endeksleme...

Bir bot internetteki bağlantıları takip ederken diyelim ki bir resme denk geldi. Resmi sitede görmek için farklı boyut seçenekleri var. Bu bot'un gezmesi gereken adres sayısını artırıyor. Birden fazla resim dizilimi, küçük resim boyutu, dosya formatı seçeneği derken bunların varyasyonları sayı olarak katlanarak büyüyor. İnternetin dev gibi, devamlı büyüyen bir yer olduğu düşünülürse, programların bile devamlı dolaşıp içerik hakkında güncel bilgi edinmesinin ne kadar zor olduğu anlaşılır. Google yılmadan donanıma ve yazılıma yatırım yaparak interneti tarama kapasitesini devamlı arttırıyor.

Google rakiplerini hem bu alanda aştı, hem de hepsinden hızlı endeksleme sayesinde hızlı ve doğru sonuçlar sundu. Zaten Google tasarımındaki basitlikten de kazanıyor. Çok hızlı açılan bir sayfa. Sonuçları hızlı olduğu kadar tutarlı çünkü sıralama algoritması çok iyi çalışıyor. İyi çalışmanın ötesinde rakiplerinden farklı ama bu farka daha sonra değineceğiz.

Klasik arama motorları kopyaladıkları nternet sayfalarındaki sözcüklerin bir listesini ve her kelimenin kullanıldığı sayıyı not alarak bir önem tablosu çıkartıyor. Bu sayede program arama sonuçlarında aranan kelimelerden en çok bahseden sonuçları üst sıraya çıkartıyor. Tabii ki bunu böyle ifade edince çok kolay görünüyor. Ama sorun kullanılan her dilde kelimelerin ekli, çekimli hallerinin bulunması. Ekler ve noktalama işaretleri, internet adresleri derken kelimelerin ufak tefek farklı yazılışları onların ayrı kelimeler olarak algılanmasına sebep oluyor. Bunu düzeltmek için kural üzerine kural yazılıyor ve daha mantıklı sonuçlar ortaya konuyor.

Bu yöntemin esas sorunu, yöntemin farkında olan sitelerin kendilerine daha fazla ziyaretçi çekmek için hile yaparak siteleri çok aranan kelimelerle dolduruyor olması. Ancak işte bu Google'a sökmüyor.

Google ve gittikçe basitleşen listeler

Listelenen kelimelerin karşılarına sayılar diziliyor. Endeksteki bu sayılar ise doküman numarası oluyor. Kelime anahtar, o anahtarla aranan karşısındaki dokümanlar oluyor. Her dokümandaki kelimelerin listesinden, kullanım ağırlıklarından bu duruma geldik. Artık liste tersine döndü ve kelimelerin kullanım ağırlığı sıralamaya yansıdı.

Şimdi elde dev bir kelime listesi var, aranan kelimelere buradan bakılıyor ve karşılık gelen doküman numaraları alınarak doküman isimleri, adresleriyle onlara atanmış sayıların olduğu diğer tablodan alınarak arama sonucu olarak kullanıcının karşısına adresler getiriliyor. Kelimelerin karşısına gelen veriler direk doküman numarası olduğu için de bu ana endeks sıkıştırılabiliyor.

Sıkıştırma yöntemi olarak da sayıları depolamak yerine dev bir Bitmap hazırlanıyor. Sayıları yazmak yerine satır ve sütun numarası kelimeyi ve karşılığı olan sayıyı belirtecek yer dolduruluyor veya boş bırakılıyor. Bu sayede büyük miktarda yer kazanılmış oluyor. Çünkü tablodaki çoğu kelimenin karşısında çok fazla doküman yok. Örneğin trilyon sayfayı endeksleyen bir arama motorunda böyle bir resim 130 GB kadar yer tutuyor. Sıkıştırıldığında ise daha az tutuyor ve az evvel söylediğimiz gibi çoğunluğu boş olduğundan sıkıştırılmaya çok müsait.

Bitmap'in sağladığı müthiş kolaylıklar

Dahası bu sıkıştırma metodu birden çok kelime arandığında da kolaylık sağlıyor. Bitmap üzerinde satır ve sütunlarda bu aranan iki veya daha çokkelime ve yer aldıkları belgeler kolaylıkla bulunup aktarılabiliyor. Ortaya sadece aranan sonuçları içeren yeni bir Bitmap çıkıyor.

Google gibi dev bir arama motorunda bitmapler birden çok sunucuya yayılabiliyor. Bunların çok daha fazla sayıda da kopyası tutuluyor. Yine de bu yöntem arama süresini inanılmaz kısaltıyor. Bir kullanıcının evindeki PDF, Office ve e-posta dosyaları için de bu "inverted file" endeksleme metodu kullanıldığında arama süreleri yine çok kısalıyor. Google Desktop da zaten masaüstü için bunu yapıyor.

İnternette yapılan aramalarla ilgili önemli bir nokta da kullanıcıların genellikle sadece ilk sayfadaki sonuçlara bakması. İlk arama sonuçlarına göre kullanıcı aradığına yakın bir sonucu hemen karşısında görmezse aradığı kelimeleri gözlemlerine göre değiştirerek tekrar deniyor. Sabırlı kullanıcılar bile arama sonuçlarının en fazla ilk birkaç sayfasını inceliyor.

Ve esas fark bu kelimede gizli: PageRank

Gelelim Google'ın farkına, Sergey Brin ve Larry Page, Stanford Üniversitesi'ndeyken akademik bir makale yayınlarlar. Türkçe olarak adı "Büyük Ölçekli bir Hipermetin Ağ Arama Motorunun Anatomisi"dir. Burada yeni arama motorlarının prototipini çizmişlerdir.

Arama motorunun ismi Google'dır. Bu Googol'un yanlış okunuşudur. Googol ise 10'un yüzüncü kuvveti demek oluyor. İsmin gizemini de böylede aydınlatmış olduk. Brin ve Page arama sonuçlarını daha iyi hale getirmek için PageRank isimli bir algoritma kullanmaya karar verirler. Bu Larry Page'in ismini taşımaktadır.

PageRank sayfalarını anahtar sözcüklerle doldurarak üst sıralara çıkmak isteyen siteleri çok şaşırtmıştı. Google bu algoritma sayesinde gerekten işe yarar sonuçları büyük bir tutarlılıkla kullanıcıların karşısına getiriyordu. Aslında hala da getiriyor. Peki bu PageRank'ın sırrı nedir?

PageRank sitelerin bağlantılarını inceleyerek önem sırasına dizen bir sistem. Çok fazla bağlantı alan, kaynak olarak gösterilen bir sitenin PageRank'ı haliyle yüksek oluyor. O site bir kaynak olarak üst sıralara taşınıyor. Önemli siteler de başka sitelere bağlantı verdiklerinde onları daha önemli hale getiriyorlar. Sonuç itibariyle içeriğinden en çok yararlanılan siteler üst sıraları kapıyor. Kullanıcılar da aradıklarını rahatlıkla ve esas kaynağından bulabiliyorlar. Her zaman kusursuz çalışmasa da şimdiye kadar geliştirilmiş en etkili yöntem bu.

Google 10, Wikipedia 9; CHIP Online...

Bunu biraz daha anlatmak gerekirse bir sayfaya atanan PageRank aslında sadece önem sırası değil. Belli sayfaları gezen bir kullanıcının, bir sonraki adımında o sayfayı ziyaret etme ihtimali de işin içinde. Bu alaka bağları ortaya gerçekçi sonuçlar koyuyor.

Google'ın ticari sırrı olan bir formül PageRank'ı 0 ila 10 arasında belirliyor. PageRank'ı 0 olanlar henüz pek kaynak gösterilmemiş yeni siteler. 10 olan ise şimdilik sadece Google var. Wikipedia, Twitter ve Yahoo! gibi bilgi kaynakları PageRank 9'a sahipler. Facebook 8'de kalıyor. Sonuçta önem ve kalite sırası sayesinde kullanıcılar ihtiyaçlarına kolayca ulaşabiliyor. Şu anda okumakta olduğunuz CHIP Online ise PageRank 7'ye sahip yani internetteki önemli, üst düzey siteler arasında yer alıyor.

Nicelik yerine niteliğe önem veren bir sistem olan PageRank, sayfaların önem ve yaygınlık ağırlığını ölçerek çalışıyor. İşte bu sayede Google başarılı oluyor, bugün bu buluş sayesinde Microsoft'a rakip oluyor. Arama motoru olarak yüzde 65'lik dilimi elinde bulunduran Google elbette sadece bu algoritmayla işi götürmüyor. Google'ın sunucu çiftlikleri, bu işe ayırdığı para ve zaman da inanılmaz ölçülerde. Bu sayede çok daha iyi bir algoritma geliştirilmedikçe, yeni bir arama motorunun arkasında Microsoft gibi bir sermaye ve güç olmadıkça Google'a rakip olması çok zor. Sihirli formül şimdilik çok iyi çalışıyor ve artık siz de nasıl çalıştığını biliyorsunuz.


__________________

Ne Mutlu Türküm Diyene......



İletişim için : [email protected]
3RSAN isimli Üye şimdilik offline konumundadır   Alıntı ile Cevapla
Cevapla


Konuyu Toplam 1 Üye okuyor. (0 Kayıtlı üye ve 1 Misafir)
 
Seçenekler
Stil

Yetkileriniz
Konu Acma Yetkiniz Yok
Cevap Yazma Yetkiniz Yok
Eklenti Yükleme Yetkiniz Yok
Mesajınızı Değiştirme Yetkiniz Yok

BB code is Açık
Smileler Açık
[IMG] Kodları Açık
HTML-Kodu Kapalı
Trackbacks are Açık
Pingbacks are Açık
Refbacks are Açık


Benzer Konular
Konu Konuyu Başlatan Forum Cevaplar Son Mesaj
Güncellendi: Anket NasıL AçıLır? [Mod Onaylı Sistem] MaStEr Anketler 14 25.05.09 01:32
Programsız Youtube Nasıl İndirilir %100 Çalışıyor Barış Resimli Program Anlatımı 7 19.01.09 10:22
Sivrisinekler damarı nasıl buluyor? Atlas Sağlık 6 10.10.07 10:50
Yahoo - Google Gruplara Nasıl üye Olacağız?(Resimli Anlatım) Dr.TaKa Yeni Başlayanlar 1 01.04.07 09:26
Arabalarda hava yastıkları nasıl çalışıyor? MaTRiX Motorlu Araçlar Dünyası 1 27.01.07 09:50


Tüm Zamanlar GMT +3 Olarak Ayarlanmış. Şuanki Zaman: 02:22.


Powered by vBulletin® Version 3.8.0
Copyright ©2000 - 2020, Jelsoft Enterprises Ltd.
Search Engine Optimization by vBSEO 3.6.0
User Alert System provided by Advanced User Tagging v3.0.6 (Lite) - vBulletin Mods & Addons Copyright © 2020 DragonByte Technologies Ltd.
ForumTayfa

Arşiv: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 16 22 23 24 25 26 27 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 95 96 97 98 99 100 102 103 104 105 106 155 156 157 158 159 160 161 162 163 164 167 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271


ForumTayfa - Link Değişimi
Telinka İletişim | Voip Ürünleri | Link Değişimine Katılın |

Sitemiz bir forum sitesi olduğundan dolayı, kullanıcılar her türlü görüşlerini önceden onay olmadan anında siteye yazabilmektedir. ForumTayfa Yöneticileri mesajları itina ile kontrol etse de, bu yazılardan dolayı doğabilecek her türlü sorumluluk yazan kullanıcılara aittir. Yine de sitemizde yasalara aykırı unsurlar bulursanız [email protected] email adresine bildirebilirsiniz, şikayetiniz incelendikten sonra en kısa sürede gereken yapılacaktır.

Any member of our web site has the right of adding comments instantly without getting permisson due to the forum structure of our site basis. Althought, our site modarators check comments with care, all the responsibilities sourced from these comments directly belong to the members. If you still find any illegal content in our site ( A.buse, H.arassment, S.camming, H.acking, W.arez, C.rack, D.ivx, Mp.3 or any Illegal Activity ), please report us via [email protected] .Your reports will be evaluated as soon as the arrival of your e-mail.