PageRank jest to metoda nadawania przez Google indeksowanym stronom internetowym określonej wartości liczbowej, która oznacza ich jakość.
Algorytm PageRank został skonstruowany przez założycieli firmy Google, Larry’ego Page’a i Sergeya Brina, w trakcie ich studiów na Uniwersytecie Stanforda w 1998 roku. Nazwa algorytmu, wbrew pozorom, nie pochodzi od angielskiego wyrazu określającego stronę (page), ale od nazwiska twórcy, czyli Larry’ego Page’a. Wskaźnik PageRank pokazywany jest jako jedna z opcji dostępnych w pasku narzędziowym Google (toolbar), sprawdzać można go także w wielu serwisach niezależnych.
Nazwa „PageRank” jest znakiem handlowym Google, zaś sam algorytm został 9 stycznia 1998 opatentowany w Stanach Zjednoczonych (nr patentu US6285999). Patent należy jednak do Uniwersytetu Stanforda, nie zaś firmy Google. Uzyskała ona od Uniwersytetu Stanforda prawa licencyjne na wyłączność, w zamian za co uniwersytet otrzymał 1,8 miliona akcji Google, które sprzedał w 2005 za 336 milionów dolarów.
PageRank jest rozwinięciem znanej od dawna heurystyki, która głosi, że jakość tekstu jest proporcjonalna do liczby tekstów na niego się powołujących. Modyfikacja zaproponowana przez autorów Google polegała na ważeniu jakości odnośników wskazujących na rozpatrywany tekst ich własną wartością PageRank. Inaczej mówiąc: jeśli na dany tekst powołuje się artykuł, który sam ma wysoką ocenę, ma to większe znaczenie, niż wówczas, gdy na ten sam tekst powołuje się mało popularna strona.
Metody zbliżone do algorytmu PageRank są obecnie coraz śmielej implementowane do mechanizmów również innych wyszukiwarek internetowych. Szczegóły właściwego algorytmu Google nigdy nie zostały upublicznione i są jednymi ze ściśle strzeżonych tajemnic koncernu z Mountain View. Co więcej są najprawdopodobniej sukcesywnie poprawiane, by zwiększać efektywność mechanizmu. Wszystkie informacje dostępne publicznie prezentują jedynie wzorcową wersję algorytmu, stosowanego w wyszukiwarce Google. PageRank jest obecnie jednym z wielu parametrów, decydujących o ostatecznej pozycji danej strony wśród wyników wyszukiwania, zaś wprowadzane zmiany powodują, iż ma on coraz mniejszy na nią wpływ.
Poniższy algorytm jest tylko wersją wzorcową, jego szczegóły nie zostały nigdy upublicznione.
Gdzie:
PR – PageRank danej strony
d – współczynnik tłumienia, liczba pomiędzy 0 i 1. Dla obliczeń przyjmuje się zazwyczaj wartość 0.85
N – liczba stron internetowych
L – liczba linków do których odsyła dana strona internetowa
Algorytm ten można interpretować jako znajdowanie stanu ustalonego w łańcuchu Markowa lub jako problem diagonalizacji macierzy. Nietrywialną kwestią techniczną pozostaje implementacja tego algorytmu tak, by nadawał się do przetwarzania danych opisujących sieć WWW. Wielkość macierzy wymaga specjalistycznych algorytmów rozproszonych i równoległych, które są uruchamiane jednocześnie na wielu (tysiącach) komputerów.