imho.ws
IMHO.WS  

Вернуться   IMHO.WS > Компьютеры > Программирование
Опции темы
Старый 09.11.2004, 10:08     # 1
nemra
Guest
 
Сообщения: n/a

определения языка сайта

Привет всем!
Профи, у меня вот такой вопрос. Как можно, например с пмощью PERL или PHP, определить язык сайта, а так же его кодировку, если его нет в мета-тэге? Возможно ли такое или нет? Например, нужно найти, открывая сокеты перлом по заданным адресам, к слову, сайты только на украинском или грузинском. А, если сайт на русском языке, то его кодировку... реально это или нет?
Заранее всем спасибо!
 
Старый 09.11.2004, 12:13     # 2
dyr_farot
Advanced Member
 
Регистрация: 23.08.2003
Сообщения: 442

dyr_farot Нимб уже пробиваетсяdyr_farot Нимб уже пробивается
делается это довольно легко ( алгоритмически )
береш словарь ( сколько языков / кодировок -- столько и словарей )
а потом выделяеш слово и ищеш его в словаре ( нашел -- знаеш язык / кодировку ( операцию повторить для увеличения вероятности ) )
как бы все
dyr_farot вне форума  
Старый 09.11.2004, 23:14     # 3
BetDeD
Newbie
 
Аватар для BetDeD
 
Регистрация: 03.02.2004
Адрес: Вселенная
Пол: Male
Сообщения: 45

BetDeD Известность не заставит себя ждать
Exclamation

Можно и подругому. Не знаю,как в Перле, но в ПХП можно это организовать с помощью переменных окружения.
Например вот-так:_SERVER["HTTP_ACCEPT_CHARSET"]
BetDeD вне форума  
Старый 10.11.2004, 02:44     # 4
RaZEr
МОД-Оператор ЭВМ
 
Аватар для RaZEr
 
Регистрация: 18.04.2002
Адрес: Питер
Сообщения: 4 343

RaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех Гуру
Язык сайта определить можно, но далеко не точно и далеко не всегда. Теоретически можно проанализировать ответ сервера на предмет заголовка Content-Type. Если там windows-1251, то с большой вероятностью сайт русский. А если там UTF-8? Будем смотреть на порядковые номера символов, чтобы определить из какого они поддиапазона? А есть хитрые сайты, которые реагируют на Accept-Language, и подсталяют разные кодировки, а порой и разные языковые версии сайта. Неговоря уже о случайностях когда русские веб-мастера делают англ. сайты выводя всё в привычной им windows-1251...

Вообщем затея не из простых. Разумней зайти и посмотреть воочую какой там язык. А если речь идет о регистрации в каталоге (рейтинге, топе), то проше добавить select в форму добавления сайта.
RaZEr вне форума  
Старый 12.11.2004, 15:25     # 5
HoverHell
Member
 
Аватар для HoverHell
 
Регистрация: 12.11.2004
Сообщения: 205

HoverHell Нимб уже пробиваетсяHoverHell Нимб уже пробивается
Если сделать высоковероятное предположение что в google сделано наиболее лучшим возможным способом, то получится что в большинстве случаев язык определить можно, но чуществуют и исключения (встречались напр. немецкие сайты которые гугл признал английскими)
HoverHell вне форума  
Старый 12.11.2004, 15:57     # 6
RaZEr
МОД-Оператор ЭВМ
 
Аватар для RaZEr
 
Регистрация: 18.04.2002
Адрес: Питер
Сообщения: 4 343

RaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех Гуру
Гугл роется в контенте. Это ресурсоемко, но для поисковика просто неизбежно. Заполучив тысячи ключевых слов не сложно определить язык.
RaZEr вне форума  
Старый 13.11.2004, 12:56     # 7
nemra
Guest
 
Сообщения: n/a

а в какой базе данных хранят информацию поисковики?
 
Старый 13.11.2004, 13:01     # 8
RaZEr
МОД-Оператор ЭВМ
 
Аватар для RaZEr
 
Регистрация: 18.04.2002
Адрес: Питер
Сообщения: 4 343

RaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех Гуру
В разных.
RaZEr вне форума  
Старый 13.11.2004, 13:08     # 9
nemra
Guest
 
Сообщения: n/a

в разных?... да, но не во всех. например не в MySQL и не в Oracle... честно говоря сам не знаю почему, но как-то давно прочитал что SQL базы не подходят для работы в нормальных и немаленьких поисковых системах.
 
Старый 13.11.2004, 13:15     # 10
RaZEr
МОД-Оператор ЭВМ
 
Аватар для RaZEr
 
Регистрация: 18.04.2002
Адрес: Питер
Сообщения: 4 343

RaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех Гуру
Логично. MySQL не предназначен для больших баз, а Oracle довольно медлителен. Рамблер например использует PostgreSQL. Монстры вроде Google, используют свои, адаптированные под конкретные нужды.
RaZEr вне форума  
Старый 13.11.2004, 13:39     # 11
Al-x
Junior Member
 
Регистрация: 30.03.2003
Адрес: СПб
Сообщения: 162

Al-x МолодецAl-x МолодецAl-x Молодец
А что мешает использовать Google для выяснения языка сайта? Смотрим как формируется запрос на странице расширенного поиска (по сути нужно вынуть параметр языковых ограничений и site:www.xxx.yy), формируем таой запрос скриптом, запрашиваем Google. Если язык не угадан, имеем зелёную подпись на верху страницы. Вот только грузинского и украинского я там не нашёл Не очень быстро, зато не надо проверять по словарям, искать хитрый алгоритмический подход.
__________________
640Kbytes should be enough for everything! (c) Bill Gates, 1981.
Все "спасибо" в репутацию
Al-x вне форума  
Старый 13.11.2004, 13:53     # 12
RaZEr
МОД-Оператор ЭВМ
 
Аватар для RaZEr
 
Регистрация: 18.04.2002
Адрес: Питер
Сообщения: 4 343

RaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех Гуру
И яндекс и гугл могут пробанить подобных роботов. Прийдется использовать прикси, обновлять прокси-листы ... будет ли оно того стоить?...
RaZEr вне форума  
Старый 13.11.2004, 19:46     # 13
antonprk
Guest
 
Сообщения: n/a

посмотреть заголовки сервера или на крайний случай регулярным выражением посмотреть мета теги страницы, обычно все из вставляют

Цитата:
Сообщение от nemra
в разных?... да, но не во всех. например не в MySQL и не в Oracle... честно говоря сам не знаю почему, но как-то давно прочитал что SQL базы не подходят для работы в нормальных и немаленьких поисковых системах.
Здрасте, Oracle ему медленный, настраивать нужно правильно батенька, а вот Yandex как раз на Oracle крутится, причем у них очень интересная структура хранения и выдачи запросов.
 
Старый 13.11.2004, 20:02     # 14
nemra
Guest
 
Сообщения: n/a

Цитата:
Здрасте, Oracle ему медленный
я не говрил что он медленный я сказал, что я где-то, когда-то читал, для в поисковиков не очень подходят базы SQL.

А какой принцип хранения и выдачи информации в поисковой сисеме Yandex?
 
Старый 13.11.2004, 21:40     # 15
antonprk
Guest
 
Сообщения: n/a

Цитата:
nemra:
для в поисковиков не очень подходят базы SQL.
Глупости, базы данных для этого и делают, чтобы структурировать информацию и иметь удобные средства для работы с данными.
Причем Oracle для этого очень неплохая база, хотя DB2 мне кажется подошла бы больше. Хотя все зависит от конкретной реализации.


На яндексе стоит несколько (точную цифру не помню, но явно больше 10) серверов с Ораклом и при каждом посещении центральная машина сама решает какой сервер будет выдавать ответ.
 
Старый 14.11.2004, 09:52     # 16
RaZEr
МОД-Оператор ЭВМ
 
Аватар для RaZEr
 
Регистрация: 18.04.2002
Адрес: Питер
Сообщения: 4 343

RaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех Гуру
Цитата:
На яндексе стоит несколько (точную цифру не помню, но явно больше 10) серверов с Ораклом и при каждом посещении центральная машина сама решает какой сервер будет выдавать ответ.
- Яндекс имеет около 50 серверов на поиске.
- Яндекс не использует Oracle.
RaZEr вне форума  
Старый 14.11.2004, 12:03     # 17
antonprk
Guest
 
Сообщения: n/a

мне один раз попадалась информация по структуре серверов и там был оракл, а сейчас уже не нашел, хотя может я и ошибся.
 
Старый 14.11.2004, 13:02     # 18
nemra
Guest
 
Сообщения: n/a

ну а всё-таки, какой серевер самый удобный для работы в поисковых? А где можно почитать о хранении и выборке данных в поисковиках? кто поможет ссылочкой?
 
Старый 14.11.2004, 13:07     # 19
RaZEr
МОД-Оператор ЭВМ
 
Аватар для RaZEr
 
Регистрация: 18.04.2002
Адрес: Питер
Сообщения: 4 343

RaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех ГуруRaZEr Отец (мать) всех Гуру
http://www.citforum.ru/database/dbguide/index.shtml
RaZEr вне форума  
Старый 14.11.2004, 13:19     # 20
antonprk
Guest
 
Сообщения: n/a

Цитата:
nemra:
ну а всё-таки, какой серевер самый удобный для работы в поисковых? А где можно почитать о хранении и выборке данных в поисковиках? кто поможет ссылочкой?
А всетаки лучше расскажите какая у Вас цель?
 


Ваши права в разделе
Вы НЕ можете создавать новые темы
Вы не можете отвечать в темах.
Вы НЕ можете прикреплять вложения
Вы НЕ можете редактировать свои сообщения

BB код Вкл.
Смайлы Вкл.
[IMG] код Выкл.
HTML код Выкл.

Быстрый переход


Часовой пояс GMT +4, время: 11:57.




Powered by vBulletin® Version 3.8.5
Copyright ©2000 - 2026, Jelsoft Enterprises Ltd.