Прообразы Web 3.0

Октябрь 23, 2007

Так называемый Web 3.0, объединяющий семантические сети, собирается изменить представление об предоставлении информации в веб. Что мы подразумеваем под поколением “Web 3.0″? То, что оно преобразует крупные веб-сайты в веб-службы, которые более эффективно смогут предоставлять информацию конечному пользователю. Некоторые веб-сайты последует примеру Amazon, del.icio.us и Flickr и будет предлагать свою информацию, используя Rest API. Чистый эффект будет, что неструктурированная информация будет уступать структурированной информации, т.е проложить путь к более интеллектуальным путям создания и сипользования контента. В этой заметке мы рассмотрим, как это важное преобразования происходит уже и как оно может развиваться.

Дальше – на двух языках!

API электронной торговли Amazon-открытый доступ к Amazon каталог

Здесь написано, что у Амазона в WebOS дальновидные стратегии. Сиэтл Интернет является разработчиком элегантного API. Одним из первых веб-сервисов, которые открываются в Amazon был Электронная коммерческая службы. Эта услуга открывает доступ к большинству товаров в Amazon’овском каталоге продукции. API очень хорошая, она позволяют пользователям манипулировать собственным акккаунтом, в том числе и покупкой.доставкой. Однако суть ее заключается в возможности поиска Amazon продуктов.

Почему Amazon предложили эту услугу абсолютно бесплатно? Иными словами, с электронной торговлей службы Amazon возможно строить другие способы доступа к Amazon. В результате многие компании разрабатывают новые пути мобилизации информации в Amazon.

Рост API культуры

Del.icio.us, известная как одна из первых компаний открытого сообщества, обеспечила функциональность веб-сайта через API. Многие последовали этому примеру, что привело к подлинной культуре API. Джон Муссер работал над programmableweb, результате чего был разработан Mashups API, которые используют их. Эта страница показывает почти 400 ИСП по категориям. Однако лишь часть этих API, которые открывают информации – наиболее сосредоточиться на манипулировании самих услуг. Это важное различие понять, в контексте данной статьи.

The del.icio.us API offering today is different from Amazon’s one, because it does not open the del.icio.us database to the world. Del.icio.us API предлагает сегодня отличается от Amazon тем, не расшариваетбазу данных del.icio.us. What it does do is allow authorized mashups to manipulate the user information stored in del.icio.us. Что он позволяет делать, так это разрешить манипулировать пользователю информацией, которая хранится в del.icio.us. For example, an application may add a post, or update a tag, programmatically. Например, заявка может добавить сообщение, или изменить тег, программно. However, there is no way to ask del.icio.us, via API, what URLs have been posted to it or what has been tagged with the tag web 2.0 across the entire del.icio.us database. Однако, нет способа задать del.icio.us через API, какие адреса были опубликованы в это или то, что помечены тегом Интернете 2,0 всей базе данных del.icio.us . These questions are easy to answer via the web site, but not via current API. Эти вопросы легко ответить через веб-сайт, но не через нынешний API.

Standardized URLs – the API without an API URL – Стандартный API без API

Despite the fact that there is no direct API (into the database), many companies have managed to leverage the information stored in del.icio.us. Несмотря на то, что нет API с прямой записью в базу данных, многие компании сумели получить информацию, которая хранится в del.icio.us. Here are some examples… Вот несколько примеров …

Delexa is an interesting and useful mashup that uses del.icio.us to categorize Alexa sites. Delexa является интересным и полезным mashup, который использует del.icio.us для классификации Алекса сайтов. For example, here are the popular sites tagged with the word book : Например, здесь популярные сайты помечены словом книги:

Another web site called similicio.us uses del.icio.us to recommend similar sites. Другой веб-сайт называется similicio.us использует del.icio.us, чтобы рекомендовать подобные сайты. For example, here are the sites that it thinks are related to Read/WriteWeb. Например, здесь сайты, которые считает связаны с Read / Write Web.

So how do these services get around the fact that there is no API? Так как эти услуги обойти тот факт, что нет API? The answer is that they leverage standardized URLs and a technique called Web scraping . Ответ заключается в том, что они стандартные рычаги URL, и метод называется Web соскабливания. Let’s understand how this works. Давайте разберемся, как это работает. In del.icio.us, for example, all URLs that have the tag book can be found under the URL http://del.icio.us/tag/book ; all URLs tagged with the tag movie are at http://del.icio.us/tag/movie ; and so on. В del.icio.us, например, все адреса, которые тегом книги можно найти на URL http://del.icio.us/tag/book; Все адреса помечены тегом фильма находятся на http:// del.icio.us / тег / кино; и так далее. The structure of this URL is always the same: http://del.icio.us/tag [TAG]. Структура этот всегда один и тот же: http://del.icio.us/tag [TAG]. So given any tag, a computer program can fetch the page that contains the list of sites tagged with it. Поэтому какого-либо тега, компьютерная программа может загрузить страницу, которая содержит список сайтов помечены он. Once the page is fetched, the program can now perform the scraping – the extraction of the necessary information from the page. После получения страницы, программа может выполнять извлечения необходимой информации из страницы.

How Web Scraping Works Как работает Web соскабливания

Web Scraping is essentially reverse engineering of HTML pages. Web соскабливания в основном копирование из HTML страниц. It can also be thought of as parsing out chunks of information from a page. Она также может рассматриваться как разборе из кусков информации из страницы. Web pages are coded in HTML, which uses a tree-like structure to represent the information. Веб-страницы кодируются в HTML, которая использует древовидную структуру для представления информации. The actual data is mingled with layout and rendering information and is not readily available to a computer. Фактические данные, смешанной с формой и делает информацию и не является легкодоступной для компьютера. Scrapers are the programs that “know” how to get the data back from a given HTML page. Скреперы являются программы, которые “знают” как получить данные обратно из заданного HTML страницы. They work by learning the details of the particular markup and figuring out where the actual data is. Они работают на обучение детали частности разметки и разбираться, где фактические данные. For example, in the illustration below the scraper extracts URLs from the del.icio.us page. Например, в иллюстрации ниже скребка выдержки адреса из del.icio.us страницы. By applying such a scraper, it is possible to discover what URLs are tagged with any given tag. Применяя такие скребки, то можно обнаружить, какие адреса помечены любыми тегами.

Dapper, Teqlo, Yahoo! Pipes – the upcoming scraping technologies

We recently covered Yahoo! Недавно мы были охвачены Yahoo! Pipes , a new app from Yahoo! Pipes – новое приложение от Yahoo! focused on remixing RSS feeds. сосредоточены на remixing каналов. Another similar technology, Teqlo , has recently launched. Другой аналогичной технологии, Teqlo, недавно запущен. It focuses on letting people create mashups and widgets from web services and rss. Основное внимание в нем уделяется настройке, давая возможность создавать украшений из веб-сервисов и rss. Dapper is an interesting technology that facilitates the scraping of the web pages, using a visual interface. Даппер является интересной технологии, что облегчает запросы о веб-страницах, с помощью визуального интерфейса.

It works by letting the developer define a few sample pages and then helping her denote similar information using a marker. Это делается посредством предоставления разработчику возможности определить несколько тестовых страниц, а затем помочь ее обозначить аналогичную информацию с помощью маркера. This looks simple, but behind the scenes Dapper uses a non-trivial tree-matching algorithm to accomplish this task. Это выглядит просто, но за кулисами Даппер использует не тривиальное дерева соответствия для решения этой задачи. Once the user defines similar pieces of information on the page, Dapper allows the user to make it into a field. Когда пользователь определяет аналогичну информация нюа странице, Даппер позволяет внести его в поле. By repeating the process with other information on the page, the developer is able to effectively define a query that turns an unstructured page into a set of structured records. Повторяя процесс с другой информацией на странице, разработчик может эффективно определить, что запрос обращается к неструктурированным страницам в наборе структурированных записей.

The net effect – Web Sites become Web Services

Here is an illustration of the net effect of apps like Dapper and Teqlo: Вот иллюстрация – чистый эффект приложениям, как Даппер и Teqlo:

So bringing together Open APIs (like the Amazon E-Commerce service) and scraping/mashup technologies, gives us a way to treat any web site as a web service that exposes its information . До объединения открытого API, (например, Amazon электронной торговли службы) и скребковые / mashup технологий, дает нам способ лечения любой веб-сайт в веб-сервис, который обнажает свою информацию. The information, or to be more exact the data , becomes open. Информации, или более точные данные, становится открытой. In turn, this enables software to take advantage of this information collectively. В свою очередь, это программное обеспечение позволяет воспользоваться этой информацией коллективно. With that, the Web truly becomes a database that can be queried and remixed. В том, что Интернет действительно становится данных, которые могут быть сомнения и remixed.

This sounds great, but is this legal? Это звучит большое, но это юридическое?

Scraping technologies are actually fairly questionable. Соскабливания технологий действительно весьма сомнительны. In a way, they can be perceived as stealing the information owned by a web site. В образом, они могут восприниматься как кража информации, которая принадлежит веб-сайту. The whole issue is complicated because it is unclear where copy/paste ends and scraping begins. Весь вопрос усложняется, поскольку неясно, где copy/paste заканчивается и начинается соскабливания. It is okay for people to copy and save the information from web pages, but it might not be legal to have software do this automatically. Для людей копирование информацию с веб-страниц может быть легальным, но не может быть законным таже операциия с программным обеспечением. But scraping of the page and then offering a service that leverages the information without crediting the original source, is unlikely to be legal.

But it does not seem that scraping is going to stop. Но это не кажется, что скребковые собирается остановиться. Just like legal issues with Napster did not stop people from writing peer-to-peer sharing software, or the more recent YouTube lawsuit is not likely to stop people from posting copyrighted videos. Как и правовым вопросам, Napster не остановить людей от написания ровесники обмен программного обеспечения, или более поздние YouTube иск не может остановить людей размещать защищенные авторским правом видеоклипы. Information that seems to be free is perceived as being free. Информация о том, что, по-видимому, свободных воспринимается как свободный.

The opportunities that will come after the web has been turned into a database are just too exciting to pass up. Возможности, которые придут после Интернете был превращен в базы данных, слишком волнительно упустить. So if conversion is going to take place anyway, would it not be better to rethink how to do this in a consistent way? Так что, если переход будет происходить в любом случае, не будет ли лучше переосмыслить как это сделать в соответствии образом?

Why Web Sites should offer Web Services Почему веб-сайты должны предложить Web Services

There are several good reasons why Web Sites (online retailers in particular), should think about offering an API. Есть несколько веских причин, почему веб-сайтов в сети (в частности, розничной торговли), должны думать о предлагая API. The most important reason is control. Наиболее важной причиной является контроль. Having an API will make scrapers unnecessary, but it will also allow tracking of who is using the data – as well as how and why. Наличие API сделает ненужным скреперы, но также позволит отслеживать, кто использует данные, а также, как и почему. Like Amazon, sites can do this in a way that fosters affiliates and drives the traffic back to their sites. Как Amazon, сайты могут сделать это таким образом, который способствует филиалов и диски трафик на свои сайты.

The old perception is that closed data is a competitive advantage. Старые впечатление, что закрытые данные конкурентные преимущества. The new reality is that open data is a competitive advantage . Новая реальность состоит в том, что открытые данные конкурентные преимущества. The likely solution then is to stop worrying about protecting information and instead start charging for it, by offering an API. Вероятно, решение этого – прекратить беспокоиться о защите информации, и вместо этого начала зарядки для него, предложив API. Having a small fee per API call (think Amazon Web Services) is likely to be acceptable, since the cost for any given subscriber of the service is not going to be high. Имея небольшую плату за API телефону (думаю, Amazon Web Services) может быть приемлемым, поскольку стоимость любой абонент этой службы не будет высоким. But there is a big opportunity to make money on volume. Но есть большая возможность зарабатывать деньги на том. This is what Amazon is betting on with their Web Services strategy and it is probably a good bet. Это то, что Амазонка является ставку на своих Web Services стратегии и было бы хорошей ставкой.

Conclusion Заключение

As more and more of the Web is becoming remixable, the entire system is turning into both a platform and the database. Поскольку все больше и больше в Интернет становится remixable, вся система превращается в обе платформы и базы данных. Yet, such transformations are never smooth. Однако такие изменения никогда не гладко. For one, scalability is a big issue. Во-первых, масштабируемость – это большая проблема. And of course legal aspects are never simple. И, конечно, правовые аспекты никогда не простой.

digg_url = ‘http://digg.com/tech_news/Web_3_0_When_Web_Sites_Become_Web_Services’; But it is not a question of if web sites become web services, but when and how . Но это не вопрос, если веб-сайты становятся веб-сервисов, но, когда и каким образом. APIs are a more controlled, cleaner and altogether preferred way of becoming a web service. ИСП являются более контролируемой, чистых и вообще наилучший способ стать веб-служб. However, when APIs are not avaliable or sufficient, scraping is bound to continue and expand. Однако, когда API, отсутствуют или достаточно, скребковые обязан продолжать и расширять. As always, time will be best judge; but in the meanwhile we turn to you for feedback and stories about how your businesses are preparing for ‘web 3.0′. Как всегда, время будет лучше судьи; , Но тем временем мы обращаемся к Вам за отзывы и рассказы о своих предприятий готовятся к “веб 3,0″.

2 коммент. к “Прообразы Web 3.0”

  1. MoreNarodyNaSait говорит:

    Programma dlia rassilki obievlenii na forumi i blogi baza 170 000 forumov i blogov RU programma Xrumer 4.0! Stoimost 50$ ICQ 374551957

  2. zapalyt говорит:

    izvenite no nam nado sdelat test
    vi ved ne bydete protiv admini


Ответить