Veri Çıkarıcı Diffbot Web’i Semantik Web’e Dönüştürmek İstiyor

Startup, ürünler, haberler, profiller, yorumlar ve diğer web içerikleri hakkında “bilen” devasa yapılandırılmış veritabanını başlatmak için 10 milyon dolar topladı.
Birçok şirket web içeriğini alır, analiz eder ve duyarlılık, üründen bahsetme ve benzeri konularda istatistikler döndürür.

Ancak startup Diffbot, web’i otomatik olarak insan benzeri bilgi kategorilerine göre sıralayabilen farklı bir yaklaşım benimsediğini söylüyor.

Ve bugün, Palo Alto, California merkezli şirket, 10 milyon dolarlık yeni bir A Serisi yatırım finansmanı turu duyuruyor; bu yatırım, kapalı bir platformdan, en yeni aracı olan Global Index adı verilen devasa bir yapılandırılmış veritabanından itibaren birkaç hafta içinde genişlemeyi destekleyecek. beta aşamasından genel kullanıma sunuldu.

Önerilen makale: vimeo 360 derecelik video iceriklerini desteklemeye basliyor hakkında bilgi almak ve güncel girişimcilik haberlerine ulaşmak almak için ilgili sayfayı ziyaret edebilirsiniz.

2008 yılında kurulan şirket, web sayfalarındaki yapılandırılmamış içeriğin otomatik olarak çıkarılması, yapay zeka, bilgisayar görüşü ve doğal dil işleme kullanılarak kategorilere ayrılması ve ardından yapılandırılmış bir veritabanında veri türüne göre saklanması konusunda uzmanlaşmıştır.

Örneğin bir perakendecinin sayfasındaki görselin bir çift ayakkabıya ait olduğu, sayfadaki bu sayının fiyat, bu kısaltmanın da renk olduğu insan için aşikar olabilir. Ancak sayfa, hangi bilginin renk olduğunu belirlemek için XML veya başka bir anlamsal işaretlemeyle işaretlenmediği sürece, bir tarayıcı ve işleme motoru bu spor ayakkabı çiftinin rengi olarak “BR”yi veya “100$”ı saklayamaz. fiyatı olarak.

Anlamsal Web İçeriği
Diffbot, URL’deki bilgiyi alır, sayfayı kendi sistemi içinde işler ve sayfanın yapısını görsel olarak analiz etmek için bilgisayar görüşünü kullanır.

Temel olarak Diffbot, sayfa bu şekilde biçimlendirilmemiş olsa bile anlamsal Web içeriği (yani anlamı ile karakterize edilen bilgiler) yaratıyor. Ürün, makale, resim, video, yazar, tarih, tartışma konuları, fiyatlandırma bilgileri, SKU gibi ürün kimlikleri, marka, video küçük resmi ve diğer kategorileri otomatik olarak algılayabilir.

Ürün Başkan Yardımcısı John Davi bana aynı zamanda görüntüleri tarayabildiğini ve örneğin Barack Obama’nın mavi kravat taktığı tüm fotoğrafları bulabildiğini söyledi.

Her sayfa öğesi (başlık, fotoğraf, SKU vb.) ayrı olarak depolanır ve aramaya uygun hale getirilir. Örneğin burada dün yayınladığım bir hikayenin Diffbot tarafından oluşturulan bir dökümü var:

Diffbot, belirli uygulamaları desteklemek için Davi’nin “web okuma robotu” dediği şeyi sağlıyor. Örneğin Instapaper, makaleleri yakalamak, öğelerini (başlık, hikaye, resimler vb.) tanımlayıp depolamak ve daha sonra bunları çevrimdışı okumaya uygun hale getirmek için Diffbot’u kullanıyor.

Benzer şekilde Cisco, ürünler ve rakiplerinin yorumları hakkındaki yorumları otomatik olarak yakalamak, depolamak ve kategorilere ayırmak amacıyla forumları izlemek için hizmetini kullandı. Diğer müşteriler arasında Microsoft’un Bing’i, Duck Duck Go, eBay ve Adobe yer alıyor.

“Orada Büyük Bir Ağ Var”
Davi, şirketin geçen yazdan bu yana Global Index’in beta testini yaptığını söyledi. Örneğin bir test, seyahat markalarını forumlarda bulunan görüş türlerine göre sıraladı.

Index’in amacı, geliştiricilerin pazarlama veya diğer kullanımlar veya uygulamalar için kullanabilecekleri, sıralanmış, web tabanlı bilgilerden oluşan devasa bir yapılandırılmış veritabanı oluşturmaktır. Sonunda, şirketin bunu pazarlamacılar ve diğer teknik olmayan kullanıcılar için web içeriğinin aranabilir bir bilgi tabanı olarak bir kontrol paneli aracılığıyla kullanılabilir hale getirmek istediğini belirtti.

Global Dizin birçok açıdan Google’ın web’deki bilgileri kullanılabilir ve ilgili bilgiler olarak kategorize eden Bilgi Grafiği ile karşılaştırılabilir. Ancak Davi, Google’ın çabalarının Wikipedia’ya, Metaweb’in satın alınmasından elde edilen veritabanına, diğer bazı kaynaklara ve insan çabalarına dayandığını söyledi. Ayrıca yalnızca Google’ın arama motoru aracılığıyla da erişilebilirken, Global Dizin kısa süre sonra halka açık olacak.

Diffbot, yalnızca yazdan bu yana özerk bir şekilde örümcek gibi dolaşan endeksinin halihazırda 1,2 milyardan fazla nesne içerdiğini söylüyor; burada bir nesne, bir ürün gibi yararlı bir bilgi parçasını temsil eden bir veri topluluğudur. Google’ın Bilgi Grafiği’nin birkaç yıl sonra ancak yakın zamanda bir milyar nesneyi aştığı söyleniyor.

Endeksin ilk odak noktası haberler ve bilgilerdi ancak şirketin çok daha büyük bir hedefi var: Web’deki iş açısından değerli bilgilerin çoğunu kategorilere ayırmak. Davi, bunun en az üç ila beş yıl süreceğini kabul ediyor.