On Linked Data. Wawancara dengan John Goodwin.

” Teknologi Semantic mungkin belum terbiasa , tetapi ketika Anda telah menggunakan mereka untuk sementara waktu Anda akan menyadari bahwa mereka tidak lebih keras daripada banyak teknologi lainnya … pada kenyataannya saya berpendapat mereka lebih mudah . ” – John Goodwin .

Pada topik teknologi Semantic web , rekayasa ontologi , dan data terkait , saya telah mewawancarai John Goodwin . John adalah Principal Scientist di Departemen Riset Ordnance Survey , yang merupakan National Mapping Authority Inggris itu.

RVZ

Q1 . Anda adalah seorang ilmuwan senior di Data Survei Ordnance , lembaga pemetaan nasional Inggris itu. Apakah peran Anda di sana ?

John Goodwin : Saya seorang Principal Scientist di Departemen Riset Ordnance Survey , yang merupakan Pemetaan Otoritas Nasional Inggris yang [catatan : kita berwenang sekarang … bukan lembaga ] .

Saya telah bekerja di riset untuk Ordnance Survey selama lebih dari 10 tahun sekarang , dan penelitian saya terutama difokuskan pada teknologi web semantik , rekayasa ontologi dan data terkait . Peran Principal Scientist adalah salah satu yang cukup baru bagi saya , dan sebagai bagian dari peran ini saya sekarang bertanggung jawab untuk aliran pekerjaan penelitian di seluruh pengelolaan data , pengiriman data dan layanan web . Ini melibatkan melihat teknologi baru dan novel yang memastikan kami memiliki infrastruktur yang benar dan model data untuk memenuhi tantangan masa depan . Selain itu , sedang menyelidiki cara-cara baru kita dapat melayani data kami kami ke pelanggan akhir .

Q2 . Apakah Anda memiliki masalah Big Data di di Survei Ordnance ? Bisakah Anda tolong beri kami beberapa contoh Big Data Gunakan Kasus ?

John Goodwin : Hmmm , itu masih bisa diperdebatkan . Ordnance Survey pasti memiliki ‘ masalah data yang ‘ besar tapi saya tidak tahu apakah mereka memenuhi syarat sebagai masalah ‘ big data ‘ . Aku telah mendengar Big Data didefinisikan sebagai data yang tidak akan masuk ke dalam Excel ( yang merupakan definisi saya pribadi membenci ) , dan jika itu terjadi maka kita pasti memiliki ‘ Big Data ‘ . Ordnance Survey saat ini menyimpan informasi tentang setengah miliar fitur topografi , dan 27,5 juta alamat Geocode ( dengan sekitar 500.000 perubahan tahun ) . Jadi kita mungkin tidak memiliki tipis volume data yang beberapa orang miliki, tapi saya percaya bahwa kombinasi dari volume dan kompleksitas berarti bahwa melakukan analisis atas data ini atau menjalankan query pasti akan menjadi masalah ‘ Big Data ‘ .
Misalnya, jika Anda ingin menghitung jumlah kotak pos di Skotlandia , menemukan panjang semua jalan di Inggris Anda bisa menunggu beberapa waktu menggunakan solusi database tradisional .

Q3 . Visi Semantic Web adalah satu di mana halaman web berisi data diri menggambarkan bahwa mesin akan mampu menavigasi mereka dengan mudah seperti manusia lakukan sekarang . Apa manfaat utama ? Siapa yang bisa mendapatkan keuntungan besar dari Semantik Web ?

John Goodwin : Saya pikir manfaat langsung adalah kemampuan untuk menyediakan data yang lebih terstruktur ke mesin pencari sehingga mereka dapat memberikan layanan pencarian yang lebih baik . Konten web terstruktur berarti hasil pencarian yang lebih bermakna dan menawarkan cara-cara baru untuk meringkas dan menyajikan ringkasan halaman di mesin pencari .

Q4 . Siapa yang saat ini menggunakan teknologi Semantic Web dan bagaimana ? Bisakah Anda tolong beri kami beberapa contoh proyek komersial saat ini ?

John Goodwin : Salah satu contoh menarik adalah sebuah perusahaan bernama Garlik ( sekarang bagian dari Experian ) . Garlik menyediakan layanan untuk melindungi orang dari mengidentifikasi pencurian dan penipuan keuangan . Mereka menggunakan teknologi web semantik untuk mengintegrasikan sejumlah dataset yang berbeda , dan menyediakan cara yang fleksibel untuk mengintegrasikan dataset baru sehingga mereka dapat melakukan query seluruh dataset ini untuk menemukan calon korban lebih mudah . BBC adalah pengguna besar teknologi data terkait dan teknologi triplestore digunakan sebagai bagian dari sistem manajemen konten untuk situs web mereka Piala Dunia dan Olimpiade mereka . Sekali lagi fleksibilitas teknologi , dan kemampuan untuk menghubungkan data di seluruh BBC membuktikan tak ternilai .

Kami menggunakan teknologi data terkait di Ordnance Survey dalam proyek-proyek penelitian untuk melihat cara mengintegrasikan data kami dengan data pihak ketiga .

Mesin pencari utama kembali sebuah inisiatif yang disebut schema.org yang akan memberikan skema terpadu untuk data struktur dalam konten web , dan ini memiliki potensi (seperti yang disebutkan di atas ) untuk memberikan pengalaman pencarian yang lebih kaya .

Q5 . Apakah Anda menggunakan Linked Data? Apa manfaat utama Data Linked menurut pendapat Anda?

John Goodwin : Saya seorang pendukung besar data terkait , dan ini telah menjadi fokus dari pekerjaan saya selama beberapa tahun terakhir . Saya telah menggunakannya dalam proyek-proyek penelitian dan juga menghasilkan data terkait Ordnance Survey .

Data terkait sangat bagus untuk integrasi data – data umum bahasa memudahkan ( atau lebih tepatnya lebih mudah ) untuk membawa sejumlah dataset yang berbeda bersama-sama . Hal ini juga lebih fleksibel dibandingkan dengan teknologi database relasional tradisional . Seperti teknologi lainnya NoSQL data terkait dapat dilihat sebagai ‘ schemaless ‘ sampai batas tertentu . Ini berarti jika Anda ingin mengubah datamode dengan , katakanlah , menambahkan atribut baru atau properti sangat mudah untuk melakukannya . Selain itu , dan ini adalah hal yang lebih pribadi , saya menemukan grafik menjadi cara paling alami untuk berpikir tentang data. Ini merasa jauh lebih intuitif dan saya harus mengatakan saya pikir query data grafik menggunakan SPARQL jauh lebih mudah daripada query data hubungan menggunakan SQL ( terutama jika Anda memiliki banyak bergabung ) .

Q6 . Apa teknologi pengelolaan data yang paling cocok untuk model dan permintaan Linked Data Terbuka ?

John Goodwin : Linked Data Terbuka dibangun sekitar standar W3C seperti RDF ( resource description frame) – yang merupakan bahasa data pilihan di web data terkait ( meskipun beberapa orang ingin berdebat apakah atau tidak RDF diperlukan untuk data terkait ) . RDF adalah web data sebagai HTML adalah web dokumen … atau setidaknya itu adalah bagaimana saya melihatnya . RDF memiliki bahasa query sendiri disebut SPARQL . Sejumlah besar perpustakaan pemrograman ( misalnya Jena ) muncul untuk menangani RDF . Selanjutnya , RDF dapat disimpan dalam database yang disebut triplestores dan ada banyak triplestores untuk memilih dari . Saya tidak dalam posisi untuk mendukung satu triplestore atas yang lain , tetapi ada sejumlah besar teknologi besar sedang dikembangkan oleh UKM dan lebih vendor database tradisional sama. Selain itu, ada sejumlah pilihan open source . Kami telah bereksperimen dengan beberapa dari mereka di Ordnance Survey .

Q7 . Bagaimana Anda mengintegrasikan data dari berbagai sumber yang tidak Linked Format Data Terbuka ( misalnya relasional , data mentah , dll ) ?

John Goodwin : Sejauh ini dengan mengubah data yang mendasari ke RDF . Kebanyakan data relasional adalah script sederhana jauh dari yang RDF . Alat memang ada untuk membantu ‘ triplify ‘ data , tapi jika saya jujur saya menemukan bahwa sebagian besar waktu lebih mudah untuk menulis script Python cepat untuk melakukan pekerjaan itu .
OpenRefine adalah alat yang berguna yang memungkinkan Anda membersihkan data csv dan memiliki plugin yang memungkinkan ekspor data ke RDF . OpenRefine tambahan memiliki manfaat untuk dapat bekerja dengan API rekonsiliasi . Jika sebuah situs data terkait menawarkan API rekonsiliasi Anda dapat menggunakannya dengan OpenRefine , misalnya , mengubah kolom nama kota atau kode pos untuk URI dalam data terkait Ordnance Survey . Hal ini berguna ketika Anda perlu membuat link eksplisit untuk dataset lainnya . Sebagai contoh, jika Anda memiliki spreadsheet dengan nama-nama tempat seperti ‘ City of Southampton ‘ Anda bisa menggunakan OpenRefine dan Ordnance Survey rekonsiliasi data terkait API untuk mengubah ‘ City of Southampton ‘ ke URI .

Q8 . Apa domain aplikasi yang paling menjanjikan di mana Anda dapat menerapkan teknologi RDF tiga toko seperti AllegroGraph dan Virtuoso ?

John Goodwin : Saya pikir setiap domain di mana Anda juga ingin mengintegrasikan banyak dataset yang berbeda atau Anda ingin model data yang fleksibel , dan di mana skema evolusi mungkin menjadi masalah . Saya pikir geospasial adalah domain yang menjanjikan sebagai ‘ segala sesuatu yang terjadi di suatu tempat dan lokasi menyediakan integrasi hub berguna untuk banyak dataset . Teknologi web semantik juga telah digunakan secara luas di bioinformatika domain . BBC adalah usecase besar lain – mereka menggunakan teknologi untuk mengintegrasikan data di seluruh perusahaan mereka . Ini menyatukan data dari berita , radio , olahraga , televisi dan musik dan memungkinkan cara-cara baru dan menarik untuk mengeksplorasi data.
Saya berani mengatakan itu juga merupakan teknologi yang akan berguna / menarik untuk tiga surat instansi pemerintah Amerika tertentu yang telah membuat berita baru-baru🙂

Q9 . Apakah Anda menggunakan Data Analytics di Survei Ordnance dan untuk apa ?

John Goodwin : Saya akan mengatakan saat ini kami tidak benar-benar – pikir itu tergantung apa yang Anda maksud dengan analisis . Kami sebagian besar berkaitan dengan mengumpulkan dan memelihara data, dan kemudian pengiriman ini sebagai produk dan layanan . Kami telah bereksperimen dengan alat IBM ® Netezza ® untuk melakukan query atas data kami yang akan mengambil terlalu banyak waktu di database tradisional untuk menjawab pertanyaan-pertanyaan seperti ‘ berapa banyak kotak pos yang ada di Inggris ? ‘ .

Q10 . Anda dapat melakukan analisis data menggunakan Linked Data Terbuka ? Jika ya bagaimana ?

John Goodwin : Saya pikir sekali lagi itu tergantung apa yang dimaksud dengan analisis . Data terkait menawarkan cara yang bagus untuk membawa banyak dataset bersama-sama dan kemudian , mungkin , terwujud pandangan mereka dataset terpadu yang kemudian dapat digunakan untuk melakukan beberapa analisis . Banyak orang yang melakukan ‘ grafik analisis ‘ , dan mengingat bahwa data terkait adalah grafik saya pikir ada beberapa pekerjaan menarik yang harus dilakukan dalam melihat persimpangan teori graph / jaringan dan data terkait .

Q11 . Apa kendala utama saat ini untuk adopsi teknologi Semantic Web di Enterprise?

John Goodwin : Saya pikir dua hambatan utama. Yang pertama adalah persepsi bahwa RDF dan data terkait sulit , dan entah bagaimana kita perlu diatasi dengan persepsi . Banyak hal dalam domain ICT sulit … RDBMS sulit , C + + sulit dll teknologi Semantic mungkin belum terbiasa , tetapi ketika Anda telah menggunakan mereka untuk sementara waktu Anda akan menyadari bahwa mereka tidak lebih keras daripada banyak teknologi lainnya … pada kenyataannya saya akan berpendapat mereka lebih mudah . Saya tahu banyak pengembang yang telah pindah ke menggunakan SPARQL dan setelah beberapa bulan menggunakannya merasa jauh lebih mudah untuk memahami SQL itu . Selain itu, saya pikir itu lebih sulit untuk mempekerjakan orang-orang dengan keahlian dalam teknologi ini – masih ada lebih banyak orang terampil dalam RDBMS tradisional dan teknologi NoSQL lainnya yang lebih baru seperti MongoDB .

Saya pikir kendala kedua adalah bahwa teknologi web semantik , jelas, tidak akan menjadi seperti dewasa sebagai sebuah database relasional tua yang baik . Ada beberapa triplestores besar di luar sana , dan ada perusahaan yang telah berhasil dimasukkan mereka ( BBC adalah contoh yang bagus ) tetapi menjadi teknologi yang relatif baru saya menduga banyak perusahaan gugup untuk berinvestasi .

——-
John Goodwin pergi ke universitas di Royal Holloway dan Bedford New College ( University of London – yang berbasis di Egham , Surrey ) dan lulus pada tahun 1992 dengan kehormatan kelas 1 gelar dalam matematika . Setelah itu ia pindah ke Cambridge dan mempelajari Bagian III dari Tripos Matematika di Departemen Matematika Terapan dan Fisika Teoritis ( University of Cambridge ) di mana ia memperoleh Sertifikat Advanced Study di Matematika . John kemudian pindah ke University of Southampton untuk memulai PhD-nya .
Dia lulus pada 1997 dengan gelar PhD dalam ” The Cauchy Masalah di ruang waktu dengan Closed timelike Curves ” ( yang sangat kasar dapat diparafrasekan sebagai ‘ jangan timemachines meledakkan ketika Anda mengaktifkan mereka ? ‘ ) . Pada tahun 1998 John meninggalkan akademisi untuk mulai bekerja pada Ordnance Survey ( terletak di 0AS SO16 kode pos ) sebagai pengembang sistem . Dia meninggalkan Ordnance Survey pada tahun 2000 untuk mulai bekerja di sebuah perusahaan software kecil bernama Neusciences mana ia memperoleh pengalaman dalam berbagai AI teknik . Setelah hanya sepuluh bulan di Neusciences John kembali ke Ordnance Survey untuk bekerja di departemen penelitian dimana penelitian terkonsentrasi pada web semantik , ontologi dan data terkait . Pada bagian belakang penelitian ini John menghasilkan data terkait Ordnance Survey saat ini . Dia saat ini masih di Ordnance Survey dan bekerja sebagai Principal Scientist , di mana ia memimpin penelitian ( pada tingkat teknis dan strategis ) dalam manajemen data, pengiriman data dan layanan .

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s