<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Archives des numérisation - Blog-notes | Corinne Dangas</title>
	<atom:link href="https://dangas.com/tag/numerisation/feed/" rel="self" type="application/rss+xml" />
	<link>https://dangas.com/tag/numerisation/</link>
	<description>Mutations sociétales et transformations numériques</description>
	<lastBuildDate>Tue, 26 Oct 2021 20:32:26 +0000</lastBuildDate>
	<language>fr-FR</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=7.0</generator>

<image>
	<url>https://dangas.com/wp-content/uploads/2015/11/cropped-320px-Mandel_zoom_00_mandelbrot_set1-150x150.jpg</url>
	<title>Archives des numérisation - Blog-notes | Corinne Dangas</title>
	<link>https://dangas.com/tag/numerisation/</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>Culturomics. Google met la culture à portée de tous… ou corporifie la culture humaine ?</title>
		<link>https://dangas.com/culturomics-de-ebooks-a-ngram-google-met-la-culture-a-portee-de-tous-ou-corporifie-la-culture-humaine/</link>
					<comments>https://dangas.com/culturomics-de-ebooks-a-ngram-google-met-la-culture-a-portee-de-tous-ou-corporifie-la-culture-humaine/#comments</comments>
		
		<dc:creator><![CDATA[Corinne DANGAS]]></dc:creator>
		<pubDate>Tue, 28 Dec 2010 17:21:54 +0000</pubDate>
				<category><![CDATA[Sciences humaines et sociales]]></category>
		<category><![CDATA[Transformation numérique]]></category>
		<category><![CDATA[changement]]></category>
		<category><![CDATA[conscience]]></category>
		<category><![CDATA[conscience globale]]></category>
		<category><![CDATA[conscience universelle]]></category>
		<category><![CDATA[culture]]></category>
		<category><![CDATA[ecole]]></category>
		<category><![CDATA[economie de l'information]]></category>
		<category><![CDATA[edition]]></category>
		<category><![CDATA[edition numérique]]></category>
		<category><![CDATA[education]]></category>
		<category><![CDATA[enseignement]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[knowledge economy]]></category>
		<category><![CDATA[numérisation]]></category>
		<category><![CDATA[recherche]]></category>
		<category><![CDATA[sciences humaines]]></category>
		<category><![CDATA[sciences sociales]]></category>
		<category><![CDATA[transformation numérique]]></category>
		<category><![CDATA[transformation socio-numérique]]></category>
		<guid isPermaLink="false">https://www.dangas.com/?p=937</guid>

					<description><![CDATA[<p>Google a lancé en début de mois aux US sa librairie en ligne Google eBooks : en France, sa relation avec les éditeurs (sauf Hachette) et les pouvoirs publics est connue pour n&#8217;être pas au beau fixe. Aujourd&#8217;hui, Google prétend aussi pouvoir se servir de son fond numérisé de plus de 5 millions de livres, [&#8230;]</p>
<p>Source de l'article <a href="https://dangas.com/culturomics-de-ebooks-a-ngram-google-met-la-culture-a-portee-de-tous-ou-corporifie-la-culture-humaine/">Culturomics. Google met la culture à portée de tous… ou corporifie la culture humaine ?</a> : <a href="https://dangas.com">Blog-notes | Corinne Dangas</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p>Google a lancé en début de mois aux US sa librairie en ligne <a href="http://books.google.com/ebooks">Google eBooks</a> : en France, sa relation avec les éditeurs (sauf Hachette) et les pouvoirs publics est connue pour n&rsquo;être pas au beau fixe. Aujourd&rsquo;hui, Google prétend aussi pouvoir se servir de son fond numérisé de plus de 5 millions de livres, pour explorer les sciences humaines.</p>
<p>L&rsquo;enjeu derrière l&rsquo;édition numérique, et le rôle leader que Google veut s&rsquo;y donner, est à double échelle.</p>
<p>Il n&rsquo;est pas juste de <strong>« mettre la culture à la portée de tous »</strong> : permettre à Monsieur (ou Madame) Tout le Monde de consulter de son fauteuil 3 millions de livres, même <a href="http://chs75.chs.harvard.edu/manuscripts/image-viewer?folio=12r&amp;ms=msA&amp;image=">ce manuscrit du XXe siècle</a> contenant des scholies écrites 15 siècles plus tôt et relatives à des textes déjà antérieurs de 5 siècles (<em>source blog Google</em>).</p>
<p>Il s&rsquo;agit aussi de <strong>créer et centraliser les outils et services qui vont permettre d&rsquo;analyser cette culture.</strong> Explorer les tendances culturelles. C&rsquo;est ce que vise l&rsquo;outil lab <strong><a href="http://ngrams.googlelabs.com/">Ngram Viewer</a></strong>, grâce à ces <strong>5.200.000 livres déjà numérisés : 4% de tous les ouvrages jamais imprimés</strong> <strong>dans le monde</strong> .</p>
<p><span id="more-937"></span></p>
<p>Google avait initié il y a quelques mois un <a href="http://googleblog.blogspot.com/2010/07/our-commitment-to-digital-humanities.html">programme</a> d&rsquo;encouragement à exploiter la richesse de son fonds numérisé. Cet article <a href="http://lafeuille.blog.lemonde.fr/2010/12/17/culturomics-comprendre-les-lois-de-la-culture/">d&rsquo;Hubert Guillaud sur le Monde</a>, qui en présente quelques projets, vous montrera plus largement en quoi les « <strong>digital humanities</strong> » (les pratiques des sciences humaines et sociales, en interaction avec les données, la documentation et l&rsquo;édition numérique) sont le pan émergent des sciences humaines, auquel la performance des technologies apporte usages et éclairages nouveaux.</p>
<p><strong>« <a href="http://www.culturomics.org/">Culturomics</a> » (culture + genomics), </strong>mot-valise imaginé par l&rsquo;équipe, désigne un projet initié par Google dans ce cadre d&rsquo;actions. L&rsquo;article fondateur <a href="http://www.sciencemag.org/content/early/2010/12/15/science.1199644">publié dans Science</a>, explique comment cette volumétrie autorise une approche qui étend le champ de l&rsquo;analyse quantitative à des phénomènes relevant des sciences humaines et sociales. C&rsquo;est dans ce cadre que s&rsquo;inscrit le service Ngram Viewer.</p>
<p><strong><a href="http://ngrams.googlelabs.com/"> </a></strong></p>
<h2>Ngrams, le plus grand corpus de tous les temps : 500 milliards de mots</h2>
<p>Pour l&rsquo;utilisateur néophyte, <a href="http://ngrams.googlelabs.com/">Ngram </a>est un outil sympa, avec une interface simplificatrice. <strong>Vous saisissez de 1 à 5 mots et observez leur évolution d&rsquo;usage au fil du temps </strong>(de 1800 à 2008), en fonction de leur occurrence dans les ouvrages numérisés. Ça peut aider à <a href="http://ngrams.googlelabs.com/graph?content=guerre&amp;year_start=1800&amp;year_end=2008&amp;corpus=7&amp;smoothing=3">réinventer la roue</a> (ou bien au contraire <a href="http://ngrams.googlelabs.com/graph?content=roue&amp;year_start=1800&amp;year_end=2008&amp;corpus=7&amp;smoothing=3">à moins s&rsquo;en soucier</a> !)</p>
<p>On y découvre par exemple que le monde change décidément beaucoup, et de plus en plus vite !</p>
<p><a href="http://dangas.com/wp-content/uploads/2010/12/28-12-2010-15-09-29.png"><img decoding="async" class="alignnone size-medium wp-image-958" title="28-12-2010 15-09-29" src="http://dangas.com/wp-content/uploads/2010/12/28-12-2010-15-09-29-300x118.png" alt="" width="300" height="118" srcset="https://dangas.com/wp-content/uploads/2010/12/28-12-2010-15-09-29-300x118.png 300w, https://dangas.com/wp-content/uploads/2010/12/28-12-2010-15-09-29-768x302.png 768w, https://dangas.com/wp-content/uploads/2010/12/28-12-2010-15-09-29.png 912w" sizes="(max-width: 300px) 100vw, 300px" /></a></p>
<p>Mais ses préoccupations jusqu&rsquo;ici nous rassurent, plutôt :D</p>
<p><a href="http://dangas.com/wp-content/uploads/2010/12/28-12-2010-16-22-12.png"><img decoding="async" class="alignnone size-medium wp-image-965" title="28-12-2010 16-22-12" src="http://dangas.com/wp-content/uploads/2010/12/28-12-2010-16-22-12-300x113.png" alt="" width="300" height="113" /></a></p>
<p>Il y a des essais amusants à faire sur l&rsquo;évolution des réseaux, je vous en livre au hasard un que j&rsquo;ai trouvé assez joli (testez aussi les occurrences du mot « network / réseau »)</p>
<p><a href="http://dangas.com/wp-content/uploads/2010/12/28-12-2010-16-34-38.png" target="_blank" rel="noopener"><img decoding="async" class="alignnone size-medium wp-image-967" title="28-12-2010 16-34-38" src="http://dangas.com/wp-content/uploads/2010/12/28-12-2010-16-34-38-300x115.png" alt="" width="300" height="115" /></a></p>
<p>Et il n&rsquo;est pas inintéressant d&rsquo;observer aussi les formes de perception du « savoir », celles analytiques devant fatalement prendre le pas sur celles consolidées. Quand on vous dit que le « par cœur » à l&rsquo;école ne saura bientôt plus où donner de la tête, avec cette masse de données. ;)</p>
<p><a href="http://dangas.com/wp-content/uploads/2010/12/28-12-2010-17-57-18.png"><img decoding="async" class="alignnone size-medium wp-image-974" title="28-12-2010 17-57-18" src="http://dangas.com/wp-content/uploads/2010/12/28-12-2010-17-57-18-300x115.png" alt="" width="300" height="115" srcset="https://dangas.com/wp-content/uploads/2010/12/28-12-2010-17-57-18-300x115.png 300w, https://dangas.com/wp-content/uploads/2010/12/28-12-2010-17-57-18-768x295.png 768w, https://dangas.com/wp-content/uploads/2010/12/28-12-2010-17-57-18.png 918w" sizes="(max-width: 300px) 100vw, 300px" /></a></p>
<p>Comme l&rsquo;explique <a href="http://www.boingboing.net/2010/12/16/data-mining-the-inte.html">Boing-boing</a>,<strong> les chercheurs ont pu ainsi faire émerger des modèles et hypothèses réellement intéressants</strong>. Les mentions des années (vous pouvez facilement reproduire cette observation, qui dessine un très beau modèle), ou celles des inventions, questionnent sur notre propension à oublier de plus en plus vite notre passé (la demi-vie des courbes est de plus en plus brève) et à ancrer de plus en plus vite et facilement notre futur.</p>
<p><a href="http://dangas.com/wp-content/uploads/2010/12/28-12-2010-17-40-37.png"><img decoding="async" class="alignnone size-medium wp-image-972" title="28-12-2010 17-40-37" src="http://dangas.com/wp-content/uploads/2010/12/28-12-2010-17-40-37-300x122.png" alt="" width="300" height="122" srcset="https://dangas.com/wp-content/uploads/2010/12/28-12-2010-17-40-37-300x122.png 300w, https://dangas.com/wp-content/uploads/2010/12/28-12-2010-17-40-37-768x313.png 768w, https://dangas.com/wp-content/uploads/2010/12/28-12-2010-17-40-37.png 915w" sizes="(max-width: 300px) 100vw, 300px" /></a></p>
<h2>Une fiabilité imparfaite, mais des données ouvertes</h2>
<p>Du point de vue du spécialiste, en revanche, l&rsquo;outil est loin de la perfection.</p>
<p>La <strong>faible qualité de l&rsquo;OCR</strong> (reconnaissance des caractères : confusion par exemple entre le s long &#8211; ancienne forme du s minuscule &#8211; et le f) est notamment en cause : et pour avoir décrypté pas mal de documents anciens &#8211; et l&rsquo;avis est celui de tous les spécialistes ici et là sur Internet -, c&rsquo;est un handicap de taille.</p>
<p>Sans compter des <strong>biais dus aux erreurs de datations</strong>, un certain <strong>« bruit » provoqué par les rééditions</strong> d&rsquo;ouvrages, etc.  Si vous voulez approfondir les faiblesses du corpus, vous trouverez <a href="http://corpus.byu.edu/coha/compare-culturomics.asp">ici un comparatif avisé avec le COHA (Corpus of Historical American English)</a>.</p>
<p>En bref, la donnée est là, mais sa faculté d&rsquo;exploitation laisse encore à désirer. :)</p>
<p>Mais la démarche à retenir, est l&rsquo;inscription dans la tendance de « libération des données » (<em>Cf. <a href="http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html">raw datas now</a>, intervention de Tim Berners Lee, inventeur d&rsquo;Internet) </em>: la <strong><a href="http://ngrams.googlelabs.com/datasets">libre mise à disposition du public et des chercheurs d&rsquo;un corpus d&rsquo;une taille phénoménale</a></strong>.</p>
<p>Il n&rsquo;est pas ici livré « brut », mais sous la forme de ses <strong>n-grammes </strong>(les séquences de n mots consécutifs, n de 1 à 5). Mais comme le relève <a href="http://alatoisondor.wordpress.com/2010/12/20/google-ngram-viewer-un-extraordinaire-corpus-mais/">Rémi Mathis</a>, le tout est placé sous la licence Creative Commons BY, la plus ouverte, ce qui encourage les initiatives innovantes, y compris commerciales, qui sauraient tirer parti de cette mine d&rsquo;informations.</p>
<p>Reste à savoir ce que pensent les chercheurs en sciences sociales de cette « dépendance » à Google : bénéfice ou contrainte ?</p>
<h2>Peut-on quantifier l&rsquo;humain ?</h2>
<p>On s&rsquo;attend à peu d&rsquo;affinités et beaucoup de craintes, avec ce type d&rsquo;approche : on touche à « l&rsquo;humain ».</p>
<p>Mais de même qu&rsquo;au quotidien on l&rsquo;observe par exemple, pour le data-journalisme (qui fait travailler main dans la main journalistes et statisticiens, infographistes, développeurs&#8230;), Internet semble avoir décidément cette faculté à décloisonner les spécialités, et à rapprocher les geeks&#8230; et les autres.</p>
<p>Comme <a href="http://www.wired.com/science/discoveries/magazine/16-07/pb_theory">Chris Anderson</a> l&rsquo;expliquait il y a quelques mois, <strong>le déluge de données va bouleverser l&rsquo;approche et la méthode scientifiques</strong>. La corrélation (le lien transversal) est en train de trouver sa valeur face à la causalité. (J&rsquo;en reparlerai dans un prochain billet, mais on voit d&rsquo;ailleurs de plus en plus clairement, tomber les frontières entre les disciplines, s&rsquo;effacer « l&rsquo;effet de silo » qui a compartimenté les sciences, l&rsquo;académisme, l&rsquo;enseignement&#8230;)</p>
<p>Les spécialistes en sciences humaines, les historiens, interrogés par <a href="http://www.nytimes.com/2010/11/17/arts/17digital.html?_r=2&amp;pagewanted=all">Patricia Cohen pour le New York Times</a>, y voient surtout des <strong>potentialités de développement</strong> : l&rsquo;émergence de nouvelles caractéristiques, sources d&rsquo;études, de nouveaux questionnements, sujets de recherches&#8230;</p>
<p>Le risque pour eux ne repose pas tant sur la quantification des données, que sur <strong>la qualité de l&rsquo;interprétation</strong> et de l&rsquo;usage : elle est affaire d&rsquo;humains, et de professionnels (prudence évidemment avec le genre de tentatives ludiques comme ci-dessus !). Et il est à parier que ces données, ces outils, vont justement leur apporter sinon un matériau nouveau, du moins <strong>un angle d&rsquo;attaque inédit jusqu&rsquo;ici, et encore inconcevable il y a peu.</strong></p>
<p>Mais je vous invite aussi à lire le <a href="http://affordance.typepad.com/mon_weblog/2010/12/culturonomics-juste-une-question-de-corpus-.html">billet d&rsquo;Olivier Ertzscheid sur Affordance</a>, qui en interrogeant sur la <a href="http://www.google.com/search?hl=fr&amp;safe=off&amp;client=firefox-a&amp;hs=GUx&amp;rls=org.mozilla:fr:official&amp;defl=fr&amp;q=define:Corpus&amp;sa=X&amp;ei=bwoaTd2JDsT_4AbWw6SGAg&amp;ved=0CBYQkAE">notion de corpus</a>, notamment sous l&rsquo;angle du droit, et en rapprochant ce corpus linguistique du <a href="http://www.lemonde.fr/technologies/article/2010/12/16/facebook-automatise-la-reconnaissance-faciale_1454541_651865.html">corpus social de Facebook</a>, éclaire aussi très bien les dimensions vertigineuses prises par ce jeu de l&rsquo;apprenti sorcier.</p>
<p>Tout cela revient à dé-re-matérialiser, à une autre échelle, ce qui est du domaine du culturel, immatériel : <strong>l&rsquo;intelligence humaine en train de se corporifier&#8230; dans les mains de qui ?<br />
</strong></p>
<p>Source de l'article <a href="https://dangas.com/culturomics-de-ebooks-a-ngram-google-met-la-culture-a-portee-de-tous-ou-corporifie-la-culture-humaine/">Culturomics. Google met la culture à portée de tous… ou corporifie la culture humaine ?</a> : <a href="https://dangas.com">Blog-notes | Corinne Dangas</a>.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://dangas.com/culturomics-de-ebooks-a-ngram-google-met-la-culture-a-portee-de-tous-ou-corporifie-la-culture-humaine/feed/</wfw:commentRss>
			<slash:comments>4</slash:comments>
		
		
			</item>
	</channel>
</rss>
